Смекни!
smekni.com

възникване, определение и функции 9 (стр. 25 из 32)

ПРИ СЪЗДАВАНЕТО
НА РЕФЕРАТИВНИ БАЗИ ОТ ДАННИ

8.1 Автоматизирано рефериране и квазирефериране

Развитието на електронната и информационната техника води
до значително автоматизиране на процесите по събирането, об-
работването и съхраняването на традиционните документи и
позволява реферативните издания и в електронен вариант да са
достъпни за ползване.

Освен информационните задачи, които изпълняват, рефера-
тивните издания помагат за решаването на редица важни общо-
научни задачи. Те съдействат за интегриране на науката, спо-
собстват за изработване на единна научна терминология, пома-
гат при разработването на научната класификация. Вече 175
години (от 1830 г.) реферативните списания се вписват добре в
системата на научната комуникация и засега нямат приемлива
замяна. Затова се смята, че реферирането е неотделима част от
системата и на социално-комуникационните науки. Това е
естествено, понеже в системата на документалните комуника-
ции в обществото протича движение на информация, осигуря-
ва се нейната устойчива връзка с потребителите и се формира
ново знание. Всичко това не само не измества въпроса за авто-
матизацията на процесите при реферирането, но ги поставя с
все по-голяма острота (Михайлов, 1965).

Потенциалните предимства на автоматизираното рефериране
пред традиционното са очевидни: то е оперативно, евтино, мно-
гофункционално.

Реферирането се смята за сложна интелектуална дейност, на-
сочена към смисловото преобразуване на съдържателната ин-
формация на текста, затова бъдещето принадлежи на системите

135


за семантичен анализ на информацията. Работата на системите!

за автоматизирано рефериране се основават на формализации

на процесите при семантичното свиване на изходната инфор^

мация, като се отчитат сложните процеси на декодиране семайЗ

тиката на първичните текстове. В научните текстове семантй,-!

ката изобразява някакви фрагменти от системата на знанията^

където присъстват общи устойчиви елементи на предметните!

ситуации и основните отношения между тези елементи. Затова!

методите на автоматизираното рефериране се основават върху,*

разкриването и отделянето на основните и инвариантните еле-й

менти от съдържанието на текста (Чепико, 1976).

Под автоматизирано рефериране се разбира машинното пре-
работване на научно-технически текстове, при което от тези тек-1
стове се отделят изречения, отразяващи целта и резултатите на
реферирания текст. Този набор от изречения не е истински ре-
ферат, затова е уместно да се говори за квазирефериране (Авто-,
матизиранное, 1983).

Квазиреферат (quasi abstract) се нарича рефератът, съставен
машинно върху базата на някаква програма за обработване на
въведения текст на реферирания документ.

Автоматизираното квазирефериране се основава на статисти-
ческия анализ на текста и се провежда по различни методики. В
практиката досега са познати няколко метода на автоматизира-
но квазирефериране, основани на:

1. оценка на степента на значимост на изреченията, която се
изчислява като отношение на квадрата на броя на значимите
думи в изреченията към обшия брой думи в изоечениятя-

(23)

ч. w

където S е оценката на степента на значимост;
Nsw е броят значими думи в изреченията;
Mw е общият брой на думите в изреченията;
2. оценка на степента на значимост на изреченията, изчисле-

136


на като най-голям брой срещащи се в тях еднакво значими думи
при отчитане честотата на употреба на отделни значими думи;
на последователни словосъчетания от значими думи; на упот-
реба на всички възможни вътрешни фразови съчетания на зна-
чими думи;

3. оценка на значимостта на изреченията, изразена като честота
на употребяването на влизащи в тях значими думи.

В тази връзка в Технологическия университет в Нанян (Син-
гапур) е разработена електронна библиотечна система за авто-
матизирано формиране на информационен масив от изрезки от
вестници, тяхното индексиране и използване в интерактивен
режим. За да може търсещият интерфейс да филтрира нереле-
вантните статии, са създадени различни методи за автоматизи-
рано генериране на индикативни реферати на статиите. Те
включват:

1. метод, използващ принципа на местонахождението. Предпо-
лага се, че количеството информация в изреченията може да се
отнесе към неговото място в статията и се приема, че най-важни
са първите изречения на абзаците, особено уводният абзац;

2. метод, използващ индикативни словосъчетания (целта на
съобщението се състои в..., целта на изследването се определя
от..., в заключение може...);

3. честота на ключови думи;

4. честота на използване в изреченията на думи от заглавието
на статията, подзаглавието, рубриките. Потребителите могат да
търсят с помощта на WWW. В хода на търсенето те могат да
избират сами метода на рефериране (Леонов, 1975).

8.2 Проблеми и постижения на автоматизираното ре-
фериране. Разнообразие на методите на автоматизира-
ното квазирефериране

Както беше подчертано, реферирането се смята за сложна ин-
телектуална дейност, насочена към смислово преобразуване на

137


съдържателната информация в текста. Ето защо се приема, че
бъдещето принадлежи на системите за семантичен анализ на
информацията. Системите за автоматизирано рефериране се
основават върху формализирането на процесите за семантично
намаляване на изходната информация при отчитане на слож-
ните процеси за декодиране на семантиката на първичните тек-
стове. Логично е да се твърди, че в научните текстове семанти-
ката изобразява някакъв фрагмент на система от знания, където
присъстват общи устойчиви елементи на предметни ситуации и
основни отношения между елементите. При автоматизираното
рефериране целта е да се разкрият основните и инвариантните
елементи от съдържанието на текста за експлициране на основ-
ното съдържание на документите (Hui, 1996).

Рефератът в БД започна да се използва за автоматизирано по-
пълване на експертни и други интелектуални информационни
системи и затова машиночетимият реферат трябва да съдържа
значително повече фактически сведения и цифрови данни от
своя традиционен аналог. Все по-широкото използване на рефе-
ратите в БД и другите машиночетими информационни продук-
ти постави пред методиката на реферирането нови съдържател-
ни и формални задачи. Рефератът трябва да съдържа точно ука-
зание за липсващи фактологични данни, ако се предполага, че
по дадената тема се налага да има такива. Противоречивостта
на изискванията към формата на реферата се състои в това, че
при съставянето на традиционния реферат стремежът е да се
съхрани съдържателната структура на първичния документ, а
при подготовката на машиночетимия и използвания в БД рефе-
рат съставителят проявява склонност към анкетна структура
(Information, 1977).

В ранните етапи на работата по автоматизирано рефериране
машинните реферати се разглеждат най-вече като илюстрация
за интелектуалните възможности на персоналния компютър. Яви
се обаче труднопреодолимо препятствие пред автоматизирано-
то рефериране, а именно - недостатъчното познаване на струк-

138


турата н^ естествения език.

Икономически съображения диктуват лаконичност на изло-
жението, строгост при подбора на елементите и нормите за тях-
ното представяне, използване на точно определени списъци на
съкращенията и други методи за свиване и намаляване на тек-
ста. Сътрудничеството между информационните служби дове-
де до разработване на формат за запис на данни, който пред-
ставлява комплекс от съдържателни и формални решения за
набора от елементи за описване на документ от определен вид.
Един от най-разпространените формати сега е MARC.

Експериментите по автоматизираното рефериране се основа-
ват преди всичко на екстраполацията, т. е. прилагане на прави-
ла, разработени за определени групи от текстове, към текстове
от друга тематика.

Понастоящем всяка система за автоматизирано рефериране
включва два задължителни компонента: специален речник, наре-
чен списък на контролните думи (Word Control List, WCL), съста-
вен за текстове на изследваната тематика; и набор от правила за
обединяване на думи от WCL във фрази и построяване на изрече-
ния. В процеса на рефериране PC автоматически "забелязва" или
"изпуска" определени думи, фрази, изречения. Останалият текст
представлява екстракт, наричан машинен реферат.

Могат да се определят пет операции, необходими за съставя-
нето на машинен реферат: 1) четене на документа; 2) анализ на
документа; 3) прилагане на набор от правила за подготовка на
реферата; 4) съставяне на реферата и 5) възпроизвеждане на
реферата във вид на текст.

Цялата съвкупност от методи, използвани за автоматизирано
рефериране, може да се раздели на статистически, логико-мате-
матически и лингвистични методи (Леонов, 1975).

Статистическите методи се основават на статистически
анализ на текста на документа. Често срещаните в текста думи
са най-значими и колкото по-често срещаните думи са съседни,
толкова по-съществена информация съдържа изречението. За-