ПРИ СЪЗДАВАНЕТО
НА РЕФЕРАТИВНИ БАЗИ ОТ ДАННИ
8.1 Автоматизирано рефериране и квазирефериране
Развитието на електронната и информационната техника води
до значително автоматизиране на процесите по събирането, об-
работването и съхраняването на традиционните документи и
позволява реферативните издания и в електронен вариант да са
достъпни за ползване.
Освен информационните задачи, които изпълняват, рефера-
тивните издания помагат за решаването на редица важни общо-
научни задачи. Те съдействат за интегриране на науката, спо-
собстват за изработване на единна научна терминология, пома-
гат при разработването на научната класификация. Вече 175
години (от 1830 г.) реферативните списания се вписват добре в
системата на научната комуникация и засега нямат приемлива
замяна. Затова се смята, че реферирането е неотделима част от
системата и на социално-комуникационните науки. Това е
естествено, понеже в системата на документалните комуника-
ции в обществото протича движение на информация, осигуря-
ва се нейната устойчива връзка с потребителите и се формира
ново знание. Всичко това не само не измества въпроса за авто-
матизацията на процесите при реферирането, но ги поставя с
все по-голяма острота (Михайлов, 1965).
Потенциалните предимства на автоматизираното рефериране
пред традиционното са очевидни: то е оперативно, евтино, мно-
гофункционално.
Реферирането се смята за сложна интелектуална дейност, на-
сочена към смисловото преобразуване на съдържателната ин-
формация на текста, затова бъдещето принадлежи на системите
135
за автоматизирано рефериране се основават на формализации
на процесите при семантичното свиване на изходната инфор^
мация, като се отчитат сложните процеси на декодиране семайЗ
тиката на първичните текстове. В научните текстове семантй,-!
ката изобразява някакви фрагменти от системата на знанията^
където присъстват общи устойчиви елементи на предметните!
ситуации и основните отношения между тези елементи. Затова!
методите на автоматизираното рефериране се основават върху,*
разкриването и отделянето на основните и инвариантните еле-й
менти от съдържанието на текста (Чепико, 1976).
Под автоматизирано рефериране се разбира машинното пре-
работване на научно-технически текстове, при което от тези тек-1
стове се отделят изречения, отразяващи целта и резултатите на
реферирания текст. Този набор от изречения не е истински ре-
ферат, затова е уместно да се говори за квазирефериране (Авто-,
матизиранное, 1983).
Квазиреферат (quasi abstract) се нарича рефератът, съставен
машинно върху базата на някаква програма за обработване на
въведения текст на реферирания документ.
Автоматизираното квазирефериране се основава на статисти-
ческия анализ на текста и се провежда по различни методики. В
практиката досега са познати няколко метода на автоматизира-
но квазирефериране, основани на:
1. оценка на степента на значимост на изреченията, която се
изчислява като отношение на квадрата на броя на значимите
думи в изреченията към обшия брой думи в изоечениятя-
(23)
ч. w
където S е оценката на степента на значимост;
Nsw е броят значими думи в изреченията;
Mw е общият брой на думите в изреченията;
2. оценка на степента на значимост на изреченията, изчисле-
136
на като най-голям брой срещащи се в тях еднакво значими думи
при отчитане честотата на употреба на отделни значими думи;
на последователни словосъчетания от значими думи; на упот-
реба на всички възможни вътрешни фразови съчетания на зна-
чими думи;
3. оценка на значимостта на изреченията, изразена като честота
на употребяването на влизащи в тях значими думи.
В тази връзка в Технологическия университет в Нанян (Син-
гапур) е разработена електронна библиотечна система за авто-
матизирано формиране на информационен масив от изрезки от
вестници, тяхното индексиране и използване в интерактивен
режим. За да може търсещият интерфейс да филтрира нереле-
вантните статии, са създадени различни методи за автоматизи-
рано генериране на индикативни реферати на статиите. Те
включват:
1. метод, използващ принципа на местонахождението. Предпо-
лага се, че количеството информация в изреченията може да се
отнесе към неговото място в статията и се приема, че най-важни
са първите изречения на абзаците, особено уводният абзац;
2. метод, използващ индикативни словосъчетания (целта на
съобщението се състои в..., целта на изследването се определя
от..., в заключение може...);
3. честота на ключови думи;
4. честота на използване в изреченията на думи от заглавието
на статията, подзаглавието, рубриките. Потребителите могат да
търсят с помощта на WWW. В хода на търсенето те могат да
избират сами метода на рефериране (Леонов, 1975).
8.2 Проблеми и постижения на автоматизираното ре-
фериране. Разнообразие на методите на автоматизира-
ното квазирефериране
Както беше подчертано, реферирането се смята за сложна ин-
телектуална дейност, насочена към смислово преобразуване на
137
Рефератът в БД започна да се използва за автоматизирано по-
пълване на експертни и други интелектуални информационни
системи и затова машиночетимият реферат трябва да съдържа
значително повече фактически сведения и цифрови данни от
своя традиционен аналог. Все по-широкото използване на рефе-
ратите в БД и другите машиночетими информационни продук-
ти постави пред методиката на реферирането нови съдържател-
ни и формални задачи. Рефератът трябва да съдържа точно ука-
зание за липсващи фактологични данни, ако се предполага, че
по дадената тема се налага да има такива. Противоречивостта
на изискванията към формата на реферата се състои в това, че
при съставянето на традиционния реферат стремежът е да се
съхрани съдържателната структура на първичния документ, а
при подготовката на машиночетимия и използвания в БД рефе-
рат съставителят проявява склонност към анкетна структура
(Information, 1977).
В ранните етапи на работата по автоматизирано рефериране
машинните реферати се разглеждат най-вече като илюстрация
за интелектуалните възможности на персоналния компютър. Яви
се обаче труднопреодолимо препятствие пред автоматизирано-
то рефериране, а именно - недостатъчното познаване на струк-
138
турата н^ естествения език.
Икономически съображения диктуват лаконичност на изло-
жението, строгост при подбора на елементите и нормите за тях-
ното представяне, използване на точно определени списъци на
съкращенията и други методи за свиване и намаляване на тек-
ста. Сътрудничеството между информационните служби дове-
де до разработване на формат за запис на данни, който пред-
ставлява комплекс от съдържателни и формални решения за
набора от елементи за описване на документ от определен вид.
Един от най-разпространените формати сега е MARC.
Експериментите по автоматизираното рефериране се основа-
ват преди всичко на екстраполацията, т. е. прилагане на прави-
ла, разработени за определени групи от текстове, към текстове
от друга тематика.
Понастоящем всяка система за автоматизирано рефериране
включва два задължителни компонента: специален речник, наре-
чен списък на контролните думи (Word Control List, WCL), съста-
вен за текстове на изследваната тематика; и набор от правила за
обединяване на думи от WCL във фрази и построяване на изрече-
ния. В процеса на рефериране PC автоматически "забелязва" или
"изпуска" определени думи, фрази, изречения. Останалият текст
представлява екстракт, наричан машинен реферат.
Могат да се определят пет операции, необходими за съставя-
нето на машинен реферат: 1) четене на документа; 2) анализ на
документа; 3) прилагане на набор от правила за подготовка на
реферата; 4) съставяне на реферата и 5) възпроизвеждане на
реферата във вид на текст.
Цялата съвкупност от методи, използвани за автоматизирано
рефериране, може да се раздели на статистически, логико-мате-
матически и лингвистични методи (Леонов, 1975).
Статистическите методи се основават на статистически
анализ на текста на документа. Често срещаните в текста думи
са най-значими и колкото по-често срещаните думи са съседни,
толкова по-съществена информация съдържа изречението. За-