139
Към статистическите методи се отнасят: методът на Лун; ме-*
тодът ACSI-MATIC (Assistant Chief of Staff for Intelligence); ме-$
тодите Осуалд; методите на статистическите асоциации.
Логико-математическите методи се прилагат предимно приз
индикативного рефериране. Те се основават на логическото пост-|
роение на текста и са известни като метода на ключовите думи|
(key method), метода на заглавието (title method), метода на опре*!
делени места (location method), метода на намека (cue method). ■!
Лингвистичните методи са метод на Ърл (Earl), метод на i
РАШ (automatic document abstracting method), метод отказване^
от изречения (method for rejecting sentences). Те се основават наi
изследване на лингвистиката и семантиката на текста и разра-
ботване на специални алгоритми за екстрахиране на сведения с *
помощта на речник-индикатор (списък на контролни думи).
Всички съществуващи алгоритми за рефериране се основават
върху избора на готови изречения от текста, които съдържат най-
голям брой често срещани понятия. По такъв начин информа-
ционният портрет на документа се разкрива под формата наЦ
последователности от цитати, подбрани от първичния документ. I
Наличието на семантична мрежа от понятия и свързани глаго-
ли позволява да се формулират основните идеи на текста, отра-
зени в често срещани понятия и връзки, във вид на прости из-1
речения. $
Например:
Мечовете се правят от японски майстори. Забранен е износът|;i
на старинни мечове. Технологията на производството е извест- I
на. Руските майстори възпроизвеждат мечове. Мечовете се про- ;|
дават.
При наличие на речник на отделите на управление и семан-1
тична мрежа с диференцирани връзки подобен синтез не пред- ;.
ставлява сложна задача. Отделен проблем е изборът на опти- ]
мално подреждане на фразите. Тук на помощ идва познанието I
140
за комуникативната структура на текста - йерархиите на теми-
те и ремите, която отразява логиката на изложения от автора
материал.
Задачата на тема-рематичния анализ се решава в хода на син-
тактическия разбор на фразите - понятията от групата на под-
лога се представят като теми, а понятията - допълнения към
глагола, като реми, които могат да станат теми на следващи фра-
зи. Обстоятелствата представляват само някакъв фон, на който
се развива описваното събитие. Знанието на синтактическите
роли на думите в изреченията позволява те да се ранжират от
гледна точка на важността за автора на фразите. Така, най- важни
са думите от групата на подлога, след това на сказуемого, пря-
кото допълнение, непрякото допълнение, обстоятелствата. В
съчетание с алгоритмите на статистическия анализ тези факти
способстват за по-точно ранжиране на понятията по значимост
в информационния портрет на документа.
Проблемите на успешното използване и поддържане на голе-
ми масиви от данни, натрупани в електронен вид, стават все
по-актуални във всички сфери на дейност в съвременното об-
щество като икономика и бизнес, промишленост, обслужване и
услуги, правна дейност, държавна безопасност. Във всяка от
изредените сфери на дейност потребността от смислова обра-
ботка на електронните данни се определя повече или по-малко
от тесен кръг задачи за смислова обработка. Особено място оба-
че заема системата на библиотечно-информационното обслуж-
ване, чийто основен обект е информацията. Като следствие от
това, а също така като се има предвид, че най-разпространени-
ят начин за съхраняване на информацията е съхраняването й в
електронен вид, кръгът от задачи на смисловата обработка за
тази сфера на дейност е най-широк. За големи масиви от данни
особено важни стават компютърните методи за смислова обра-
ботка на електронни документи.
Ще се спрем накратко на най-актуалните задачи, решавани с
помощта на методите на семантичния анализ. Обикновено ме-
141
Фиг. 11. Задачи за семантичния анализ на текста |
142 |
тодите за смислова обработка се разглеждат от гледна точка на
текстовите документи. Семантичният анализ на текста включ-
ва редица практически важни задачи (вж. фиг. 11). Една от тези
задачи е контекстно-свободного търсене на информация. Ней-
ният смисъл се състои в намиране на всички текстове от даден
масив, написани на естествен език и "приличащи"' на дадения
текст-образец. Най-важна задача е извличането на информаци-
ята от текстовете и представянето й във вид на формална систе-
ма от знания. Наред с извличането на информацията съществу-
ва и обратна задача за генериране на правилно построени тек-
стове. Най-използвани досега са задачите за обработката на тек-
стова информация - автоматизирано рефериране и автоматизи-
ран машинен превод.
Освен задачите, специфични за текстовата информация, съ-
ществуват и редица задачи, засягащи автоматичното извличане
на "'сурови данни" от какъвто и да е тип (като правило от рела-
ционните бази данни), потенциално полезни за закономерности.
Тези задачи са обединени под общото наименование "получа-
ване на знания" (data mining, фиг. 12). Най-често се среща зада-
чата за класификация - отнасяне на обектите от базата данни
към по-рано определени категории. Втората задача е прогнози-
ране, което се състои в предсказване по значенията на едни по-
лета на обекта останалите значения. Третата задача - клъсте-
ризация, т. е. отделяне на подгрупи от обекти с близки свойства.
Четвъртата задача - намиране на изключения, т. е., търсене на
обекти, които със своите характеристики се отделят от общата
маса. Петата задача - търсене на свързани свойства на обекти-
те. От задачата за предсказване значението на полето търсенето
на свързани свойства се различава по това, че от преди не е
известно какви полета са взаимосвързани. Това прилича на за-
дачата за клъстеризацията, но не по множеството от обекти, а
по множеството от признаци. Съответните задачи за "получа-
ване на знания", отнасящи се към обработката на текстова ин-
формация, са обединени под общия английски термин text
mining.
Да разгледаме накратко кои от изброените класове задачи са
характерни за системата на библиотечно-информационното об-
служване и съществуващите методи за тяхното решение. Зада-
чата за контекстно-свободно търсене на информация е една от
основните. Най-прост е методът "търсене по формален приз-
нак" - сходство на речниковия състав на запитването и подбра-
ните документи. Най-качествените системи предполагат разши-
ряване на запитването чрез морфологически словоформи, а също
така синоними от предоставен разработен речник. Основа за
такъв подход е следното съждение - ако документите си прили-
чат по състава от думи, с голяма степен на вероятност те си
приличат и по смислово съдържание. Затова следващата стъп-
143
Фиг. 12. Задачи за "получаване па знания " (data mining)
Автоматизираното рефериране е една от задачите, необходи-
ми за системата на библиотечно-информационното обслужва-
не. Същественото за системите на рефериране е, че те формират
кратко изложение на текста на документа или набор от извадки.
Методът за съставяне на извадки предполага да се сложи ак-
цент върху отделените характерни фрагменти от текста. Много
често се прилага моделът на линейни тегловни коефициенти.
Основа на аналитичния етап в този модел играе процедурата по
определянето на тегловните коефициенти за всеки блок от тек-
144
ста в съответствие с такива характеристики като разположение
на този блок в оригиналния текст, честота на появяване в тек-
ста, честота на използване в ключови изречения и други. Основ-
ното преимущество на линейния модел е в простотата на него-
вата реализация. Основен негов недостатък е, че при изважда-
нето на изречения не се отчита взаимоотношенията между тях,
което води до получаването на формално несвързани реферати.
Такъв текст трудно се чете. За разлика от линейния модел в ме-
тодите за подбиране на извадки за кратко изложение на инфор-
мацията се изискват мощни изчислителни ресурси за обработ-
ка на естествен език. Методът за формиране на кратко изложе-
ние предполага два основни подхода. Първият се опира на тра-
диционния лингвистичен метод за синтактичен разбор на изре-
чения. Строи се дърво на разбора, след което неговите клони се
съкращават на основата на структурни критерии, такива като
скобки или вмъкнати условни или подчинени изречения. Вто-
рият подход за съставяне на кратко изложение е свързан със
системите на изкуствения интелект и се опира на разбирането
на естествения език.