Смекни!
smekni.com

възникване, определение и функции 9 (стр. 26 из 32)

139


това роля на WCL може да играе честотният речник на термин
ните в документите по определена тематика.

Към статистическите методи се отнасят: методът на Лун; ме-*
тодът ACSI-MATIC (Assistant Chief of Staff for Intelligence); ме-$
тодите Осуалд; методите на статистическите асоциации.

Логико-математическите методи се прилагат предимно приз
индикативного рефериране. Те се основават на логическото пост-|
роение на текста и са известни като метода на ключовите думи|
(key method), метода на заглавието (title method), метода на опре*!
делени места (location method), метода на намека (cue method). ■!
Лингвистичните методи са метод на Ърл (Earl), метод на i
РАШ (automatic document abstracting method), метод отказване^
от изречения (method for rejecting sentences). Те се основават наi
изследване на лингвистиката и семантиката на текста и разра-
ботване на специални алгоритми за екстрахиране на сведения с *
помощта на речник-индикатор (списък на контролни думи).

Всички съществуващи алгоритми за рефериране се основават
върху избора на готови изречения от текста, които съдържат най-
голям брой често срещани понятия. По такъв начин информа-
ционният портрет на документа се разкрива под формата наЦ
последователности от цитати, подбрани от първичния документ. I
Наличието на семантична мрежа от понятия и свързани глаго-
ли позволява да се формулират основните идеи на текста, отра-
зени в често срещани понятия и връзки, във вид на прости из-1
речения. $

Например:

Мечовете се правят от японски майстори. Забранен е износът|;i
на старинни мечове. Технологията на производството е извест- I
на. Руските майстори възпроизвеждат мечове. Мечовете се про- ;|
дават.

При наличие на речник на отделите на управление и семан-1
тична мрежа с диференцирани връзки подобен синтез не пред- ;.
ставлява сложна задача. Отделен проблем е изборът на опти- ]
мално подреждане на фразите. Тук на помощ идва познанието I

140


за комуникативната структура на текста - йерархиите на теми-
те и ремите, която отразява логиката на изложения от автора
материал.

Задачата на тема-рематичния анализ се решава в хода на син-
тактическия разбор на фразите - понятията от групата на под-
лога се представят като теми, а понятията - допълнения към
глагола, като реми, които могат да станат теми на следващи фра-
зи. Обстоятелствата представляват само някакъв фон, на който
се развива описваното събитие. Знанието на синтактическите
роли на думите в изреченията позволява те да се ранжират от
гледна точка на важността за автора на фразите. Така, най- важни
са думите от групата на подлога, след това на сказуемого, пря-
кото допълнение, непрякото допълнение, обстоятелствата. В
съчетание с алгоритмите на статистическия анализ тези факти
способстват за по-точно ранжиране на понятията по значимост
в информационния портрет на документа.

Проблемите на успешното използване и поддържане на голе-
ми масиви от данни, натрупани в електронен вид, стават все
по-актуални във всички сфери на дейност в съвременното об-
щество като икономика и бизнес, промишленост, обслужване и
услуги, правна дейност, държавна безопасност. Във всяка от
изредените сфери на дейност потребността от смислова обра-
ботка на електронните данни се определя повече или по-малко
от тесен кръг задачи за смислова обработка. Особено място оба-
че заема системата на библиотечно-информационното обслуж-
ване, чийто основен обект е информацията. Като следствие от
това, а също така като се има предвид, че най-разпространени-
ят начин за съхраняване на информацията е съхраняването й в
електронен вид, кръгът от задачи на смисловата обработка за
тази сфера на дейност е най-широк. За големи масиви от данни
особено важни стават компютърните методи за смислова обра-
ботка на електронни документи.

Ще се спрем накратко на най-актуалните задачи, решавани с
помощта на методите на семантичния анализ. Обикновено ме-

141



Фиг. 11. Задачи за семантичния анализ на текста

142

тодите за смислова обработка се разглеждат от гледна точка на
текстовите документи. Семантичният анализ на текста включ-
ва редица практически важни задачи (вж. фиг. 11). Една от тези
задачи е контекстно-свободного търсене на информация. Ней-
ният смисъл се състои в намиране на всички текстове от даден
масив, написани на естествен език и "приличащи"' на дадения
текст-образец. Най-важна задача е извличането на информаци-
ята от текстовете и представянето й във вид на формална систе-
ма от знания. Наред с извличането на информацията съществу-
ва и обратна задача за генериране на правилно построени тек-
стове. Най-използвани досега са задачите за обработката на тек-
стова информация - автоматизирано рефериране и автоматизи-
ран машинен превод.


Освен задачите, специфични за текстовата информация, съ-
ществуват и редица задачи, засягащи автоматичното извличане
на "'сурови данни" от какъвто и да е тип (като правило от рела-
ционните бази данни), потенциално полезни за закономерности.
Тези задачи са обединени под общото наименование "получа-
ване на знания" (data mining, фиг. 12). Най-често се среща зада-
чата за класификация - отнасяне на обектите от базата данни
към по-рано определени категории. Втората задача е прогнози-
ране, което се състои в предсказване по значенията на едни по-
лета на обекта останалите значения. Третата задача - клъсте-
ризация, т. е. отделяне на подгрупи от обекти с близки свойства.
Четвъртата задача - намиране на изключения, т. е., търсене на
обекти, които със своите характеристики се отделят от общата
маса. Петата задача - търсене на свързани свойства на обекти-
те. От задачата за предсказване значението на полето търсенето
на свързани свойства се различава по това, че от преди не е
известно какви полета са взаимосвързани. Това прилича на за-
дачата за клъстеризацията, но не по множеството от обекти, а
по множеството от признаци. Съответните задачи за "получа-
ване на знания", отнасящи се към обработката на текстова ин-
формация, са обединени под общия английски термин text
mining.

Да разгледаме накратко кои от изброените класове задачи са
характерни за системата на библиотечно-информационното об-
служване и съществуващите методи за тяхното решение. Зада-
чата за контекстно-свободно търсене на информация е една от
основните. Най-прост е методът "търсене по формален приз-
нак" - сходство на речниковия състав на запитването и подбра-
ните документи. Най-качествените системи предполагат разши-
ряване на запитването чрез морфологически словоформи, а също
така синоними от предоставен разработен речник. Основа за
такъв подход е следното съждение - ако документите си прили-
чат по състава от думи, с голяма степен на вероятност те си
приличат и по смислово съдържание. Затова следващата стъп-

143


ка е да се смени критерият за сходство от "сходство по речнищй
състав" в сходств'© по други признаци, които биха могли п|§§
точно да отразят.сходството на смисловото съдържание. Такъ'Ц
критерий може да.бьде сходството на семантичната структура йЯ
текстовете и запитването. По такъв начин задачата за търсене Щ
оказва свързана със задачата по извличането на информация Щ
текста и представянето й във вид на формална система от знанщЯ
Традиционни са методите за представяне на семантичната струш
тура на текста във вид на семантична мрежа или фрейми.

Фиг. 12. Задачи за "получаване па знания " (data mining)

Автоматизираното рефериране е една от задачите, необходи-
ми за системата на библиотечно-информационното обслужва-
не. Същественото за системите на рефериране е, че те формират
кратко изложение на текста на документа или набор от извадки.
Методът за съставяне на извадки предполага да се сложи ак-
цент върху отделените характерни фрагменти от текста. Много
често се прилага моделът на линейни тегловни коефициенти.
Основа на аналитичния етап в този модел играе процедурата по
определянето на тегловните коефициенти за всеки блок от тек-

144


ста в съответствие с такива характеристики като разположение
на този блок в оригиналния текст, честота на появяване в тек-
ста, честота на използване в ключови изречения и други. Основ-
ното преимущество на линейния модел е в простотата на него-
вата реализация. Основен негов недостатък е, че при изважда-
нето на изречения не се отчита взаимоотношенията между тях,
което води до получаването на формално несвързани реферати.
Такъв текст трудно се чете. За разлика от линейния модел в ме-
тодите за подбиране на извадки за кратко изложение на инфор-
мацията се изискват мощни изчислителни ресурси за обработ-
ка на естествен език. Методът за формиране на кратко изложе-
ние предполага два основни подхода. Първият се опира на тра-
диционния лингвистичен метод за синтактичен разбор на изре-
чения. Строи се дърво на разбора, след което неговите клони се
съкращават на основата на структурни критерии, такива като
скобки или вмъкнати условни или подчинени изречения. Вто-
рият подход за съставяне на кратко изложение е свързан със
системите на изкуствения интелект и се опира на разбирането
на естествения език.