Смекни!
smekni.com

Використання фреймів та семантичних мереж для обробки природньої мови (стр. 3 из 7)

Дерева. Найпоширенішим видом ієрархії є граф з однією вершиною. У таких графах накладються обмеження на ациклічні графи: вершина графа являє собою один загальний тип, і кожнийінший тип Х має лише одного батька У.

Ришітка. На відміну від дерев, вузли ришітки можуть мати декілька вузлів батьків. Проте в данному випадку накладаютьсяінші обмеження: будь-яка пара типів Х и У як мінімум повинна мати загальнийгипертипХіУ і підтип ХчиУ. Внаслідок цього обмеження ришітка виглядає, як дерево, що має головну вершину з кожного боку. Замість усього однієї вершини ришітка має одну вершину, що єгіпертипом усіх категорій, та іншу вершину, що є підтипом усіх типів.

Спадкування.

Основною властивістю ієрархії є можливість спадкування підтипами якостей гіпертипів: усі характеристики, що властиві ТВАРИНІ, також властиві ССАВЦЯМ, РИБІ і ПТИЦІ. У основі теорії спадкування лежить теорія силогізмів Аристотеля: Якщо А - характеристика У, а У - х-ка С, то А хар-ка усіх С.

Переваги ієрархії і спадкування:

Ієрархія типів є відмінною структурою для індексування бази знань та її ефективної організації.

Проходження по будь-якої гілки здійснюється набагато швидше за допомогою ієрархії.

Синтаксичний аналіз мови та його породження.

Семантичні мережі можуть допомогти парсерурозв'язати семантичну невизначенність. Без такого типу представлення уся вага аналізу мови падає на синтаксичні правила і семантичні тести. Структура ж семантичної мережі ясно показує, як окремі концепти сполучені між собою. Коли парсер зустрічає деяку невизначеність, він може використовувати семантичну мережу для того, щоб вибрати той або інший варіант. При роботі із семантичними мережами використовується декілька технік парсингу.

Парсинг, в основі якого лежить синтаксис. Робота парсера контролюється граматикою безпосередніх складових і операторами побудови структур та їх тестування. У той час, як дані на вході аналізуються, оператори побудови структур створюють семантичну мережу, а оператори тестування перевіряють обмеження на частково побудованіймережі. Якщо незнайдено жодних обмежень, то правило, що при цьому використовувалось, відхиляєтьсяі парсер перевіряє іншу можливість. Це найпоширеніший підхід.

Синтаксичний аналізатор із використанням семантики. Синтаксичний аналізатор із використанням семантики оперує також як і парсер, в основі якого лежить синтаксис. Проте він оперує не з синтаксичними категоріями типу група підмету і група присудку, а з концептами високого рівня типу КОРАБЕЛЬ і ПЕРЕВОЗИТИ.

Концептуальний парсинг. Семантична мережа прогнозує можливі обмеження, що можуть зустрітися у відношеннях між словами, а також прогнозувати слова, що пізніше можуть зустрітися у речені. Наприклад, дієслово давати потребує одухотвореного агента й а також прогнозує можливість реципієнту та об'єкту, що буде дан. Шенк був одним із самих активних прихильників концептуального парсингу.

Парсинг, заснований на експертизі слів. Внаслідок існування великої кількості невірних утворень у природній мові, багато людей замість того, щоб звертатися до деяких універсальних узагальнень, використовують спеціальні словники, що являють собою сукупність деяких незалежних процедур, що називаються експертами слів. Аналіз речення розглядається як процес, що здійснюється спільно різноманітними словниковими експертами. Головним прихильником цього підходу був Смол.

Аргументи за і проти різноманітних технік парсингу часто засновувався не на конкретніих дані, а здебільшого на стійкій думці. І лише один проект на практиці порівняв декількавидівпарсингу - це Мова Семантичних Репрезентацій, проект розроблений в Університеті Берліна. Протягом декількох років вони створили чотири різних видипарсеров для аналізу німецької мови і його запису на Мові Семантичних Репрезентацій, що являє собою мережу.

Першим парсером був парсер, створений подібно до концептуального парсераШенка. Було відзначено, що хоча додавання нових слів в його лексикон було досить легким процесом, проте аналіз міг проводитися тільки на простих реченнях і тільки відносних підрядних. Розширити область синтаксичного опрацювання цього парсера виявилося складною задачею.

Іншийпарсер був семантично орієнтований на розширені мережі переходу. У ньому було легше узагальнити синтаксис, проте апарат синтаксису працював повільніше, ніж у першого розглянутого парсера.

Потім робота проводилася з парсером словникових експертів. Тут легко проводилося опрацювання особливих випадків, проте розкиданість грамматики між окремими складовими робила практично неможливим її загальне розуміння, підтримку і модифікування.

Парсер, що був створений порівняно нещодавно, - це синтаксично-орієнтований парсер, заснований на загальнійграматиці фразової структури. Він найбільше систематичен і узагальнений та відносо швидкий.

Ці результати в принципі відповідають думці інших лінгвістів: синтаксично-орієнтовані парсери є найбільш цілісними, проте для них необхідний визначений набір мережевих операторів для плавної взаємодії між граматикою і семантичними мережами.

Породження мови за семантичною мережею являє собою зворотнійпарсинг. Замість синтаксичного аналізу деякоголанцюга з метою породження мережі, генератор мовиробитьпарсингмережі для одержання деякого ланцюжка. Існує два варіанти породження мови із семантичної мережі.

1. Генератор мови просто проходить по мережі, перетворюючи концепти в слова, а відношення, зазначені поруч із дугами, у відношення природної мови. Цей метод має багато обмежень.

2. Підходи, орієнтовані на синтаксис, контролюють породження мови за допомогою граматичних правил, що використовують мережу для того, щоб визначити, якетаке правило потрібно застосувати.

Проте на практиціобидва методи мають багато збіжностей: наприклад, перший спосіб являє собою послідовність вузлів, що обробляються генератором мови, орієнтованим на синтаксис.

Машина реалізація.

Графи і мережі являють собою прості поняття для програм, що вивчають нові структури. Їхперевага при навчанні полягає в легкості додання і видалення, а також порівняння дуг і вузлів. Нижче подані програми, які використовували семантичні мережі для навчання.

Вінстон використовував реляційні графи для опису таких структур, як арки і вежі. Машині пропонувалися приклади вірного і невірного опису цих структур, а програма створювала графи, що вказували на усі необхідні умови для того, щоб ця структура була саме аркою або вежею.

Салветер використовував графи з центром на дієслові для представлення відмінкових відношень, що потребують різні дієслова. Його програма MORAN для кожного дієслова виводила відмінковий фрейм, порівнюючи ті самі ситуації до і після їхопису із використанням цього дієслова.

Шенк розробив теорію Memory-Organization Packets для пояснення того, як люди дізнаються про нову інформацію з конкретних життєвих ситуацій. При цьому MOP-це це узагальнена абстрактна структура, що окремо не має відношення ні до жодної ситуації.

Практичні використання.

Семантичні мережі можуть бути записані практично на будь-якій мові програмування на будь-якій машині. Найбільш популярні в цьому відношенні мови - це LISP і PROLOG. Проте, багато версій були створені і на FORTRANі, PASCALі, C та іншихмовах програмування. Для збереження усіх вузлів і дуг необхідно мати значний обсяг пам'яті, хоча перші системи були реалізовані у 60-х роках на машинах, що були набагато менше і повільніше сучасних комп'ютерів.

Одна із найпоширеніших мов, розроблених для запису природної мови у виглядімереж, - це PLNLP (Programming Language for Natural Language Processing) Мова Програмування для Обробки Природної Мови, створена Хайдерном. Ця мова використовується для роботи з великимиграмматиками, що мають велике покриття. PLNLP працює із двома видами правил:

1. за допомогою правил декодування проводиться синтаксичний аналіз лінійного мовного ланцюга і будується мережа.

2. за допомогою правил кодування скануєтьсямережа та породжується мовний ланцюжок або інша трансформована мережа.

Окрім спеціальних мов для семантичних мереж було також розроблено спеціальне апаратне забезпечення. На звичайних комп'ютерах можуть бути успішно виконані операції з мовами синтаксичного аналізу й операції сканування мереж. Однак для великих баз знань час пошуку потрібних правил або доступу до предзнань може бути значним. Для того, щоб дозволити різноманітним процесам пошуку виконуватися одночасно Фальман розробив систему NETL, що являє собою семантичну мережу, що може використовуватися з паралельним апаратним забезпеченням. У такий спосіб він хотів створити модель людського мозку, у якому сигнали можуть рухатися по різноманітних каналах одночасно. Інші вчені розробили паралельне програмне забезпечення для пошуку найбільше ймовірної інтепретації двозначних фраз природної мови.

Теорія фреймів

- це парадигма для представлення знань із метою використання цих знань комп'ютером . Вперше була представлена Мінським як спроба побудувати фреймовуюмережу , або парадигму з метою досягнення більшого ефекту розуміння . З одного бокуМінський намагався сконструювати базу даних , що містить енциклопедичні знання , але з іншого боку, він хотів створити найбільш описову базу , що зберігає інформацію в структурованій і впорядкованій формі . Ця структура дозволила б комп'ютеру вводити інформацію в більш гнучкій формі , маючи доступ до тогорозділу, який потрібний в даний момент . Мінський розробив таку схему , у якій інформація утримується в спеціальних осередках , називаних фреймами , об'єднаними в мережу , названу системою фреймов . Новий фрейм активізується з винекненням нової ситуації . Його відмінною рисою є те , що він одночасно міститьвеликий обсяг знань і в той же час є достатньо гнучким для того, щоб бути використаним як окремий елемент БД . Термін «фрейм» був найбільше популярний у середині сімдесятих років , коли існувало багато його тлумачень , відмінних від інтепретації Мінського .