Національний університет “Києво-Могилянська Академія”
Реферат
з курсу
“Лінгвістичне забезпечення інтелектуальних систем”
на тему:
“Синтаксичний аналіз у системах автоматичного перекладу: концепції та алгоритми”
студентки ДКТ-5
Фіялка Світлани
Київ-1999
Зміст:
Компонент синтаксичного аналізу в системі ФРАП_______________ 3
Синтаксис і семантика в системі англо-російського перекладу____ 11
Алгоритм синтаксичного аналізу мовних текстів_________________ 18
Компонент синтаксичного аналізу в системі ФРАП
В системі французько-російського автоматичного перекладу (ФРАП) процес аналізу організований у вигляді послідовності працюючих компонент, незалежних одна від одної в тому смислі, що кожна з них здатна приймати на вхід і перетворювати лінгвістичну інформацію певного виду. Синтаксичний аналіз (СінАн) організований і описаний у вигляді процесу перетворень з заданою послідовністю дій.
Потужність системи АП
При порівнянні систем АП між собою важливим чинником виступає потужність системи АП, тобто її здатність використовувати при аналізі, перекладі і синтезі лінгвістичну інформацію певних типів, причому мається на увазі саме систематичне використання інформації в спеціальних структурах. Так, в системах автоматичного перекладу першого покоління систематично використовувався лише один тип інформації – морфологічна інформація. Системи третього покоління, про які й буде тут йти мова, виробляють щонайменше три вида інформації про текст – морфологічну, синтаксичну і семантичну інформацію.
Рівнева і “компонентна” стратегія побудови системи АП
При розробці системи АП третього покоління можливі дві стратегії, які пов’язані з двума поглядами на взаємодію різних видів інформації в тексті.
Перша стратегія – рівнева – передбачає ієрархічну організацію взаємодії різних видів інформації. При такому підході для кожного рівня будується представлення текста, в якому вся інформація, шо представлена в тексті, інтерпретується засобами специфічної для даного рівня мови. Процес аналізу будується як “переклад” представлення одного рівня в представлення наступного рівня. Для кожного рівня формується поняття правильної структури. Аналіз на кожному рівні складається з побудови всіх можливих для даного представлення структур за допомогою набору синтагм і в пошуці серед них правильних. Пошук правильних структур здійснюється за допомогою фільтрів, які можуть бути включені до складу синтагм або описані окремо у вигляді статичних правил. Такий підхід аналізу називається фільтровим. При рівневому підході кількість рівней не обмежується властивостями мовних одиниць. Вузлами структури спочатку виступають словоформи, потім значення слів. В ідеалі представлення на найглибшому рівні буде виступати експлікацією смислу в термінах елементарних смислових одиниць.
Інша стратегія – неієрархічна – виходить з того, що в тексті можна виділяти різні види інформації (синтаксичну, семантичну, комунікативну), і кожна з цих типів інформації має самостійну значимість, тобто не може бути перекладена в інший вид для даної глибини інтерпретації тексту. При цьому глибина інтерпретації визначається мінімальною одиницею аналізу. Мінімальною глибиною аналізу вважається та, при якій одиницею аналізу виступає повнозначне слово. Така степінь глибини має назву першого етапу інтерпретації тексту. На цьому етапі в кожному представленні тексту експліцірується лише один вид інформації: наприклад, в синтаксичному представленні – інформація про те, яким членом речення є слово і яке слово є головним по відношенню до нього, в семантичному представленні – інформація про значення слів і семантичних відношеннях між ними. При такому підході експлікацією інформації кожного виду, тобто побудовою відповідного представлення в системі аналізу, займається спеціальний компонент. Він може використовувати результати роботи інших компонентів, які сформульовані в зрозумілому для нього вигляді. При такому підході кількість основних компонентів системи співпадає з кількістю різних видів інформації.
Принципи і засоби СінАн
Теоретичною основою СінАн, що реалізований в системі ФРАП, є граматика членів речення. До засобів аналізу крім граматики відноситься також словник. В системі ФРАП на етапі аналізу використовуються 4 словника: словник основ, словник оборотів, семантичний словник та словник конструкцій. Словники оборотів і конструкцій використовуються у відповідних компонентах для аналізу словосполучень. Семантичний словник містить повний набір інформації різних видів про значення лексичної одиниці, а також засоби синтаксичної реалізації її валентностей. СінАн працює після компоненти СемАн (Семантичний аналіз).
Синтаксичне представлення (СінП)
СінП будується для фрази, оскільки саме вона є об’єктом СінАн. СінП складається з вузлів і відношень, що задані на множині вузлів.
Вузлами виступають лексичні одиниці, що мають при собі морфолого-синтаксичну інформацію, в тому числі сполучення службових слів з повнозначними та фразеологічні словосполучення, що об’єднані в один вузел на досинтаксичному етапі аналізу і в процесі СінАн, а також знаки пунктуації. Крім того введені штучні вузли.
На множині вузлів задано відношення лінійного порядку і відношення “несумісності”. В процесі СінАн між вузлами встановлюються зв’язки залежності з функціональною міткою та додаткові зв’язки ref та dist, а також відношення тотожності. Функціональні зв’язки утворюють синтаксичну структуру простих речень; зв’язки ref з’єднують штучний вузол, що символізує речення або фразу, з вершиною цього речення або з головним реченням фрази; зв’язок dist поєднує дві частини складного слова або парні знаки пунктуації. Відношення тотожності використовуються, наприклад, при аналізі твору.
Способи відображення неоднозначності результатів аналізу в СінП
В компоненті СінАн ситеми ФРАП для фрази будується одне представлення, яке і містить в собі всі види синтаксичної неоднозначності результатів аналізу. Нерозв’язана на ранніх етапах неоднозначність зберігається в представленні до тих пір, поки результати роботи наступного етапу аналізу не дозволять її виявити.
В СінП зберігаються такі неоднозначності:
- Неоднозначність функціональних зв’язків – наявність зв’язків, що порушують синтаксичну структуру.
- Неоднозначність результатів морфологічного аналізу словоформи – морфологічна омонімія. В цьому випадку використовується складний номер вузлу: перше число позначає порядковий номер вузла у фразі, інше – номер омоніма.
- Неоднозначність поділу на вузли. Для представлення цієї неоднозначності використовується відношення несумісності.
Компонент СінАн системи ФРАП
Задача компонента СінАн
Задачею компонента СінАн є побудова для фрази СінП в термінах граматики членів речення. Для цього необхідно: 1) сформувати множину вузлів – членів речення; 2) виявити синтаксичну функцію кожного з цих вузлів.
1) задача. Про деякі слова фрази заздалегідь відомо, що вони не є членами речення. Для французької мови це: допоміжні слова – частини аналітичних форм часу, залогу, ступенів порівняння, заперечувальні частки, компоненти фразеологічних словосполучень, які не можна розкласти, артикль, сполучники, прийменники. Крім того, заздалегідь відомо, що членами речення є прості речення в складі складного. Таким чином перша задача розбивається на дві підзадачі: 1) елімінування із множини вузлів тіх слів фрази, які не є членами речення; 2) виділення простих речень в складному з формуванням штучних вузлів, що заміщають підрядні речення в головному.
2) задача. Передбачає побудову синтаксичної структури.
Компонент СінАн системи ФРАП організований у вигляді процесу, в якому ці дві задачі виконуються одночасово.
Організація компонента СінАн
Компонент СінАн організований у вигляді блоків, які предназначені для розв’язання двух вище зазначених задач. Перша задача виконується в процесі роботи перших двух блоків СінАн: блок аналізу іменникових вузлів і блок аналізу складних речень. Друга задача починає виконуватися одночасово з першою для відповідних типів вузлів. Крім того, розв’язанням цієї задачі повністю зайнятий третій блок – блок аналізу простих речень. СінП можна вважати повністю закінченим лише після перевірки його узгодженості з сементичним словником і уточнення тих частин синтаксичної структури, для яких необхідні відомості, що витікають з результатів СемАн. Останній, четвертий блок СінАн працює з вузлами, синтаксична функція яких вже встановлена.
Інструменти аналізу, що використовуються в компоненті СінАн
Вхідною для компоненти СінАн є послідовність вузлів з морфолого-синтаксичною інформацією, що отримана на попередніх етапах. В процесі СінАн для обробки цієї інформації використовуються такі інструменти аналізу: аналізатор, алгоритми, списки правил, позиційна таблиця.
В системі ФРАП аналізатор використовується тричі. З його допомогою на лінійно упорядкованій множині вузлів встановлюються всі можливі зв’язки залежності, що указані в аналізаторі.
Для аналізу в термінах членів речення повністю фільтрована організація СінАн неможлива, оскільки вхідна для СінАн множина вузлів (результат морфологічного аналізу) не є множиною членів речення. Потрібен процес формування вузлів структури членів речення. Таким чином, перші два блоки за необхідністю описані як процес, тобто алгоритмічно. Опис у вигляді алгоритму третього блоку заснований на гіпотезі про значимість порядку обробки вузлів для автоматичної побудови структури в термінах членів речення. Алгоритми працюють з вже сформованою аналізатором множиною всіх можливих гіпотез про зв’язки вузлів, тобто метод фільтрів застосовується, но процесом їх застосування керують спеціальні алгоритми. Повністю фільтровим СінАн стає тільки в процесі взаємодії СінП з СемП.