Синтаксичний аналіз у системах автоматичного перекладу концепції та алгоритми (стр. 2 из 4)

Списки правил містять правила дозволу омонімії для різних етапів аналізу, типи узгоджуваності, деякі фільтри.

Позиційна таблиця починає формуватися в другому блоці аналізу. В ній міститься інформація про порядок слідування головних вершин та про позиційну характеристику в простому реченні тих його вузлів, для яких СінАн ще не завершений. Вона використовується для визначення правильності набору головних вершин для фрази в кінці роботи другого блоку і в складній фразі для визначення порядку обробки простих речень в процесі роботи третього блоку. Позиційна характеристика вузлів використовується в четвертому блоці.

Блоки аналізу компонента СінАн

Блок аналізу іменникових вузлів

В цьому блоці розв’язуються 4 задачі: 1) встіновлюються функціональні зв’язки app(a,b), де а – прикладка b, та attr(a,b), де а – узгоджене означення b; 2) аналізуються деякі види твору; 3) структурно відновлюються елідіровані вершини іменникових груп; 4) елімінуються з представлення прийменники, артиклі і проаналізовані сурядні сполучники.

В першій частині блоку синтаксичний аналізатор встановлює зв’язки app та attr. Встановлюються також допоміжні зв’язки prep(a,b), де а – ім’я або інфінітив, b - прийменник та det(a,b), де а – артикль, b – ім’я.

В дугій частині блоку аналіза іменникових вузлів з представлення фрази елімінуються прийменники, артиклі та проаналізовані сурядні сполучники, які поміщаються в інформацію к пов’язаним до них повнозначним словам; відповідно елімінуються і допоміжні зв’язки.

Блок аналізу складних речень

Перед початком роботи цього блоку в представленні аналізатором встановлюється зв’язок dist та всі можливі функціональні зв’язки, крім вже встановлених в першому блоці та сурядних.

Блок аналізу складних речень складається з двох частин.

В першій частині обробляються вузли двух видів: 1) особові форми дієслова, предикати, предикативні формули, тобто вузли, які можуть виконувати функцію присудка; 2) підрядні сполучники. Виясняється, які з головних вершин є вершинами підрядних речень, а які - ні. Одночасно в СінП формуються штучні вузли, що символізують підрядні речення, та зв’язок ref, а також формується та частина позиційної таблиці, в якій перелічені головні вершини по порядку їх слідування у фразі і для кожної з них вказано, чи є вона, за відомостями, отриманими в цій частині блоку, вершиною незалежного або підрядного речення.

В другій частині перевіряється правильність складу головних вершин СінП за позиційною таблицею. Представлення, що є правильними, пропускаються в наступний блок аналізу. До них відносяться ті представлення, в яких є не більше однієї незалежної головної вершини, а всі інші – вершини підрядних речень. В цій частині блоку затримуються і підлягають аналізу ті представлення, в яких більше однієї незалежної вершини або є вершини з недозволеною омонімією. Для таких вершин алгоритм звертається до СінП і аналізує лівий контекст. В результаті аналізу контексту можливі такі дії: 1) розділення складного речення на прості при наявності відокремлювача; 2) встановлення сурядного зв’язку між головним реченням фрази і одним з незалежних простих речень при наявності сурядного сполучника; 3) видалення номеру незалежної вершини з позиційної таблиці, що рівнозначно визнанню цієї вершини присурядненою частиною присудка одного з попередніх речень; 4) дозвіл омонімії сполучника або головної вершини. Після виконання однієї з цих дій представлення знову перевіряється на правильність складу головних вершин.

Блок аналізу простих речень

В цьому блоці продовжується оброблення того набору зв’язків, який був встановлений аналізатором перед роботою попереднього блоку і уточнений цим останнім.

Аналіз проводиться за допомогою позиційної таблиці, в якій поступово заповнюються номерами вузлів спеціально відведені для них місця. Для кожного символу простого речення в ній відведено п’ять позицій: 1) між початком речення і найвіддаленішим від присудка лівим актантом; 2) між найближчим до присудка лівим актантом і присудком; 3) між присудком і найближчим до нього правим актантом; 4) між двума актантами; 5) між найвіддаленішим від присудка правим актантом і кінцем речення.

Процес аналізу визначається почергово двума алгоритмами: перший, загальний, керує аналізом всієї фрази; другий – аналізом підрядних речень.

Вхідним пунктом для аналізу є присудок головного речення. Спочатку визначається перша позиція від початку речення до присудка (вважається, що жодного актанта слова ще не знайдено). Потім починається обробка цієї позиції. Якщо в ній є підрядні речення, то в дію вступає другий керуючий алгоритм і аналізується кожне з них в певному порядку. Номера проаналізованих вузлів викреслюються з позиційної таблиці. Коли аналіз підрядних речень закінчений, аналізуються прислівникові, дієприслівникові та інфінітивні синтаксичні обороти. Після цього позиція оброблюється підблоком аналізу твору, який складається з аналізатору, що встановлює лише сурядні зв’язки, та алгоритма обробки результатів роботи цього аналізатора. Тільки після цього серед залишених в позиції вузлів відшукуються актанти присудка і відбувається перерозподіл номерів вузлів в позиційній таблиці між першою та другою позиціями. Аналогічно оброблюється фраза праворуч від присудка.

В цьому блоці встановлюються такі функції вузлів: підмет, пряме доповнення, непряме доповнення. Встановлення інших актантів відбувається після порівняння СінП з семантичним словником, тому четверта позиція в цьому блоці, як правило, не заповнюється.

Четвертий блок СінАн

Цей блок складається з двох частин. В першій частині оброблюються придієслівні займенникові клітики. Ця частина являє собою алгоритм, що використовує правила аналізу, складені на основі способу опису використання цього типу одиниць у французькій мові, запропонованого Л.Н.Іорданською в доповіді на семінарі в ІНФОРМЕЛЕКТРО в 1978р. Новим в цьому способі опису є поняття синтаксично опорного слова. В системі ФРАП був використаний фактичний матеріал. Різниця полягає лише в тому, що в оригіналі правила були сформульовані для аналізу фільтрового типу, а в системі ФРАП вони використовуються по-іншому: елементом синтаксичної структури вважається зв’язок займенника з своїм опорним словом, а всі можливі семантичні господарі вираховуються за синтаксичними зв’язками у відповідності з правилами. Інформація про семантичних господарів використовується в СемАн при заповненні їх валентностей.

Друга частина четвертого блоку призначена для вирахування керуючих для тих вузлів, які є або можуть бути сирконстантами у відповідності з інформацією з позиційної таблиці. В якості керуючих для таких вузлів перераховуються всі можливі кандидати, що допущені синтаксичною структурою вже побудованою частиною СінП і властивостями самої сирконстанти. Друга частина четвертого блоку використовується також для уточнення СінП у відповідності з результатами СемАн.

Синтаксис і семантика в системі англо-російського перекладу

Лінгвістичною базою системи АРАП служить модель природньої мови “Смисл-Текст”, в рамках якої запропонований ряд теоретичних принципів та формальних інструментів, які так чи інакше використовуються в системі. В основу системи покладена формальна модель перекладацького процесу, яку схематично можна зобразити так:

Тут Т1 – текст першою мовою (вхідною), Т2 – текст другою мовою (вихідною), П1 та П2 – проміжне формальне представлення одного та іншого тексту, С1 та С2 – семантичний запис текстів.

Відповідно до цієї схеми процес перекладу складається з таких етапів: 1) аналіз вхідного тексту з наступною його заміною через проміжні представлення в семантичний запис (Т1=>C1), 2) власне переклад, що відбувається на рівні одного з формальних представлень тексту, що отримані при аналізі, і зводиться до вибору перекладних еквівалентів для одиниць, які утворюють дане представлення вхідного тексту; в результаті будується проміжне представлення для текста перекладу (П1=>П2), 3) синтез тексту перекладу: перехід від проміжного представлення до послідовності реальних словоформ та знаків пунктуації (П2=>Т2), 4) перевірка синтезованого тексту на наявність в ньому небажаної омонімії, яка могла виникнути в процесі синтезу (Т2=>П2), 5) оцінка адекватності перекладу шляхом аналізу проміжного тексту представлення (Т2=>С2) і порівняння отриманого при цьому семантичного запису С2 з семантичним записом С1 вхідного тексту (С1?C2)? 6) у випадку необхідності – редагування тексту перекладу за результатами проведених перевірок і порівнянь: при омонімічності тексту - пошук неомонімічного варіанту шляхом включення системи синонімічного перефразування (П2=>П2); при неадекватності перекладу – повернення до етапу вибору перекладних еквівалентів (пунктирна лінія) і перегляд або окремих компонентів, або всього етапу в цілому.

Для системи АРАП прийнятий порядок роботи, коли спочатку розробляється верхня частина схеми (лінія Т1=>П1=>П2=>Т2).

При цьому підході особливо важливе значення має вдалий вибір рівня П, до якого пред’являються дві протилежні вимоги. З одного боку він повинен бути достатньо “семантичний” (близький до СЗ), щоб в представленні тексту на цьому рівні експліцитно вказувалися або легко з нього виводилися відомості про те, від яких його елементів і яким чином залежить смисл даного тексту, а тим самим і вибір перекладацьких еквівалентів. З іншого боку рівень П повинен бути і достатньо поверховим (близьким до природнього представлення тексту), щоб не виникала потреба здійснювати при аналізі дуже багато надлишкових перетворень, які не впливають на кінцевий результат перекладу.