Смекни!
smekni.com

Синтаксичний аналіз у системах автоматичного перекладу концепції та алгоритми (стр. 3 из 4)

В системі АРАП в якості проміжного представлення тексту вибрана комбінована синтаксична структура (КСС).

Одиницею тексту, для якої в системі АРАП будується КСС і в межах якої здійснюється переклад, виступає речення. КСС речення представляє собою граф залежностей особливого роду, який поєднує в собі властивості поверхнево-синтаксичної і глибинно-синтаксичної структур моделі “Смисл-Текст”. В вершинах цього графу стоять повні глибинно-морфологічні предствалення (ГМП) словоформ та знаків пунктуації даного речення з інформацією про їх лінійне розташування в тексті відносно один одного у вигляді порядкових позначень. Ребрами графу є стрілки, що символізують синтаксичні та анафорічні зв’язки між словоформами (або знаками пунктуації), при чому відносно стрілок першого типу (синтаксичних) КСС речення виступає деревом. Ті одиниці або сполучення одиниць, які семантично не значимі і при перекладі не повинні отримувати самостійних еквівалентів, заключаються в КСС в кутові дужки.

Множина вершин КСС повинна бути ізоморфна множині словоформ та знаків пунктуації, що є в реченні. Винятки допускаються лише в двох випадках: 1) якщо в даному реченні є фразеологічні обороти, кожному з них ставиться у відповідність одна вершина, незалежно від того, скільки словоформ входить до складу даного обороту; співставлений цій вершині порядковий номер являє собою перелік номерів всіх вхідних словоформ; 2) якщо речення містить еліптичні конструкції, що порушують вимоги зв’язності синтаксичного дерева, вони в процесі побудови КСС перетворюються в повні структури, і в КСС можуть з’являтися ГМП деяких додаткових словоформ, що відсутні у вхідному тексті; вершини, що містять такі ГМП, маркуються порядковими номерами особливого виду (“фіктивними”).

Синтаксичні зв’язки, які встановлюються в КСС між ГМП словоформ та знаків пунктуації, являють собою глибинно-синтаксичні відношення. Вони можуть бути трьох основних видів:

- зв’язки сильного керування (актантні);

- зв’язки слабого керування (означальні);

- координативні або сурядні зв’язки.

Зв’язки сильного керування – це зв’язки між предикатами та їх актантами. Вони позначаються стрілками, що йдуть від предиката до актанта і несуть цифрові індекси. Індекс являє собою номер, під яким актантна валентність предикату, що реалізується даним зв’язком, записана в моделі керування, вказаної для цього предикату в словнику або в граматиці.

Зв’язки слабого керування – це зв’язки, означальні в самому широкому смислі. Вони відображаються стрілками з індексом m (modifying), і йдуть від значуваного слова до означення. На відміну від зв’язків сильного керування вони реалізують валентності не керуючого, а керованого слова.


Координативні зв’язки являють собою зв’язки між яким небудь словом та сурядним сполучником або знаком пунктуації, що має смисл сурядного сполучника. Вони реалізують валентність цього сполучника або знака пунктуації і відображаються стрілками з індексом c (co-ordinate), що напрвлений до сурядного сполучника. Зв’язок між цим сполучником та другим членом сурядної групи вважається зв’язком сильного керування, що реалізує другу валентність даного сполучника. Приклад:

Анафорічні зв’язки – це зв’язки, що встановлюються між словами з співпадаємими денотатами. На анафорічні зв’язки не поширюються ті обмеження, які прийняті у відношенні структури власне синтаксичних зв’язків. Вони відображаються пунктирними лініями, направленими від слова до його тецедента. Приклад:

Врахування в КСС поверхових властивостей тексту забезпечується тим, що в ній, згідно з її визначенням, зберігаються, за винятком складових компонентів фразем (які при необхідності легко відновити по словниковим статтям самих цих фразем), всі одиниці і характеристики ГМП тексту (навіть до відомостей про порядок слів) – тобто, всі елементи тексту з точністю до явищ додаткової дистрибуції і вільного варьювання на морфологічному рівні. В КСС речення не опускаються прийменники, сполучники, частки, морфологічні характеристики, знаки пунктуації та інші одиниці, навіть якщо їх роль в даному реченні зводиться в основному до того, щоб слугувати показниками тих чи інших синтаксичних зв’язків. На відміну і від поверхових, і від глибинних синтаксичних структур моделі “Смисл-Текст”, в КСС такі одиниці не заміняються символами відповідних синтаксичних відносин, а лише доповнюються ними.

Що стосується “семантичності” КСС, то ця її властивість проявляється вже в тому, що семантично однозначному реченню співставляється в загальному випадку рівно одна КСС.

Послідовне включення в КСС всієї можливої поверхової інформації також сприяє її “семантичності”, відповідаючи вимозі максимально повного і дифіренційованого відображення в КСС значущих елементів тексту. Це пов’язано в першу чергу з тим, що мовні феномени, як правило, поліфункціональні і заздалегідь важко передбачити, яка з їх функцій буде головною в тому чи іншому тексті. Збереження відомостей про поверхневі вирази одиниць, що відносяться до смислової структури тексту, є надійною гарантією проти непередбачених втрат інформації у випадках, коли знайдені при аналізі поверхневі явища не тільки служать засобом оформлення виявлених глибинних одиниць, але й мають якийсь свій додатковий зміст.

Важливе значення в процесі власне перекладу має і можливість безпосереднього врахування порядку слів. В системі АРАП діє таке правило: при відсутності в КСС вхідного англійського речення додаткових показників комунікативної організації (наприклад, артиклі) для всіх словоформ, місце яких в лінійному представленні речення не визначається однозначно їх місцем в його синтаксичній структурі, порядкові номера цих словоформ, що вказані в співставлених їх вузлам синтаксичного дерева, в процесі заміни англійських одиниць їх перекладними еквівалентами зберігаються тими ж; при наявності в вхідній КСС артиклів та інших одиниць, в ролі перекладних еквівалентів яких виступають при перекладі на російську мову правила змін порядку слів, порядкові номера словоформ змінюються за відповідними правилами.

Проте найбільше узгодженість КСС з смисловою структурою тексту виявляється у характері використовуємих в ній синтаксичних зв’язків. Такі зв’язки являють собою глибинно-синтаксичні зв’язки. Сутність застосування саме глибинно-синтаксичних відношень, а не поверхневих полягає в тому, що ці зв’язки розглядаються як значимі елементи тексту, які задають смислові відношення між словоформами та іншими сегментними одиницями тексту. Основний принцип, якому повинна задовільняти КСС речення: всі синтаксичні зв’язки між словоформами, що відображаються в КСС повинні бути семантично обгрунтованими.

В рамках системи АРАП принцип семантичної обгрунтованості синтаксичних зв’язків конкретизується у вигляді такої вимоги: всі синтаксичні зв’язки, що встановлюються в КСС довільної реальної фрази, повинні реалізувати які-небудь семантико-синтаксичні валентності наявних у фразі лексичних або морфологічних одиниць. Самі ж ці валентності, в свою чергу повинні безпосередньо співвідноситися з тлумаченнями відповідних одиниць, і при їх виявленні повинна залучатися семантична інформація.

В системі АРАП залучається два важливих типа семантичної інформації: 1) семантичні описи, або тлумачення, значимих лексичних, морфологічинх і пунктуаційних одиниць; 2) відомості про семантичне сполучення цих одиниць одна з одною.

Тлумачення використовуються двух типів: словникові і контекстні. Словникове тлумачення може бути приписано будь-якій одиниці, що включена в словник, і задає ту частину її смислу, яка повністю або частково зберігається в різних випадках реалізації цієї одиниці в тексті. Контекстуальне тлумачення характеризує словоформу і являє собою той фрагмент семантичного запису тексту, який відповідає данній словоформі в даному конкретному її використання, визначаючи можливості здійснення з нею тих чи інших семантичних операцій. Контекстуальні тлумачення будуються з словникових одиниць, що утворюють ГМП цих словоформ, з урахуванням наявного лексико-синтаксичного контексту та можливих в цьому контексті семантичних явищ.

Відомості про сполучення в системі АРАП носять характер семантичних вимог. З їх допомогою можна досить повно охарактеризувати всі найбільш суттєві аспекти смислової структури тексту і задати всі основні семантичні операції над цим текстом, які можуть знадобитися в процесі перекладу.

Для формального запису використовуємих при цьому семантичних відомостей розроблена спеціальна символічна мова, яку можна реалізувати на ЕОМ. Вона заснована на використанні біля 100 “семантичних елементів” – символів, що позначають одиниці смислу. Семантичні елементи можуть з’єднуватися за певними правилами, утворюючи семантичні формули - семантичні дерева залежностей, які завдяки використанню формальних записів, зокрема, дужкового запису, можуть записуватися лінійно. На множині семантичних формул визначений ряд бінарних відношень, що моделюють смислові парадигматичні відношення в лексиці. В результаті в цих термінах можна записувати як словникові та контекстуальні тлумачення будь-яких одиниць, так і родо-видові лексико-семантичні класи, в які ці одиниці входять, а також семантичні інтерпретації їх синтаксичних валентностей і утворювані валентностні лексико-семантичні класи.

Ще однією важливою властивістю даного апарату є можливість спростити співвідношення між синтаксичним і семантичним представленням тексту у порівнянні з тим, як трактується це співвідношення в більшості розробок за моделлю “Смисл-Текст”. В зв’язку з тим, що структура семантичних формул зберігає основні властивості дерева залежностей, перехід від КСС тексту до його семантичного запису зводиться до простої заміни всіх слів і значимих морфологічних і пунктуаційних одиниць, наявних в КСС, їх контекстуальними тлумаченнями.