Весь процес перекладу складається з таких основних етапів:
Речення => МС
МС => ПСС аналіз
ПСС => ГСС
ГССвхід => ГССвихід власне переклад
ГССвихід => ГССпохід перефразування
ГСС => ПСС
ПСС => МС синтез
МС => Речення
На всіх етапах, за винятком першого та останнього, необхідно звертатися до ТКС, який, таким чином, виявляється вельмисуттєво зв’язаним з граматичним компонетом системи, являючи з нею один (інтегральний) опис мови. Тому для успішної роботи системи необхідно мати максимально узгоджені один з одним граматику і словник. Це дуже складно зробити, бо цей словник має вміщувати, як можна більше інформації про мову, але без такого словника автоматизований переклад (саме ПЕРЕКЛАД) буде неможливий.
Словарна стаття ТКС являє собою підмножину деякої множини зон, у котрих записується інформація про відповідні властивості лексичних одиниць. Кожна зона, за винятком першої, вводиться своєю поміткою – абревіатурою з прописних латинських букв, з двокрапкою. Ось ці зони:
(1) Вхід – порядковий номер та ім’я лексичної одиниці, з номером омоніма та номером значення;
(2) TRANS – переклад:
(3) DEF – тлумачення лексичної одиниці в термінах лексичних функцій;
(4) POR – частина мови;
(5) LIM – морфологічні, синтаксичні та обмеження, що поєднуються, на дане значення слова, на безумовний зворот чи на слово у складі фраземи;
(6) SYNT – синтаксичні ознаки;
(7) DES – дескриптори (семантичні ознаки);
(8) GOV – синтаксичні ознаки та дескриптори типового синтаксичного власника;
(9) MG – модель чи моделі керування;
(10) PREL – потенційні синтаксичні зв’язки для слова у складі фраземи;
(11) LF – лексичні функції;
(12) TRSFS – поверхнево-синтаксичні перетворення для фразем – “мікросинтагми”;
(13) TRSFD – глибинно-синтаксичні перетворення для фразем;
(14) - неформальна зона ілюстрацій та приміток.
Зони (1) та (4) обов’язкові в будь-якій словниковій статті. В словникових статтях фразем обов’язкові зони (12) та (13). Решта зон факультативні.
Однією з двох центральних проблем будь-якої системи АП (автоматизованого перекладу) є вирішення проблеми неоднозначності при аналізі – морфологічної, синтаксичної і лексичної омонімії та лексичної полісемії. (Друга центральна проблема – можливість породити достатню синонімію при синтезі, щоб подолати лексико-синтаксичні розходження між вхідною і вихідною моваим).
З усіх перерахованих типів неоднозначності доречно розглянути тільки лексичну полісемію та засоби її вирішення.
Для цього використовується інформація, що знаходиться в таких зонах: LIM, SYNT, GOV, MG, LF. LIM виступає як розрізник значень у тих випадках, коли на значення і слова Х накладаються певні морфологічні чи синтаксичні обмеження, а в реченні, яке ми оброблюємо ці обмеження не спостерігаються.
Наприклад, лексема ЗУСТРІЧАТИ І (Я випадково зустрів її – RECONTRER (fr.)), ЗУСТРІЧАТИ ІІ (Хто поїхав зустрічати делегацію? – ACCUEILLIR (fr.)). Ця різниця формально і цілком природньо проявляється в тому, що ЗУСТРІЧАТИ ІІ може бути залежним членом обставинного відношення при лексемі, здатної підпорядковувати собі цільовий інфінітив. до числа таких лексем відносяться більшість дієслів переміщення типу ЙТИ, ПІТИ, ЇХАТИ, ВЕСТИ та ін. Всім їм у словнику приписується спеціальна синтаксична ознака (обс-інф), яка описує їх здатність бути головним членом згаданої вище конструкції. Щоб використати цю інформацію при виборі потрібного значення дієслова ЗУСТРІЧАТИ в реченнях типу
Хто поїхав зустрічати делегацію?
Вона повела дітей зустрічати батьків.
достатньо записати таке обмеження у словниковій статті ЗУСТРІЧАТИ І:
LIM: якщо kw = інф., то не х(v, обст-інф) –> kw. В ПСС таких речень будуть піддерева як раз такого вигляду, і, отже, словоформа ЗУСТРІЧАТИ буде однозначно обізнаний як така, що репрезентує лексему ЗУСТРІЧАТИ ІІ.
Тепер розглянемо окремо кожну зону словникової статті.
Типи лексикографічної інформації у тлумачно-комбінаторному словнику
Ми розглянемо зони словникової статті.
Вхід словникової статті має вигляд NWI.J
N – восьмизначний номер лексичної одиниці
W – сама лексична одиниця
I – номер її омоніма
J – номер її значення
Приклади: (рос.)
02682100 РАЗРЯД 1.(=DECHARGE); 02682200 РАЗРЯД 2.(=CLASSE).
Процес перекладу речення з однієї природної мови на іншу здійснюється на глибинно-синтаксичному рівні, являючи собою перетворення глибинно-синтаксичної структури (ГСС) вхідної мови у ГСС вихідної мови, тобто
ГССa => ГССb,
де a і b – назви робочих мов системи.
Переклад здійснюється поетапно, перехід ГССa => ГССb забезпечується рядом загальних правил, зоною LF та TRANS. У спрощеній системі загальним правилом може бути, наприклад, опущення артиклів.
Через зону LF (лексичних функцій), переклад здійснюється, коли
1) зона TRANS є пустою, а у зоні DEF знаходиться визначення у термінах стандартних лексичних функцій
2) зона TRANS слова Х не пуста, проте в ГСС, що оброблюється, є піддерево вигляду ХiF(V) –> Y, чи Y –> XjF(Y), де iF, jF – нестандартні лексичні функції з аргументом Y та значення X.
В першому випадку щоб перевести піддерево у ГСС вищезгаданого вигляду вихідною мовою, достатньо знайти словникову статтю TRANS(Y), а в цій статті значення функції iF чи jF.
Так само здійснюється і переклад і у другому випадку. Єдина суттєва різниця в тому, що є сигналом до описаної процедури – відсутність еквівалентів в зоні TRANS чи присутність у ГСС піддерева описаного типу.
В інших випадках, коли в словниковій статті є зона TRANS. переклад здійснюється зверненням безпосередньо до цієї зони. Характер заповнення зони TRANS залежить від таких факторів:
· чи є об’єкт, що перекладається окремим вузлом чи невиродженим піддеревом ГСС?
· чи об’єкт, що перекладає окремим вузлом чи невиродженим піддеревом ГСС?
· чи потрібен вибір перекладу перевірки якихось умов?
Наприклад, якщо об'єкт, що перекладається, є ім'ям одного вузла ГСС, у зоні TRANS записується тільки еквівалентом, який перекладається. Якщо при цьому еквівалент, на який перекладається (Y) також є окремим словом, і якщо можливість вибору Y не залежить ні від умов використання X та Y, то в зоні TRANS знаходиться тільки один переклад. Наприклад:
СИСТЕМА
…
TRANS : SYSTEM
Якщо є декілька рівноправних однослівних перекладів, в зону TRANS записується найбільш загальний з них, а всі інші фігурують у якості синонімів у зоні лексичних функцій Y = TRANS(X).
Якщо серед перекладів даної лексичної одиниці є ще і переклади-піддерева, всі вони заносяться у зону TRANS. (В рядку syn зони LF містяться тільки однослівні синоніми!).
Всі переклади даної лексичної одиниці одиниці заносяться в зону TRANS, і втому випадку, коли вибір перекладу залежить від якихось властивостей речення, що перекладається чи на яке перекладається, чи їх формальних представлень. Як легко зрозуміти в цьому випадку виникаються проблеми розпізнання варіантів перекладу, цілком аналогічна проблемам розпізнання значень багатозначного слова. єдиною суттєвою різницею є те, що у даному випадку розпізнання відбувається всередині одного й того ж значення лексичної одиниці, яка перекладається. Наприклад:
НЕСКІНЧЕНА
… attr
TRANS 1) INFINI | якщо X(S) –> kw, то не
X = РЯД чи ДРІБ чи ДОБУТОК
attr
2) CONTINU | X(S) –> kw,
та Х = РЯД або ДРІБ або ДОБУТОК
Зона POR вказує на належність kw(key word) на до однієї з наступних частин мови:
S- Іменник (+ займенники Я, ТИ, ХТО …) (+ чисельники тисяча …)
A - Прикметник (+ числівники перший, другий) (+ займ. мій ніякий…)
Adv - Прислівник
Num - Чисельник
Prep - Прийменник
Art - Артикль
Part - Частка
Conj - Сполучник
V - Дієслово
Com - Композит (весняно-, українсько-)
Frm - Формула-є хоча б одна літера, що не відноситься до алфавіту (цифра)
У данній зоні записується визначення kw у термінах лексичних функцій. У якості аргументів лексичних функцій у зоні DEF можуть виступати як конкретні лексичні одиниці, так і змінні (у випадку, коли ключове слово несе смисл даної лексичної функції і виступає в якості значення при невизначеному околі слів.
ПАЦІЄНТ
DEF: //S2 (лікувати)
В цій зоні вказуються морфологічні, синтаксичні та поєднувані обмеження на дане значення слова чи на слово у складі фраземи.
НАСТУПАТИ 2.2
…
LIM : не док.
Армія наступала - не може бути “армія наступила”
Синтаксичні одиниці описують здатність лексичних одиниць брати участь у якості головного чи залежного члена у тих чи інших конструкціях. Синтаксичні ознаки присутні у синтагмах, операторах та правилах порядку слів. Всього в моделі поверхневого синтезу української мова нараховується приблизно 150 – 200 синтаксичних ознак.
Наприклад:
(одн!) – іменник молоко, адєктивні іменники “ціле” і т.п.
ВАГА
…
SYNT: чолов, неперерах, парам, парам-тіл.
У зоні DES ключовому слову приписуються дескриптори – ознаки, які відносять слово до деякого семантичного класу (чи класів). На різницю від інших відомостей, дескриптори є прагматичним, скоріше за все алгоритмічним, засобом семантичного контролю та, по суті справи, не має визначеного наукового статусу.
В першу чергу звертатися до семантики при перекладі доводиться на етапі власне перекладу: в описі зони TTRANS можуть бути випадки, коли вибір того чи іншого перекладу ключового слова обумовлен семантичними властивостями слів, з яким вони пов'язані. Крім є плідним використовувати семантичні обмеження на поєднання слів у процесі поверхово-синтакчисного аналізу (синтезу) у якості фільтра при перевірці гіпотез про присутність/відсутність деякого синтаксичного відношення між якимось двома словами.