Системы машинного перевода постепенно стали использоваться не только по прямому назначению, но и как важный компонент автоматических обучающих систем (для обучения переводу, контроля орфографических и грамматических знаний).
90-е годы принесли с собой бурное развитие рынка ПК (от настольных до карманных) и информационных технологий, широкое использование сети Интернет (которая становится все более интернациональной и многоязыкой). Все это сделало востребованным дальнейшее развитие автоматизированных переводческих систем. С начала 1990-х гг. на рынок систем ПК выходят и отечественные разработчики.
В июле 1990 года на выставке PC Forum в Москве была представлена первая в России коммерческая система машинного перевода под названием PROMT (PROgrammer's Machine Translation). В 1991 г. было создано ЗАО "ПРОект МТ", и уже в 1992 г. компания "ПРОМТ" выиграла конкурс NASA на поставку систем МП (ПРОМТ была единственной неамериканской фирмой на этом конкурсе). В 1992 г. "ПРОМТ" выпускает целое семейство систем под новым названием STYLUS для перевода с английского, немецкого, французского, итальянского и испанского языков на русский и с русского на английский, а в 1993 г. на базе STYLUS создается первая в мире система машинного перевода для Windows. В 1994 г. вышла версия STYLUS 2.0 для Windows 3.Х/95/NT, а в 1995-1996 гг. представлено третье поколение систем машинного перевода, полностью 32-разрядных STYLUS 3.0 для Windows 95/NT, одновременно с этим успешно завершена разработка совершенно новых, первых в мире русско-немецкой и русско-французской систем машинного перевода.
В 1997 г. подписано соглашение с французской фирмой Softissimo о создании систем перевода с французского языка на немецкий и английский и обратно, а в декабре этого года была выпущена первая в мире система немецко-французского перевода. В этом же году компания "ПРОМТ" компания выпустила систему, реализованную по технологии Гигант , поддерживающей несколько языковых направлений в одной оболочке, а также специальный переводчик для работы в Интернете WebTranSite.
В 1998 г. выпускается целое созвездие программ под новым названием PROMT 98. Через год компания ПРОМТ выпустила два новых продукта: уникальный пакет программ для работы в Интернете - PROMT Internet, и переводчик для корпоративных почтовых систем - PROMT Mail Translator. В ноябре 1999 года PROMT была признана лучшей системой машинного перевода среди тестируемых французским журналом PC Expert, обойдя конкурентов по сумме показателей на 30 процентов. Для корпоративных клиентов разработаны также специальные серверные решения - корпоративный сервер переводов PROMT Translation Server (PTS) и Интернет-решение PROMT Internet Translation Server (PITS). В 2000 г. "ПРОМТ" обновила всю линию своих программных продуктов, выпустив МП системы нового поколения: PROMT Translation Office 2000, PROMT Internet 2000 и Magic Gooddy 2000.
Перевод в режиме он-лайн при поддержке системы "ПРОМТ" используется на ряде отечественных и зарубежных сайтов: PROMT's Online Translator, InfiniT.com, Translate.Ru, Lycos и др., а также в учреждениях различного профиля для перевода деловой документации, статей и писем (существуют системы перевода, встраиваемые непосредственно в Outlook Express и другие почтовые клиенты).
В наше время появляются новые технологии машинного перевода, основанные на использовании систем искусственного интеллекта, статистических методах. О последних – в следующем разделе.
2.2 Статистические методы в изучении языка
Немалое внимание в современной лингвистике отводится изучению языковых явлений методами количественной математики. Количественные данные часто помогают более глубоко осмыслить изучаемые явления, их место и роль в системе смежных явлений. Ответ на вопрос «сколько» помогает ответить и на вопросы «что», «как», «почему» – таков эвристический потенциал количественной характеристики.
Немалую роль статистические методы играют в разработке систем машинного перевода (см. раздел 2.1). При статистическом подходе проблема перевода рассматривается в терминах канала с помехами. Представим себе, что нам нужно перевести предложение с английского на русский. Принцип канала с помехами предлагает нам следующее объяснение отношений между английской и русской фразой: английское предложение представляет собой не что иное, как русское предложение, искаженное неким шумом. Для того чтобы восстановить исходное русское предложение, нам нужно знать, что именно люди обычно говорят по-русски и как русские фразы искажаются до состояния английского. Перевод осуществляется путем поиска такого русского предложения, которое максимизирует произведения безусловной вероятности русского предложения и вероятности английского предложения (оригинала) при условии данного русского предложения. Согласно теореме Байеса, это русское предложение является наиболее вероятным переводом английского:
где e – предложение перевода, а f – предложение оригинала
Таким образом, нам требуется модель источника и модель канала, или модель языка и модель перевода. Модель языка должна присваивать оценку вероятности любому предложению конечного языка (в нашем случае, русского), а модель перевода –предложению оригинала. (cм. табл.1)
Табл.1.
amount | bonus | compensation | payment | rate | |
выплата | 15% | 8% | 6% | 71% | 0% |
оплата | 0% | 0% | 0% | 97% | 3% |
В общем случае система машинного перевода работает в двух режимах:
1. Обучение системы: берется тренировочный корпус параллельных текстов, и с помощью линейного программирования ищутся такие значения таблиц переводных соответствий, которые максимизируют вероятность (например) русской части корпуса при имеющейся английской согласно выбранной модели перевода. На русской части того же корпуса строится модель русского языка.
2. Эксплуатация: на основе полученных данных для незнакомого английского предложения ищется русское, максимизирующее произведение вероятностей, присваиваемых моделью языка и моделью перевода. Программа, используемая для такого поиска, называется дешифратором.
Самой простой статистической моделью перевода является модель дословного перевода. В этой модели предполагается, что для перевода предложения с одного языка на другой достаточно перевести все слова (создать «мешок слов»), а расстановку их в правильном порядке обеспечит модель Для приведения P(a, f | e) к P(a | e, f), т.е. вероятности данного выравнивания при данной паре предложений, каждая вероятность P(a, f | e) нормализуется по сумме вероятностей всех выравниваний данной пары предложений:
Реализация алгоритма Витерби, используемая для обучения Модели №1, состоит в следующем:
1.Вся таблица вероятностей переводных соответствий заполняется одинаковыми значениями.
2. Для всех возможных вариантов попарных связей слов вычисляется вероятность P(a, f | e):
3. Значения P(a, f | e) нормализуются для получения значений P(a | e, f).
4. Подсчитывается частота каждой переводной пары, взвешенная по вероятности каждого варианта выравнивания.
5. Полученные взвешенные частоты нормализуются и формируют новую таблицу вероятностей переводных соответствий
6. Алгоритм повторяется с шага 2.
Рассмотрим в качестве примера тренировку подобной модели на корпусе из двух пар предложений (рис.2):
- Белый Дом/White House
- Дом/House
Рис.1
После большого числа итераций мы получим таблицу (табл.2.), из которой видно, что перевод осуществляется с высокой точностью.
Табл.2
White | House | |
белый | 0,9999 | 0, 0001 |
дом | 0, 0001 | 0,9999 |
Также статистические методы широко используются в изучении лексики, морфологии, синтаксиса, стилистики. Учёные Пермского государственного университета провели исследование, в основе которого лежало утверждение о том, что стереотипные словосочестания являются важным «строительным материалом» текста [13, c.24]. Эти словосочетания состоят из «ядерных» повторяющихся слов и зависимых слов-конкретизавторов и имеют ярко выраженную стилистическую окраску.
В научном стиле «ядерными» словами можно назвать: исследование, изучение, задача, проблема, вопрос, явление, факт, наблюдение, анализ и др. В публицистике «ядерными» будут уже другие слова, обладающие повышенной ценностью именно для текста газеты: время, лицо, власть, дело, действие, закон, жизнь, история, место и т.д. (всего 29)
Особый интерес для лингвистов представляет также профессиональная диффереренциация общенародного языка, своеобразие использования лексики и грамматики в зависимости от рода занятий. Известно, что шофёры в профессиональной речи употребляю форму шофер, медики говорят коклюш вместо коклюш – подобных примеров можно привести. Задача статистики – проследить за вариативностью произношения и изменением языковой нормы.
Профессиональные различия ведут за собой различия не только грамматические, но и лексические. В Якутском государственном университете им. М.К. Аммосова было проанализировано по 50 анкет с наиболее часто встречающимися реакциями на некоторые слова среди медиков и строителей (табл.3) [13, c.78].
Табл.3
Стимул | Медики | Строители |
человек | пациент (10), личность (5) | мужчина (5) |
добро | помощь (8), помогать (7) | зло (16) |
жизнь | смерть (10) | прекрасная (5) |
смерть | труп (8) | жизнь (6) |
огонь | жар (8), ожог (6) | пожар (7) |
палец | рука (14), панариций (5) | большой (7), указательный (6) |
глаза | зрение (6), зрачок, окулист (по 5) | карие (10), большие (6) |
голова | ум (14), мозги (5) | большая (9), умная (8), ум (6) |
терять | сознание, жизнь (по 4) | деньги (5), находить (4) |
Можно заметить, что медики чаще, чем строители, дают ассоциации, связанные с их профессиональной деятельностью, так как приведённые в анкете слова-стимулы имеют к их профессии больше отношения, чем к профессии строителя.