«Возможности применения ит при исследовании языковой интерференции» (стр. 3 из 4)

Обычно текст, полученный в ходе машинного перевода, подвергается дополнительной обработке – производится корректирующий анализ человеком-переводчиком. Мы же пытаемся применить машинный анализ к тексту перевода, произведенному человеком.

Нам, к сожалению, ничего не известно о существовании программ, которые были бы разработаны специально для лингвистического анализа текстов перевода на предмет интерференции, т.е. для такого анализа, в ходе которого текст перевода одновременно проверялся бы на соответствие нормам (стилистическим, грамматическим и т.д.) языка перевода и сопоставлялся с текстом исходного языка с целью выявления их структурных совпадений. Тогда случаи типа «норма нарушена»+«структуры совпадают» с определенной долей вероятности можно было бы рассматривать как факты интерференции. Вообще, теоретически все случаи укладывались бы в четыре группы:

норма нарушена + структуры совпадают = интерференция;

норма нарушена + структуры не совпадают = ошибка, вызванная не влиянием ИЯ (а, например, недостаточным владением ЯП);

норма не нарушена + структуры совпадают = типологическое сходство ИЯ и ЯП;

норма не нарушена + структуры не совпадают = типологическое расхождение ИЯ и ЯП.

Однако, на наш взгляд, можно использовать уже существующие и доступные нам средства обработки текстов.

Синтаксический анализатор естественного текста на русском языке

В качестве одного из таких средств можно рассматривать «Синтаксический on-line анализатор естественного текста на русском языке» (http://syntax.ru/index.html) [13].

Синтаксический анализатор естественного текста на русском языке обрабатывает предложения с большим количеством слов (100 и более). При этом ошибочность разбора оценивается как 20% от общего числа связей, связываемость слов в предложении составляет около 70% от общего числа связей. Синтаксический анализатор выполняет разбор предложения и связывает слова в нем на основе синтаксических правил, не используя при этом знания о мире. Поэтому после разбора предложения пользователю выдаются избыточные варианты связывания слов. Эти избыточные варианты должны быть проверены самим человеком, так как именно человек имеет знания о мире и может правильно осуществить семантическое связывание слов в предложении. Данный анализатор, по мнению его автора, может быть полезен патентоведам, изобретателям для выявления ошибок синтаксических и смысловых в формуле изобретения, юристам, для выявления ошибок синтаксиса или двойственности смысла в предложении, всем кому необходимо правильно составить текст на русском языке.

Мы попытались применить его к исследуемым текстам (которые уже были до этого обработаны вручную) с целью выявления отклонений от синтаксической нормы русского языка. Программа во многих случаях указала на несвязанные элементы предложений, однако ей не удалось выявить все случаи структурных нарушений, относимые нами к синтаксической интерференции.

Ex.: Оформление глагольного управления, временных, пространственных и других отношений во французском и русском языках реализуется различными средствами. Под влиянием французского языка происходит их переоформление в русскоязычных текстах:

(…) сосчитать на пальцах одной руки (вместо пересчитать по пальцам). - (…) se compter sur les doigts de la main [Архитектурные шедевры, серия 10]

Часть исходного предложения:
сосчитать на пальцах одной руки
часть предложения: (* сосчитать на пальцах одной руки *)
---сосчитать[1](предлог)на[2](чём)пальцах[3](чего)руки[5](какой)одной[4]
несвяз: сосчитать[1],
== в предл. слов всего:5, слов несвязано:1, из них предлогов:0, время обр: 0.000 с
сосчитать[1] на[2] пальцах[3] одной[4] руки[5]

Французский – аналитический язык, русский – синтетический. При анализе перевода французских аналитических конструкций со значением каузативности (побуждение к действию или создание определенного состояния объекта) на русский язык были выявлены случаи использования аналитических конструкций, представляющих собой кальки с французского:

Уклон железнодорожной колеи сделал бы сложным (вместо усложнил) торможение и разгон локомотивов. – Une pente a l’approche de la gare rendrait difficile le freinage et le démarrage des trains [Архитектурные шедевры, серия 11].

Часть исходного предложения:
уклон железнодорожной колеи сделал бы сложным торможение и разгон локомотивов
часть предложения: (* уклон железнодорожной колеи сделал бы сложным торможение и *)
---уклон[1](чего)колеи[3](какой)железнодорожной[2]
...уклон[1](глагол)сделал[4](что)и[8](что)торможение[7]
...................сделал[4](что)колеи[3]
часть предложения: (* разгон локомотивов *)
{и[8]}разгон[9](чего)локомотивов[10]
несвяз:бы[5], сложным[6],
== в предл. слов всего:10, слов несвязано:2, из них предлогов:0, время обр: 0.000 с
уклон[1] железнодорожной[2] колеи[3] сделал[4] бы[5] сложным[6] {и[8]}торможение[7] и[8] {и[8]}разгон[9] локомотивов[10]

Однако рассматриваемая программа не сумела распознать отмеченные нами ранее в ходе анализа факты избыточной идентификации (соотнесенности) грамматических структур, где грамматическая форма преобладает над смысловым наполнением.

Ex.: Приведенная ниже конструкция, скорее всего, ассоциируется с конструкцией être éclairé + par + предмет (источник света), которая переводится на русский язык как ‘освещенный чем-либо’ (обязательно указание источника света). Напимер: éclairé par une lampe – освещенный лампой, éclairé par le soleil – ‘освещенный солнцем’ и т.д. В результате избыточнй идентификации происходит экстраполяция данного значения на другие аналогичные конструкции без учета их семантики:

Голые стены освещены одним вертикальным окном. - Des murs nus, éclairés par une fente où rentre la lumière du jour [Архитектурные шедевры, серия 1].

Часть исходного предложения:
голые стены освещены одним вертикальным окном .
часть предложения: (* голые стены освещены одним вертикальным окном . *)
---стены[2](глагол)освещены[3](чем)окном[6](каким)одним[4]
...................................окном[6](каким)вертикальным[5]
...стены[2](какие)голые[1]
несвяз:
== в предл. слов всего:6, слов несвязано:1, из них предлогов:0, время обр: 0.000 с
голые[1] стены[2] освещены[3] одним[4] вертикальным[5] окном[6]

NooJ

Рассмотрим еще одну программу, которая показалась нам довольно любопытной и которую, как нам кажется, можно использовать при анализе некоторых видов языковой интерференции.

NooJ ( разработчик– Макс Сильберштейн\Max Silberstein). NooJ является оупенсорсным продуктом, для формализации лингвистических данных. Система включает в себя морфологический и синтаксический анализатор, а также удобные средства для разметки корпуса вручную. В NooJ встроена система визуального написания грамматик, которая позволяет создавать различные системы анализа текста. Подробное описание, руководство пользователя, электронные учебники, последние наработки и сама программа доступны (бесплатно) в Сети http://www.nooj4nlp.net [16].

Мы не будем описывать здесь все возможности данной программы, а рассмотрим, как она может быть использована при изучении языковой интерференции. В качестве примера возьмем частный случай интерференции французского и немецкого языков на уровне присловных связей, наблюдаемой в швейцарской контактной зоне [2.-A]. Известно, что на территории многоязычных государств в результате языковых контактов происходит смешение языков. Так, в ходе анализа статей в швейцарских франкоязычных газетах Le Temps, Le Matin нам встретился случай ненормативного (согласно французской академической норме) глагольного управления attendre sur ‘ждать кого-л., чего-л.’, что является калькой с немецкого warten auf j-n [2.-A]. Наша задача состоит в том, чтобы проверить, единичное (случайное) ли это употребление или его можно рассматривать как устоявшийся факт языка, закрепленный в его письменной форме (в языке прессы). Для этого мы анализируем корпус франко-швейцарсикх текстов, используя NooJ. Программа производит лексический, морфологический и синтаксический анализ. В результате получаем следующие характеристики: characters (знаки), tokens (символы), digrams (биграммы - группы из двух последовательных символов), ambiguities (неоднозначные слова), unambiguous words (однозначные слова) с их количеством и частотностью их употребления.

Далее в перечне (алфавитном) tokens находим все словоформы нужного нам глагола attendre ->FILTER->N. Рассматриваемая программа способна выдавать все дистрибуции заданного элемента в анализируемом тексте (или корпусе).

->FILTER

->N

Далее мы анализируем уже полученный на выходе список дистрибуций. Мы видим, что attendre sur - не случайное употребление, а элемент, вошедший в систему швейцарского французского языка.

LeoBilingua

Целью изучения феномена интерференции является разработка методик ее преодоления. Когда речь идет об интерференции в переводческой деятельности, путь к ее преодолению лежит через отработку навыков переключения (Code-Switching) с языка на язык и установки верных межъязыковых соответствий. Очень любопытным в этом отношении является описание методик, разработанных доктором филологии Лин Веем (Lin Wei) [17]. На материале английского, японского и китайского языков, Лин Вей разработал ряд мультимедийных программ для тренинга переводчиков. Языком перевода в данном случае являлся китайский. Упражнения были разделены на три уровня: семантический, синтаксический и уровень дискурса.

Однако первый этап совершенствования навыков перевода сводится так или иначе к сопоставлению языков (ИЯ/ПЯ) и текстов (ИТ/ТП).