Компонент первичного анализа текста, компоненты морфологического и синтаксического анализа, локальный семантический анализ текста, глобальный семантический анализ и сжатие текста.
Системы генерации текста.
Корпусная лингвистика и другие лингвистические ресурсы для АПТ.
В пособии А.В. Всеволодовой "Компьютерная обработка лингвистических данных", наряду с базовыми понятиями, методами и приемами использования средств вычислительной техники, рассмотрены передовые информационные и коммуникативные технологии глобальных компьютерных сетей; изложены основные направления фундаментальных исследований и коммерческих разработок, находящихся на пересечении филологии, методов представления, обработки знаний и самых современных ИТ; рассмотрены типичные и специальные приложения КЛ.
Таким образом, упомянутые выше и многие другие существующие пособия и книги, посвященные взаимодействию ИТ и филологии, свидетельствуют об актуальности данной проблемы, а также о повышенном внимании к ней как со стороны специалистов в сфере ИТ, так и со стороны филологов.
При написании данной работы нами были использованы различные методы исследования: как общелогические, так и общенаучные. К ним относятся такие методы, как анализ и синтез. Анализ как метод исследования, позволяет выявить структуру исследуемого объекта. Синтез связан с анализом, он объединяет в одно целое факты, выделенные в процессе анализа.
Данная работа основана на принципах объективности и комплексного подхода. Принцип объективности базируется на таких компонентах как единство и взаимосвязь используемых методов. Принцип комплексного подхода – основывается на всестороннем изучении и анализе объекта исследования.
Кроме того, в процессе создания реферата использовались такие методы как индукция и дедукция, аналогия, сравнение и обобщение. Метод индукции предполагает переход от единичных фактов к общим положениям. Метод дедукции основан на переходе от общего знания о предмете исследования к единичному или частному знанию о данном предмете.
Относительно метода аналогии, необходимо отметить, что он основан на установлении сходства между нетождественными объектами. Обобщение как метод исследования, можно охарактеризовать как метод, который ставит перед собой задачу объединения важных фактов и опущение несущественной информации.
Во время работы с художественным произведением на немецком языке мы имеем дело непосредственно с иностранным текстом. Среди наиболее интересных и полезных, на наш взгляд, программ анализа и обработки текстов отметим следующие:
Проекты Cibola/Oleada реализуют обширные компьютерные системы лингвистического анализа текстов. Компоненты системы включают средства работы с мультиязыковыми текстами, построения конкорданса для текстов на более чем 16 языках, статистического анализа, автоматического перевода, различные словари и тезаурусы.
Лингвоанализатор – on-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами.
Система StarLing позволяет работать с мультиязычными текстами большой длины, с транскрипционными знаками. Среди преимуществ: удобный поиск, возможность анализа и синтеза словоформ по словарю Зализняка, а также перевода по словарю Мюллера. Есть функции для сравнительно-исторических исследований.
АОТ (автоматическая обработка текста). Среди предлагаемых продуктов представляют интерес: модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, модуль семантического анализа текста, система лингвистического поиска, различные тезаурусы и словники.
Textarc – революционная программа для визуализации и исследования художественных текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие – вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст), а также звучат в разной тональности.
LeoBilingua – программа, позволяющая генерировать билингва-текст (текст из двух синхронных половин на разных языках).
Инструментальные средства МедиаЛингва предназначены для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации.
KDiff3 и WinMerge – программы, позволяющие визуально сравнивать текстовые файлы.
TextTransformer v1.4.1 – мощная программа, предназначенная для выполнения сколь угодно сложных преобразований над множеством текстовых файлов. Позволяет анализировать, изменять, создавать и удалять заданные элементы обрабатываемых текстов.
В разделе психолингвистических программ представлены:
ВААЛ-2000 – экспертная система лексического и контент-анализа текстов; прогнозирует эффект неосознаваемого воздействия текста на массовую аудиторию, анализирует тексты с точки зрения такого воздействия, выявляет личностно-психологические качества автора текста.
Системы обработки естественного языка и машинного перевода представлены в каталоге программами: Natural Language Projects at ISI, Автоматический словарь Мультитран, Translate.Ru, LEO, PEREVODOV.NET, Google Переводчик.
Среди многочисленных словарей и тезаурусов стоит отметить представляющие для автора особый интерес МультиЛекс 2.0, Лингво ABBYY, On-line словари Издательского Дома "ЭТС" (коллекция on-line словарей: анатомический (латынь), уфологический, сокращений, иностранных слов, финско-русский, немецко-русский, англо-русский фразеологический и ряд других. Кроме этого на сайте представлены различные словари Polyglossum и языковые программы.
Поисковые машины и системы полнотекстового поиска представлены Поисковой системой Яndex, Поисковой системой Ищейка, Verity Ultraseek, Quintura Search, ARM Engine 4.0 и многими другими.
В ходе своей научной деятельности литературоведам приходится читать огромное количество художественных текстов. Для того, чтобы ускорить этот процесс и сделать его более удобным, можно использовать программу Fast reader, которая совмещает в себе удобное средство чтения текстов с экрана и курс обучения скорочтению. Эта программа поможет быстро читать с экрана разнообразные тексты. В зависимости от выбора способа чтения слова могут появляться на экране с небольшой задержкой, которую Вы устанавливаете сами, отображаться бегущей строкой или будет выполняться плавный скроллинг текста по экрану. В основу программы легла методика мнемонического запоминания слов. Преимущество метода таково: т.к. глаза не двигаются по строчкам, Вы гораздо быстрее воспринимаете информацию. Отличительной особенностью этой программы от всех остальных подобных является возможность быстрой навигации по исходному тексту. Т.е. Вы видите не только отдельные слова, появляющиеся в окошке, но и сам текст. Это позволит Вам легко вернуться на несколько слов назад или наоборот пропустить пару «неинтересных» абзацев.
Среди сайтов, на которых можно ознакомиться с произведениями современных немецких писателей и поэтов стоит выделить http://www.projekt.gutenberg.de, созданный в рамках проекта «Гу́тенберг» (англ. Project Gutenberg, или PG), который представляет собой общественную инициативу по созданию и распространению электронной универсальной библиотеки. Проект, основанный в 1971 году, предусматривает оцифровку и сохранение в текстовом формате различных произведений мировой литературы — в основном это тексты, находящиеся в свободном доступе.
Следует отметить, что многие современные художники слова имеют свои собственные странички в Интернете, где любой пользователь сети может не только познакомиться с их творчеством, но и непосредственно пообщаться с самими авторами и их поклонниками на форумах, в чатах, с помощью гостевой книги. Персональные сайты имеют такие значительные писатели, как Корнелия Функе (http://www.corneliafunkefans.com/de), Сабине Эберт (http://www.sabine-ebert.de/), Андрэас Франц (http://www.andreas-franz.org/), Маркус Хайтц (http://www.mahet.de/site/) и др.
Особый интерес для литературоведов представляют справочные Интернет-ресурсы, представляющие собой он-лайн энциклопедии или словари литературных терминов и понятий: http://slovar.lib.ru, http://litterms.ru , http://feb-web.ru/feb/slt/abc/. Важны также опубликованные в Интернете издания литературных журналов, как например, «Иностранная литература» (Россия) –, http://magazines.russ.ru/inostran/, «Дзеяслоў» (Беларусь) – http://www.dziejaslou.by и «Arche» (Беларусь) – http://arche.by.
Таким образом, мы убедились в существовании огромного множества разнообразных программ и ресурсов, которые могут значительно облегчить работу литературоведа, которому остается только выбрать подходящие для своего исследования программы, интернет-ресурсы и воспользоваться их преимуществами.
Научная конференция – это прекрасная возможность попробовать свои силы в исследовательской деятельности, вынести на суд общественности результаты своего исследования, выслушать мнения других ученых и в соответствии с этим внести определенные корректировки в свою работу. Незаменимым помощником ученого тут может оказаться Power Point. Это приложение позволит ему самостоятельно подготовить мультимедийное пособие для выступления на научной конференции с минимальными временными затратами.