Смекни!
smekni.com

"возможности применения ит в лингвистике" 5 (стр. 3 из 7)

Russian Morphological Dictionary – программа С.Сикорского для синтаксического и морфологического анализа русскоязычных текстов. Использует морфологический словарь, включающий 120000 слов.

Mystem – компактный, быстрый и бесплатный морфологический парсер русскоязычных текстов, реализованный на основе словаря Зализняка.

Лингвоанализатор – on-line версия программы математического анализа структуры текста. Целью анализа является определение близости любого из предлагаемых пользователем текстов к одному из авторских эталонов, определенных заранее. Программа анализирует входной текст и выдает имена трех писателей, которые могли бы быть его наиболее вероятными авторами.

Система StarLing позволяет работать с мультиязычными текстами большой длины, с транскрипционными знаками. Среди преимуществ: удобный поиск, возможность анализа и синтеза словоформ по словарю Зализняка, а также перевода по словарю Мюллера. Есть функции для сравнительно-исторических исследований.

Морфологический анализатор – on-line версия программы морофлогического анализа слов русского/английского языков. Позволяет получить для вводимого слова базовую форму и морфологическую информацию. Программа реализована на основе словарей Зализняка (рус.яз.) и Мюллера (англ.яз.).

2.2. Программы для автоматической обработки текстов

АОТ (автоматическая обработка текста). Среди предлагаемых продуктов представляют интерес: модуль графематического анализа текста, компоненты морфологического анализа для русского, немецкого и английского языков, модуль автоматического уничтожения омонимии, модуль семантического анализа текста, система лингвистического поиска, различные тезаурусы и словники.

Textarc – революционная программа для визуализации и исследования текстов, являющаяся настоящим произведением искусства. Текст воспроизводится на экране компьютера в виде галактики, в которой слова играют роль звезд. Часто встречающиеся слова светятся ярко, а редкие – вовсе не видны. Строки текста выводятся в виде закручивающейся спирали по границе "галактики" точечным шрифтом (высотой в один пиксель). Программа позволяет видеть структуру текста, взаимосвязи между словами и контекстом, просматривать частотный и алфавитный индекс слов и конкорданс. При движении курсора по галактике слова вспыхивают и загораются лучами (указателями на контекст), а также звучат в разной тональности.

LeoBilingua – программа, позволяющая генерировать билингва-текст (текст из двух синхронных половин на разных языках).

Инструментальные средства МедиаЛингва предназначены для создания систем автоматического аннотирования, классифицирования, поиска и морфологической обработки текстовой информации.

2.3. Программы преобразования текстов

Программы преобразования текстов представлены такими разработками, как: HTML Batch Editor, Словогрыз, ClearText Reader's Edition, xReplacer, xMarkup v2.1.1., XML редакторы, Xchange Search&Replace, KDiff3, WinMerge, TextTransformer v1.4.1. Особое внимание обратим лишь на некоторые из них.

Например, Словогрыз предназначен для поиска и замены текста по заданным маскам. Программа умеет находить и заменять в тексте не только строго заданные слова и фразы, но и текстовые элементы, определяемые произвольными поисковыми шаблонами. Позволяет сохранять/загружать сценарии преобразований.

KDiff3 и WinMerge – программы, позволяющие визуально сравнивать текстовые файлы.

TextTransformer v1.4.1 – мощная программа, предназначенная для выполнения сколь угодно сложных преобразований над множеством текстовых файлов. Позволяет анализировать, изменять, создавать и удалять заданные элементы обрабатываемых текстов.

2.4. Психолингвистические программы

В разделе психолингвистических программ представлены:

ПСИ-Офис версия 2.1 – система психолингвистического анализа текстов, включающая 3 компоненты: программа поиска вложенных слов в тексте, т.е. слов, "спрятанных" внутри и на переходах между словами; программа поиска повторяющихся фрагментов текста при анализе "автоматического письма" (такие тексты пишутся с целью анализа текущих подсознательных процессов); программа синтеза подсознательного компонента текста.

ВААЛ-2000 – экспертная система лексического и контент-анализа текстов; прогнозирует эффект неосознаваемого воздействия текста на массовую аудиторию, анализирует тексты с точки зрения такого воздействия, выявляет личностно-психологические качества автора текста.

Приемы журналистики & Public Relations – программа, представляющая собой консультанта, помогающего пользователю при написании различных текстов. Пользователь выбирает ряд параметров, характеризующих желаемый результат, а программа выдает ему рекомендации по написанию текста и иллюстрирует их примерами.

Psyberia.ru и Лаборатория ПСИТОН содержат профессиональные психодиагностические и психолингвистические программы.

Среди многочисленных генераторов текстов отметим, например: Болтун (виртуальный собеседник, который обладает зачатками искусственного разума; может реагировать на реплику пользователя своей репликой), Russian Word Constructor (RWC) (программа для генерации русскоязычных стихоподобных текстов ("инструмент поэта"); способна конструировать русские неологизмы на основе заданного словаря с лексико-статистической информацией), Весна (генератор псевдофилософских текстов).

Системы обработки естественного языка и машинного перевода представлены в каталоге программами: Natural Language Projects at ISI, Автоматический словарь Мультитран, Translate.Ru, LEO, PEREVODOV.NET, Проекты НИИ ИИ, Computer Aided Translation, Google Переводчик.

Возможности использования Translate.Ru и Google Переводчика будут проиллюстрированы в Главе 3.

Каталоги и коллекции ресурсов включают в себя Каталог программ по вычислительной лингвистике, Ресурсы, связанные с анализом текста, Справочно-информационный портал "Русский язык", Text Analysis Info, The Linguist List, LTI Projects. Портал "Русский язык", например, интересен тем, что содержит массу полезной информации и включает on-line словари русского языка, такие как: Полный электронный орфографический словарь русского языка под ред. В.В. Лопатина; Словарь трудностей произношения и ударения в современном русском языке; Новый словарь русского языка, Толково-словообразовательный словарь, Словарь нарицательных имён и др.

Среди многочисленных словарей и тезаурусов стоит отметить представляющие для автора особый интерес (в связи с исследованием англоязычных искусствоведческих текстов) British National Corpus (коллекция более чем 100 миллионов слов современного английского письменного и устного языка), Acronym Finder (полный словарь акронимов и сокращений английского языка, содержит более 173 тысячи элементов), WordNet (электронный тезаурус, отражающий все возможные толкования слов английского языка и показывающий взаимосвязи между ними; для каждого слова можно найти синонимы, объединенные в смысловые группы и получить ссылки на родовые или производные понятия), Толковый словарь Merriam Webster (on-line версия знаменитого толкового словаря английского языка).

Поисковые машины и системы полнотекстового поиска представлены Поисковой системой Яndex, Поисковой системой Ищейка, Verity Ultraseek, Quintura Search, ARM Engine 4.0 и многими другими.

Интересны программы синтеза и распознавания речи, например: Sacrament Text-to Speech Engine v2.0 (система синтеза русской речи, созданная минской компанией "Сакрамент"; позволяет произносить тексты мужским и женским голосом, делая при этом интонационные паузы, изменяя по желанию пользователя тон и тембр речи), Govorilka (небольшая программа чтения текста голосом для Windows; настраивается на различные языки и голоса; использует редактируемые словари произношений; позволяет записать синтезированную речь в MP3-файл), CSLU Toolkit (набор инструментальных средств для создания приложений, обрабатывающих речевую и звуковую информацию; осуществляет синтез и распознавание речи, озвучивание текстов, обработку спектрограмм и звуковых сигналов) и другие.

Таким образом, мы убедились в существовании огромного множества разнообразных программ и ресурсов, которые могут значительно облегчить работу с лингвистическим материалом. Лингвисту остается только выбрать подходящие для исследования программы и воспользоваться их преимуществами.

глава 3. использование некоторых лингвистических программ в исследовании русскоязычных и англоязычных искусствоведческих текстов

В данной главе мы попытаемся оценить возможности некоторых программ применительно к исследованию русскоязычных и англоязычных искусствоведческих текстов.

Рассмотрим программы анализа и лингвистической обработки текстов TextAnalyst 2.0 и Худломер и системы обработки естественного языка и машинного перевода Translate.Ru и Google Переводчик.

Сначала обратимся к программе TextAnalyst 2.0 (для использования необходимо скачивание) [11] Это смысловой анализатор, который за считанные минуты позволяет ознакомиться с текстами любой тематики. Программа разработана в качестве инструмента для анализа содержания текстов, смыслового поиска информации, формирования электронных архивов и предоставляет пользователю следующие основные возможности: