Смекни!
smekni.com

«Применение ит при исследовании белорусской сатиры 20-х годов» (стр. 2 из 3)

С появлением ЭВМ возникла реальная возможность проводить атрибуцию текста с помощью информационных технологий. На данный момент существует две русскоязычные программы, позволяющие заниматься такими исследованиями посредством использования компьютера. Это программы «Лингвоанализатор» Дм. Хмелёва http://www.rusf.tu/books/analysis/ и «Атрибутор. Версия 1.01» http://www.textology.ru/art_resum.html. Они доступны для бесплатного скачивания и тестирования в интернене и любой пользователь может на практике воспользоваться этими программами.


ГЛАВА 4

ПРОГРАММЫ-АТРИБУТОРЫ И ПРИМЕНЕНИЕ ИХ ПРИ ИССЛЕДОВАНИИ БЕЛОРУССКОЙ САТИРЫ 20-Х ГОДОВ 20 века

Программа «Лингвоанализатор», определяет авторство любого текста, то есть, вычисляет вероятность того, что предлагаемый для анализа текст принадлежит данному автору. Программе можно послать любой текстовый фрагмент, и через несколько секунд она сообщит вероятное имя автора. Особенность «Лингвоанализатора» в том, что он определяет возможного писателя, опираясь на базу данных авторских текстов, уже внесенных в программу. В результате анализа сообщается имя не одного, а трёх возможных авторов, выстроенных в порядке убывания вероятности. Рядом с именами этих авторов программа в процентах указывает вероятность написания ими данного текста. Посылать можно любые тексты, даже свои собственные, чтобы посмотреть, насколько и к кому из внесенных в базу данных они близки. При определении текстов программа не пытается найти дословное совпадение текстов с теми, что имеются в её базе. Она не анализирует сюжет текста, его фабулу и непосредственно содержание. Можно изменять, например, имена собственные, но «Лингвоанализатор» всё равно в тройке возможных авторов на первое место поставит того, кто был изначально. Также программа находит три произведения каждого из авторов, которые наиболее близки данному тексту.

Важно отметить, что работа «Лингвоанализатора», как и других подобных программ, зависит от длины анализируемого фрагмента. По одной фразе или абзацу программа определить автора не может, потому что она «вычисляет» писателей. Поэтому объём текста, который исследователь желает проанализировать, должен быть больше 10 кб, а для второй программы, «Атрибутора», он должен быть не менее 20 кб.

Принцип работы программы «Лингвоанализатор» основывается на следующей гипотезе: некоторые стилистические авторские инварианты неизменны в большинстве его текстов и, применив математическую обработку произведений, можно с высокой долей вероятности установить авторство спорных текстов. В математической модели, используемой при анализе произведения, учитываются следующие формальные характеристики языка автора:

· число служебных слов (предлогов, союзов, частиц);

· используемые морфемы и их последовательность;

· сложность используемых грамматических конструкций;

· собственно словарь, используемый автором.

Модель, используемая в программе, прошла проверку на достаточно объёмном материале (более 80-ти авторов с общим объёмом произведений 128 Мб) и после испытаний в МГУ выяснилось, что четыре указанные выше характеристики позволяют с вероятностью более 50% определить авторов, которые уже занесены в базу. Как видно, она оказалась достаточно эффективна, однако некоторые изъяны при её работе всё же имеются. Так, «Лингвоанализатор» произведения различных жанров одного автора может отнести к разным писателям. Однако даже при таком отрицательном нюансе он остаётся первой в мире программой, которая атрибутирует текст с большой долей вероятности.

Вторая программа, «Атрибутор», работат по тому же принципу, что и «Лингвоанализатор». Отличие её в том, что в базе данных программы –103 автора, и представлены только их произведения крупных форм, в основном, романы.

К сожалению, на сегодняшний день не существует подобных программ для определения авторства белорусскоязычных авторов. Нами была проведена попытка воспользоваться программой «Атрибутор» для установления авторства сатирического романа 20-х годов 20 века «Записки Самсона Самасуя» А.Мрыя. После ввода отрывка романа (существует электронная версия на сайте www.knihi.com) и анализа его программой в течение нескольких секунд, «Атрибутор» резюмировал: «Автора этого текста в нашей БД нет. Если вы пришлёте нам полный текст романа, мы, возможно, включим его в нашу выборку.» Таким образом, попытка оказалась неудачной, однако заставила задуматься над проблемой отсутствия подобных программ для атрибуции белорусских текстов. К тому же, выявилась ещё одна проблема: малое количество переводной белорусской литературы в электронных библиотеках (предложенный для анализа роман существует в русском переводе, однако в электронной версии не представлен).


ОБСУЖДЕНИЕ РЕЗУЛЬТАТОВ

То, что существование такой компьютерной программы в белорусском литературоведении необходимо, очевидно. Взять, для примера, хотя бы весьма актуальную для современного белорусского литературоведения проблему определения авторства анонимной сатирической поэмы 60-х годов 20 века «Лысая Гора». Думается, наличие программы-атрибутора позволило бы во многом прояснить этот вопрос. Что же касается помощи компьютера при исследовании белорусской сатиры 20-х годов, то, несмотря на то, что проблема установления непосредственного авторства таких произведений данного периода перед литературоведами не стоит, часто поднимаются вопросы о степени влияния того или иного автора на своего товарища по перу. Так, например, автора «Записок..» А.Мрыя одни литературоведы сравнивают с М.Зощенко, другие же говорят о большем сходстве стиля белорусского прозаика со стилем М.Булгакова. И здесь опять же появляется возможность прибегнуть к услугам программы-атрибутора.


ЗАКЛЮЧЕНИЕ

Как видно из данной работы, необходимость в создании программы-атрибутора для белорусскоязычных текстов весьма актуальна. Существование подобной программы позволило бы прояснить многие вопросы в белорусском литературоведении. Безусловно, такие достижения ИТ, как программы-атрибуторы не должны считаться эталоном и бесспорным авторитетом при атрибуции текстов, однако их помощь при исследованиях такого рода немаловажна. Хочется надеяться, что в скором времени такая программа появится и для атрибуции текстов белорусских авторов, и литературоведы, занимающиеся исследованиями в области белорусской литературы, в том числе и те, кто исследует белорусскую сатиру 20-х годов 20 века, смогут воспользоваться ею в своей работе.


БИБЛИОГРАФИЧЕСКИЙ СПИСОК К РЕФЕРАТУ

1. Баркоўская Т.П. Сучасныя інфармацыйныя тэхналогіі ў літаратуразнаўстве // Роднае слова. – 2001. - № 4. - С. 78 – 83.

2. Бородин Л.И. Математические методы и компьютер в задачах атрибуции текстов. www.textology.ru

3. Виноградов В.В. Проблема авторства и теории стилей. М.,1961

4. Воронько В., Костинский А. Компьютерный анализ текстов. www.svoboda.org

5. Мінскевіч С.Л. Літаратурны працэс і інфармацыйныя тэхналогіі // Роднае слова. – 2005. - № 6. - С. 74 – 76.

6. Марусенко М.А. Атрибуция анонимных и псевдоанонимных текстов методами прикладной лингвистики // Прикладное языкознание. СПб.,1996

7. Петров А.Н. Компьютерный анализ текста: историография метода.www.ab.ru

8. Степанов А. Эвристика стиля — атрибуция авторства //Литературная учёба.—1998.-№ 2.- С.155-160

9. Тарнопольская И.О. Диаграмная энтропия и атрибуция анонимных текстов: результаты тестирования методики. www.hist.asu.ru

10. Шварц Л.С. К вопросу о применении специальных средств для атрибуции текстов // Системы специальных коммуникаций в современном русском языке. Днепропетровск, 1990

11. www.attribution.karelia.ru

12. www.rusf.tu/books/analysis

13. www.textology/art_resum.html

ИНТЕРНЕТ-РЕСУРСЫ В ПРЕДМЕТНОЙ ОБЛАСТИ ИССЛЕДОВАНИЯ

1.http://www.magazines.russ.ru -- сайт, на котором размещаются электронные версии крупнейших российских толстых литературных журналов «Иностранная литература», «Новое литературное обозрение», «Новый мир» и т.д. Данный проект является очень полезным, т.к. на нём представлен архив журналов, начиная с середины девяностых годов, а также большое количество ссылок на литературные сайты. К тому же сайт постоянно обновляется, на его страницах всегда можно найти актуальную информацию, рецензии на литературные новинки и т.д.

2.http://www.arche.bymedia.net -- электорнная версия крупного белорусского литературно-философского журнала «Arche». Данный сайт постоянно обновляется, существует полнотекстовый архив номеров с начала выхода журнала. Новые номера журнала на сайте размещаются только через два-три месяца после выхода в продажу бумажной версии.

3.http://dziejaslou.by — сайт литературного журнала «Дзеяслоў», где можно найти свежие новости литературной жизни, ознакомиться с книжными новинками, рецензиями на новые книги.

4.http://www.lib.ru – самая крупная электронная русскоязычная библиотека в сети Максима Мошкова. Здесь можно найти электронные тексты художественной литературы от первого письменного памятника «Эпос о Гильгамеше» до последнего непереведённого романа У. Эко.

5.http://litara.net – самый популярный сайт белорусскоязычного байнета. Здесь ведутся дискуссии на актуальные темы современной литературной жизни, литераторы знакомятся друг с другом, имеют возможность создать свой профайл, разместить своё фото, свои литературные или критические тексты. Постоянно создаются новые темы форумов, объявляются конкурсы .

6.http://www.knihi.com — на сайте имеется виртуальная библиотека, где можно найти произведения многих белорусских авторов, в том числе и сатириков 20-х годов, в частности, несколько рассказов К.Крапивы и роман А.Мрыя.

7.http://www.bk.baj.by—сайт «Беларускага калегіюму», где размещаются статьи преподавателей. В одном из артикулов П.Васюченко «Недапраўлены апазыцыянізм» рассматривается эстетика литературной организации «Узвышша», куда входили сатирики 20-х.

8.http://www.belruss.com — на сайте размещена биографии К.Крапивы, содержание некоторых его произведений («Хто смяецца апошні», “Брама неўміручасці”, а также сочинения по ним.