П. И. Браславский
Введение
Данная статья содержит результаты, полученные в рамках разработки процедуры автоматической классификации текстов по стилям. Стилистическая классификация, в свою очередь, рассматривается как одно из средств повышения эффективности поиска информации в Internet [2-4], при этом морфологические характеристики в процедуре классификации имеют ключевое значение.
Дополнительным стимулом в данной работе было желание продемонстрировать возможность использования наполнения Internet в лингвистических исследованиях. Обращаясь к сети, исследователь получает доступ к неограниченному объему самых разнообразных текстов в электронном виде. Так, например, масштабные исследования разговорной речи всегда сдерживались отсутствием достаточного количества опытного материала в форме, удобной для обработки. Сегодня чаты, гостевые книги, форумы, а также архивы личной переписки по электронной почте и общения по ICQ могут предоставить такой материал в избытке.
За основу мы взяли функционально-стилевую концепцию, которая хорошо разработана и обоснована в отечественном языкознании [11, 12, 14]. Исходным положением концепции является зависимость стиля речи от выполняемой им коммуникативно-общественной функции, от задач общения в соответствующей сфере. Обычно различают пять функциональных стилей речи (в порядке убывания "нормативности"): официально-деловой, научный, публицистический, художественный, разговорный (исходя из прикладного характера задачи, мы рассматриваем художественный стиль наряду с другими, не учитывая его особый статус в системе функциональных стилей).
Исследования функциональных стилей с использованием статистических методов проводились начиная с 60-х годов. В работах [1, 5-10, 12-17] можно найти количественные характеристики морфологии стилей речи разной степени детализации. Недостаток большинства этих источников - использование для анализа выборок небольшого объема (часто трех - пяти текстов). Кроме того, не всегда понятно, какие именно тексты послужили материалом для исследования и какая методика использовалась. Практически нигде не удается найти интегральную картину распределения классов слов по стилям: обычно одновременно рассматривается не более трех стилей. "Частотный словарь" [17] лишен этих минусов (общий объем обработанного материала - 1 056 382 слова), однако деление на стили (жанры) представляется не очень логичным: художественная проза, драматургия, газетно-журнальные и научно-публицистические тексты.
Речь является динамической системой, и значительные стилевые изменения могут происходить на относительно коротких временных промежутках (см. работы [7, 8, 13], посвященные исследованию динамики функциональных стилей). Определение стилистических особенностей "сетевых" текстов интересно еще и потому, что сегодня бумагу и ручку (печатную машинку) заменяет компьютер, а Internet - фактор не менее значительный, чем печатный станок пятьсот лет назад. Смена способа материальной фиксации текстов безусловно влияет на их стиль (можно вспомнить происхождение самого слова "стиль" - от лат. stilus, stylus - остроконечная палочка для письма).
Опытный массив текстов
Взятая за основу функционально-стилевая концепция определила наш подход к формированию массива текстов для анализа. В опытном массиве каждый стиль представлен наиболее типичным жанром; задача представления жанрового разнообразия в пределах функционального стиля не ставилась. Очевидно, что составить репрезентативную коллекцию всего стиля, которая учитывала бы количественные соотношения между различными жанрами, их вклад в "общую картину" стиля, весьма затруднительно. Такой переход (от стиля к жанру) вполне отвечает прикладным целям нашего исследования.
Официально-деловой стиль представлен в опытном массиве текстами 50 законов Российской Федерации. Эти документы были отобраны из юридической базы данных "Консультант Плюс" (www.consultant.ru). Дополнительным критерием отбора была длина текста. Например, были отсеяны законы о ратификации договоров, которые обычно содержат 2-3 строчки.
В коллекцию текстов научного стиля вошли 54 статьи по физике, математике, химии, биологии и инженерным наукам. Практически все электронные версии научных статей, размещенные в Internet, имеют печатные аналоги.
Публицистический стиль, напротив, представлен только Internet-журналистикой. В качестве представителей этого стиля мы взяли статьи на общественно-политические темы, опубликованные в период с декабря 1999 по февраль 2000 года на трех новостных веб-сайтах: Gazeta.ru (27), Vesti.ru (28) и Polit.ru (6) - всего 61 статья.
Художественный стиль в нашем исследовании представлен 79 рассказами участников конкурса сетевой литературы "Тенета-98" (www.teneta.rinet.ru/1998/rasskaz/). Нам представляется закономерным использовать для анализа произведения, которые увидели свет в Internet, а не литературную классику.
Основной объем текстов разговорного стиля принадлежит екатеринбургскому чату "На Плотинке" (www1.ekaterinburg.com/leisure/chat/) - 42 фрагмента, каждый из которых содержит ровно 100 сообщений. Кроме того, два фрагмента взято с чата "Сайберия" (www.son.ru/chat/) и четыре - с чата "В пещере у монстра" (cave.extrim.ru). В данном случае объем каждого фрагмента - примерно 2-3 экрана. Дополнили коллекцию образцов разговорного стиля 13 листингов диалогов (14 разных участников), которые велись с помощью программы ICQ ("аська"). Таким образом, всего был использован 61 фрагмент.
Все функциональные стили рассматриваются изолированно, поэтому некоторые различия в объемах текстов каждого стиля несущественны. При этом массив текстов достаточно представителен (как по отдельным стилям, так и в целом), чтобы вычисленные параметры были значимы. Общий объем массива - 305 текстов.
Методика обработки
Анализу подвергались текстовые документы (plain text) и документы HTML в Windows-кодировке. Документы Word и Adobe Acrobat (PDF) предварительно конвертировались в текстовые файлы.
Для автоматического определения грамматических характеристик слов использовался модуль морфологического анализа linguist компании "Агама" (www.agama.com). По информации разработчиков основной словарь модуля морфологического анализа и синтеза позволяет распознавать более четырех миллионов словоформ. Модуль выполнен в виде динамической библиотеки Windows.
По аналогии с предыдущими исследованиями морфологии функциональных стилей и в соответствии с возможностями модуля LINGUIST в качестве самостоятельных морфологических классов были выделены:
существительные,
прилагательные,
местоимения,
числительные,
наречия,
глаголы,
причастия,
деепричастия,
предлоги,
союзы,
частицы,
междометия,
прочие.
К существительным мы также относили следующие категории модуля морфологического анализа: имена собственные, отчества, фамилии, географические названия, аббревиатуры. В разряд "Прочие" попали слова, которые модуль морфологического анализа отнес к предикативам или вводным словам.
Причастия и деепричастия выделены в самостоятельные классы, в силу их стилистической окрашенности. Краткие прилагательные, хотя и имеют выраженную стилистическую окраску, не выделены в самостоятельную группу, т. к. не учитываются модулем морфологического анализа. В каждом тексте анализировались первые 1000 русских слов, а также слова до конца текущего предложения, или весь текст, если его длина меньше тысячи слов.
Словом считалась последовательность русских букв (которая может содержать внутри себя дефис) между двумя разделителями. Слова, содержащие цифры или латинские буквы, не анализировались. Словоформы, для которых модуль не возвращает ни одной нормальной формы, не учитывались.
Итог обработки отдельного текстового фрагмента - строка значений, каждое из которых соответствует доле части речи в тексте. Ясно, что данные, полученные таким образом, не являются абсолютно точными. Сделав ставку на автоматическую обработку материала большого объема, приходится отказаться от учета грамматической омонимии. Поэтому, например, слова стекло, падали всегда относятся к существительным, как и рабочий, учащийся; а печь, течь - к глаголам. Кроме того, из-за переносов или вставки невидимых символов и тегов HTML в слово могут возникать ошибки определения границ слова.
Результаты
В соответствии с методикой подсчета параметров было обработано 305 фрагментов текста. Общий объем обработанного материала - 239 696 слов, по 227 257 из них модулем морфологического анализа были построены нормальные формы (установлены грамматические характеристики). Доля слов из русских букв, для которых модулем морфологического анализа не было построено ни одной нормальной формы, составляет 6,1 % (со значительным разбросом по отдельным стилям: разговорный - 15 %, художественный - 2,7 %, публицистический - 4,6 %, научный - 6,9 %, официально-деловой - 1,9 %).
Результаты обработки данных по каждому стилю и части речи приведены в табл. 1: среднее (хср), минимальное (min) и максимальное (max) значения, стандартное отклонение (S).
Таблица 1
Cтатистика частей речи по стилям | |||||||||||||
Параметры | Существи- тельные | Прилага- тельные | Место- имения | Числи- тельные | Наречия | Глаголы | Причастия | Деепри- частия | Предлоги | Союзы | Частицы | Междо- метия | Прочие |
Разговорный стиль (61 фрагмент, 30601 слово) | |||||||||||||
min | 0,074 | 0,000 | 0,105 | 0,000 | 0,039 | 0,109 | 0,005 | 0,000 | 0,024 | 0,021 | 0,132 | 0,000 | 0,000 |
max | 0,298 | 0,000 | 0,222 | 0,009 | 0,102 | 0,219 | 0,050 | 0,042 | 0,084 | 0,085 | 0,276 | 0,045 | 0,043 |
xср | 0,194 | 0,000 | 0,161 | 0,002 | 0,068 | 0,167 | 0,028 | 0,006 | 0,051 | 0,050 | 0,210 | 0,016 | 0,013 |
S | 0,040 | 0,000 | 0,027 | 0,002 | 0,017 | 0,024 | 0,011 | 0,007 | 0,013 | 0,013 | 0,031 | 0,009 | 0,008 |
Художественный стиль (79 рассказов, 73739 слов) | |||||||||||||
min | 0,140 | 0,022 | 0,059 | 0,000 | 0,023 | 0,091 | 0,016 | 0,001 | 0,031 | 0,014 | 0,068 | 0,000 | 0,000 |
max | 0,351 | 0,106 | 0,227 | 0,019 | 0,118 | 0,239 | 0,074 | 0,028 | 0,085 | 0,063 | 0,242 | 0,018 | 0,014 |
xср | 0,243 | 0,063 | 0,126 | 0,006 | 0,065 | 0,162 | 0,045 | 0,013 | 0,055 | 0,037 | 0,158 | 0,003 | 0,006 |
S | 0,049 | 0,020 | 0,039 | 0,004 | 0,017 | 0,027 | 0,013 | 0,007 | 0,010 | 0,011 | 0,030 | 0,003 | 0,003 |
Публицистический стиль (61 статья, 34939 слов) | |||||||||||||
min | 0,265 | 0,061 | 0,036 | 0,000 | 0,022 | 0,079 | 0,030 | 0,000 | 0,023 | 0,023 | 0,068 | 0,000 | 0,000 |
max | 0,410 | 0,175 | 0,119 | 0,027 | 0,077 | 0,165 | 0,102 | 0,020 | 0,084 | 0,061 | 0,221 | 0,007 | 0,020 |
xср | 0,335 | 0,107 | 0,075 | 0,007 | 0,049 | 0,120 | 0,066 | 0,009 | 0,058 | 0,038 | 0,130 | 0,000 | 0,007 |
S | 0,034 | 0,024 | 0,019 | 0,005 | 0,012 | 0,019 | 0,017 | 0,005 | 0,013 | 0,008 | 0,029 | 0,001 | 0,004 |
Научный стиль (54 статьи, 47264 слова) | |||||||||||||
min | 0,245 | 0,074 | 0,019 | 0,000 | 0,004 | 0,047 | 0,044 | 0,002 | 0,023 | 0,010 | 0,054 | 0,000 | 0,000 |
max | 0,499 | 0,199 | 0,081 | 0,019 | 0,087 | 0,129 | 0,141 | 0,041 | 0,103 | 0,117 | 0,156 | 0,023 | 0,029 |
xср | 0,396 | 0,130 | 0,047 | 0,005 | 0,029 | 0,090 | 0,091 | 0,017 | 0,061 | 0,033 | 0,090 | 0,001 | 0,008 |
S | 0,054 | 0,028 | 0,013 | 0,004 | 0,016 | 0,020 | 0,021 | 0,010 | 0,015 | 0,022 | 0,022 | 0,004 | 0,006 |
Официально-деловой стиль (50 законов, 33134 слова) | |||||||||||||
min | 0,427 | 0,075 | 0,010 | 0,000 | 0,000 | 0,015 | 0,046 | 0,000 | 0,010 | 0,000 | 0,024 | 0,000 | 0,000 |
max | 0,608 | 0,278 | 0,052 | 0,061 | 0,037 | 0,100 | 0,140 | 0,026 | 0,087 | 0,032 | 0,136 | 0,000 | 0,018 |
xср | 0,497 | 0,184 | 0,029 | 0,009 | 0,008 | 0,048 | 0,091 | 0,005 | 0,046 | 0,009 | 0,071 | 0,000 | 0,002 |
S | 0,037 | 0,048 | 0,011 | 0,012 | 0,007 | 0,018 | 0,023 | 0,005 | 0,020 | 0,008 | 0,019 | 0,000 | 0,004 |
В целом полученные данные неплохо согласуются с результатами предыдущих исследований. Результат одновременного рассмотрения пяти стилей - монотонный рост средних долей существительных и прилагательных и монотонное же уменьшение долей местоимений, наречий, глаголов и частиц от разговорного к официально-деловому стилю - наглядно представлен на рисунке. При этом доля служебных частей речи (предлоги, союзы) мало варьируются от стиля к стилю.