Средние доли частей речи по стилям: 1 - разговорный; 2 - художественный; 3 - публицистический; 4 - научный; 5 - официально-деловой
Анализ матрицы корреляции (табл. 2), вычисленной по всему корпусу текстов, позволяет выделить группу взаимосвязанных морфологических параметров: существительные, прилагательные, причастия, глаголы, наречия, местоимения, частицы. Это вполне объяснимый результат: каждое употребление существительного - это "повод" определить его прилагательным; действие, выраженное глаголом, можно охарактеризовать наречием; функция местоимения - заменять именные части речи и т. д. Матрица корреляции демонстрирует, что частота употребления слов одной части речи из этой группы во многом определяет частоту употребления остальных. Зная, например, долю существительных в тексте, мы можем делать достаточно точные прогнозы относительно доли прилагательных и глаголов. Это справедливо даже для текстов, сильно отличающихся по стилю.
Таблица 2
Матрица корреляции | |||||||||||||
№ п/п | Части речи | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 |
1 | Существительные | 1,00 | 0,85 | -0,87 | 0,21 | -0,85 | -0,88 | 0,77 | -0,03 | 0,00 | -0,72 | -0,86 | -0,54 |
2 | Прилагательные | 0,85 | 1,00 | -0,81 | 0,09 | -0,75 | -0,85 | 0,67 | -0,01 | -0,11 | -0,67 | -0,79 | -0,54 |
3 | Местоимения | -0,87 | -0,81 | 1,00 | -0,21 | 0,70 | 0,79 | -0,78 | -0,08 | -0,08 | 0,57 | 0,77 | 0,53 |
4 | Числительные | 0,21 | 0,09 | -0,21 | 1,00 | -0,15 | -0,18 | 0,21 | -0,07 | 0,09 | -0,11 | -0,20 | -0,25 |
5 | Наречия | -0,8 | -0,75 | 0,70 | -0,15 | 1,00 | 0,80 | -0,69 | 0,08 | 0,02 | 0,63 | 0,76 | 0,38 |
6 | Глаголы | -0,88 | -0,85 | 0,79 | -0,18 | 0,80 | 1,00 | -0,75 | 0,03 | 0,02 | 0,62 | 0,75 | 0,46 |
7 | Причастия | 0,77 | 0,67 | -0,78 | 0,21 | -0,69 | -0,75 | 1,00 | 0,04 | 0,13 | -0,50 | -0,77 | -0,50 |
8 | Деепричастия | -0,03 | -0,01 | -0,08 | -0,07 | 0,08 | 0,03 | 0,04 | 1,00 | 0,09 | 0,14 | -0,12 | -0,23 |
9 | Предлоги | 0,00 | -0,11 | -0,08 | 0,09 | 0,02 | 0,02 | 0,13 | 0,09 | 1,00 | 0,02 | -0,13 | -0,06 |
10 | Союзы | -0,72 | -0,67 | 0,57 | -0,11 | 0,63 | 0,62 | -0,50 | 0,14 | 0,02 | 1,00 | 0,63 | 0,39 |
11 | Частицы | -0,86 | -0,79 | 0,77 | -0,20 | 0,76 | 0,75 | -0,77 | -0,12 | -0,13 | 0,63 | 1,00 | 0,61 |
12 | Междометия | -0,54 | -0,54 | 0,53 | -0,25 | 0,38 | 0,46 | -0,50 | -0,23 | -0,06 | 0,39 | 0,61 | 1,00 |
Примечание
Полужирным шрифтом выделены коэффициенты корреляции, по модулю большие или равные 0,70.
Заключение
В качестве основных результатов исследования можно выделить следующие:
Морфологические параметры (частеречный спектр текста) принадлежат к важнейшим маркерам функционального стиля и поэтому могут быть использованы для автоматической классификации текстов по стилям.
Internet содержит текстовый материал всех функциональных стилей русской речи, что открывает новые перспективы для исследований общего и стилистико-сопоставительного характера. Полученные результаты говорят об эффективности метода, основанного на автоматической обработке больших объемов текстов.
Получены количественные характеристики морфологии частей речи функциональных стилей русской речи и проведена их статистическая обработка.
В заключение хочется выразить надежду, что представленные в статье результаты получат более содержательную интерпретацию с позиций стилистики.
* * *
Мы благодарим компанию "Агама" (www.agama.com) за предоставленный модуль морфологического анализа, а также Михаила Щекотилова за программную реализацию метода.
Список литературы
1 Андреев Н. Д. Статистико-комбинаторные методы в теоретическом и прикладном языковедении. Л., 1967.
2 Браславский П. И. Автоматическая классификация документов Internet по стилям: реализация макета [Электрон. ресурс]// Доклады V Рабочего совещания по электронным публикациям - EL-PUB-2000 / Новосибирск: ИВТ СО РАН. - Электрон. дан. - . - 21.06.2000.
3 Браславский П. И. Использование стилистических параметров документа при поиске информации в Internet [Электрон. ресурс]// Доклады VI Рабочего совещания по электронным публикациям - EL-PUB-2001 / Новосибирск: ИВТ СО РАН. - Электрон. дан. - . - 25.04.2001.
4 Браславский П. И. Распознавание стилей речи применительно к информационному поиску: постановка задачи // Математические структуры и моделирование: Сб. науч. тр. Вып. 3 / Под ред. А. К. Гуца. Омск: Омский гос. ун-т, 1999. С. 134-140.
5 Васильева А. Н. Курс лекций по стилистике русского языка. Научный стиль речи. М., 1976.
6 Головин Б. Н. Язык и статистика. М., 1970.
7 Изменения в языке научной прозы/ О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Вопр. стилистики. Вып. 3 Саратов: Изд-во Сарат. ун-та, 1969. С. 37-55.
8 Изменения в языке публицистики (на материале международных обзоров) / О. Б. Сиротинина, С. А. Бах, В. А. Богданова и др. // Там же. С. 5-36.
9 Кауфман С. И. Из курса лекций по статистической стилистике. М., 1970.
10 Клочкова Э. А. О влиянии формы разговорной речи на распределение классов слов // Русская разговорная речь: Сб. науч. тр. Саратов: Изд-во СГУ, 1970. С. 126-134.
11 Кожина М. Н. К основаниям функциональной стилистики. Пермь, 1968.
12 Кожина М. Н. О речевой системности научного стиля сравнительно с некоторыми другими. Пермь, 1972.
13 Очерки истории научного стиля русского литературного языка XVIII-XX вв. / Под ред. М. Н. Кожиной: В 3 т. Т.1. Развитие научного стиля в аспекте функционирования языковых единиц различных уровней. Ч.1. Пермь, 1994.
14 Разговорная речь в системе функциональных стилей современного русского языка. Лексика / Под ред. О. Б. Сиротининой. Саратов: Изд-во Сарат. ун-та, 1983.
15 Русская разговорная речь. Фонетика. Морфология. Лексика. Жест. М., 1983.
16 Сиротинина О. Б. Современная разговорная речь и ее особенности. М., 1974.
17 Частотный словарь русского языка / Под. ред. Л. Н. Засориной. М., 1977.