Схема Бернулли. Цепи Маркова (стр. 8 из 11)

Каждый фрагмент g_i,j  B^* можно отобразить в A^* посредством некоторой функции F: B^* A^*. Пусть, например, F превращает все заглавные буквы в маленькие, склеивает перенесенные слова, выбрасывает все знаки пунктуации и излишние знаки пробела, оставляя их по одному между словами, а также вставляет один пробел в начале и один пробел в конце фрагмента в случае отсутствия таковых.

Кроме того, мы будем рассматривать функцию G, которая устроена так же, как и функция F, с тем дополнением, что все слова, которые в фрагменте g_i,j начинались с заглавной буквы, отбрасываются. Например, если

y = "Крометого,мыбудемрассматриватьфункциюG,", то

F(y) = "крометогомыбудемрассматриватьфункцию", а

G(y) = "тогомыбудемрассматриватьфункцию".

Теперь предположим, что некий фрагмент текста y  B^* принадлежит одному из n авторов, и нам неизвестно, кому именно. Наша задача: определить автора фрагмента y. Мы можем найти автора, применяя оценку (2.1) к последовательности x = F(y) или к x = G(y). Следовательно, мы получаем два способа определения автора:

1) истинный автор - t(F(y)),

2) истинный автор - t(G(y)).

Важно отметить, что оценки t(F(y)) и t(G(y)) вычисляются на основе информации о частотах употребления пар букв. Поскольку между словами вставлены пробелы, оценки t(F(y)) и t(G(y)) никак не зависят от порядка самих слов. По-видимому, t(F(y)) и t(G(y)) характеризуют последовательности морфем в словоформах русского языка, но, конечно, совсем не учитывают синтаксисическую информацию (на основе последней пытались устанавливать авторство в).

Обычно ни для одного из естественно-языковых текстов гипотеза о том, что он является реализацией соответствующей цепи А.А. Маркова, не выдерживает статистической проверки. Между тем, мы можем формально произвести все вычисления и найти оценку (2.1). Статистический эксперимент показывает, что авторы определяются очень уверенно.

Анализ частот употреблений букв (схема Бернулли)

Схемой Бернулли в теории вероятностей называется последовательность независимых одинаково распределенных случайных величин. Формально мы можем предположить, что последовательности f_i,j и x являются реализациями последовательности независимых одинаково распределенных случайных величин, принимающих значения в A, а x распределен как величины класса , где  - неизвестный параметр. Тогда оценка (2.1) принимает вид

e(x) = argmin_i G_i(x), (2.2)

где

G_i(x) =  k _k ln((_k×h_i)/(hi,k×)),

где сумма вычисляется по таким k, что _k > 0, а  = _k_k, h_i = _k h_i,k и. Грубо говоря, производя оценку (x) мы производим частотный анализ текста. Статистический эксперимент показывает, что оценка e(x) существенно хуже оценки t(x).

Модельный эксперимент

Сначала проведем проверку нашей методики на следующем примере. Рассмотрим следующие произведения К. Булычева, А. Волкова, Н.В. Гоголя и В. Набокова.

Мы хотим проверить эффективность оценки t(F(y)). Предлагается следующий способ: выбрать каждого автора i (i = 0,1,2,3) по одному контрольному произведению y i, оценить матрицы ⁱ по другим произведениям f_i,j, а затем найти t(F(yⁱ)). Если оценка работает хорошо, то для каждого автора i должно быть t(F(yⁱ)) = i.

0) К. Булычев: Умение кидать мяч ( y⁰); Белое платье золушки (g_0,1); Великий дух и беглецы (g_0,2); Глубокоуважаемый микроб (g_0,3); Закон для дракона (g_0,4); Любимец [Спонсоры] (g_0,5); Марсианское зелье (g_0,6); Миниатюры (g_0,7); "Можно попросить Нину?" (g_0,8); На днях землетрясение в Лигоне (g_0,9); Перевал (g_0,10); Показания Оли Н. (g_0,11); Поминальник XX века (g_0,12); Раскопки курганов в долине Репеделкинок (g_0,13); Тринадцать лет пути (g_0,14); Смерть этажом ниже (g_0,15);

1) А. Волков: Семь подземных королей ( y¹); Волшебник изумрудного города (g_1,1); Урфин Джюс и его деревянные солдаты (g_1,2); Огненный бог Марранов (g_1,3); Гениальный пень (g_1,4); На войне, как на войне (g_1,5); О чем молчали газеты... (g_1,6); Преступление и наказание (g_1,7); Эпилог (g_1,8); Желтый Туман (g_1,9); Тайна заброшенного замка (g_1,10);

2) Н.В. Гоголь: Рассказы и повести (y², названия повестей: "Повесть о том, как поссорился Иван Иванович с Иваном Никифоровичем", "Старосветские помещики", "Вий", "Записки сумасшедшего"); Ревизор (g_2,1); Тарас Бульба (g_2,2); Вечера на хуторе близ Диканьки (g_2,3);

3) В. Набоков: Другие берега (y3); Король, дама, валет (g_3,1); Лолита (g_3,2); Машенька (g_3,3); Рассказы (g_3,4); Незавершенный роман (g_3,5).

Например, у А. Волкова контрольным произведением является y¹, т.е. "Семь подземных королей" Все остальные произведения используются для вычисления ⁱ. Результаты вычислений представляются следующей таблицей.

Таблица 1

N	Автор	c₁	c₂	c₃	c₄
0	К. Булычев	0	15	2345689	75161
1	А. Волков	0	8	1733165	233418
2	Н.В. Гоголь	0	3	723812	243767
3	В. Набоков	0	5	1658626	367179

Столбец c₂ содержит общее число файлов, в которых хранятся произведения автора. Заметим, что число файлов может не совпадать с числом произведений по двум причинам: во-первых, несколько произведений одного автора могут находится в одном файле (здесь такое произошло с А. Волковым - три повести "Желтый Туман", "Тайна заброшенного замка" и "Огненный бог Марранов" были в одном файле); во-вторых, одно большое произведение может разбиваться на несколько частей (последнее необходимо учитывать при изучении таблицы 2).

В колонке c₃ содержится суммарное число символов (букв и пробелов) в F(g_i,j): c₃ = _j F(g_i,j). В колонке c₄ содержится число символов в F(yⁱ), т.е. c4 = F( yⁱ). Например, для К. Булычева общий объем текстов _jF(g_0,j) составляет 2'345'689. Общий объем F(y¹), т.е. число символов A в повести "Умение кидать мяч", выбранной в качестве контрольного текста, равно 75'161.

В столбце c₁ в строке j находится ранг числа L_j(F( y^j)) среди чисел {L_i(F( y^j))  i = 0,1,2,3}. Под рангом мы подразумеваем номер L_j(F(y^j)) среди чисел {L_i(F( y^j))  i = 0,1,2,3}, расположенных в порядке невозрастания. Например, если j = 1 и L_i расположились в порядке L₀  L₃  L₂  L₁, то рангом L₁ будет 3. А если j = 0 и L_i расположились в том же порядке L₀  L₃  L₂  L₁, то рангом L₀ будет 0. Ранг L_j(F(y^j)), среди чисел {L_i(F( y^j)  i = 0,1,2,3} совпадает с рангом L_j(F(y^j))/F(y^j), среди чисел {L_i(F(y^j))/F(y^j) | i = 0,1,2,3}. Расположим в строках j = 0,1,2,3 следующей матрицы по 4 числа L_i(F( y^j))/F( y^j), i = 0,1,2,3:

В каждой строке найдем ранги чисел L_i:

ö÷÷÷÷ø

Искомые числа столбца c₁ стоят на диагонали. Вспоминая формулу (2.1), мы заключаем, что t(F( y^j)) = j тогда и только тогда, когда ранг L_j(F(y^j))/F( y^j) среди чисел {L_i(F( y^j))/F( y^j) i = 0,1,2,3} просто равен 0. Следовательно, если в какой-либо строке в столбце c1 таблицы 1 стоит 0, то авторство контрольного текста определено правильно. Из таблицы 1 мы видим, что у всех писателей авторство определено верно.

Прежде, чем обсудить этот результат, поясним, почему столбец c1 задан таким образом. Дело в том, что если авторство определено неверно (т.е., оказалось t(F(y^j))  j), то нас может интересовать, насколько мы были близки к правильному ответу. Если ранг L_j(F(y^j))/F( y^j) среди чисел {L_i(F( y^j))/F( y^j) i = 0,1,2,3} равен 1, то мы ошиблись всего на одного писателя. Такой случай существенно лучше случая ранга L_j(F( y^j))/F( y^j) равного 3, поскольку тут правильный писатель оказывается в списке претендентов на его собственное произведение последним, что свидетельствует о большей ошибке.

Кроме того, матрица R сама по себе допускает интересные интерпретации. Например, из первой строки мы видим, что контрольное произведение К. Булычева "Умение кидать мяч" после самого К. Булычева больше походит на В. Набокова, затем на Н. Гоголя, и в последнюю очередь на произведения А. Волкова. Из последующих двух строк можно сделать вывод, что контрольные произведения А. Волкова и Н. Гоголя также в первую очередь походят на произведения В. Набокова. Может быть, это вызвано тем, что сам Набоков исторически находится между Н. Гоголем и парой писателей: А. Волковым и К. Булычевым? Если эта гипотеза верна, то наша метод чувствителен к исторической эпохе, в которую создано произведение. Некоторое подтверждение тому мы находим в последней строке матрицы R: контрольное произведение В. Набокова похоже в первую очередь на пару А. Волкова и К. Булычева, и лишь затем - на Н. Гоголя. Если бы пара А. Волкова и К. Булычева разбивалась Н. Гоголем. то мы имели бы аргумент против нашей гипотезы. Впрочем, возможны другие интерпретации матрицы R, и автор нисколько не настаивает на выше приведенной.