Смекни!
smekni.com

Схема Бернулли. Цепи Маркова (стр. 9 из 11)

Можно интересоваться зависимостью матрицы R от

а) числа и объема текстов обучающих выборок;

б) однородности по жанру;

в) однородности по тематике;

г) длины контрольного текста;

д) единицы анализа (на уровне букв, слов и предложений)

и многих других параметров. Ниже мы приводим информацию относительно пункта а). Вкратце вывод таков: методика работает удовлетворительно (то есть, на диагонали матрицы R в основном стоят 0) при объеме обучающей выборки свыше 100 тысяч символов ASCII, и объеме контрольного текста свыше 100 тысяч символов ASCII.

Вернемся к обсуждению таблицы 1. Поскольку в столбце c1 все числа равны 0, авторство всех контрольных произведений определено верно. Результат тем более неожиданный, что мы использовали столь примитивную информацию о тексте, как частоты употребления пар букв. На самом деле простейший компьютерный эксперимент (результаты которого здесь не приведены) показал, что при небольшом числе подозреваемых писателей (меньше шести) даже оценка (2.2), основанная всего лишь на подсчете частот употребления букв, дает очень хорошие результаты. В следующем разделе описан значительно более объемный статистический эксперимент. Из него становится ясно, что методика устойчиво работает на очень большом числе авторов.

Результаты более объемного вычислительного эксперимента

В электронной библиотеке "Самые любимые книжки" нашлось n = 82 различных автора, которые творили в XIX-XX веках. Количество произведений разных авторов колебалось от 1 до 30 (например, у Аркадия и Бориса Стругацких). У немногих авторов, у которых нашлось лишь одно произведение (например, у Бориса Стругацкого), оно было поделено на две части, одна из которых использовалась в качестве контрольного текста. При отборе произведений учитывался объем: выбирались авторы, суммарный объем произведений которых превышал 100000 символов ASCII. Общее число произведений (романов, повестей, рассказов и т.п.) превысило 1000. Они были представлены в 386 файлах. Общий объем данных составил 128×106 символов ASCII.

Для каждого автора мы составили список gi,j текстов, из которых были получены оценки i, и оставили один текст yi, подлежащий распознаванию и не используемый при оценке i. Следуя схеме, описанной в предыдущем разделе, мы провели эксперименты для проверки качества оценок t(F(·)), t(G(·)), e(F(·)), e(G(·)) на этих 82 писателях. Для экономии места мы приведем лишь таблицу, отображающую информацию об эффективности оценки t(G(·)). Эта таблица составлялась подобно таблице 1. Ради экономии места соответствующие таблицы L и R не приведены.

Таблица 2

N Автор c1 c2 c3 c4
0 К. Булычев 0 15 2007724 64741
1 О. Авраменко 0 6 1733113 223718
2 А. Больных 0 6 1294721 373611
3 А. Волков 0 8 1478932 202495
4 Г. Глазов 0 5 1398323 184593
5 М. и С. Дяченко 0 5 1754213 197039
6 А. Етоев 0 5 267096 80358
7 А. Кабаков 0 4 905502 222278
8 В. Каплан 0 6 515029 129608
9 С. Казменко 3 4 1846161 156768
10 В. Климов 0 3 250231 179903
11 И. Крашевский 0 2 1183722 481795
12 И. Кублицкая 0 1 282377 170469
13 Л. Кудрявцев 1 3 583239 179093
14 А. Курков 0 6 628041 218726
15 Ю. Латынина 10 2 2628781 283565
16 А. Лазаревич 46 3 310553 94629
17 А. Лазарчук 0 5 2395669 210151
18 С. Лем 0 7 1568013 343519
19 Н. Леонов 0 2 568854 279377
20 С. Логинов 14 13 1998543 159247
21 Е. Лукин 0 4 602216 125694
22 В. Черняк 0 2 920056 201636
23 А.П. Чехов 0 2 662801 343694
24 И. Хмелевская 0 4 1524905 203684
25 Л. и Е. Лукины 0 3 837198 122999
26 С. Лукьяненко 0 14 3682298 483503
27 Н. Маркина 0 1 266297 93647
28 М. Наумова 0 3 306514 337821
29 С. Павлов 0 2 751836 453448
30 Б. Райнов 0 4 1405994 420256
31 Н. Рерих 0 3 1011285 211047
32 Н. Романецкий 2 6 1305096 117147
33 А. Ромашов 0 1 88434 87744
34 В. Рыбаков 0 6 715406 121497
35 К. Серафимов 0 1 186424 75276
36 И. Сергиевская 0 1 109118 50786
37 С. Щеглов 10 2 253732 55188
38 А. Щеголев 0 2 848730 105577
39 В. Шинкарев 29 2 156667 80405
40 К. Ситников 0 7 419872 109116
41 С. Снегов 0 2 824423 408984
42 А. Степанов 0 5 1223980 93707
43 А. Столяров 11 1 350053 137135
44 Р. Светлов 0 2 454638 268472
45 А. Свиридов 63 3 660413 235439
46 Е. Тильман 0 2 705352 464685
47 Д. Трускиновская 0 8 2005238 118351
48 А. Тюрин 0 18 4109050 110237
49 В. Югов 0 5 829209 66657
50 А. Молчанов 0 1 398487 206541
51 Ф.М. Достоевский 1 3 613825 88582
52 Н.В. Гоголь 0 3 638339 215540
53 Д. Хармс 0 2 199449 114889
54 А. Житинский 0 2 2137325 543037
55 Е. Хаецкая 2 2 723167 204091
56 В. Хлумов 0 3 788562 183358
57 В. Кунин 0 3 1335918 296463
58 А. Мелихов 0 1 615548 458086
59 В. Набоков 0 5 1522633 342774
60 Ю. Никитин 0 2 1342176 702383
61 В. Сегаль 0 2 320218 75917
62 В. Ян 0 1 507502 600636
63 А. Толстой 0 1 129664 97842
64 И. Ефремов 0 1 536604 256521
65 Е. Федоров 0 1 1120665 221388
66 О. Гриневский 0 1 158762 96085
67 Н. Гумилев 0 1 70181 71042
68 Л.Н. Толстой 0 1 1225242 199903
69 В. Михайлов 0 1 254464 84135
70 Ю. Нестеренко 0 1 352988 71075
71 А.С. Пушкин 0 1 170380 57143
72 Л. Резник 0 1 115925 79628
73 М.Е. Салтыков-Щедрин 0 1 239289 101845
74 В. Шукшин 0 1 309524 66756
75 С. М. Соловьев 0 1 2345807 160002
76 А. Кац 0 1 841898 81830
77 Е. Козловский 1 1 849038 889560
78 С. Есенин 0 1 219208 44855
79 А. Стругацкий 0 1 151246 51930
80 А. и Б. Стругацкие 0 29 6571689 345582
81 Б. Стругацкий 0 1 298832 261206

Первый вывод из данных этой таблицы состоит в том, что количество правильных ответов (нулей в колонке c1) очень велико - 69. Истинный автор произведения оказывается на втором месте в списке претендентов всего в трех случаях (в колонке c1 стоит 1): Л. Кудрявцев, Ф.М. Достоевский и Е. Козловский. На третьем месте (c1 = 2) - в двух случаях: Н. Романецкий и Е. Хаецкая. На четвертом месте оказывается лишь один автор (c1 = 3) - С. Казменко. Для остальных 7 авторов ошибка очень велика (Ю. Латынина, А. Лазаревич, С. Логинов, С. Щеглов, В. Шинкарев, А. Столяров, А. Свиридов). Они не оказываются даже в десятке претендентов на их собственные произведения.

Мерой неточности оценки t(G(·)) может служить средний ранг, равный сумме чисел в колонке c1, деленной на общее число писателей 82. Здесь средний ранг равен

2.35  (3×1+2×2+1×3+2×10+1×11+1×14+1×29+1×46+1×63) / 82

Все эти числа приведены в таблице 3 в колонке t(G(·)). Если выбросить семерых плохо определяемых авторов, средний ранг окажется равным

0.13  2/15 = (3×1+2×2+1×3) / 75.

Второй вывод из данных таблицы 2 состоит в том, что метод работает и на стихотворных произведениях (А.С. Пушкина, С. Есенина и Н. Гумилева). В-третьих, правильно определяются писатели, чьи произведения переводились с польского языка (С. Лем и И. Хмелевская). В-четвертых, среди плохо распознаваемых авторов нет общепризнанных классиков русской литературы.

Для сравнения, в следующей таблице приведены результаты аналогичного исследования с оценками t(F(x)), e(F(x)), e(G(x)) на тех же текстах.