Для визуальной оценки качества ординации используется график Шепарда, в котором по горизонтали откладывается расстояние в исходноей матрице, а по вертикали – монотонная регрессия на него Евклидовых расстояний на ординационной плоскости. Если все точки лежат на ломаной, представляющей монотонную (неубывающую) регрессию, то ординаци сохранияет отношение «не больше» для расстояний: если
, то и .Табл.2
Additiv-all-all-all | 18,0 | horn | 14,3 |
Additiv-all-True-all | 20,3 | mountford | 20,0 |
Additiv-Fact-all-all | 19,4 | jaccard | 14,3 |
Additiv-Fact-True-all | 22,6 | Binomial | 20,1 |
Additiv-Klass-all-All | 19,7 | morisita | 36,2 |
Additiv-Klass-False-All | 24,2 | raup | 36,2 |
Additiv-Klass-True-All | 18,5 | bray | 14,3 |
manhattan | 20,3 | euclidean | 19,8 |
kulczynski | 18,2 | canberra | 14,3 |
gower | 19,8 |
Для содержательной оценки полученных ординаций предложен следующий подход. Языки, относящиеся к одной близкородственной группе языков (в данной выборке это славянские, германские, романские, иранские, тюркские, монгольские, уральские, северокавказские, палеоазиатские) должны располагаться на ординационной плоскости компактно. По этому критерию наилучшие результаты дает мера близости Additive-Fact-all-all. На рисунке 1 как раз и представлена ординация по этой мере.
Можно обратить внимание на следующие явно выделяющиеся данные на рис.1. На периферии оказались следующие языки: №19 – бирманский язык - принадлежит далеко отстоящему семейству языков (сино-тибетских), №47 – нивхский язык – изолят, его происхождение не известно, №46 – датский язык, как оказалось, его описание содержит ошибки (это, в частности указывает на одно из возможных применений данного метода – поиск ошибок), №33 – русский язык оказался описан слишком подробно – “переописан”.
Другим методом, совмещающим кластеризацию и ординацию, является использование непараметрических методов, относящихся к так называемым топографическим отображениям, и основанным на самоорганизации. Сюда относятся нейронные сети Кохонена (саморганизующиеся карты свойств), совмещающие классификацию методом к-средних с ординацией на плоскости [Kohonen, 1997], и генеративные топографические отображения, совмещающие нечеткую классификацию на основе Гауссовых смесей распределений с отображением классов в подпространство низкой размерности (например, на плоскость) [Bishop, 1998].
В результате применения метода нейронных сетей Кохонена с использованием всех признаков и Евклидового расстояния, был получен результат самоорганизации, представленный на рисунке 3. Для обучения использовалась нейронная сеть Кохонена SOM, топологически организованная в виде прямоугольной решетки из 7х7=49 классов. Для более полного представления о структуре классов при выводе использовалось отображение Сэммона центров классов, кроме того, вместо топологического соседства на рисунке показано минимальное остовое дерево классов. Отсутствие «перекрещиваний» в отображении Сэммона для минимального остового дерева интерпретируется как результат хорошей ординации, т.е. положения классов на ординационной плоскости соответствуют расстояниям в пространстве признаков.
Рис.3. Кластеризация языков нейронной сетью Кохонена
Размеры классов показывают результаты калибровки полученной ординации с использованием 48 выделенных языков (калибровка осуществляется классификацией языков методом ближайшего соседа). Размер символа класса пропорционален числу отнесенных к нему языков; классы, к которым не отнесен ни один язык, показаны черными точками.
Нейронная сеть правильно объединила уральские языки (34 класс), алтайские (близкорасположенные классы 40 и 41), имеется хорошая корреляция германских языков с классом 49 и некоторые другие. В то же время ряд решений, например, помещение лезгинского языка в одну группу с германскими явно ошибочно. Требуется дальнейшая работа по настройке сети.
3. Заключение
Создание базы данных “Языки мира” позволяет применить к лингвистическим задачам совершенно новый класс методов – многомерное шкалирование, кластеризация, в том числе, с использованием нейронных сетей и др. Анализ результатов первых статистических исследований показывает, что, в целом, они хорошо улавливают близость языков. Наилучшие результаты получаются при применении ординации методом нелинейного многомерного шкалирования.
Данные методы могут быть использованы в компаративистских и типологических исследованиях, в частности, для уточнения генетической близости языков. Требуются дальнейшие исследования по тонкой калибровке применяемых методов.
Список литературы
[Савельев, 2004] Савельев А.А. Моделирование пространственной структуры растительного покрова (геоинфомационный подход) / Казань: Казанский государственный университет, 2004.-247с.
[Bishop, 1998] Bishop C.M. GTM: the Generative Topographic Mapping / C.M.Bishop, M. Svensen, C.K.I.Williams // Neural Computation. - 1998. - №10 (1). - P.215-234.
[Kohonen, 1997] Kohonen T. Self-organization and Associative Memory / T. Kohonen. - New York: Springer-Verlag, 1997, 428 p.
[Legendre, 1998] Legendre L. Numerical ecology / L.Legendre, P.Legendre. - Amsterdam: Elsevier Science, 1998. - 853 p.
[R, 2006] R Development Core Team (2006). R: A language and environment for statistical computing. R Foundation for Statistical Computing, Vienna, Austria. ISBN 3-900051-07-0, URL http://www.R-project.org.
* Работа выполнена при финансовой поддержке Минобрнауки РФ (госконтракт № 02.438.11.7015)
1 125009, г. Москва, Б. Кисловский пер., д. 1/12, стр. 1, polyakovvn@misis.ru
2 420008, Казань, ул. Кремлевская, д.18, КГУ, solovyev@mi.ru