Смекни!
smekni.com

Удк 007. 5: 519. 216. 3 Опыт применения методов интеллектуального анализа данных в компаративистских и типологических исследованиях (стр. 1 из 2)

УДК 007.5:519.216.3

ОПЫТ ПРИМЕНЕНИЯ МЕТОДОВ ИНТЕЛЛЕКТУАЛЬНОГО АНАЛИЗА ДАННЫХ В КОМПАРАТИВИСТСКИХ И ТИПОЛОГИЧЕСКИХ ИССЛЕДОВАНИЯХ

(на материале созданной в ИЯ РАН БД “ЯЗЫКИ МИРА”)*

В.Н.Поляков 1, А.А.Савельев2, В.Д.Соловьев2

В работе описываются предварительные результаты анализа данных из Базы данных “Языки мира” с применением методов DataMining и пакета R. Обоснована адекватность применяемого аппарата для типологических и компаративистских исследований.

Введение

На протяжении многих лет в ИЯ РАН ведется разработка уникального информационного ресурса – БД «Языки Мира». Разработка концепции базы данных была начата практически одновременно с реализацией проекта по созданию энциклопедии «Языки мира», осуществляемого под руководством члена-корреспондента РАН В.Н.Ярцевой. В качестве основного средства формализации была разработана так называемая «модель реферата», представляющая собой универсальную схему описания языка, где языковые явления и категории представлены в жестко заданной форме. За время выполнения этого проекта было создано три версии программного обеспечения (для DOS, для Windows и для Web). При этом информационное содержание БД сохранило в целом первоначально заложенную концепцию.

В настоящее время работы над БД ведутся в рамках Российского научно-образовательного центра по лингвистике им. Бодуэна де Куртенэ при Казанском государственном университете. База данных размещена в Интернете по адресу: www.dblang.ru и доступна в тестовом режиме.

По состоянию на 26.03.06 БД «Языки Мира» характеризуется следующими количественными параметрами: количество языков: 315 языков Евразии, количество признаков: 3821, формат представления данных: бинарный, общий размер информационного пространства БД составляет свыше 1,2 млн. бинарных состояний.

Эта база данных является уникальной по объему и широте охвата языков. Как правило, типологические базы данных содержат описания языков по очень ограниченному списку параметров, относящихся к определенной сфере языка, часто даже по одному единственному параметру. Единственной, кроме нашей, базой данных, содержащей широкое описания языков является The World Atlas of Language Structures, созданная под руководством Бернара Комри (Лейпциг) и др. Однако и в ней языки описаны всего по 131 признаку.

В последующих разделах статьи будут описаны результаты первых статистических исследований, выполненных с использованием БД “Языки мира”.

1. Структура базы данных

БД содержит описание следующих языковым семьям и группам языков: Австронезийские – 1 яз., Алтайские - 74 яз., Аустроазиатские – 2 яз., Афразийские – 9 яз., Кавказские – 39 яз., Индоевропейские - 145 яз., Китайско-тибетские – 2 яз., Палеоазиатские –17 яз., Уральские – 15 яз., Хуррито-урартские – 2 яз., Эламодравидские – 1 яз., Языки-изоляты – 7 яз. (айнский, бурушаски, гуннов, нивхский, шумерский, юкагирский).

При кодировке признаков было принято следующее решение – использовать двоичную логику, либо язык обладает данным признаком, либо нет. Этот подход ориентирован на дальнейшие статистические исследования языков. Он радикально отличается от принятого в The World Atlas of Language Structures. Рассмотрим этот вопрос на примере падежей. The World Atlas of Language Structures содержит единственный признак, относящийся к падежам – ‘падежный синкретизм’. Под синкретизмом понимается возможность выражения одним падежом нескольких значений. По этому параметру любой язык может принять одно из следующих 4 значений: ‘нет падежей’, ‘только ядерные падежи’, ‘ядерные и неядерные падежи’, ‘нет синкретизма’. В нашей базе данных информация о падежах представлена в 103 признаках. Для каждого из существующих в языках мира падежей и возможных синкретических комбинаций введен отдельный параметр. Это хорошо характеризует степень подробности описания языков в нашей базе данных.

2. Первый этап статистических исследований

Одной из задач анализа всей совокупности языков является внешнее представление их взаимосвязей, основанное на наборах признаков. Наиболее распространенным методом такого сопоставления является вычисление некоторой меры сходства или различия. Результаты сопоставления, представленные в виде матриц сходства, в свою очередь служат исходными данными для выявления структуры, образуемой языками как объектами пространства признаков. Под структурой здесь понимается в первую очередь выявление и представление близости языков и наличие градиентов – постепенных переходов от одних языков к другим в пространстве признаков, которые могут содержать важную информацию для их сопоставительного анализа.

Интересно, что использование двоичных признаков для описания языков с точки зрения возникающих при этом задач имеет сходство с исследованием видового состава растительных сообществ с использованием флористических списков. В этом случае аналогом площадки описания является язык, а аналогом списка присутствующих видов – список имеющихся у него признаков. Для каждого языка доля присутствующих признаков составляет лишь небольшую часть от всей совокупности признаков, также как и доля видов растений, встретившихся на данной площадке, составляет лишь небольшую часть от всех возможных видов. Одним из авторов подобные методы активно применялись при анализе растительных сообществ [Савельев, 2004].

Существует аналогия между языками и описаниями растительных сообществ, а так же общие проблему с вычислением мер сходства: относительно небольшое количество признаков (со значением ‘true’) у каждого языка, разная степень информативности признаков, которая может быть обусловлена как их слишком большой распространенностью, так и уникальностью, разная степень подробности описания для различных языков, и т. д., которые создают дополнительные трудности при их сопоставлении. Кроме того, априорно неизвестно какую информацию несет каждый конкретный совпадающий признак в паре языков: информацию о непосредственном генетическом родстве этой пары, информацию о дальнем родстве (имеют общего родственника), или информацию о контактах между языками и заимствовании. Для преодоления этих трудностей были предложены различные меры сходства, в том числе ориентированные на использование именно двоичных признаков. Кроме того, для выявления и представления структуры объектов в пространстве признаков здесь разработаны и используются различные методы ординации, т.е. представления объектов в пространстве низкой размерности, обычно на плоскости.

Табл.1.

2 ВЕНГЕРСКИЙ 26 МОНГОРСКИЙ
3 ФИНСКИЙ 27 ЭСТОНСКИЙ
4 АССАМСКИЙ 28 МАКЕДОНСКИЙ
5 ДАРИ 29 НЕМЕЦКИЙ
6 ИТЕЛЬМЕНСКИЙ 30 БЕНГАЛЬСКИЙ
7 ПОРТУГАЛЬСКИЙ 31 РУМЫНСКИЙ
8 ГРУЗИНСКИЙ 32 ЛЕЗГИНСКИЙ
9 БУРУШАСКИ 33 РУССКИЙ
10 АККАДСКИЙ 34 КОРЯКСКИЙ
11 НОРВЕЖСКИЙ 35 ПЕРСИДСКИЙ
12 АНГЛИЙСКИЙ 36 ТАДЖИКСКИЙ
13 ИСЛАНДСКИЙ 37 ЧУКОТСКИЙ
14 БУРЯТСКИЙ 38 ТУРКМЕНСКИЙ
15 АЗЕРБАЙДЖАНСКИЙ 39 ТАТАРСКИЙ
16 ВЕПССКИЙ 40 ИСПАНСКИЙ
17 ХАНТЫЙСКИЙ 41 ИТАЛЬЯНСКИЙ
18 ТУРЕЦКИЙ 42 ГАЛИСИЙСКИЙ
19 БИРМАНСКИЙ 43 АБХАЗСКИЙ
20 АРМЯНСКИЙ 44 БЕЛОРУССКИЙ
21 БАГВАЛИНСКИЙ 45 БОЛГАРСКИЙ
22 АГУЛЬСКИЙ 46 ДАТСКИЙ
23 МОГОЛЬСКИЙ 47 НИВХСКИЙ
24 КАЛМЫЦКИЙ 48 ШУГНАНСКИЙ
25 БАШКИРСКИЙ 49 ПОЛЬСКИЙ

Наиболее известным способом ординации, основанным на использовании матрицы расстояний, является неметрическое многомерное шкалирование, отображающее объекты в пространство низкой размерности таким образом, что в нем Евклидовы расстояния между образами объектов пропорциональны расстояниям в исходной матрице. Это позволяет представить на плоскость «взаимоположение» объектов. Такие методы ординации основаны на вычислительных процедурах линейной алгебры, и известны достаточно давно. Кроме использования расстояний, существуют и другие методы ординации, объединяемые общим названием анализ соответствия, и позволяющие анализировать таблицы признаков с большим количеством нулей. Кроме представления структуры самих объектов, такой анализ позволяет выявлять структуру признаков и связь признаков с объектами [Legendre, 1998].

На первом этапе было отобрано 48 языков, таб.1. По техническим причинам нумерация, используемая на последующих рисунках, начата с № 2. Для них были рассчитаны расстояния, выполнена ординация и рассчитаны ошибки ординации. Все вычисления осуществлялись с помощью профессионального статистического пакета R [R, 2006], являющего, фактически, международным стандартом для проведения статистических исследований.

Рис.1. Пример ординации

Для оценки качества полученной ординации, т.е. соответствия расстояний в матрице и Евклидовых расстояний на ординационной плоскости, используются как методы визуализации, так и численные

Рис.2. График Шепарда для ординации рисунка 1

характеристики. Наиболее распространенной численной характеристикой является STRESS, вычисляемая по формуле:

, где суммирование ведется по всем парам
объектов,
есть исходная мера различия (расстояние) между i-м и j-м объектами (языками), а
- Евклидово расстояние между i-м и j-м объектами на ординационной плоскости. Результаты вычисления STRESS для различных методов вычисления расстояния показали, что ни один из методов вычисления расстояний не дает существенно лучших результатов. В нижеследующей таблице для каждого метода слева указывается его STRESS. Рассматривались различные метрики - включенные в систему R (начиная с manhattan) и предложенные авторами статьи.