2011 Борис Григорьевич Миркин Профессор, Кафедра анализа данных и искусственного интеллекта опми ниу вшэ, Москва, РФ (стр. 3 из 13)

Логическое отношение следования соответствует теоретико-множественному включению (Рис. 1).

Рис. 1: Иллюстрация некоторых логических отношений в терминах подмножеств.

Понятие ассоциации, одно из основных в разработке данных, соответствует «интересной» продукции АÞБ: как (а) множество О(А) достаточно велико, так и (б) множество О(АÙБ)=О(А) Ç О(Б) достаточно велико, т.е. составляет значительную долю от О(А). Вычислительно эти свойства обеспечиваются пороговыми значениями, например, чтобы О(А) составляло не менее 30% от всей выборки (условие (а)), а О(АÙБ) – не менее 90% от объема О(А) (условие (б)). Условие (б) обеспечивает факт импликации (логического следования), а условие (а) – ее интересности, с точностью до заранее фиксированных пороговых значений. Будучи применен к анализу данных о транзакциях (индивидуальных покупках) в цепи американских супермагазинов «Хоум Депо (Всё для дома)» в середине 90х, перебор всех «интересных» продукций привел к успеху – одна из существенных глав в любом учебнике по разработке данных (дата майнинг).

Проблемы –

(аа) определение пороговых значений для экспликации двух «достаточно больших величин и

(бб) слишком много «интересных» импликаций, зачастую значительно больше по объёму, чем исходные данные.

Вероятно, поэтому задача получения нетривиальных силлогизмов не очень пока рассматри-вается в анализе данных, кроме, пожалуй, российского исследователя Чеснокова С.В. , который, впрочем, тоже был занят в основном импликациями (Детерминационный анализ), да и далек от основных научных сообществ.

Я вижу ещё одну проблему с силлогистикой:

(вв) при вычислениях типы множеств не различаются.

Например, базовый силлогизм про Кая, который смертен, потому что тоже человек.

«Кай – человек» - это индивидуальное суждение или одно-элементное множество?

Математика заплатила большим, третьим (первый – открытие, что не все числа рациональны; второй – открытие, что среди корней уравнений с целочисленными коэффициентами могут быть комплексные числа), кризисом около 100 лет назад. Оказалось, что понятие «множества» как совокупности объектов, объединенных каким-либо признаком, приводит к парадоксу – одновременно истинны как некое утверждение, так и его отрицание. Б. Рассел сформулировал это как историю о Севильском цирюльнике, который бреет всех тех и только тех жителей Севильи, которые не бреются сами: может ли он побриться сам? (с одной стороны, не может, но тогда – обязан!) В терминах множеств: рассмотрим «множество всех абстрактных понятий» Ф. Очевидно, это множество само – абстрактное понятие, т.е. ФÎФ. Рассмотрим теперь множество Г всех таких множеств, которые не являются своими элементами. Можно ли утверждать, что ГÏГ? Если нет, то Г удовлетворяет определению и, значит, ГÎ Г – парадокс! Чем опасен этот парадокс – тем, что позволяет, в вычислительном плане, вывести любые утверждения; как известно, в математической логике импликация А Þ Б всегда верна, если А ложно.

Современные объектно-ориентированные языки такие как Джава или Си++ широко используют принадлежность (через наследование классов), и, вероятно, от подобного парадокса избавлены – через понятие instance – конкретного экземпляра объекта.

(в) Классификация – это понятие после Аристотеля практически не развивалось (и накопило много повседневных смыслов – вспомните американские classifieds в газетах и classified files в офисах), а между тем, для меня оно одно из главных, по крайней мере, с позиций разработки искусственного интеллекта. Я формулирую это так: «Понятие классификации для описания интеллектуальных систем так же важно, как понятие функции для описания физических систем. Только в классификации пока ещё не нашлось своих Ньютона и Лейбница.» Остановлюсь на этом подробнее.

Аристотель рассматривал классификации, которые обычно называют таксономиями, такие, например, как универсальная библиотечная классификация.

Согласно Порфирию (133 г. после р.Х.), Аристотель рассматривал 5 основополагающих понятий (Predicables) в учении о классификации:

Genus: a set of species (Род - множество видов).

Species: an element of a genus (Вид – элемент рода).

Difference: an attribute added to the genus name to specify a species (Атрибут – признак, выделяющий вид из рода).

Property: a species modality which is characteristic to the genus, although not involved in the genus definition (Свойство –характеристика видов, одинаковая для всех видов данного рода, но не использованная в определении рода).

Accident: a species attribute, modalities of which differ for different species (Признак вида, который .может различаться на разных видах).

Эти понятия хорошо работают в таксономиях. Таксономия – это классификация реально сушествующих вешей, такая как Линнеевская классификация флоры и фауны (растений и животных) – крупные деления по произвольным единицам строения (позвоночные, насекомые и пр.), а мелкие деления (на уровне семейства и вида) – по сходству на уровне совокупности признаков. Удобно представлять таксономию классификационным деревом (Карл Линней, 1707--1778). Подобные классификации делают для многих областей науки (например, ACM Classification of Computer Subjects 1998 или классификации протеиновых структур такие как CATH и SCOP) и техники (в основном для стандартизации продукции). В терминах такой классификации, род – это одна из внутренних вершин дерева, виды – её дети, атрибут – основание деления рода на виды, свойства – признаки, одинаковые для всех видов – детей, а признаки – обычные характеристики, по которым виды могут сравниваться. Работающая таксономия содержит четыре компонента:

(1) иерархическая, обычно дерево-образная организация элементов рассматриваемого множества, листьями которой являются сами элементы, а внутренние вершины – таксоны – соответствуют классам элементов в под-дереве, корнем которого является таксон;

(2) описание таксонов;

(3) номенклатура – список названий всех таксонов;

(4) идентификационный ключ – правило, позволяющее найти местоположение в таксономии любого ее элемента.

До последнего времени эта схема оставалась неизменной – а что тут менять, когда все – роды, виды и их соотношение – определено данной областью знания? Не нравится классификация – развивай знание данного явления или процесса.

Но компьютеры вторгаются в области, где знаний мало, а данных много: Компания хочет оценить перспективные сегменты ранка для своего продукта. Разработчик сложного химического вещества хочет знать его свойства без проведения объемных испытаний. Международная организация хочет представить себе интегральную схему разработок в области нанотехнологии. Комплексный анализ функций нового вируса невозможен без включения его в эволюционное древо родственных вирусов. Эти ситуации порождают проблему построения надежных классификаций по эмпирической информации при отсутствии надежных теоретических представлений о явлении. Возникает необходимость выяснения роли, структуры и механизма действия классификации в подобных ситуациях. Возникаюшие вопросы касаются критериев классификации, роли отдельных переменных, интерпретации компьютерных решений и пр.

Развиваемые подходы – кластер-анализ (cluster analysis), решающие деревья (decision trees), теория умозаключений (knowledge base reasoning) и пр. основаны на очень поверхностных представлениях о классификации. Работ по существу вопроса – единицы.

Стоит упомянуть работу российских ученых Мейена и Шрейдера (1976), в которой сделан шаг к анализу двойственного к таксономии понятия архетипа. Архетип – это как бы скелет организма, в соответствии с которым организуются его свойства.

В моей книге (Mirkin 1996) обращено внимание на роль классификации в качестве связующего звена между разными аспектами явлений:

- структурой и историей («корреляция» в геологии, соответствие между порядком пластов и временем их отложения),

- структурой и функцией (периодическая таблица),

- структурой, историей и функцией (в биологической таксономии речь идет о структуре частей организма, их функциях, и эволюции организмов),

- структурой и функцией (тип личности) (форма ногтей – тип личности, например, «Короткие ногти – энергичный, любознательный, интуитивный», «Очень большие квадратные ногти – холодный и эгоистичный», и т.п., Bosanko, 1983),

- функцией, установкой (attitude – отношение?) и действием (в психологической теории «traits», тип характера определяет интересы и предпочтения (установки), а также выбор профессиональной деятельности и образа жизни, Brew 1987),

- структурой, установкой и действием (в социологии Маркса класс создает партию, которая приводит к революции).

Эти примеры показывают, что каждое реальное явление или процесс могут быть охарактеризованы триадой структура-история-функция, к которой в человеческих системах добавляются ещё два аспекта – (психологическая или политическая) установка и (физическое или политическое) действие. По-моему, интересно «навесить» эту структуру на какие-нибудь современные процессы. Подобного рода анализ выполнен в популярном учебнике M.G. Roskin, Countries and Concepts: Politics, Geography, Culture, Longman, 11^th Edition, 2010. Автор рассматривает основные страны мира, включая Россию в единообразной схеме: (1) вклад прошлого (в России – наибольшая страна мира, особенности славян, русская автократия, насильственная модернизация, войны и коммунизм), (2) ключевые институты (в России - сталинская модель, бюрократия, неизменность паттерна), (3) политические установки (В России - иллюзия общества, расизм, отсутствие культуры демократии), (4) модели взаимодействия, (5) дискуссии. Очевидна связь (1) – история, (2) – структура, (3) и (5) – установка, (2) и (4) – функция, и пр.