Смекни!
smekni.com

Вступ до аналізу асоціативних правил (стр. 2 из 4)

Достовірністю правила називається ймовірність того, що саме з

випливає
. Правило
має достовірність (confidence):

,

що показує, який відсоток з усіх транзакцій

, що містить
, також містить і
.

.

Отже, підтримка правила

рівна 50% (50% зі всіх транзакцій містять і «Кокоси», і «Воду»), а достовірність цього правила рівна 66.7% (66.7% зі всіх транзакцій, що містять «Кокоси», також містять і «Воду»).

Іншими словами, метою аналізу є встановлення наступних залежностей: якщо в транзакції зустрівся деякий набір елементів

, то на підставі цього можна зробити висновок про те, що інший набір елементів
також повинен з'явитися в цій транзакції. Алгоритми пошуку асоціативних правил призначені для знаходження всіх правил
, причому підтримка і достовірність цих правил повинні бути вищими за деякі наперед задані пороги, що називаються відповідно мінімальною підтримкою (
) та мінімальною достовірністю (
).

Деякі видозміни асоціативних правил

Узагальнені асоціативні правила (Generalized Association Rules)

При пошуку асоціативних правил вище припускалось, що всі аналізовані елементи є однорідними. Проте, повертаючись до аналізу ринкової корзини, не складе великих труднощів доповнити транзакцію інформацією про те, до якої товарної групи входить товар і побудувати ієрархію товарів. Приведемо приклад такого групування (таксономії) у вигляді ієрархічної моделі.

Нехай дана база транзакцій та відомо, в які групи (таксони) входять елементи. Тоді з даних можна одержувати правила, що пов'язують групи з групами, окремі елементи з групами і т.д. Наприклад, якщо покупець купив товар з групи «Безалкогольні напої», то він купить і товар з групи «Молочні продукти»: правило

. Ці правила носять назву узагальнених асоціативних правил.

Введення додаткової інформації про угрупування елементів у вигляді ієрархії має свої переваги, зокрема, допомагає встановити асоціативні правила не тільки між окремими елементами, але й між різними рівнями ієрархії (групами). Проте з додаванням до транзакції понять груп збільшується кількість атрибутів і, відповідно, розмірність вхідного простору. Це ускладнює завдання, а також призводить до генерації більшої кількості правил. Для знаходження узагальнених асоціативних правил бажано використання спеціалізованого алгоритму, який усуває вищеописані проблеми.

Групувати елементи можна не тільки по входу до певної товарної групи, але й за іншими характеристиками, наприклад за ціною (дешево, дорого), брендом і т.д.

Чисельні асоціативні правила (Quantitative Association Rules)

При пошуку асоціативних правил все зводилося до того, чи присутній в транзакції елемент чи ні. Тобто, якщо розглядати випадок ринкової корзини, то розглядаємо два стани: куплено товар чи ні. При цьому ігнорується, наприклад, інформація про те, скільки чого було куплено, хто саме купив, тощо. Тобто було розглянуто "булеві" асоціативні правила. Проте можна аналізувати дані різних типів: числові, категоріальні і т.д.

Приклад чисельного асоціативного правила:

Якщо «[Вік: 30-35]» і «[Сімейний стан: одружений]», то «[Місячний дохід: 1000-1500 гривень]».

Ознайомлення з аналітичною платформою Deductor

Deductor Studio – аналітичне ядро платформи Deductor, що містить повний набір механізмів імпорту, обробки, візуалізації й експорту даних для швидкого й ефективного аналізу інформації. У ньому зосереджені найсучасніші методи видобутку, очищення, маніпулювання та візуалізації даних, а також доступні методи моделювання, прогнозування, кластеризації, пошуку закономірностей та багато інших технологій видобутку знань (Knowledge Discovery in Databases) і видобутку даних (Data Mining).

В Deductor Studio включений повний набір механізмів, що дозволяє одержати інформацію з будь-якого джерела даних, провести весь цикл обробки (очищення, трансформацію даних, побудову моделей), відобразити одержані результати у найбільш зручний спосіб (OLAP, таблиці, діаграми, дерева рішень...) і експортувати результати.

Вся робота з аналізу даних в Deductor Studio базується на виконанні наступних дій:

-

Імпорт даних;

-

Ообробка даних;

-

Візуалізація;

-

Експорт даних.

Відправною точкою для аналізу завжди є процедура імпорту даних. Одержаний набір даних може бути опрацьований будь-яким доступним способом. Результатом опрацювання також є набір даних, що може опрацьовуватись при потребі і далі. Результати опрацювання можна звізуалізувати різними способами та експортувати в найбільш популярні формати. Послідовність дій, які проводяться при аналізі даних, називаються сценарієм, який можна автоматично виконувати на будь-яких даних.

Deductor Studio підтримує багато різних джерел даних: промислові СУБД (Oracle, MS SQL...), текстові файли, офісні ужитки (Excel, Access), ADO і ODBC джерела. Очевидно, що Deductor Studio є також повністю інтегрований з багатомірним сховищем даних Deductor Warehouse.

Під обробкою чи опрацюванням даних мається на увазі будь-яка дія, пов'язана із перетворенням даних, наприклад, побудова моделей, очищення від шумів чи аномальних значень. При цьому механізми обробки можна комбінувати довільним чином так, щоб досягти найкращого результату.

Візуалізація – це відображення імпортованих та опрацьованих даних. Візуалізувати можна будь-який об'єкт у сценарії обробки. Програма самостійно аналізує, яким чином можна відобразити інформацію, а користувач повинен лише вибрати потрібний варіант.

Майстер імпорту даних

Майстер імпорту допоможе в інтерактивному покроковому режимі вибрати тип джерела даних і налаштувати відповідні параметри. На першому кроці відкривається список всіх передбачених у системі типів джерел даних, згрупованих за способом доступу до даних. Список доступних джерел може змінюватися залежно від налаштувань

на панелі підключень, а також індивідуальних налаштувань доступних дій і доступних джерел даних. Підключенням називається налаштоване і назване певним чином під’єднання до зовнішньої системи, що дозволяє обмінюватись із нею даними (приймати чи передавати).

Для виклику Майстра імпорту можна скористатися кнопкою

«Майстер імпорту» на панелі інструментів

«Сценарії», вибрати відповідну команду з контекстного меню або натиснути <F6>. З доступних підключень клацанням миші виберіть потрібне:

- Сховища даних:

o

Virtual Warehouse – імпорт даних з Virual Warehouse;

o

Deductor Warehouse - імпорт даних з Deductor Warehouse.

- Бізнес-програми:

o

1С: Підприємство 7.7 – імпорт даних з облікової системи 1С версії 7.7;

o

1С:Підприємство 8.x – імпорт даних з облікової системи 1С 8.х.

- Бази даних:

o

База даних – імпорт даних з баз даних різних видів.

- Прямий доступ до файлів:

o

Текстовий файл із роздільниками – тобто у форматі, в якому стовпці даних розділені однотипними символами-роздільниками;

o

Імпорт з DBF – прямий доступ до файлів плоских баз даних типу DBF, що підтримується такими ужитками, як dBase, FoxBase, FoxPro.

- Механізм MS ADO:

o

Microsoft Excel – книга Microsoft Excel (*.xls);

o

Microsoft Access – файл СУБД Microsoft Access (*.mdb);

o

Імпорт з DBF (ADO) – доступ через ADO[3] до файлів плоских баз даних типу DBF, що підтримується такими ужитками, як dBase, FoxBase, FoxPro;