Для кращого розуміння надається приклад, що роз'яснює спільні підходи до аналізу карт, що самоорганізующихся. Подамо на два входи карти (розміром 50х50 нейронів) набір випадкових чисел від 0 до 50 спільним числом 500 прикладів.
Після проведення вчення такої карти Кохонена все сімейство карт матиме вигляд, змальований на малюнку. Карта частот має рівномірний розподіл прикладів по поверхні карти, що пояснюється рівномірним розподілом вхідних прикладів і якістю вчення карти.
Для нас в даному прикладі представляє інтерес розфарбовування карти входів. Розфарбовування кожною з них лінійна і постійна по одній з граней карти. Причому обидві карти входів мають однакове розфарбовування, але розгорнені один відносно одного на 90 градусів. Як це можна трактувати? При значенні 1- го входу, рівного 0 (темно-синя смуга на першій карті), 2-й вхід може приймати весь спектр значень від 0 (темно-синій) до 50 (темно-червоний). Це відповідає вхідному розподілу даних (пара незалежних, рівномірно розподілених величин). Таким чином, карта, що самоорганізующаяся, змогла правильно відображувати взаємний розподіл двох входів карти.
Виходи нейронів карти Кохонена нагадують топографічну карту. Координати цієї карти визначають положення одного нейрона. Наприклад, координати 12:34 описують нейрон, що знаходиться на пересіченні 12 стовпця з 34 поруч в матриці нейронів. Величина виходу нейрона по аналогії з географічними картами трактується як висота крапки.
Карти Кохонена, так само як і географічні карти, можна відображувати або в двомірному, або тривимірному вигляді. У двомірному вигляді карта розфарбовується відповідно до рівня виходу нейрона.
Для вищих значень зазвичай використовуються світлі тони, а для низьких значень - темні.
Карта виходів є головною картою в аналізі карт Кохонена. Саме на неї проектується взаємне розташування досліджуваних даних. Схожі вхідні дані утворюють на карті кластери - замкнуті області, що складаються з нейронів з однаковими значеннями виходів. Як правило, яскраво виражені кластери в даних мають чіткі кордони з іншими областями карти. У тривимірному вигляді це виглядає як крутий схил горба.
Після завершення вчення кожен вхідний приклад потрапляє в «свій» нейрон. При цьому в деякі нейрони не попаде жодного прикладу, а в деяких попаде декілька прикладів. Розподіл повчальних прикладів по нейронах дуже показово і відображується на карті частот.
У спільному випадку вхідні приклади рівномірно розподіляються по карті. Але якщо в даних є яскраво виражені групи, то приклади розподіляються нерівномірно, утворюючи кластери. Кластером може бути або відособлена група з декількох нейронів, в яку попало деяке число вхідних прикладів, або окремий нейрон, в який попало велике число вхідних прикладів.
Як говорилося вище, при аналізі карт Кохонена проводиться оцінка не лише виходів нейронів, але також і вагів нейронів.
Для кажного входу нейрона складається своя карта, яка розфарбовується у відповідності зі значенням відповідної нейрона. У нейронної мережі, навчаємої зі вчителем, ваги нейронів не мають фізичного сенсу і не використовуються в аналізі. При вченні ж без «вчителя» ваги нейронів підстроюються під точні значення вхідних змінних і відображають їх внутрішню структуру. Для ідеально вивченої нейронної мережі вага нейрона рівна відповідною компоненті вхідного прикладу. Зазвичай аналізують одночасно декілька карт входів. Спочатку на одній карті виділяють області однакового кольору. У цій області групуються вхідні приклади, що мають однакове значення відповідного входу. Далі нейрони з цієї області вивчаються на інших картах на предмет колірного розподілу.
При роботі з картами Кохонена важливо розуміти, що всі розглянуті вище карти - не більше ніж розфарбовування одних і тих же нейронів. При цьому кожен навчальний приклад має одне і те ж розташування на кожній з розглянутих карт.
В результаті проведення аналізу методів, що можуть бути примінені в сфері енергоспоживання, були виділені методи багатомірного статистичного аналізу для оцінки регіонального споживання енергоресурсів, а токож карти Кохонена для проведення кластеризації.
При визначенні пріоритетних напрямів комплексного енергоспоживання регіону кластерний аналіз може використовуватися в декількох аспектах. Перша сфера застосування - це виявлення проблем, формування переліку регіонів з високими показниками споживання ресурсів, наявності великих родовищ, заводів, які визначають загальні витрати енергоресурсів. Другим аспектом аналізу є оцінка потенціалу і відбір регіонів, які можуть стати "локомотивами" споживання, на основі вивчення розподілу ресурсів, виробничих потужностей.
Для того щоб оцінити регіони по їх енергоспоживанню була обрана модель дискримінантного аналізу, що дасть змогу при спостереженні великих статистичних сукупностей, як у даному випадку з регіонами, розділити неоднорідну сукупність на однорідні групи (класи). Таке розчленовування надалі при проведенні статистичного аналізу дає кращі результати моделювання залежностей між окремими ознаками.
Розділ 3. Моделювання та аналіз енергоспоживання регіонами України
3.1 Моделі аналізу регіонів України за енергоспоживанням
Для вирішення завдання аналізу використаємо інструмент багатовимірного статистичного аналізу такий як кластерний аналіз. Його основна перевага полягає в тому, що він дозволяє об'єднувати об'єкти в однорідні за декількома показниками групи (кластери). Формування матриці "об'єкт - ознака", вказаної на рис. 3.1., є одним з етапів побудови такої моделі, де об'єктами в даному випадку виступають регіони, а ознаками є значущі характеристики що відносяться до енергоспоживання.
Рис.3.1.Дані необхідні для розрахунків
Вказані змінні є показниками витрат енергоресурсів регіонами України зазначні у одиницях виміру toe, а саме: Х1 – обсяги споживання природнього газу; Х2 - обсяги споживання електроенергії; Х3 - обсяги споживання нафти та нафтопродуктів; Х4 - обсяги споживання вугілля; Х5 - обсяги споживання альтернативних джерел енергії.
При визначенні пріоритетних напрямів комплексного енергоспоживання регіону кластерний аналіз може використовуватися в декількох аспектах. Перша сфера застосування - це виявлення проблем, формування переліку регіонів з високими показниками споживання ресурсів, наявності великих родовищ, заводів, які визначають загальні витрати енергоресурсів. Другим аспектом аналізу є оцінка потенціалу і відбір регіонів, які можуть стати лідерами в ефективному енергоспоживанні, на основі вивчення розподілу ресурсів, виробничих потужностей.
Для більш повного аналізу регіонального споживання енергоресурсів необхідно використати декілька методів кластеризації починаючи з побудови дерева зазначеної на рис. 3.2.:
Рис. 3.2. Вибір метода кластеризації
Оберемо дані з рис. 3.3. та у пункті кластеру зазначимо «Cases» ,щоб створювати умови, за яких регіони увійдуть чи будуть виключені з даного кластеру.
Рис. 3.3. Вибір змінних та шляху
В результаті отримаємо наступні результати зазначені на рис. 3.4.:
Рис. 3.4. Вікно з результатами
З рисунку бачимо, що зазначена кількість змінних для проведення кластеризації дорівнює 5, евклідова відстань не стандартизована, отже можна виконувати наступний крок, а саме розрахунок цих відстаней, зазначений на рис. 3.5.:
Рис. 3.5. Матриця евклідових відстаней
Зазначені вище результати дозволяють перейти до графічного зображення результатів кластерного аналізу на рис. 3.6.:
Рис. 3.6. Графічне зображення побудови кластерів
З діаграми побудованого дерева видно, що був виконаний поділ на 3 класи, що визначає поділ регіонів на енергоємні, середні та мало споживаючі групи.
Метод Уорда зазначений на рис. 3.7. відрізняється від усіх інших методів, оскільки він використовує дисперсійний аналіз підходу до оцінки відстаней між кластерами. Коротше кажучи, цей метод намагається мінімізувати суму квадратів (SS) будь-яких двох (гіпотетичних) кластерів, які можуть бути сформовані на кожному кроці.
Рис. 3.7. Використання методу Уорда
Отримуємо таблицю евклідових відстаней зазначену на рис. 3.8.:
Рис. 3.8. Матриця евклідових відстаней
Зазначені вище результати дозволяють перейти до графічного зображення результатів кластерного аналізу на рис 3.9.:
Рис. 3.9. Графічне зображення побудови кластерів