Смекни!
smekni.com

Факультет радиотехники и кибернетики (стр. 1 из 7)

Министерство образования и науки Российской Федерации

МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ
(государственный университет)

ФАКУЛЬТЕТ РАДИОТЕХНИКИ И КИБЕРНЕТИКИ

КАФЕДРА ИНФОКОММУНИКАЦИОННЫХ СИСТЕМ И СЕТЕЙ

МОДЕЛИ И МЕТОДЫ ОЦЕНКИ КОЛИЧЕСТВЕННЫХ

ХАРАКТЕРИСТИК КОМПЛЕКСА РАБОТ

В РАМКАХ ПРОЕКТОВ

Выпускная квалификационная работа

студента 517 группы

Васильева Алексея Владимировича

Научный руководитель

Антоненко М.Н., к.ф.-м.н.

г. Долгопрудный

2009

Содержание

Введение. 3

1 Постановка задачи. 4

2 Обзор. 6

3 Методика решения задачи. 8

3.1 Data, Cases, and Attributes (Данные, записи и атрибуты) 8

3.2 Treat Missing Values (Обработка пропущенных значений) 9

3.3 Remove outliers (удаление выбросов) 10

3.4 Normalize (нормализация) 10

3.5 Attribute Importance (Задача определения ключевых атрибутов) 10

3.6 Алгоритм Minimum Descriptor Length. 10

3.7 Методология метода Attribute Importance. 11

3.8 Задача классификации (Classification) 12

3.9 Задача регрессии (Regression) 13

3.10 Алгоритм Support Vector Machine (SVM) 13

3.11 Методология решения задачи регрессии (Predict Methodology) 16

3.12 Тестирование регрессионной модели. 17

3.12.1 Residual Plot (невязки в графическом виде). 17

3.12.2 Регрессионная статистика (Regression Statistic) 18

4 Пример 1. Решение задачи регрессии. 20

5 Пример 2. Решение задачи Attribute Importance и задачи регрессии. 22

5.1 Attribute Importance. 23

5.2 Задача регрессии. 25

6 Заключение и выводы.. 27

7 Список использованных источников и литературы.. 28

Приложение А. 29

Введение

Повсеместное использование компьютеров привело к пониманию важности задач, связанных с анализом накопленной информации с целью извлечения новых знаний. Возникла потребность в создании хранилищ данных и систем поддержки принятия решений, основанных, в том числе, на методах теории искусственного интеллекта.

Одно из применений таких систем – это оценка количественных характеристик проектов. Как определяет PMBOK[1], проект – это временное предприятие, предназначенное для создания уникальных продуктов, услуг или результатов. Соответственно, по завершении проекта (как успешных, так и нет), остаются данные, которые несут в себе количественные характеристики проекта, его суммарные характеристики, и много другой полезной информации. Вообще говоря, управление предприятием, различные сферы бизнеса, в том числе электронного, немыслимы без процессов накопления, анализа, выявления определенных закономерностей и зависимостей, прогнозирования тенденций и рисков. Существует множество методов оценки проектов, таких как The IFPUG Function Point Counting Method, Functional Size Measurement Methods, COCOMO и другие, и каждый из них хорошо применим в определенных случаях, и не применим в других.

Данная работа является исследованием, относящимся к области применения средств и методов интеллектуального анализа данных для оценки количественных характеристик работ в рамках проектов; рассмотрены основные механизмы, используемые в данной области. Хочется заметить, что применение изложенных методов нисколько не ограничивается описанной здесь областью: технологии оперативного и интеллектуального анализа данных являются сравнительно новой областью науки, но уже успели себя зарекомендовать как надежные и состоятельные способы как в медицине, так и в торговле, и в телекоммуникациях, и в банковском деле, и т.д.

Но из-за огромного количества информации очень малая ее часть будет когда-либо увидена человеческим глазом. Единственный способ понять и найти что-то полезное в этом океане информации – широкое применение методов Data Mining.

Data Mining (также называемая Knowledge Discovery In Data – обнаружение знаний в данных) изучает процесс нахождения новых, действительных и потенциально полезных знаний в базах данных. Data Mining лежит на пересечении нескольких областей знаний, главные из которых – это системы баз данных, статистика и искусственный интеллект.

1 Постановка задачи

Цель работы состоит в том, чтобы показать состоятельность и применимость методов интеллектуального анализа данных (Data Mining) к задачам оценки количественных характеристик работ в рамках проектов. Заметим, что полученные данные (или знания), должны отвечать следующим концептуальным положениям:

1. Знания должны быть новые, ранее неизвестные. Затраченные усилия на открытие знаний, которые уже известны пользователю, не окупаются. Поэтому ценность представляют именно новые, ранее неизвестные знания.

2. Знания должны быть нетривиальны. Результаты анализа должны отражать неочевидные, неожиданные закономерности в данных, составляющие так называемые скрытые знания. Результаты, которые могли бы быть получены более простыми способами (например, визуальным просмотром), не оправдывают привлечение мощных методов Data Mining.

3. Знания должны быть практически полезны. Найденные знания должны быть применимы, в том числе и на новых данных, с достаточно высокой степенью достоверности. Полезность заключается в том, чтобы эти знания могли принести определенную выгоду при их применении.

4. Знания должны быть доступны для понимания человеку. Найденные закономерности должны быть логически объяснимы, в противном случае существует вероятность, что они являются случайными. Кроме того, обнаруженные знания должны быть представлены в понятном для человека виде.

Методы Data Mining помогают решить многие задачи, с которыми сталкивается аналитик, причем основными являются: классификация, регрессия, поиск ассоциативных правил и кластеризация. Ниже приведено краткое описание основных задач анализа данных.

- Задача классификации сводится к определению класса объекта по его характеристикам. Необходимо заметить, что в этой задаче множество классов, к которым может быть отнесен объект, заранее известно.

- Задача регрессии, подобно задаче классификации, позволяет определить по известным характеристикам объекта значение некоторого его параметра. В отличие от задачи классификации значением параметра является не конечное множество классов, а множество действительных чисел.

- При поиске ассоциативных правил целью является нахождение частых зависимостей (или ассоциаций) между объектами или событиями. Найденные зависимости представляются в виде правил и могут быть использованы как для лучшего понимания природы анализируемых данных, так и для предсказания появления событий.

- Задача кластеризации заключается в поиске независимых групп (кластеров) и их характеристик во всем множестве анализируемых данных. Решение этой задачи помогает лучше понять данные. Кроме того, группировка однородных объектов позволяет сократить их число, а, следовательно, и облегчить анализ.

В данной работе в числе прочего рассматривается задача регрессии – определение выходных характеристик проекта, на основе некоторых входных его параметров (атрибутов). Тут говорится именно о некоторых атрибутах, а не о всех, которые есть в наличии. Задача выбора из множества возможных атрибутов наиболее значимых – это отдельная подзадача определения важности каждого из них (Attribute Importance). Заметим, что это весьма необычный способ оценки характеристик проекта, не применявшийся ранее в данной области. Именно это и обуславливает новизну работы.

Поэтому качественно определить задачу можно следующим образом:

1. из множества предоставленных данных выделить наиболее важные – те, которые оказывают наибольшее влияние на конечный результат;

2. на основе наиболее значимых данных показать состоятельность решения задачи регрессии (предсказания численного результата на основе выбранных параметров).

2 Обзор

Фундаментальное понятие проекта описано в PMBOK[1], где оно определяется следующим образом: проект – это временное предприятие, предназначенное для создания уникальных продуктов, услуг или результатов. Также там описываются характеристики проекта:

  1. Временность проекта. Термин "временное" означает, что у любого проекта есть четкое начало и четкое завершение. Завершение наступает, когда достигнуты цели проекта; или осознано, что цели проекта не будут или не могут быть достигнуты; или исчезла необходимость в проекте, и он прекращается.
  2. Уникальные продукты, услуги или результаты. В результате проекта получаются уникальные результаты поставки, представляющие собой продукты, услуги или результаты.
  3. Последовательная разработка. Последовательная разработка означает развитие по этапам и протекание по шагам.

Один из процессов управления проектом – это управление стоимостью. Управление стоимостью проекта объединяет процессы, выполняемые в ходе планирования, разработки бюджета и контролирования затрат, и обеспечивающие завершение проекта в рамках утвержденного бюджета. Оно включает в себя: Стоимостная оценка – определение примерной стоимости ресурсов, необходимых для выполнения операций проекта. Разработка бюджета расходов – суммирование оценок стоимости отдельных операций или пакетов работ и формирование базового плана по стоимости. Управление стоимостью – воздействие на факторы, вызывающие отклонения по стоимости, и управление изменениями бюджета проекта.

Для оценки стоимости и других характеристик проектов сузествует множество методов. Например, в книге «The IT Measurement Compendium»[2], имеется несколько методов и различных их вариаций. Наиболее яркие из них – The IFPUG Function Point Counting Method, Functional Size Measurement Methods, COCOMO, Estimation of Data Warehouses, и другие.

И для каждого из них отправным шагом является определение ИСР. ИСР – иерархическая структура работ (WBS – work breakdown structure). Мы тоже будем придерживаться данного подхода, и каждый элемент ИСР и будет являться необходимым для нас атрибутом.