PMBOK[1] определяет два метода для создания ИСР:
1. Шаблоны иерархической структуры работ. Несмотря на уникальность каждого проекта, ИСР предыдущего проекта часто может служить шаблоном для нового проекта, поскольку некоторые проекты в той или иной степени будут схожи с предшествующими.
2. Декомпозиция. Это разделение результатов поставки проекта на более мелкие и более управляемые элементы; декомпозиция выполняется до тех пор, пока работа и результаты поставки не определяются на уровне пакетов работ. Уровень пакетов работ является низшим и представляет собой точку, в которой стоимость и график работ могут быть оценены с достаточной степенью достоверности. Чрезмерная декомпозиция может привести к непродуктивной управленческой трудоемкости, неэффективному использованию ресурсов и снижению эффективности при выполнении работы.
После того, как сформирован ИСР, необходимо сделать оценку ресурсов, необходимых для ее реализации и принять решения о дальнейшем развитии проекта. Тут аналитик может руководствоваться своими «полуинтуитивными» оценками, для проверки какой-либо возникшей гипотезы он может воспользоваться средствами OLAP[1], а может привлечь мощные инструменты Data Mining.
Вот что по данному поводу написано в книге «Технологии Анализа Данных»[3]: «OLAP-системы, предоставляют аналитику средства проверки гипотез при анализе данных. При этом основной задачей аналитика является генерация гипотез. Он решает ее, основываясь на своих знаниях и опыте. Однако знания есть не только у человека, но и в накопленных данных, которые подвергаются анализу. Такие знания часто называют «скрытыми», т. к. они содержатся в гигабайтах и терабайтах информации, которые человек не в состоянии исследовать самостоятельно. В связи с этим существует высокая вероятность пропустить гипотезы, которые могут принести значительную выгоду.
Очевидно, что для обнаружения скрытых знаний необходимо применять специальные методы автоматического анализа, при помощи которых приходится практически добывать знания из "завалов" информации. За этим направлением прочно закрепился термин добыча данных или Data Mining. Data Mining - исследование и обнаружение "машиной" (алгоритмами, средствами искусственного интеллекта) в сырых данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.»
В данном разделе представлены понятия и теоретические обоснования используемых методов и алгоритмов:
1. Data, Cases, and Attributes (Данные, записи(или кейсы) и атрибуты),
2. Treat Missing Values (Обработка пропущенных значений),
3. Remove outliers (Удаление выбросов),
4. Normalize (Нормализация),
5. Attribute Importance (Задача определения ключевых атрибутов),
6. Алгоритм Minimum Descriptor Length,
7. Методология метода Attribute Importance (Explain Methodology),
8. Задача классификации (Classification),
9. Задача регрессии (Regression),
10. Алгоритм Support Vector Machine (SVM),
11. Методология решения задачи регрессии (Predict Methodology),
12. Тестирование регрессионной модели.
Данные, используемые механизмом Data Mining, содержатся в таблицах или представлениях Баз Данных. Данные, используемые в data mining, обычно называются набором данных.
Данные имеют физическую организацию и логическую интерпретацию. Имена колонок ссылаются на физическую организацию; имена атрибутов ссылаются на логическую интерпретацию данных.
Строки в таблицах данных называются записи, или примеры, или кейсы. Колонки в таблицах называются атрибутами или полями, значение атрибута для каждой записи хранится в ячейке.
Всего различают два типа атрибутов: по категориям (categorical) и числовые (numerical). Атрибуты по категориям суть или небольшое число, или дискретный набор (класс). Если существует только два возможных значения, например, yes и no, или male и female, такие атрибуты называются бинарными. Если существует более чем два возможных значения, например, high, medium, poor, то говорят, что атрибут мультиклассовый.
Числовые атрибуты суть числа, которые принимают большое число значений, например, ежегодный доход. Для числовых атрибутов, различия между значениями обычно упорядочены. Теоретически, ежегодный доход может быть от нуля до бесконечности, но на практике он принимает конечное число значений.
Мы всегда можем перевести числовые атрибуты в атрибуты по категориям. Например, ежегодный доход может быть поделен на три категории: low, medium, high. Наоборот, мы может преобразовать атрибуты по значениям в числовые значения.
Алгоритмам классификации и регрессии требуется целевой атрибут (target attribute). Модель может предсказать только один целевой атрибут. Для всех классификационных алгоритмов он может быть или числовой, или по категориям. Для задачи регрессии целевой атрибут может быть только числом.
Определенные алгоритмы поддерживают неструктурированные текстовые атрибуты. Хотя неструктурированные данные включают изображения, аудио, видео и пр., data mining поддерживает только текстовые данные. Таблица с исходными данными может содержать одну или больше текстовых колонок.
Таблицы данных часто содержат пропущенные значения. Определенные алгоритмы полагают, что значения NULL означают пропущенное значение, другие полагают, что значения NULL означают просто редкие данные. Поэтому необходимо обработать пропущенные значения, не требуя от пользователя каких-либо специальных способов. Притом, иногда требуется игнорировать пропущенные значения, притом используя другие не пустые данные в записи. Но если алгоритм полагает, что значения NULL означают редкие данные, то мы должны обработать любые значения, которые похожи на пропущенные данные.
Данные являются редкими, если только небольшая функция (не больше, чем 20%, часто 3% или меньше) атрибутов ненулевая или ненулевая для некоторых данных случаев. Редкие данные получаются, например, в проблеме потребительской корзины. В продовольственном магазине может быть более 10 000 продуктов, а примерный размер корзины (набора отдельных вещей, которые покупатель купил в типичной транзакции) порядка 50 продуктов. В этом примере транзакция (или запись) имеет примерно 50 ненулевых значений. Это означает, что доля ненулевых атрибутов в таблице (или плотность) составляет примерно 0.5%. Эта Плотность типична для проблемы потребительской корзины.
Таким образом, различные алгоритмы могут по-разному «понимать» что означают редкие данные. Для Support Vector Machine, k-Means, association, and Non-Negative Matrix Factorization, NULL значения означают редкие данные, для всех других значения NULL означают пропущенные значения.
Выбросы (резко выделяющиеся значения экспериментальных величин) – это значения, которые выходят за нормальные пределы в наборе данных, обычно несколько средних квадратичных отклонений от среднего значения. Присутствие выбросов может оказать существенные влияние на точность многих алгоритмов. Naive Bayes, Adaptive Bayes Network, Support Vector Machine, Attribute Importance, любые алгоритмы кластеризации, и Non-Negative Matrix Factorization алгоритмы чувствительны к выбросам.
Нормализация преобразует индивидуальные числовые атрибуты таким образом, что занчения атрибутов лежат в одном и том же диапазоне. Значения преобразуются в диапазон от 0.0 до 1.0 или в диапазон от – 1.0 до 1.0. Нормализация обеспечивает что атрибуты не получат искусственной надбавки вызванной отличием в диапазонах, в которых они лежат. Некоторые алгоритмы, такие как k-Means, Support Vector Machine, и Non-Negative Matrix Factorization «выигрывают» от нормализации.
Attribute Importance (AI) предоставляет собой решение для увеличения скорости и, возможно, точности для модели классификации, построенной на таблице с большим числом атрибутов.
Время, требуемое для построения модели классификации, возрастает с количеством атрибутов. AI идентифицирует поднабор атрибутов, наиболее релевантные для предсказания целевого атрибута. Соответственно, модель может быть построена только на выбранных атрибутах.
Использование же слишком малого числа атрибутов ухудшает точность предсказания. Наоборот, использование слишком большого числа атрибутов (особенно, которые вносят «шум»(noise)), может оказать влияние на модель – сильно снизить производительность или точность. Предсказание использует наименьшее число атрибутов, которые могут сохранить время вычисления и могут построить наилучшую модель.
Data Mining использует Minimum Descriptor Length алгоритм для решения этой задачи.
Minimum Description Length (MDL) – это информационная теоретическая модель выборочного принципа. MDL полагает, что простейшее, наиболее компактное представление данных – это вероятностное истолкование данных. Этот принцип используется для построения модели Attribute Importance.
MDL рассматривает каждый атрибут как простейшую предсказательную модель для целевого класса. Эти простейшие предсказатели модели сравниваются и упорядочиваются в соответствии с MDL метрикой (сжатие в битах).
С MDL, модель выбора преобразуется в коммуникационную модель. А именно отправителя, получателя и передаваемые данные. Для классификационных моделей, передаваемые данные являются моделью и последовательностью целевого класса значений в обучающих данных.
AI использует состоящий из двух частей код для передачи данных. Первая часть (преамбула) передает модель. Параметры этой модели – целевые вероятности, ассоциированные с каждым предсказанным значением. Для цели с
значениями и предсказателя с значениями, строк на значение, существует , комбинаций из записей, имеющих одновременно возможных условных вероятностей. Размер преамбулы в битах может быть представлен как . Вычисления подобно этому проделываются для каждой простейшей предсказательной модели. Следующая часть кода преобразует целевые значения, используя модель.