или
Заказать новую работу(фрагменты работы)
Учебное заведение: | Другие города > ДРУГОЕ |
Тип работы: | Дипломные работы |
Категория: | Информатика, Информационные технологии |
Год сдачи: | 2017 |
Количество страниц: | 71 |
Оценка: | 4 |
Дата публикации: | 10.01.2020 |
Количество просмотров: | 555 |
Рейтинг работы: |
Содержание. 2
Введение. 3
1. OLAP и
Data Mining. 6
1.1. Общие замечания. 6
1.2. Многомерный анализ. 9
1.3. Основные задачи
Data Mining. 14
1.3.1. Задача
классификации и регрессии. 14
1.3.2. Задача
кластеризации. 18
1.3.3. Задача поиска
ассоциативных правил. 21
2. Система
поддержки принятия решений Deductor. 24
2.1. Описание аналитической системы Deductor. 24
2.2. Возможности СППР
Deductor. 30
2.3. Использование СППР Deductor для решения
основных задач Data Mining. 35
3. Примеры
использования СППР Deductor для решения задач Data Mining. 39
3.1. Классификация. 39
3.2. Кластеризация с помощью самоорганизующейся карты Кохонена. 48
3.3. Поиск ассоциативных правил. 53
3.4. Прогнозирование временных рядов с помощью линейной регрессии. 61
Заключение. 68
Список
использованной литературы.. 71
информации с целью извлечения новых знаний. Возниклa потребность в
создании хрaнилищ данных и
систем поддержки принятия решений, основaнных, в том числе,
на методaх теории искусственного
интеллектa.
Одно из применений
таких систем – это оценкa количественных
хaрактеристик проектов.
Как определяет PMBоK (Project Management Body of
Knowledge – америкaнский
стандарт, Свод знаний по управлению проектами), проект – это временное предприятие,
преднaзначенное для
создания уникальных продуктов, услуг или результатов. Соответственно, по завершении
проекта (как успешных, так и нет), остаются данные, которые несут в себе количественные
характеристики проекта, его суммарные характеристики, и много другой полезной информации.
Вообще говоря, управление предприятием, различные сферы бизнеса, в том числе электронного,
немыслимы без процессов накопления, анализа, выявления определенных закономерностей
и зависимостей, прогнозирования тенденций и рисков.
Данная работа
является исследованием, относящимся к области применения средств и методов интеллектуального
анализа данных для оценки количественных характеристик работ в рамках проектов;
рассмотрены основные механизмы, используемые в данной области. Хочется заметить,
что применение изложенных методов нисколько не ограничивается описанной здесь областью:
технологии оперативного и интеллектуального анализа данных являются сравнительно
новой областью науки, но уже успели себя зарекомендовать как надежные и состоятельные
способы как в медицине, так и в торговле, и в телекоммуникациях, и в банковском
деле, и т.д.
Но из-за огромного
количества информации очень малая ее часть будет когда-либо увидена человеческим
глазом. Единственный способ понять и найти что-то полезное в этом океане информации
– широкое применение методов Data Mining.
Цель преддипломной работы состоит исследования автоматизация
основных процедур многомерного анализа и технологий Data Mining.
Data Mining
(также называемая Knowledge Discovery
In Data
– обнаружение знаний в данных) изучает процесс
нахождения новых, действительных и потенциально полезных знаний в базах данных.
Data Mining
лежит на пересечении нескольких областей знаний,
главные из которых – это системы баз данных, статистика и искусственный интеллект.
Задачи исследования – решение типовых задач
Data Mining: классификация; регрессия; поиск
ассоциаций, кластеризация.
Объектом исследования является
аналитический пакет Deductor.
Deductor является аналитической платформой
- основой для создания законченных прикладных решений в области анализа данных.
Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти
все этапы построения аналитической системы от создания хранилища данных до
автоматического подбора моделей и визуализации полученных результатов.
Deductor предоставляет аналитикам
инструментальные средства, необходимые для решения самых разнообразных
аналитических задач: корпоративная отчетность, прогнозирование, сегментация,
поиск закономерностей – эти и другие задачи, где применяются такие методики
анализа, как OLAP, Knowledge discovery in databases и Data mining. Deductor
является идеальной платформой для создания систем поддержки принятия решений.
ВКР имеет следующую структуру:
·
во введении
определены цели, актуальность поставленной задачи и т.д.;
·
в первой
главе рассмотрены теоретические основы Data Mining;
·
во второй
главе описана общая характеристика аналитического пакета Deductor;
·
в третьей
главе подробно описано решение типовых задач Data Mining;
·
В заключении
сформулированы основные выводы, полученные в результате работы.
(фрагменты работы)
1.3.1. Задача классификации и регрессии
При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Например, когда человек обращается в банк за предоставлением ему кредита, банковский служащий должен принять решение: кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решение принимается на основании данных об исследуемом объекте (в данном случае - человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В результате анализа этой информации банковский служащий должен отнести человека к одному из двух известных классов "кредитоспособен" и "некредитоспособен".
Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: приобрести, "заработать", "выгодное предложение" и т. п.).
В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта.
В Data Mining задачу классификации рассматривают как задачу определения \'значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении - независимыми переменными. В рассмотренных примерах независимыми переменными являлись:
• зарплата, возраст, количество детей и т. д.;
• частота определенных слов;
• значения цвета пикселов матрицы.
• Зависимыми переменными в этих же примерах являлись:
• кредитоспособность клиента (возможные значения этой переменной "да" и "нет");
• тип сообщения (возможные значения этой переменной "spam" и "mail");
• цифра образа (возможные значения этой переменной 0, 1,..., 9).
Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии. Примером задачи регрессии может служить задача определения суммы кредита, которая может быть выдана банком клиенту.
Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть:
• информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;
• сообщения, классифицированные вручную как спам или как письмо;
• распознанные ранее матрицы образов цифр.[6]
На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:
• количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;
• в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;
• для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.
На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).
Задача классификации и регрессии имеет геометрическую интерпретацию. Рассмотрим ее на примере с двумя независимыми переменными, что позволит представить ее в двумерном пространстве (рис. 1). Каждому объекту ставится в соответствие точка на плоскости. Символы "+" и "-" обозначают принадлежность объекта к одному из двух классов. Очевидно, что данные имеют четко выраженную структуру: все точки класса "+" сосредоточены в центральной области. Построение классификационной функции сводится к построению поверхности, которая обводит центральную область. Она определяется как функция, имеющая значения "+" внутри обведенной области и "-" - вне.
Рис 1. Классификация в двумерном пространстве
Как видно из рисунка, есть несколько возможностей для построения обводящей области. Вид функции зависит от применяемого алгоритма.
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов - числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfilling. Суть первой из них заключается в том, что классификационная функция при построении "слишком хорошо" адаптируется к данным, и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.[7, c.465]
Похожие работы