Студенческий портал

admin@studynote.ru
/ Регистрация
X
Все > Дипломные работы > Дипломные работы по информатике > Применение DATA MINING в системах поддержки принятия решений
Применение DATA MINING в системах поддержки принятия решений

Тема дипломной работы: Применение DATA MINING в системах поддержки принятия решений

632 ₽
Купить за 632 ₽

или

Заказать новую работу

Более 20 способов оплатить! Сразу получаете ссылку на скачивание. Гарантия 3 дня. Исключительно для ознакомления!

Общая информация
Описание работы
Дополнительная информация

(фрагменты работы)

Общая информация
Учебное заведение: Другие города > ДРУГОЕ
Тип работы: Дипломные работы
Категория: Информатика, Информационные технологии
Год сдачи: 2017
Количество страниц: 71
Оценка: 4
Дата публикации: 10.01.2020
Количество просмотров: 555
Рейтинг работы:
Иллюстрация №1: Применение DATA MINING в системах поддержки принятия решений (Дипломные работы - Информатика, Информационные технологии). Иллюстрация №2: Применение DATA MINING в системах поддержки принятия решений (Дипломные работы - Информатика, Информационные технологии). Иллюстрация №3: Применение DATA MINING в системах поддержки принятия решений (Дипломные работы - Информатика, Информационные технологии).
Описание работы

Содержание. 2

Введение. 3

1.      OLAP и
Data Mining
. 6

1.1.       Общие замечания. 6

1.2.       Многомерный анализ. 9

1.3.       Основные задачи
Data Mining
. 14

1.3.1.   Задача
классификации и регрессии
. 14

1.3.2.   Задача
кластеризации.
18

1.3.3.   Задача поиска
ассоциативных правил
. 21

2.      Система
поддержки принятия решений Deductor
. 24

2.1.       Описание аналитической системы Deductor. 24

2.2.       Возможности СППР
Deductor
. 30

2.3.       Использование СППР Deductor для решения
основных задач
Data Mining. 35

3.      Примеры
использования СППР Deductor для решения задач Data Mining
. 39

3.1.       Классификация. 39

3.2.       Кластеризация с помощью самоорганизующейся карты Кохонена. 48

3.3.       Поиск ассоциативных правил. 53

3.4.       Прогнозирование временных рядов с помощью линейной регрессии. 61

Заключение. 68

Список
использованной литературы
.. 71

 Повсеместное использовaние компьютеров привело к понимaнию вaжности задач, связанных с анализом накопленной
информации с целью извлечения новых знаний. Возникл
a потребность в
создании хр
aнилищ данных и
систем поддержки принятия решений, основ
aнных, в том числе,
на метод
aх теории искусственного
интеллект
a.

Одно из применений
таких систем – это оценк
a количественных
х
aрактеристик проектов.
Как определяет
PMBоK (Project Management Body of
Knowledge – америк
aнский
стандарт, Свод знаний по управлению проектами), проект – это временное предприятие,
предн
aзначенное для
создания уникальных продуктов, услуг или результатов. Соответственно, по завершении
проекта (как успешных, так и нет), остаются данные, которые несут в себе количественные
характеристики проекта, его суммарные характеристики, и много другой полезной информации.
Вообще говоря, управление предприятием, различные сферы бизнеса, в том числе электронного,
немыслимы без процессов накопления, анализа, выявления определенных закономерностей
и зависимостей, прогнозирования тенденций и рисков.

Данная работа
является исследованием, относящимся к области применения средств и методов интеллектуального
анализа данных для оценки количественных характеристик работ в рамках проектов;
рассмотрены основные механизмы, используемые в данной области. Хочется заметить,
что применение изложенных методов нисколько не ограничивается описанной здесь областью:
технологии оперативного и интеллектуального анализа данных являются сравнительно
новой областью науки, но уже успели себя зарекомендовать как надежные и состоятельные
способы как в медицине, так и в торговле, и в телекоммуникациях, и в банковском
деле, и т.д.

Но из-за огромного
количества информации очень малая ее часть будет когда-либо увидена человеческим
глазом. Единственный способ понять и найти что-то полезное в этом океане информации
– широкое применение методов
Data Mining.

Цель преддипломной работы состоит исследования автоматизация
основных процедур многомерного
анализа и технологий Data Mining.

Data Mining
(также называемая Knowledge Discovery
In Data
– обнаружение знаний в данных) изучает процесс
нахождения новых, действительных и потенциально полезных знаний в базах данных.
Data Mining
лежит на пересечении нескольких областей знаний,
главные из которых – это системы баз данных, статистика и искусственный интеллект.

Задачи исследования – решение типовых задач
Data Mining: классификация; регрессия; поиск
ассоциаций, кластеризация.

Объектом исследования является
аналитический пакет Deductor.

Deductor является аналитической платформой
- основой для создания законченных прикладных решений в области анализа данных.
Реализованные в Deductor технологии позволяют на базе единой архитектуры пройти
все этапы построения аналитической системы от создания хранилища данных до
автоматического подбора моделей и визуализации полученных результатов.

Deductor предоставляет аналитикам
инструментальные средства, необходимые для решения самых разнообразных
аналитических задач: корпоративная отчетность, прогнозирование, сегментация,
поиск закономерностей – эти и другие задачи, где применяются такие методики
анализа, как OLAP, Knowledge discovery in databases и Data mining. Deductor
является идеальной платформой для создания систем поддержки принятия решений.

ВКР имеет следующую структуру:

·       
во введении
определены цели, актуальность поставленной задачи и т.д.;

·       
в первой
главе рассмотрены теоретические основы
Data Mining;

·       
во второй
главе описана общая характеристика аналитического пакета
Deductor;

·       
в третьей
главе подробно описано решение типовых задач
Data Mining;

·       
В заключении
сформулированы основные выводы, полученные в результате работы.

Дополнительная информация

(фрагменты работы)

1.3.1. Задача классификации и регрессии
При анализе часто требуется определить, к какому из известных классов относятся исследуемые объекты, т. е. классифицировать их. Например, когда человек обращается в банк за предоставлением ему кредита, банковский служащий должен принять решение: кредитоспособен ли потенциальный клиент или нет. Очевидно, что такое решение принимается на основании данных об исследуемом объекте (в данном случае - человеке): его месте работы, размере заработной платы, возрасте, составе семьи и т. п. В результате анализа этой информации банковский служащий должен отнести человека к одному из двух известных классов "кредитоспособен" и "некредитоспособен".
Другим примером задачи классификации является фильтрация электронной почты. В этом случае программа фильтрации должна классифицировать входящее сообщение как спам (нежелательная электронная почта) или как письмо. Данное решение принимается на основании частоты появления в сообщении определенных слов (например, имени получателя, безличного обращения, слов и словосочетаний: приобрести, "заработать", "выгодное предложение" и т. п.).
В общем случае количество классов в задачах классификации может быть более двух. Например, в задаче распознавания образа цифр таких классов может быть 10 (по количеству цифр в десятичной системе счисления). В такой задаче объектом классификации является матрица пикселов, представляющая образ распознаваемой цифры. При этом цвет каждого пиксела является характеристикой анализируемого объекта.
В Data Mining задачу классификации рассматривают как задачу определения \'значения одного из параметров анализируемого объекта на основании значений других параметров. Определяемый параметр часто называют зависимой переменной, а параметры, участвующие в его определении - независимыми переменными. В рассмотренных примерах независимыми переменными являлись:
• зарплата, возраст, количество детей и т. д.;
• частота определенных слов;
• значения цвета пикселов матрицы.
• Зависимыми переменными в этих же примерах являлись:
• кредитоспособность клиента (возможные значения этой переменной "да" и "нет");
• тип сообщения (возможные значения этой переменной "spam" и "mail");
• цифра образа (возможные значения этой переменной 0, 1,..., 9).
Необходимо обратить внимание, что во всех рассмотренных примерах независимая переменная принимала значение из конечного множества значений: {да, нет}, {spam, mail}, {0, 1,..., 9}. Если значениями независимых и зависимой переменных являются действительные числа, то задача называется задачей регрессии. Примером задачи регрессии может служить задача определения суммы кредита, которая может быть выдана банком клиенту.
Задача классификации и регрессии решается в два этапа. На первом выделяется обучающая выборка. В нее входят объекты, для которых известны значения как независимых, так и зависимых переменных. В описанных ранее примерах такими обучающими выборками могут быть:
• информация о клиентах, которым ранее выдавались кредиты на разные суммы, и информация об их погашении;
• сообщения, классифицированные вручную как спам или как письмо;
• распознанные ранее матрицы образов цифр.[6]
На основании обучающей выборки строится модель определения значения зависимой переменной. Ее часто называют функцией классификации или регрессии. Для получения максимально точной функции к обучающей выборке предъявляются следующие основные требования:
• количество объектов, входящих в выборку, должно быть достаточно большим. Чем больше объектов, тем построенная на ее основе функция классификации или регрессии будет точнее;
• в выборку должны входить объекты, представляющие все возможные классы в случае задачи классификации или всю область значений в случае задачи регрессии;
• для каждого класса в задаче классификации или каждого интервала области значений в задаче регрессии выборка должна содержать достаточное количество объектов.
На втором этапе построенную модель применяют к анализируемым объектам (к объектам с неопределенным значением зависимой переменной).
Задача классификации и регрессии имеет геометрическую интерпретацию. Рассмотрим ее на примере с двумя независимыми переменными, что позволит представить ее в двумерном пространстве (рис. 1). Каждому объекту ставится в соответствие точка на плоскости. Символы "+" и "-" обозначают принадлежность объекта к одному из двух классов. Очевидно, что данные имеют четко выраженную структуру: все точки класса "+" сосредоточены в центральной области. Построение классификационной функции сводится к построению поверхности, которая обводит центральную область. Она определяется как функция, имеющая значения "+" внутри обведенной области и "-" - вне.

Рис 1. Классификация в двумерном пространстве

Как видно из рисунка, есть несколько возможностей для построения обводящей области. Вид функции зависит от применяемого алгоритма.
Основные проблемы, с которыми сталкиваются при решении задач классификации и регрессии, - это неудовлетворительное качество исходных данных, в которых встречаются как ошибочные данные, так и пропущенные значения, различные типы атрибутов - числовые и категорические, разная значимость атрибутов, а также так называемые проблемы overfitting и underfilling. Суть первой из них заключается в том, что классификационная функция при построении "слишком хорошо" адаптируется к данным, и встречающиеся в них ошибки и аномальные значения пытается интерпретировать как часть внутренней структуры данных. Очевидно, что такая модель будет некорректно работать в дальнейшем с другими данными, где характер ошибок будет несколько иной. Термином underfitting обозначают ситуацию, когда слишком велико количество ошибок при проверке классификатора на обучающем множестве. Это означает, что особых закономерностей в данных не было обнаружено и либо их нет вообще, либо необходимо выбрать иной метод их обнаружения.[7, c.465]

Купить за 632 ₽