Студенческий портал

admin@studynote.ru
/ Регистрация
X
Все > Диссертации > Диссертации по информатике > Кластеризация страниц веб-сайта на основе метаданных веб-аналитики
Кластеризация страниц веб-сайта на основе метаданных веб-аналитики

Тема : Кластеризация страниц веб-сайта на основе метаданных веб-аналитики

2500 ₽
Купить за 2500 ₽

или

Заказать новую работу

Более 20 способов оплатить! Сразу получаете ссылку на скачивание. Гарантия 3 дня. Исключительно для ознакомления!

Общая информация
Описание работы
Дополнительная информация

(фрагменты работы)

Общая информация
Учебное заведение: Другие города > ДРУГОЕ
Тип работы: Диссертации, Магистерская диссертация
Категория: Информатика, Информационные технологии
Год сдачи: 2017
Количество страниц: 96
Оценка: 5
Дата публикации: 29.07.2017
Количество просмотров: 1817
Рейтинг работы:
Иллюстрация №1: Кластеризация страниц веб-сайта на основе метаданных веб-аналитики (Диссертации, Магистерская диссертация - Информатика, Информационные технологии). Иллюстрация №2: Кластеризация страниц веб-сайта на основе метаданных веб-аналитики (Диссертации, Магистерская диссертация - Информатика, Информационные технологии). Иллюстрация №3: Кластеризация страниц веб-сайта на основе метаданных веб-аналитики (Диссертации, Магистерская диссертация - Информатика, Информационные технологии).
Описание работы

Магистерская диссертация на тему:

"Кластеризация страниц веб-сайта на основе метаданных веб-аналитики"

Объемы информации, представленной в сети Интернет, постоянно растут. При исследовании
эффективности работы веб-сайтов актуальна проблема группирования страниц по некоторым признакам. Частным случаем при данном анализе является кластеризация веб-документов в соответствии с некоторой метрикой. В таких случаях, известные лингвистические методы весьма затратны по времени, а в случае нетекстовых документов – неприменимы. Соответственно, для кластеризации веб-документов исследуются новые подходы.

В данной работе предложена методика кластеризации страниц веб-сайта на основе метаданных веб-статистики, характеризующих страницу сайта, и построено дальнейшее семантическое описание полученных кластеров, посредством анализа характеризующих их ключевых слов. В рамках данного подхода разработана методика решения задачи, подобран комплекс программ и средств автоматизированного получения ключевых слов для каждого кластера. Апробация метода проводится на примере образовательного сайта. В результате показано, что полученные множества ключевых слов позволяют содержательно описывать кластеры.

 

СОДЕРЖАНИЕ

ВВЕДЕНИЕ

Глава 1. Задача кластеризации данных

1.1.      Формальная постановка задачи кластеризации

1.2.      Представление результатов кластеризации

1.3.      Базовые алгоритмы кластеризации

1.3.1.         Классификация алгоритмов кластеризации

1.3.2.         Иерархические алгоритмы

1.3.3.         Неиерархические алгоритмы

Глава 2. Сбор данных о действиях пользователей на веб-сайте

2.1.      Способы сбора статистики поведения пользователей

2.2.      Обзор сервиса Google Analytics

Глава 3. Семантическая кластеризация страниц веб-сайта

3.1.      Методика семантической кластеризации страниц веб-сайта на основе метаданных веб-аналитики

3.2. Кластеризация данных с помощью программного пакета Statistica

3.2.1.  Иерархическая кластеризация с помощью программного пакета Statistica

3.2.2.  Кластеризация методом k-средних с помощью программного пакета Statistica

3.3. Сравнение результатов кластеризации двух методов: иерархической  и k-средних

3.4. Автоматизация семантической кластеризации полученных кластеров

ЗАКЛЮЧЕНИЕ

СПИСОК ИСПОЛЬЗОВАННЫХ ИСТОЧНИКОВ

Приложения

Приложение А. Реализация алгоритма извлечения ключевых слов

Приложение Б. Результат выполнения скрипта для 6 кластеров

 

СТРУКТУРА РАБОТЫ

Выпускная квалификационная работа изложена на 96 страницах, его структура состоит из введения, трех глав, заключения, списка использованных источников, двух приложений,  21 рисунка, 2 таблиц и 25 формул.
Во введении показана актуальность исследуемой проблемы, определены предмет, объект, цель и задачи и методы исследования, а также определена новизна, и практическая значимость полученных результатов.
В первой главе сформулирована задача семантической кластеризации веб-документов произвольного вида (как текстовых, так и нетекстовых), рассмотрены меры близости, основанные на расстояниях, используемые в алгоритмах кластеризации, приведен обзор базовых алгоритмов кластеризации и способов представления кластеров.
Во второй главе описываются способы сбора статистики о действиях пользователей на веб-сайте и проводится обзор сервиса Google Analytics, также предлагается методика семантической кластеризации страниц веб-сайта на основе метаданных веб-аналитики.
В третьей главе предложена методика семантической кластеризации страниц веб-сайта на основе метаданных веб-аналитики, характеризующих страницу сайта. Демонстрируется кластеризация страниц веб-сайта с помощью программного пакета Statistica. Автоматизируется способ получения ключевых слов для каждого кластера с использованием скрипта, написанного на языке Python. Проводится сравнительный анализ результатов кластеризации  алгоритмами k-средних и агломеративной иерархической кластеризации.
В заключении содержатся результаты проведенного магистерского исследования, сформулированы основные выводы и рекомендации по результатам исследования.

Дополнительная информация

(фрагменты работы)

ВВЕДЕНИЕ

Актуальность темы исследования. Всемирная паутина WWW в настоящее время является наиболее богатым источником информации и знаний. Особенностью веб-ресурсов является разнородность представленной информации: текстовые файлы, изображение, звук, видео, метаданные, а также гиперссылки. Однако пользователи сталкиваются с проблемами при поиске нужной им информации. Выделяют следующие проблемы работы с информацией из Веб.
Поиск значимой информации. Пользователи в поиске информации могут самостоятельно перемешаться от сайта к сайту или пользоваться популярными в настоящее время поисковыми системами. Поисковые системы по введенным ключевым словам предоставляют списки ссылок на страницы, в которых представлена информация, соответствующая введенным ключевым словам. Однако использование поисковых систем имеет следующие проблемы:
- небольшой процент действительно нужной информации среди множества ссылок, которые предоставляют поисковые системы;
- низкая повторяемость вызовов, связанная с невозможностью индексировать все веб-ресурсы. В результате чего возникают трудности поиска неиндексированной информации, которая может быть необходима для пользователя.
Проблема учета характеристик запросов связана с предоставлением пользователю именно той информации, которую он хочет получить. Для этого требуется настройка и персонализация поисковой системы для конкретного потребителя или пользователя [2].
Для решения перечисленных проблем используются различные технологии, напрямую или косвенно разрешающие их. К таким технологиям относятся: технология базы данных, технологии информационного поиска, технологии обработки естественных языков и др. Однако, перечисленные технологии качественного решения на все случаи не дают, и поэтому в настоящее время широкое распространение получила технология Web Mining, которая направлена на прямое или на косвенное решение перечисленных проблем.
Суть технологии Web Mining состоит в использовании методов интеллектуального анализа данных для автоматического обнаружения веб-документов и услуг, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете [28]. Данная технология использует методы более обшей группы технологий Data Mining, которая представляет собой собирательное название для совокупности методов обнаружения в ранее неизвестных данных и нетривиальных закономерностей, практически полезных для принятия решений в различных сферах человеческой деятельности. Технология Data Mining использует методы нескольких научных направлений, основные из которых – статистика, искусственный интеллект и системы баз данных. Web Mining использует методы Data Mining для исследования и извлечения информации из веб-документов и сервисов.
Выделяют следующие этапы применения Web Mining [19]:
1. Поиск ресурсов — локализация неизвестных документов и сервисов в Веб.
2. Извлечение информации — автоматическое извлечение определенной информации из найденных веб-ресурсов.
3. Обобщение — обнаружение общих шаблонов в отдельных и пересекающихся множествах сайтов.
4. Анализ — интерпретация найденных шаблонов.
Традиционно, поиск ресурсов предполагает поиск различных веб-источников по ключевым словам. Поиск ресурсов делят на два класса: поиск документов и поиск сервисов.
Большинство работ по поиску ресурсов сводится к автоматическому созданию поисковых индексов веб-документов. Для этих целей были созданы роботы, индексирующие слова в документах и хранящие вычисленные индексы для дальнейшего их использования при обработке запросов пользователей.
После того как ресурсы найдены, из них должна быть извлечена информация, которая подвергается анализу. Обычно этот этап называют препроцессинг, т. к. он заключается в подготовке найденных ресурсов непосредственно к анализу. Такая подготовка заключается в преобразовании текстов, путем удаления стоп-слов, извлечением фраз и словосочетаний и т. п. Другими словами, результатом данного этапа должна быть информация, пригодная для анализа.
На этапе обобщения важную роль играет человек, он должен будет интерпретировать полученные результаты.
В области Web Mining выделяют следующие направления анализа:
- извлечение веб-контента (Web Content Mining);
- извлечение веб-структур (Web Structure Mining);
- исследование использования веб-ресурсов (Web Usage Mining).
Извлечение веб-контента включает в себя методы извлечения полезной информации из веб-ресурсов, таких как содержание, данные, документы и др. Актуальность данного направления возрастает в связи с тем, что в настоящее время прослеживается тенденция предоставления компаниями доступа к своим ресурсам. Это относится не только к статической информации, представленной в виде HTML-страниц, но также к данным, хранящимся в БД компаний, и другим ресурсам (таким, например, как электронные магазины). Безусловно, остается часть данных, к которым доступ невозможен. К этой категории относятся и закрытая (конфиденциальная) информация, а также информация, которая не может анализироваться в виду своей динамичности (например, динамические страницы, формируемые по запросам пользователей).
При извлечении веб-структур строятся модели, отображающие взаимосвязи между веб-страницами. Модель основывается на топологии гиперссылок с или без описания этих ссылок. Такая модель может использовать категоризацию веб-страниц и быть полезна для генерации информации об отношении и подобности между веб-сайтами. Данная категория Web Mining может быть использована для распознавания авторских сайтов и обзорных сайтов по темам.
Исследование использования веб-ресурсов анализирует информацию, генерируемую в процессе пользовательских сессий (взаимодействия пользователя с веб-ресурсами) и поведений пользователей. В отличие от первых двух категорий Web Mining, которые работают с первичной информацией (веб-ресурсами), исследование использования веб работает с вторичной информацией, порождаемой как результат взаимодействия пользователей с веб-ресурсами. К таким источникам информации относятся протоколы доступа веб-серверов, протоколы прокси-серверов, протоколы браузеров, пользовательские профили, регистрационные данные, метаданные, пользовательские запросы, куки, клики мышками, прокручивание и многое другое, что делает пользователь в процессе взаимодействия с веб-ресурсами.
На предварительных этапах обработки данных в веб, различные программные системы применяют подход с группированием веб-документов общей тематики, который принято называть семантической кластеризацией. Данное понятие широко используется в области лингвистики при сопоставлении текстов естественного языка и их анализа на предмет семантической эквивалентности (Михайлов Д.В. и Емельянов Г.М. [21]). С другой стороны, семантическая кластеризация веб-документов является подзадачей более общей задачи кластеризации данных.
Первые публикации по кластерному анализу появились в конце 30-х гг. прошлого столетия, но активное развитие этих методов и их широкое использование началось в конце 60-х—начале 70-х гг. В дальнейшем это направление многомерного анализа интенсивно развивалось. Появились новые методы, модификации уже известных алгоритмов, существенно расширилась область применения кластерного анализа. Если первоначально методы многомерной классификации использовались в психологии, археологии, биологии, то сейчас они стали активно применяться в социологии, экономике, статистике, в исторических исследованиях [2].
Кластерный анализ позволяет рассматривать достаточно большой объем информации и резко сокращать, сжимать большие массивы информации, делать их компактными и наглядными.
Кластерный анализ является одним из наиболее успешно развивающихся разделов современной теоретической информатики. Он представляет собой группу методов многомерного статистического анализа, предназначенных для разбиения объектов или событий на группы, называемые кластерами [23].
Большое достоинство кластерного анализа в том, что он позволяет осуществлять разбиение объектов не по одному параметру, а по целому набору признаков. Кроме того, кластерный анализ, в отличие от большинства математико-статистических методов, не накладывает никаких ограничений на вид рассматриваемых объектов и позволяет рассматривать множество исходных данных практически произвольной природы. Это имеет большое значение, например, для прогнозирования конъюнктуры, при наличии разнородных показателей, затрудняющих применение традиционных эконометрических подходов.
Как уже было отмечено в конце 60-х—начале 70-х гг. было предложено множество алгоритмов кластеризации, таких авторов, как Дж. Мак-Кин [32], Г. Болл и Д. Холл [26] по методам k-средних; Г. Ланса и У. Уильямса [36], Н. Джардайна [30] и др. - по иерархическим методам. Заметный вклад в развитие методов кластерного анализа внесли и отечественные ученые - Э.М. Браверман, А.А. Дорофеюк, И.Б. Мучник [5], Л.А. Растригин, Ю.И. Журавлев [7], И.И. Елисеева и др. В это же время большой популярностью пользовались многочисленные алгоритмы разработанные новосибирскими математиками Н.Г. Загоруйко, В.Н. Елкиной и Г.С. Лбовым [9, 10]. Это такие широко известные алгоритмы, как FOREL, BIGFOR, KRAB, NTTP, DRET, TRF и др. На основе этих пакетов был создан специализированный пакет программ ОТЭКС [20]. Программные продукты ППСА и Класс-Мастер были созданы московскими математиками С.А. Айвазяном, И.С. Енюковым и Б.Г. Миркиным [8].
В том или ином объёме методы кластерного анализа имеются в большинстве наиболее известных отечественных и зарубежных статистических пакетах: SIGAMD, DataScope, STADIA, СОМИ, ПНП-БИМ, СОРРА-2, СИТО, SAS, SPSS, STATISTICA, BMDP, STATGRAPHICS, GENSTAT, S-PLUS и т.д.
Таким образом, задача кластеризации веб-документов актуальна в разных областях, связанных с разработкой средств организации и структурирования гипертекствого пространства.
При исследовании эффективности работы веб-сайтов актуальна проблема ранжирования сайта по некоторым признакам. Частным случаем в данном анализе является кластеризация веб-документов в соответствии с некоторой метрикой. В таких случаях, известные лингвистические методы весьма затратны по времени, а для определения семантической близости между нетекстовыми веб-документами требуются новые подходы [22].
С другой стороны, активно развивается область веб-аналитики, обладающая богатым опытом наблюдения за поведением пользователей в гипертекстовом пространстве, потому что помимо содержания документа, существуют метаданные, относящиеся к дополнительной информации о содержимом или объекте. Применительно к веб-документам это может быть информация о количестве посещений пользователя, версия браузера с которого пришел пользователь, или информация о том, по каким ключевым словам пользователь попал на сайт и т.д. Для формирования целостной статистики, необходимо отслеживать действия пользователя на каждой странице веб-сайта.
В этой связи, как представляется, может оказаться полезным подход, связанный с учётом статистики числа обращений пользователей к нетекстовым веб-документам.
Ряд работ в области семантической кластеризации страниц веб-сайтов использует в качестве существенного элемента гипертекстовые связи между страницами. Так, например, в статье [34] представлена математическая модель гипертекстовой структуры в виде взвешенного редуцированного графа и предложен метод семантической кластеризации гипертекстовой структуры, использующий данные статистики переходов пользователей между страницами сайта. В работе [25] эксперименты по кластеризации страниц веб-сайта проводились также для графовой модели сайта, но с использованием алгоритмов MLC [31].
В данной работе предлагается решение актуальной задачи семантической кластеризации веб-документов используя метаданные веб-аналитики в виде статистики поведения пользователей на сайте с использованием алгоритмов k-средних и агломеративной иерархической кластеризации.
Результаты исследования могут дополнить известные методы семантической кластеризации текстовых документов и предоставить возможность классифицировать текстовые и нетекстовые объекты в рамках единого подхода на предварительном этапе интеллектуальной обработки данных. Изложенное позволяет сформулировать следующую цель работы.
Целью выпускной квалификационной работы является разработка методики семантической кластеризации на основе метаданных веб-аналитики.
Для достижения цели в работе решаются следующие задачи:
1. Изучить методы кластеризации данных;
2. Изучить сервис Google Analytics;
3. Выбрать инструменты кластеризации и средства обработки данных;
4. Разработать методику кластеризации веб-сайта на основе метаданных веб-аналитики и семантического означивания (привязки) кластеров;
5. Привести эксперименты с различными параметрами и проанализировать полученные результаты.
Объектом исследования в данной работе является образовательный сайт www.sstu.ru.
Предметом исследования в настоящей работе являются методы семантической кластеризации веб-документов на основе мета-данных веб-аналитики.
Научная новизна исследования. Научная новизна результатов исследования ВКР заключается в следующем:
˗ предложена методика семантической кластеризации страниц веб-сайта на основе метаданных веб-аналитики, характеризующих страницу сайта, и дальнейшее семантическое описание полученных кластеров, посредством анализа ключевых слов.
˗ рамках данной методики, подобран комплекс программ и автоматизирован способ получения ключевых слов для каждого кластера.
˗ проведен сравнительный анализ результатов кластеризации алгоритмами k-средних и иерархической кластеризации.
Практическая значимость исследования обусловлена тем, что его результаты могут быть использованы для решения задачи семантической кластеризации, включая нетекстовые веб-документы, что является актуальным на предварительных этапах смысловой обработки информации в сети Интернет. Разработанная методика семантической кластеризации на основе метаданных веб-аналитики может быть использована как инструмент для решения широкого круга задач анализа информации в сети Интернет. Полученные с его помощью результаты кластеризации веб-документов позволяют судить о практической ценности данного инструмента и возможности его применения в области интеллектуального анализа гипертекстовой информации.

Купить за 2500 ₽