CвернутьВсе разделы
Методы Data Mining: обзор и классификация

Методы Data Mining: обзор и классификация

Методы Data Mining - это способы классификации, моделирования и прогнозирования данных, при помощи которых проводится аналитическая работа по выявлению закономерностей в больших массивах информации. Эти методы позволяют людям, не имеющим специальной математической подготовки, использовать инструментарий Data Mining и наглядно представлять результаты работы данной технологии, то есть принимать на их основе эффективные управленческие решения.

Об основных методах Data Mining и о принципах их классификации будет рассказано в предложенной статье.

DataMining – фото 1

Обзор методов Data Mining

С помощью методов интеллектуального анализа выполняется систематизация данных по критериям количества и качества. При обработке массивов информации наиболее часто задействуются следующие способы:

  • кластерный анализ (иерархический и неиерархический);

  • байесовские сети;

  • поиск явных и неявных ассоциаций;

  • линейная регрессия;

  • представление сведений в визуальной форме;

  • эволюционное программирование;

  • генетические алгоритмы.

При этом каждый из перечисленных методов применяется для выборки конкретных данных, построения прогностической модели или очистки БД от ошибочных сведений.

Классификация методов Data Mining

Классификация по принципу работы с данными разбивает методы Data Mining на две крупные категории:

  • методы, связанные с непосредственным использованием (сохранением) данных. Данные в ходе обработки детализируются при построении прогностической модели или в ходе анализа исключений. Однако такие методы малоэффективны при работе с крупными массивами данных. Методики этой категории применяются в формах кластерного анализа, метода ближайшего соседа, метода k-ближайшего соседа, рассуждений по аналогии.

  • дистилляция шаблонов - формирование и применение закономерностей, имеющих упорядоченный вид, то есть извлечение информации из изначальных данных с ее преобразованием в определенную систематизированную конструкцию. Технологии этой группы представлены логическими, визуализирующими, кросс-табуляционными и базирующимися на уравнениях методами. Задействование этих методов обеспечивает эффективное применение полученных в ходе свободного поиска результатов (они более компактны по сравнению с базами данных) и преобразование этих сведений в понятные для пользователей закономерности.

В свою очередь, способы логической аналитики делятся на подклассы, к которым относятся постановка нечетких запросов, использование символьных правил, деревьев решений и генетических алгоритмов. Технологии кросс-табуляции основаны на применении так называемых агентов, байесовских сетей и визуальных кросс-таблиц. Статметоды и нейронные сети объединяются в методы на основе уравнений.

Существует еще одна разбивка методов Data Mining - по принципам применения математических моделей в обучении. Здесь выделяются две группы:

  • статистические методы, в которых используется усредненный опыт по данным, накопившимся в БД за длительный период. При использовании статметодов предварительно анализируется природа статистических данных, выявляются связи и закономерности,  осуществляется многомерный статистический анализ, строятся динамические модели и прогноз на основе временных рядов;

  • кибернетические методы, в которых используются основы компьютерной математики и технологии искусственного интеллекта. В число таких методов входят: эволюционное программирование, нейросети, системы обработки экспертных знаний.

К кибернетическим методам также относятся ассоциативные правила, деревья решений, нечеткая логика, генетические алгоритмы.

Подробнее ознакомиться с принципами классификации и особенностями применения каждого метода Data Mining все желающие смогут, пройдя курс профессиональной переподготовки по программе «Инструментальные средства бизнес-аналитики», которую проводит ВШБИ НИУ ВШЭ. Записаться на обучение по данному курсу можно на нашем сайте.


← Назад к списку

Контактный телефон: +7 (985) 769-77-52

ВШБИ в социальных сетях
facebook vk youyube
Высшие курсы CIO
Рекомендовано MBA.SU