Интеллектуальный анализ данных

Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на стыке баз данных, статистики и искусственного интеллекта [5] .

1.1. Исторический экскурс

Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году. [1]

Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining (который следует переводить как «раскопка данных») и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).

В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.


1.2. Постановка задачи

Первоначально, задача ставится следующем образом:

  • имеется достаточно крупная база данных;
  • предполагается, что в базе данных находятся некие «скрытые знания».

Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.

Что означает «скрытые знания»? Это должны быть обязательно знания:

  • ранее не известные — то есть, такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
  • нетривиальные — то есть, такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
  • практически полезные — то есть, такие знания, которые представляют ценность для исследователя или потребителя;
  • доступные для интерпретации — то есть, такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.

Этими требования, во многом, определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистичесике методы анализа и методы искуссвтенного интеллекекта.


1.2.1. Data mining и базы данных

Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.

5 стр., 2432 слов

Базы знаний как современные интеллектуальные информационные системы

... систем искусственного интеллекта потребует огромных баз знаний. Интеллектуальная информационная система (ИИС) — это один из видов автоматизированных информационных систем, иногда ИИС называют системой, основанных на знаниях. ... знаний и методы работы со знаниями, называется инженерией знаний. Под базами знаний ... Задачами анализа являются: интерпретация данных, диагностика, поддержка принятия решения; ...

Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционые реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестроннего математического анализа.


1.2.2. Data mining и статистика

В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы ().

В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.


1.2.3. Data mining и искусственный интеллект

Знания, добываемые методами Data mining принято представлять в виде моделей . В качестве таких моделей выступают:

  • ассоциатиные правила;
  • деревья решений;
  • кластеры;
  • математические функции.

Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».

2. Задачи

Задачи, решаемые методами Data Mining, принято разделять на

  • описательные (англ. descriptive);
  • предсказательные (англ. predictive).

В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.

К описательным задачам относятся:

  1. Поиск ассоциативных правил или паттернов (образцов).

  2. Группировка объектов или кластеризация.
  3. Построение регрессионной модели.

К предсказательным задачам относятся:

  1. Классификация объектов (для заранее заданных классов).
    13 стр., 6125 слов

    Применение информатики, математических моделей и методов в управлении

    ... методов анализа целенаправленных дей­ствий (операций) и объективная сравнительная оценка возможных решений. Хотя исследование операций пред­ставляет собой самостоятельное научное направление, воз­никшее в ... люди постоянно совершенствуют практику плановой работы, принципы и методы научного управления народным хозяйством. математических моделей информатики 1. Общее представление об управлении. а) ...

  2. Построение регрессионной модели.


3. Алгоритмы обучения

Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.

Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.

отсутствие разделения на входные и выходные векторы


4. Этапы обучения

Выделяется типичный ряд этапов решения задач методами Data Mining:

  1. Формирование гипотезы;
  2. Сбор данных;
  3. Подготовка данных (фильтрация);
  4. Выбор модели;
  5. Подбор параметров модели и алгоритма обучения;
  6. Обучение модели (автоматический поиск остальных параметров модели);
  7. Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
  8. Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.

5. Подготовка данных

Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.

Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.

Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.

Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.


Примечания


Литература

[Электронный ресурс]//URL: https://inauka.net/referat/intellektualnyiy-analiz-dannyih/

  • Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD).
    11 стр., 5047 слов

    Анализ имущественного положения предприятия

    ... изучения объекта является общий факторный финансовый анализ. Теоретические основы анализа имущественного положения предприятия 1.1. Имущество предприятия: понятие и виды Сначала определим само ... предприятия. Цель курсовой работы - проанализировать состав имущества предприятия с точки зрения эффективности его использования, а также источников его формирования, для выявления имущественного ...

    — www.basegroup.ru/library/books/bi/. — СПб: Изд. Питер, 2009. — 624 с.

  • Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
  • Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения — www.solutions-center.ru. — М .: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0106-8
  • Зиновьев А. Ю. Визуализация многомерных данных — pca.narod.ru/ZINANN.htm. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
  • Чубукова И. А. Data Mining: учебное пособие — www.intuit.ru/department/database/datamining/. — М .: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7

Данный реферат составлен на основе .