Методы Data Mining (или, что то же самое, Knowledge Discovery In Data, сокращённо, KDD) лежат на стыке баз данных, статистики и искусственного интеллекта [5] .
1.1. Исторический экскурс
Область Data Mining началась с семинара (англ. workshop), проведёного Григорием Пятецким-Шапиро в 1989 году. [1]
Ранее, работая в компании GTE Labs, Григорий Пятецкий-Шапиро заинтересовался вопросом: можно ли автоматически находить определённые правила, чтобы ускорить некоторые запросы к крупным базам данных. Тогда же было предложено два термина — Data Mining (который следует переводить как «раскопка данных») и Knowledge Discovery In Data (который следует переводить как «открытие знаний в базах данных»).
В 1993 году вышла первая рассылка «Knowledge Discovery Nuggets», а в 1994 году был создан один из первых сайтов по Data Mining.
1.2. Постановка задачи
Первоначально, задача ставится следующем образом:
- имеется достаточно крупная база данных;
- предполагается, что в базе данных находятся некие «скрытые знания».
Необходимо разработать методы обнаружения знаний, скрытых в больших объёмах исходных «сырых» данных.
Что означает «скрытые знания»? Это должны быть обязательно знания:
- ранее не известные — то есть, такие знания, которые должны быть новыми (а не подтверждающими какие-то ранее полученные сведения);
- нетривиальные — то есть, такие, которые нельзя просто так увидеть (при непосредственном визуальном анализе данных или при вычислении простых статистических характеристик);
- практически полезные — то есть, такие знания, которые представляют ценность для исследователя или потребителя;
- доступные для интерпретации — то есть, такие знания, которые легко представить в наглядной для пользователя форме и легко объяснить в терминах предметной области.
Этими требования, во многом, определяют суть методов Data mining и то, в каком виде и в каком соотношении в технологии Data mining используются системы управления базами данных, статистичесике методы анализа и методы искуссвтенного интеллекекта.
1.2.1. Data mining и базы данных
Методы Data mining имеет смысл применять только для достаточно больших баз данных. В каждой конкретной области исследований существует свой критерий «великости» базы данных.
Базы знаний как современные интеллектуальные информационные системы
... систем искусственного интеллекта потребует огромных баз знаний. Интеллектуальная информационная система (ИИС) — это один из видов автоматизированных информационных систем, иногда ИИС называют системой, основанных на знаниях. ... знаний и методы работы со знаниями, называется инженерией знаний. Под базами знаний ... Задачами анализа являются: интерпретация данных, диагностика, поддержка принятия решения; ...
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционые реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта (на предприятии), плохо приспособлены для проведения анализа. это привело, в свою очередь, к созданию т.н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестроннего математического анализа.
1.2.2. Data mining и статистика
В основе методов Data mining лежат математические методы обработки данных, включая и статистические методы ().
В промышленных решениях, нередко, такие методы непосредственно включаются в пакеты Data mining. Однако, следует учитывать, что статистические методы, во-первых, основываются на статистической природе анализируемых явлений (например, обычно постулируют форму распределения случайной величины), а, во-вторых, результаты статистических методов, как правило, являются тривиальными (легко рассчитываются), практически бесполезными (например, всевозможные средние) и трудно интерпретируемыми (те же средние), что полностью расходится с целями и задачами Data mining. Тем не менее, статистические методы используются, но их применение ограничивается выполнением только определённых этапов исследования.
1.2.3. Data mining и искусственный интеллект
Знания, добываемые методами Data mining принято представлять в виде моделей . В качестве таких моделей выступают:
- ассоциатиные правила;
- деревья решений;
- кластеры;
- математические функции.
Методы построения таких моделей принято относить к области т.н. «искусственного интеллекта».
2. Задачи
Задачи, решаемые методами Data Mining, принято разделять на
- описательные (англ. descriptive);
- предсказательные (англ. predictive).
В описательных задачах самое главное — это дать наглядное описание имеющихся скрытых закономерностей, в то время как в предсказательных задачах на первом плане стоит вопрос о предсказании для тех случаев, для которых данных ещё нет.
К описательным задачам относятся:
- Поиск ассоциативных правил или паттернов (образцов).
- Группировка объектов или кластеризация.
- Построение регрессионной модели.
К предсказательным задачам относятся:
- Классификация объектов (для заранее заданных классов).
13 стр., 6125 слов
Применение информатики, математических моделей и методов в управлении
... методов анализа целенаправленных действий (операций) и объективная сравнительная оценка возможных решений. Хотя исследование операций представляет собой самостоятельное научное направление, возникшее в ... люди постоянно совершенствуют практику плановой работы, принципы и методы научного управления народным хозяйством. математических моделей информатики 1. Общее представление об управлении. а) ...
- Построение регрессионной модели.
3. Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке, содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
отсутствие разделения на входные и выходные векторы
4. Этапы обучения
Выделяется типичный ряд этапов решения задач методами Data Mining:
- Формирование гипотезы;
- Сбор данных;
- Подготовка данных (фильтрация);
- Выбор модели;
- Подбор параметров модели и алгоритма обучения;
- Обучение модели (автоматический поиск остальных параметров модели);
- Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
- Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
5. Подготовка данных
Перед использованием алгоритмов Data Mining необходимо произвести подготовку набора анализируемых данных. Так как ИАД может обнаружить только присутствующие в данных закономерности, исходные данные с одной стороны должны иметь достаточный объем, чтобы эти закономерности в них присутствовали, а с другой — быть достаточно компактными, чтобы анализ занял приемлемое время. Чаще всего в качестве исходных данных выступают хранилища или витрины данных. Подготовка необходима для анализа многомерных данных до кластеризации или интеллектуального анализа данных.
Далее данные очищаются. Очистка удаляет выборки с шумами и пропущенными данными.
Очищенные данные сводятся к векторам признаков, один вектор на выборку. Вектор признаков — это суммарная версия сырых данных выборки. Например, черно-белое изображение лица размером 100×100 пикселей содержит 10 тыс. бит сырых данных. Они могут быть преобразованы в вектор признаков путем обнаружения в изображении глаз и рта. В итоге происходит уменьшение объема данных с 10 тыс. бит до списка кодов положения, значительно уменьшая объем анализируемых данных, а значит и время анализа. Выбор функции будет зависеть от того, что является целью анализа; выбор «правильной» функции имеет основополагающее значение для успешного интеллектуального анализа данных.
Векторы признаков делятся на две категории — обучающий набор и тестовый набор. Обучающий набор используется для «обучения» алгоритма Data Mining, а тестовый набор — для проверки найденных закономерностей.
Примечания
Литература
[Электронный ресурс]//URL: https://inauka.net/referat/intellektualnyiy-analiz-dannyih/
- Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD).
11 стр., 5047 слов
Анализ имущественного положения предприятия
... изучения объекта является общий факторный финансовый анализ. Теоретические основы анализа имущественного положения предприятия 1.1. Имущество предприятия: понятие и виды Сначала определим само ... предприятия. Цель курсовой работы - проанализировать состав имущества предприятия с точки зрения эффективности его использования, а также источников его формирования, для выявления имущественного ...
— www.basegroup.ru/library/books/bi/. — СПб: Изд. Питер, 2009. — 624 с.
- Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
- Журавлёв Ю.И., Рязанов В.В., Сенько О.В. РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения — www.solutions-center.ru. — М .: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0106-8
- Зиновьев А. Ю. Визуализация многомерных данных — pca.narod.ru/ZINANN.htm. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
- Чубукова И. А. Data Mining: учебное пособие — www.intuit.ru/department/database/datamining/. — М .: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7
Данный реферат составлен на основе .