Data Mining - это... Понятие, алгоритм проведение анализа, назначение и применение

Развитие информационных технологий приносит практический результат. Но такие задачи как находить, анализировать и использовать информацию еще не получили эффективный качественный инструмент. Аналитика и количественные инструменты - есть, они реально работают. Но качественной революции в использовании информации еще не случилось.

Задолго до появления компьютерной техники человек нуждался в обработке больших объемов информации и справлялся с этим в меру накопленного опыта и имеющихся технических возможностей.

Развитие знаний и умений всегда отвечало реальной потребности и соответствовало текущим задачам. Data mining — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

Человек, интеллект, программирование

Человек всегда знает как поступать в любой ситуации. Незнание или незнакомая ситуация не мешает ему принять решение. Объективность и разумность любого решения человека можно поставить под сомнение, но оно будет принято.

В основе интеллекта лежат: наследственный «механизм», приобретенные, активные знания. Знания применяются для решения задач, которые возникают перед человеком.

  1. Интеллект - это уникальная совокупность знаний и умений: возможности и фундамент для жизни и работы человека.
  2. Интеллект постоянно развивается, а действия человека оказывают влияние на других людей.

Программирование - это первая попытка формализовать представление данных и процесс создания алгоритмов.

Человек, интеллект, программирование

Искусственный интеллект (ИИ) - это потерянное время и ресурсы, но результаты безуспешных попыток прошлого века в области ИИ остались в памяти, использовались в различных экспертных (интеллектуальных) системах и трансформировались, в частности, в алгоритмы (правила) и математический (логический) анализ данных и Data Mining.

Информация и обычный поиск решения

Обычная библиотека - хранилище знаний, а печатное слово и графика до сих пор не уступили пальму первенства компьютерным технологиям. Всегда актуальны и достоверны книги по физике, химии, теоретической механике, конструированию, природоведению, философии, естествознанию, ботанике, учебники, монографии, труды ученых, материалы конференций, отчеты по опытно-конструкторским работам и т. д.

Библиотека - это много самых разнообразных источников, отличающихся формой подачи материала, происхождением, структурой, содержанием, стилем изложения и т. д.

Библиотека: книги, журналы и иные печатные издания

Внешне все видимо (читабельно, доступно) для понимания и использования. Можно решить любую проблему, корректно поставить задачу, обосновать решение, написать реферат или курсовую работу, подобрать материал для диплома, выполнить анализ источников по теме диссертации или научно-аналитического отчета.

Любая информационная задача решаема. При должной усидчивости и умении будет получен точный и достоверный результат. В этом контексте Data Mining - это совершенно иной подход.

Помимо результата человек получает «активные ссылки» на все, что просмотрел в процессе достижения цели. На источники, которые он использовал при решении поставленной задачи, можно сослаться и никто не оспорит факт существования источника. Это не гарантия достоверности, но это верное свидетельство на кого «отписана» ответственность за достоверность. С этой точки зрения Data Mining - это большие сомнения в достоверности и никаких «активных» ссылок.

Решая несколько задач, человек получает результаты и расширяет свой интеллектуальный потенциал на множество «активных ссылок». Если новая задача «активирует» уже существующую ссылку, человек будет знать как ее решать: повторно ничего искать не понадобится.

«Активная ссылка» - это зафиксированная ассоциация: как и что делать в конкретном случае. Человеческий мозг автоматически запоминает все, что представляется ему потенциально интересным, полезным или вероятно нужным в будущем. Во многом это происходит на подсознательном уровне, но как только возникает задача, которую можно ассоциировать с «активной ссылкой» - она моментально выскакивает в сознании и решение будет получено без дополнительного поиска информации. Data Mining - это всегда повторение алгоритма поиска и этот алгоритм не меняется.

Обычный поиск: «художественные» задачи

Математическая библиотека и поиск в ней информации - относительно слабая задача. Найти тот или иной способ решения интеграла, построения матрицы или выполнения операции сложения двух мнимых чисел - трудоемко, но просто. Нужно перебрать некоторое количество книг, многие из которых написаны специфическим языком, найти нужный текст, изучить его и получить требуемое решение.

С течением времени перебор станет привычным, а накопленный опыт позволит ориентироваться в библиотечной информации и по другим математическим задачам. Это ограниченное информационное пространство вопросов и ответов. Характерная черта: такой поиск информации накапливает знания для решения подобных задач. Поиск информации человеком оставляет следы ("активные ссылки") в его памяти по возможным решениям других задач.

В художественной литературе найти ответ на вопрос:"Как люди жили в январе 1248 года?" очень трудно. Еще труднее ответить на вопрос о том, что лежало на прилавках магазинов и как была организована торговля продуктами питания. Даже если какой-либо писатель четко и прямо написал об этом в своем романе, если имя этого писателя удалось найти, то сомнения в достоверности полученных данных останутся. Достоверность - критическая характеристика любого объема информации. Важен источник, автор и свидетельства, исключающие ложность результата.

Объективные обстоятельства конкретной ситуации

Человек видит, слышит, ощущает. Некоторые специалисты в совершенстве владеют уникальным чувством - интуицией. Постановка задачи требует информации, процесс решения задачи чаще всего сопровождается уточнением постановки задачи. Это меньшая беда, которая приходит с момента перемещения информации в недра компьютерной системы.

Информация в виртуальном пространстве

Библиотека и коллеги по работе - это косвенные участники процесса решения. Оформление книги (источника), графика в тексте, особенности разбиения информации на заголовки, сноски по фразам, предметный указатель, список первоисточников - все вызывает у человека ассоциации, которые косвенно влияют на процесс решения задачи.

Время и место решения задачи имеет существенное значение. Человек так уж устроен, что невольно обращает внимание на все, что окружает его в процессе решения задачи. Это может отвлекать, а может стимулировать. Data Mining - это никогда «не поймет».

Информация в виртуальном пространстве

Человек всегда интересовала только достоверная информация о событии, явлении, предмете, алгоритме решения задачи. Человек всегда представлял как именно он может достичь желаемой цели.

Появление компьютеров и информационных систем должно было упростить человеку жизнь, но все только усложнилось. Информация перекочевала в недра компьютерных систем и исчезла из поля зрения. Чтобы выбрать нужные данные требуется составить корректный алгоритм или сформулировать запрос к базе данных.

Данные внутри информационной системы

Вопрос должен быть правильным. Только в таком случае можно получить ответ. Но сомнения в достоверности останутся. В этом смысле Data Mining - это действительно «раскопки», это «добыча информации». Именно так модно переводить эту фразу. Русский вариант - интеллектуальный анализ данных или технология интеллектуального анализа данных.

В работах авторитетных специалистов, задачи Data Mining обозначены так:

  • классификация;
  • кластеризация;
  • ассоциация;
  • последовательность;
  • прогнозирование.

С точки зрения практики, которой руководствуется человек при ручной обработке информации, все эти позиции спорные. Во всяком случае, человек выполняет обработку информации автоматически и не задумывается над классификацией данных, над составлением тематических групп объектов (кластеризация), поиском временных закономерностей (последовательность) или прогнозированием результата.

Все эти позиции в сознании человека представлены активными знаниями, которые охватывают больше позиций и в динамике используют логику обработки исходных данных. Большую роль играет подсознание человека, особенно когда он является специалистом в конкретной отрасли знаний.

Пример: оптовая продажа компьютерной техники

Задача простая. Существует несколько десятков поставщиков компьютерного оборудования и периферийных устройств. У каждого есть прайс в формате xls (файл Excel), который можно скачать с официального сайта поставщика. Требуется создать веб-ресурс, который читает файлы Excel, преобразует в таблицы базы данных и позволяет покупателям выбирать желаемые товары по минимальным ценам.

Проблемы возникают сразу. Каждый поставщик предлагает свой вариант структуры и содержания xls-файла. Получить файл можно скачав его с сайта поставщика, заказать по электронной почте или взять ссылку на загрузку через личный кабинет, то есть путем официальной регистрации у поставщика.

Виртуальный магазин компьютеров

Решение задачи (в самом начале) технологически простое. Загрузка файлов (исходных данных), по каждому поставщику пишется алгоритм распознавания файла и данные помещаются в одну большую таблицу исходных данных. После того как все данные получены, после того как налажен механизм непрерывной подкачки (ежедневной, еженедельной или по факту изменения) свежих данных:

  • изменение ассортимента;
  • изменение цен;
  • уточнение количества на складе;
  • корректировка сроков гарантии, характеристик и пр.

Здесь начинаются реальные проблемы. Все дело в том, что поставщик может написать:

  • notebook Acer;
  • notebook Asus;
  • ноутбук Dell.

Речь идет об одном и том же изделии, но от разных производителей. Как сопоставить notebook = ноутбук или как удалить Acer, Asus и Dell из строки товара?

Для человека - это не проблема, но как алгоритм «поймет» что Acer, Asus, Dell, Samsung, LG, HP, Sony - это торговые марки или поставщики? Как сопоставить «принтер» и printer, «сканер» и «МФУ», «ксерокс» и «МФУ», «наушники» с «гарнитурой», «аксессуары» с «принадлежностями»?

Построение дерева категорий по исходным данным (исходные файлы) - уже проблема, когда нужно все поставить на автомат.

Выборка данных: раскопки «свежезалитого»

Задача создания базы данных по поставщикам компьютерной техники решена. Построено дерево категорий, функционирует общая таблица с предложениями от всех поставщиков.

Типичные задачи Data Minig в контексте данного примера:

  • найти товар по минимальной цене;
  • выбрать товар с минимальной стоимостью доставки и цены;
  • анализ товаров: характеристики и цены по критериям.

В реальной работе менеджера, использующего данные от нескольких десятков поставщиков, вариаций этих задач будет множество, а реальных ситуаций еще больше.

Например, есть поставщик «А», который продает ASUS VivoBook S15: предоплата, поставка через 5 дней после фактического получения денег. Есть поставщик «Б» такого же товара той же модели: оплата при получении, поставка после заключения договора в течение дня, цена выше в полтора раза.

Начинается интеллектуальный анализ данных Data Mining - «раскопки». Образные выражения: «раскопки» или «добыча данных» - синонимы. Речь идет о том, как получить основание для принятия решения.

По поставщикам «А» и «Б» есть история поставок. Оценка предоплаты в первом случае против оплаты при получении во втором случае с учетом того, что сбой поставки во втором случае выше на 65 %. Риск штрафных санкций от клиента выше/ниже. Как и что определить и какое решение принять?

С другой стороны: база данных создана программистом и менеджером. Если поменялись программист и менеджер, как определить текущее состояние базы данных и научиться ее правильно использовать? Придется также делать интеллектуальный анализ данных. Data Mining предлагает множество математических и логических методов, которым безразлично какие именно данные подвергаются исследованию. В некоторых случаях это дает верное решение, но не во всех.

Перемещение в виртуальность и обретение смысла

Методы Data Mining приобретают смысл как только информация записана в базу данных и исчезла из «поля зрения». Торговля компьютерным оборудованием - задача интересная, но это просто бизнес. От того, насколько хорошо он организован в компании зависит ее успех.

Изменения климата на планете и погода в конкретном городе интересует всех, а не только профессиональных специалистов по климату. Тысячи датчиков снимают показания ветра, влажности, давления, поступают данные с искусственных спутников Земли и существует история данных по годам и столетиям.

Данные о погоде - это не только решение задачи: взять с собой зонтик на работу или нет. Технологии Data Mining - это безопасный полет авиалайнера, стабильная работа автомагистрали и надежная поставка нефтепродуктов морским путем.

«Сырые» данные поступают в информационную систему. Задачи Data Mining превратить их в систематизированную систему таблиц, установить связи, выделить группы однородных данных, обнаружить закономерности.

Климат, погода и сырые данные

Математические и логические методы еще со времен количественной аналитики OLAP (On-line Analytical Processing) показали свою практичность. Здесь технология позволяет найти смысл, а не потерять его как в примере по продаже компьютерного оборудования.

Более того в глобальных задачах:

  • транснациональный бизнес;
  • управление авиаперевозками;
  • изучение недр земли или социальных проблем (на уровне государства);
  • исследование влияния лекарств на живой организм;
  • прогнозирование последствий строительства промышленных предприятия и т. п.

Технологии Data Mine и перевод «бессмысленных» данных в реальные данные, которые позволяют принимать объективные решения, - это единственно возможный вариант.

Человеческие возможности заканчиваются там, где присутствует большой объем сырой информации. Системы Data Mining теряют свою полезность там, где требуется видеть, понимать и чувствовать информацию.

Разумное распределение функций и объективность

Человек и компьютер должны дополнять друг друга - это аксиома. Написать диссертацию - приоритет у человека, а информационная система - подспорье. Здесь данные, которыми располагает технология Data Mining - это эвристики, правила, алгоритмы.

Подготовить прогноз погоды на неделю - приоритет информационной системы. Человек управляет данными, но основывает свои решения на результатах вычислений системы. Здесь сочетаются методы Data Mining, классификация данных специалиста, ручное управление применением алгоритмов, автоматическое сопоставление данных прошлых лет, математическое прогнозирование и множество знаний и умений реальных людей, участвующих в применении информационной системы.

Человек и компьютер

Теория вероятностей и математическая статистика не самые «любимые» и понятные области знаний. Многие специалисты от них очень далеки, но методики, разработанные в этих областях дают почти на 100 % верный результат. Применяя системы на базе идей, методов и алгоритмов Data Mining, решения можно получить объективно и достоверно. В противном случае решение получить просто невозможно.

Фараоны и загадки прошлых веков

Историю периодически переписывали:

  • государства - ради своих стратегических интересов;
  • авторитетные ученые - ради своих субъективных убеждений.

Сказать что истина, а что ложь - трудно. Применение Data Mining позволяет решить эту задачу. Например, технология строительства пирамид описывалась летописцами и изучалась учеными в разные века. В Интернет попали далеко не все материалы, здесь не все уникально, а у многих данных может не быть:

  • описываемого момента времени;
  • времени составления описания;
  • дат, на которых основывается описание;
  • автора (авторов), учитываемых мнений (ссылок);
  • подтверждений объективности.

В библиотеках, храмах и «неожиданных местах» можно обнаружить рукописи разных веков и материальные свидетельства прошлого.

Интересная цель: собрать все воедино и раскопать «истину». Особенность задачи: информация может быть добыта от первого описания летописцем, еще при жизни фараонов, до текущего века, в котором данная задача решается современными методами множеством ученых.

Обоснование для использования Data Mining: применение ручного труда не возможно. Слишком велики количества:

  • источников информации;
  • языков представления информации;
  • исследователей, описывающих одно и тоже по-разному;
  • дат, событий и терминов;
  • проблем корреляции терминов;
  • анализ статистики по группам данных во времени может отличаться и пр.

В конце прошлого века, когда очередное фиаско идеи искусственного интеллекта стало очевидным не только обывателю, но и искушенному специалисту, появилась идея: «воссоздать личность».

Например, по произведениям Пушкина, Гоголя, Чехова формируется некая система правил, логики поведения и создается информационная система, которая может отвечать на те или иные вопросы так, как это бы сделал человек: Пушкин, Гоголь или Чехов. Теоретически такая задача интересна, но практически ее крайне сложно осуществить.

Однако, идея такой задачи наводит на весьма практическую мысль: «как создать интеллектуальный поиск информации». Интернет - это множество развивающихся ресурсов, огромная база данных и это прекрасный повод применить Data Mining в сочетании с человеческой логикой в формате совместного развития.

Машина и человек в паре

Машина и человек в паре - прекрасная задача и несомненный успех в области «информационной археологии», качественные раскопки в данных и результаты, которые что-то поставят под сомнения, но вне всякого сомнения позволят получить новые знаний и будут востребованы в обществе.

Статья закончилась. Вопросы остались?
Подписаться
Я хочу получать
Правила публикации
Следят за новыми комментариями — 7
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.