Основы интеллектуального анализа данных: технологии, методы и задачи

Использование данных является проблемой при составлении программ и разработке информационных систем. Прежде чем выполнить анализ большого объема данных и принять решение, гарантирующее достоверный и объективный результат, необходимо определить этот большой объем. Задача усложняется, если поток информации стремительно растет, а время на принятие решения ограничено.

Данные и их формализация

Современные информационные технологии гарантируют безопасный и надежный анализ, представление и обработку данных. Синтаксически и формально это верно. С точки зрения семантики задачи и объективности ожидаемого решения - результат зависит от опыта, знаний и умений программиста.

Языки программирования находятся в статусе надежного и безопасного инструмента. Знания и умения специалистов анализировать, представлять и обрабатывать данные пришли к уровню относительной универсальности.

Технологии интеллектуального анализа данных на этом уровне практически безупречны. Тип данных может быть известен к моменту операции над ними, а в случае несоответствия - будет автоматически приведен к нужному типу.

Развиты инструменты гипертекста, повсеместно используется распределенная обработка больших объемов данных. На этом уровне:

  • информационные задачи поддаются формализации;
  • потребности к интеллектуальному анализу удовлетворяются;
  • качество результата зависит от качества знаний и профессионализма программиста.

Ситуация в программировании информационных систем уровня предприятия характеризуется наличием реально работающих продуктов, обеспечивающих формирование больших объемов данных и проблему более высокого порядка.

Большие объемы данных

В 80-е годы, когда базы данных становились системами управления базами данных, повышение надежности аппаратного обеспечения и качество языков программирования оставляли желать лучшего.

В настоящее время накопилось большое количество баз данных, многие источники информации компьютеризированы, разработаны сложные системы сбора различной информации (финансы, погода, статистика, налоги, недвижимость, персональные данные, климат, политика...).

Некоторые источники данных характеризуются очевидными закономерностями и поддаются анализу математическими методами. Можно выполнить интеллектуальный анализ данных в Excel: очистить данные, построить модель, сформировать гипотезу, определить корреляции и т.д.

В некоторых данных и источниках закономерности трудно обнаружить. Во всех случаях программно-аппаратное обеспечение для обработки данных характеризуется надежностью и стабильностью. Задача интеллектуального анализа данных стала во главе угла во многих социально-экономических сферах.

Лидеры информационной отрасли, в частности Oracle, фокусируют свое внимание на спектре обстоятельств, характеризующих данные нового типа:

  • огромные потоки;
  • естественная информация (даже если она создана программно);
  • разнородные данные;
  • высочайшие критерии ответственности;
  • широкий спектр форматов представления данных;
  • совместимость интеграторов данных и их обработчиков.

Главная особенность данных нового типа: огромный объем и скорость нарастания этого объема. Классические алгоритмы не применимы для обработки данных нового типа даже с учетом быстродействия современных компьютеров и применения параллельных технологий.

От бэкапа к миграции и интеграции

Раньше была актуальна задача безопасного хранения информации (бэкап, резервное копирование). Сегодня актуальна проблема миграции множественных представлений данных (разные форматы и кодировки) и их интеграции в единое целое.

Без технологии интеллектуального анализа данных многие задачи не решить. Здесь не идет речь о принятии решений, определении зависимостей, создании алгоритмов выборки объемов данных для последующей обработки. Слияние разнородных данных стало проблемой, и привести источники информации к единому формализованному основанию нет возможности.

Интеллектуальный анализ данных большого объема требует определения этого объема и создания технологии (алгоритма, эвристик, наборов правил) для получения возможности поставить задачу и решить ее.

Data mining: что копать

Понятие анализа данных в контексте интеллектуальных методов начало активно развиваться с начала 90-х годов прошлого века. Искусственный интеллект к этому времени не оправдал надежд, но необходимость в принятии обоснованных решений на основе анализа информации стала стремительно расти.

Машинное обучение, интеллектуальный анализ данных, распознавание образов, визуализация, теория баз данных, алгоритмизация, статистика, математические методы составили спектр задач новой, активно развивающейся область знаний, которую ассоциируют с англоязычным data minig.

На практике новая область знаний приобрела междисциплинарный характер и находится в стадии становления. Благодаря опыту и программной продукции от Oracle, Microsoft, IBM и других лидирующих компаний сложилось отчетливое представление о том, что такое интеллектуальный анализ данных, но вопросов еще очень много. Достаточно сказать, что линейка программных изделий от Oracle, посвященная исключительно большим объемам информации, их интеграции, совместимости, миграции и обработке - это более сорока позиций!

Что нужно, чтобы поставить задачу обработки больших данных правильно и получить обоснованное решение? Ученые и практики сходятся на обобщенном понимании фразы «поиск скрытых закономерностей». Здесь сочетаются три позиции:

  • неочевидность;
  • объективность;
  • практическая полезность.

Первая позиция означает, что обычными методами не определить, что нужно найти и как это сделать. Классическое программирование здесь не применимо. Нужен если не искусственный интеллект, то хотя бы программы для интеллектуального анализа данных. Термин «интеллектуального» представляет собой не меньшую проблему, чем задача определения достаточного объема данных для принятия начальных решений и формулировки исходных правил работы.

Объективность - своего рода гарантия, что выбранная технология, разработанная «интеллектуальная» методика или спектр «интеллектуальных» правил дадут основание считать полученные результаты правильными не только автору, но и любому другому специалисту.

Oracle в своих программных изделиях добавляет к понятию объективность статус безопасного, лишенного постороннего негативного вмешательства.

Практическая полезность - самый важный критерий для результата и алгоритма решения задачи интеллектуального анализа данных в конкретном применении.

Data mining: где копать

Бизнес-интеллект (Business Intelligence - BI) - основа современного, самого дорогого и востребованного программного обеспечения. Поставщики бизнес-решений считают, что нашли способ решения задач по обработке больших объемов данных, и их программные изделия могут обеспечить безопасное и стремительное развитие бизнеса компании любого размера.

Как в случае искусственного интеллекта в области средства интеллектуального анализа данных, не следует слишком сильно преувеличивать текущие достижения. Все только становится на ноги, но и отрицать реальные результаты тоже нельзя.

Вопрос сферы применения. Разработаны алгоритмы интеллектуального анализа данных в экономике, на производстве, в области информации о климате, о курсах на валютной бирже. Существуют интеллектуальные продукты по защите предприятия от негативного влияния уволенных сотрудников (область психологии и социологии - сильная тема), от вирусных атак.

Многие разработки реально выполняют функции, декларируемые их изготовителями. Фактически задача - что делать и где это делать - приобрела осмысленный и объективный контекст:

  • минимально возможная область применения;
  • максимально точная и четкая цель;
  • источники данных и данные, приведенные к одному основанию.

Только область применения и ожидаемая практическая полезность могут помочь сформулировать технологии, методики, правила и основы интеллектуального анализа данных в конкретной сфере, ради конкретной цели.

Информационные технологии сделали заявку на научную дисциплину, и не следует гнушаться небольшими шагами в новом, неизведанном направлении. Позарившись на святая святых - естественный интеллект, человек не может требовать от себя того, что сделать не в состоянии.

Решить, что делать и где это делать, на сегодняшний день крайне трудно. На конкретном бизнесе, в конкретной области человеческой деятельности можно очертить объем информации, подлежащей исследованию, и получить решение, которое будет характеризоваться какой-то долей достоверности и показателем объективности.

Data mining: как копать

Профессиональное программирование и собственный высококвалифицированный персонал - единственный инструмент для достижения желаемого.

Пример 1. Задача интеллектуального анализа данных не будет решена чистым применением Oracle Load Testing Controller. Этот продукт заявлен как полнофункциональный и расширяемый инструмент тестирования нагрузки. Это крайне узкая задача. Только нагрузка! Ничего более, никаких высокоинтеллектуальных задач.

Однако задачи, на которых применяется данный продукт, могут поставить в тупик не только тестировщика, но и разработчика, при всех его регалиях лидера отрасли. В частности, тестирование - это требование функциональной полноты. Где гарантия, что Oracle Load Testing Controller «в курсе», какие наборы данных могут поступать на вход тестируемого приложения, сервера, программно-аппаратного комплекса.

Пример 2. Oracle Business Intelligence Suite Foundation Edition for Oracle Applications - разработчик декларирует этот продукт как удачное сочетание используемого ПО с экспертными знаниями построения, развития и обеспечения крупного бизнеса.

Бесспорно, опыт Oracle велик, но этого не достаточно для его трансформации через программно-экспертное изделие. На конкретном предприятии, в конкретном регионе Business Intelligence от Oracle может не сработать от решения налоговой службы или постановления местного муниципалитета.

Разумное применение современных технологий

Единственное правильное решение в области больших объемов информации, data mining и системы интеллектуального анализа данных в компании, государственном учреждении и в любой социально-экономической сфере - коллектив специалистов.

Знания и опыт квалифицированных специалистов - это единственно правильное решение, которое даст комплексный ответ на вопрос:

  • data mining: что копать, где это делать и как?

Приобрести приоритетные продукты соответствующего назначения лишним не будет, но прежде чем это делать, потребуется изучить область применения, сформулировать ориентировочное решение и поставить предварительную цель.

Только после того, как предметная область определена и цель примерно ясна, можно заняться поиском уже разработанных и проверенных практикой решений. Скорее всего, будет найден продукт, который позволит уточнить предметную область и цель.

Никакая программа сегодня не справится с реальной задачей. Проиграв в области искусственного интеллекта в начале 80-х годов прошлого века, человек-разумный еще не может рассчитывать, что способен написать программу, решающую интеллектуальные задачи.

Не следует надеяться, что ИИ придет сам, а купленная у Oracle, Microsoft или IBM программа скажет, что нужно было делать, как и какой результат считать правильным. В современном мире информационных технологий идет бурный прогресс. В нем можно принять эффективное участие, усилить позиции своего бизнеса или решить задачу, которую трудно было поставить. Но нужно принимать участие, а не рассчитывать на программу.

Программирование - это статический труд, его результат - жесткий алгоритм. Современное интеллектуальное правило или эвристика - это жестко поставленное решение, которое не сработает при первой попавшейся оказии.

Моделирование и тестирование

Интеллектуальный анализ больших данных - действительно востребованная и актуальная задача. Но область применения до обнаружения этой задачи худо-бедно, но жила и развивалась.

Необходимость в дальнейшем развитии бизнеса ставит новые задачи, которые позволяют концептуально очертить объемы подлежащих обработке больших данных. Это естественный процесс научно-технического и интеллектуального развития предприятия, компании, бизнеса. Это же можно отнести к интернет-технологиям, к задачам парсинга информации на просторах интернета.

Существует множество новых задач и приложений, которые востребованы, могут быть более-менее четко поставлены и характеризуются объективным параметром: в их решении есть востребованный интерес и есть понимание вероятной полезности.

Моделирование - достаточно разработанная область, которая оснащена множеством проверенных математических методов. Модель можно построить всегда, было бы время и желание.

Моделирование позволяет сфокусировать все имеющиеся знания в одну систему и совершенствовать ее на наборе тестовых данных циклически. Это классический путь развития, который также прошел проверку практикой.

Если не строить воздушных замков, а со стабильной уверенностью идти к поставленной цели, то можно определить и путь, и желаемое решение, и конечную цель.

Программирование и интеллектуальные методы

Именно программирование в начале 80-х годов прошлого века подтолкнуло общественное сознание к рождению идей искусственного интеллекта, именно оно стало родоначальником data mining, и именно с него начались методы интеллектуального анализа данных.

В те далекие времена проблемы больших объемов данных не существовало. Сегодня есть не только большие объемы данных, но и результат развития систем управления базами данных - значительный опыт в реляционных отношениях, как основе основ для представления данных.

Реляционные отношения - это часть, но не целое. Есть еще понятие системности, иерархии и много того, чем владеет интеллект естественный, но не может реализовать интеллекте искусственный: в данном случае - в программировании.

Программирование не есть интеллект ни в каком смысле, но это реальный результат применения интеллекта на практике. В этом его смысл, и именно это можно использовать в достижении желаемых целей.

Активные знания и умения

Любая программа - это статика. Она представляет собой конструирование алгоритма решения задачи в рамках синтаксиса языка программирования.

Современные языки программирования - совершенный результат 80-х годов, и это отрицать никак нельзя. Нельзя также не заметить, что современные языки программирования дают возможность создавать свободные алгоритмы за пределами своего синтаксиса.

Если кто-либо когда-либо сможет написать программу, которая будет работать не по воле ее автора, а по воле приобретенных ею знаний и умений, проблема больших объемов данных и принятия интеллектуальных решений будет закрыта, и начнется новый виток развития знаний.

Комментарии