Предметная область исследования

 

Любое исследование состоит в наблюдении за свойствами объектов в целях выяснения и оценивания значимых отношений и взаимосвязей между показателями этих свойств.

Предметная область включает в себя объекты, которые различаются по свойствам и определённым образом находятся в некоторых отношениях и взаимосвязаны между собой. Решение задач в области программирования начинается с исследования предметной области.

Предметная область - это часть действительного мира, которая бесконечна и содержит как значимые, так и несущественные данные. Исследователю надо уметь выделять их существенную часть. Например, решая задачу о выдаче кредита, значимыми будут считаться все данные о частной жизни клиента (есть ли работа у супруга, воспитывает ли клиент несовершеннолетних детей, образование клиента и т.д.). А для того чтобы решить другую задачу, связанную с банковской деятельностью, такие данные будут совершенно не существенны. Значимость данных зависит от того, что мы выбираем в качестве предметной области.

В процессе исследования необходимо создать модель предметной области. Знания из разных источников должны быть формализованы. Предметная область формализуется при помощи каких-либо средств. Средства могут быть самые различные. Это может быть текстовое описание предметной области или специализированная графическая нотация. С помощью модели предметной области описываются процессы, которые происходят в ней, а также изучаются данные этой области исследования.

Постановка задачи состоит также из описания статического и динамического поведения объектов, которые мы исследуем. Описание статического поведения предполагает характеристику объектов и их свойств. При описании динамического поведения характеризуются причины поведения объектов.

Динамическое поведение объектов часто описывают вместе со статическим поведением.

Иногда анализ предметной области и постановка задачи объединяются в 1 этап.

На этапе определения и анализа требований к данным производится моделирование данных, необходимых для осуществления Data Mining. Для этого исследуются вопросы распределения пользователей; аналитические характеристики системы; вопросы доступа к данным, необходимым для анализа.

Предметная область анализируется проще и эффективней, когда в организации имеется хранилище данных. Однако далеко не на всех предприятиях имеются такие хранилища данных. В таком случае источником для исходных данных являются оперативные базы данных, справочные и архивные материалы, то есть данные из уже существующих ИС (информационных систем).

Ещё может потребоваться информация из ИС руководителей, внешних и внутренних источников, различных документов на бумажных носителях, а также знания специалистов и/или результаты опросов.

Необходимо также знать, что в процессе подготовки данных разработчики программ должны описать как можно больше факторов, которые влияют на процесс. Здесь может осуществляться кодирование некоторых данных. Например, одна из характеристик клиента - уровень его дохода, который может быть определён как: очень низкий, низкий, средний, высокий, очень высокий. В этом случае надо определить градации уровня дохода.

При определении нужного количества данных необходимо учитывать упорядоченность данных.

В том случае, когда они упорядочены, необходимо узнать, включена ли в такой набор данных сезонная/циклическая компонента. Когда же они не упорядочены, т.е. набор событий из базы данных не связан по временной шкале, то по ходу сбора надо соблюдать нижеследующие правила:

1) малое число записей в базе данных может быть причиной создания неадекватной модели;

2) точность модели может быть улучшена с увеличением числа данных;

3) устаревшие данные исключают из набора;

4) алгоритмы, которые используется в целях создания модели с применением очень больших баз данных, должны иметь возможность масштабирования.

Статья закончилась. Вопросы остались?
Подписаться
Я хочу получать
Правила публикации
Следят за новыми комментариями — 7
Редактирование комментария возможно в течении пяти минут после его создания, либо до момента появления ответа на данный комментарий.