Что такое хранилище данных? Как правило, это база, в которой хранится вся масса информации по деятельности той или иной компании. Но нередко бывает нужным выделить из всего этого масштабного комплекса данные по одному направлению работы организации, подразделению, служебному вопросу. Здесь приходит на помощь иной тип хранилища - так называемые витрины данных. Что это, каковы ее достоинства, недостатки, разновидности, мы с вами будем рассматривать на протяжении статьи.
Что это?
Что такое витрины данных? Английский вариант - Data Mart. Существует несколько синонимов понятия:
- Специализированное хранилище информации (данных).
- Киоск данных.
- Рынок данных и проч.
Определимся с трактовкой термина "витрина данных":
- Срез базы, хранилища данных, который призван представлять собой массив узкоспециализированной, тематической информации, ориентированный под запросы сотрудников определенного департамента, вектора работы организации.
- Специализированное хранилище информации, в котором содержатся сведения по одному из векторов деятельности компании.
- Комплекс тематически связанных БД (баз данных), относящихся к конкретным направлениям работы организации.
Дать объявление в витрину данных не получится. Она является одним из типов хранения внутренней информации организации, а не предоставления сведений широкому кругу пользователей.
Концепция хранилища
Идея создания витрин данных была предложена в 1991 году Forrester Research. Авторы представляли данное хранилище информации как определенное множество специфических баз данных, которые содержат в себе сведения, относящиеся к конкретным векторам деятельности корпорации.
Forrester Research выделяли следующие сильные стороны своего проекта - витрин данных:
- Представление аналитикам только той информации, которая действительно нужна для определенного рабочего задания, профиля служебной деятельности.
- Максимальная приближенность целевой части хранилища данных к конкретному пользователю.
- Содержание тематических подмножеств заранее агрегированных специалистами данных, которые в дальнейшем проще настраивать и проектировать.
- Для реализации витрины данных (хранилища данных специализированного типа) не требуется вычислительная техника большой мощности.
Но те же Forrester Research говорили и о слабых сторонах своего изобретения:
- Реализация информационной территориально распределенной системы, чья избыточность слабо контролируется.
- Не предполагается методик, способов, которые могли бы обеспечить целостность и непротиворечивость хранящейся в витрине данных (базе данных узкоспециальной) информации.
Перейдем теперь к новой теме.
Конструирование витрин
Главный пример витрин данных - это тематические подмножества заранее агрегированной информации. Соответственно, такие БД гораздо легче проектировать и настраивать. Создают подобные витрины для поиска конкретных ответов на запросы пользователя. Данные в них адаптируются создателем под определенные группы сотрудников. Подобная оптимизация облегчает процедуру наполнения витрин, способствует повышению производительности подобных БД.
Известно, что конструирование комплексных хранилищ данных - довольно сложный процесс, который может растянуться даже на несколько лет. А вот витрины данных, конкретизированные по отдельным структурам предприятия, фирмы, создавать проще и быстрее. Надо сказать, что несколько витрин могут успешно сосуществовать и с основным хранилищем информации, давая о нем частичное представление.
Как мы упоминали, проектирование витрин данных - технологически облегченный процесс. Но создателям ВД нужно помнить о том, что при построении впоследствии могут возникнуть проблемы с интеграцией информации (в случае, если проектирование производилось без учета комплексной бизнес-модели).
Независимые витрины: примеры
Витрина данных SQL - аналитическая структура, поддерживающая работу одного из приложений, подразделения, бизнес-раздела. Его сотрудники обобщают свои требования к информации, приспосабливают витрину к собственным служебным нуждам. Далее проходит обеспечение персонала, контактирующего с этими данными, определенными средствами интерактивной отчетности.
Независимые витрины данных исторически складываются в крупных организациях, которые имеют большое число самостоятельных подразделений с собственными отделами информационных технологий. Примеры их можно выделить следующие:
- Витрина данных подразделения маркетинга. Включает в себя информацию о продуктах компании, ее клиентах, планах по продажам и проч.
- Витрина данных отделения продаж.
- ВД финансового отдела.
- ВД подразделения оценки рисков и прочее.
Достоинства независимых витрин
Давайте выделим ключевые преимущества витрин данных, которые найдены непосредственными создателями и пользователями:
- Максимально ориентированы на сотрудника, предоставляют ему только ту информацию, которая необходима при выполнении служебного задания.
- Значительно меньше "весят", нежели базы данных.
- Создание витрин - технологически легкий процесс (чем проектирование комплексных хранилищ данных). Кроме того, проще проходит и наполнение ВД, и работа конечных пользователей с ними.
- Содержат в себе агрегированную информацию по определенным тематикам.
- Достаточно быстрое внедрение витрин данных.
- Создание для ответов на конкретный ряд вопросов.
- Данные оптимизированы для использования определенным кругом пользователей. Это облегчает процедуру наполнения ВД, способствует увеличению производительности системы.
Недостатки независимых витрин
Давайте определимся с минусами витрин данных, которые выделяют пользователи и проектировщики:
- Сложный контроль целостности, избыточности, непротиворечивости данных. Часты случаи, когда идентичная информация хранится сразу в нескольких витринах, перегружая систему. Данные нередко могут дублироваться. Все это вместе приводит к увеличению расходов на хранение информации.
- С витриной работать непросто, если для нее используется несколько источников данных. Также подобную ВД сложно наполнять - не обойтись без целой команды профессионалов.
- Объединение информации, накопленной в разных витринах, не предусматриваются, то есть данные не будут консолидированы на уровне компании.
- Не дает возможности представления полной картины о состоянии деятельности организации.
Смешанная концепция
А что будет, если соединить между собой концепции витрин данных и хранилища данных? Таким вопросом задался в 1994 году М. Демарест. Именно он предложил объединить вышеуказанные концепции для дальнейшего использования хранилища (базы) данных в качестве интегрированного единого источника при проектировании витрин данных.
Данное решение объединяет в себе три уровня:
- Общекорпоративная база данных, чья основа - реляционная СУБД (система управления базами данных). Имеет слабо денормализованную либо нормализованную схему (или детализированные данные).
- База данных (БД) конкретного отдела, подразделения организации, конечного работника-пользователя. Реализуется уже на основе многомерной СУБД (агрегированных данных).
- Рабочие места конечных сотрудников-пользователей, на которые непосредственно устанавливается аналитический инструментарий.
Данная многомерная структура со временем станет стандартной во многих компаниях. Главная причина того - объединение в ней достоинств двух подходов:
- Компактное хранение детализированной информации, поддержка масштабных баз данных, что реализуется на основе реляционных систем управления БД.
- Простая настройка, быстрый отклик на запрос пользователя при работе с агрегированной информацией на основе многомерных систем управления БД.
Достоинства трехмерных витрин
Плюсы данного типа ВД следующие:
- Упрощенное создание подобных витрин данных, так как они наполняются из стандартизированного надежного единого источника.
- ВД синхронизированы и совместимы с корпоративной БД.
- Сравнительно легкое расширение хранилища, возможность добавления новых витрин.
- Гарантия хорошей производительности системы.
Недостатки трехмерных витрин
Здесь также выделяется ряд минусов:
- Избыточность информации, которая ведет к росту требований на хранение данных.
- Нужна согласованность с архитектурой ряда областей с потенциально разными требованиями.
Мы с вами разобрали, что такое витрина данных, узнали, в чем различия между концепцией независимых и трехуровневых ВД, каковы ключевые достоинства и недостатки подобных хранилищ информации крупной компании.