Глава 4. Информационное обеспечение > 4.7. Хранилища данных
Главная страница • Справка • Глоссарий

4.7. Хранилища данных

После изучения этого раздела вы должны иметь представление о хранилищах данных, их назначении, структуре хранения информации в хранилищах.

В последнее время информационная структура современных ИС, предоставляющих своим пользователям помимо автоматизации повседневной деятельности предприятий, банков и т.д., еще и аналитические возможности, планирование и прогнозирование их состояния, строится на основе хранилищ данных (Data Warehouse).

Хранилища данных представляют собой логически интегрированную базу данных, обеспечивающую максимально быстрый и удобный доступ к информации, необходимой для анализа и поддержки принятия решений.

Хранилища данных характеризуются следующими основными особенностями:

  1. Ориентация на предметную область, то есть в хранилище помещается информация, полезная для работы систем поддержки принятия решений, и ее структура должна быть понятна пользователям.
  2. Защищенность, предусматривающая неизменность и немодифицируемость данных, помещенных в хранилище, и доступность только в режиме чтения.
  3. Поддержка хронологических данных, определяющая тот факт, что для анализа требуется информация, накопленная за длительный период времени.
  4. Интеграция в едином хранилище ранее разъединенных данных, поступающих как из внутренних, так и внешних источников, а также их проверку, согласование и структурирование.
  5. Агрегация, предусматривающая хранение не оперативных данных, а сортируемую, фильтруемую и определенным образом обработанную информацию (суммарную информацию).
  6. Разделение наборов данных, используемых для оперативной обработки, и тех, которые применяются для решения аналитических задач.

Основными источниками наполнения хранилища данных являются традиционные оперативные системы обработки данных (OLTP-системы) и различные внешние источники, например, публичные отчеты предприятий, исторические архивы, результаты биржевых торгов, Интернет и т.п.

Хранилище данных имеет структуру в виде «гиперкуба» - многомерного куба пространства агрегированных множеств (или значений). Величины, хранящиеся в ячейках этого куба и называемые фактами, представляют собой количественные показатели, характеризующие деятельность предприятия. Измерения куба представляют собой множество однотипных данных, предназначенных для описания фактов. В качестве примеров детализации измерений могут выступать филиалы, объединенные по территориальному признаку; поставщики или потребители продукции; даты (или интервалы), на которые производились вычисления и т.п. Каждая ячейка данного куба "отвечает" за конкретный набор значений по его измерениям.

Анализ информации представляет собой выполнение различных математических и логических операций над этим кубом: формирование плоскостных срезов, детализация и выделение блоков данных, проекция, агрегация.

Отличительной особенностью хранилища данных является наличие метаданных, то есть данные о данных. Они играют роль справочников, содержащих сведения об источниках первичных данных, о методах загрузки информации из них, об алгоритмах обработки, которым были подвергнуты исходные данные, описание структуры этих данных и их взаимосвязей, периодичность их обновления и т.д.

Одним из вариантов реализации на практике хранилища данных является построение витрин данных (Data Marts). Витрина данных представляет собой относительно небольшие и специализированные хранилища данных, содержащие только тематически ориентированные (объединенные) данные и предназначенные для использования конкретным функциональным подразделением.

Структура витрин данных также ориентирована на многомерную организацию данных в виде куба. Однако их построение в силу ограниченности информационного диапазона, обеспечивающего потребности одного бизнес-процесса, значительно проще и выгоднее.

< предыдущий раздел   

Hosted by uCoz