Введение в OLAP
Алексей Федоров, Наталия Елманова
Часть 1. Основы OLAP
Что такое хранилище данных
Что такое OLAP
Многомерные кубы
Некоторые термины и понятия
В цикле статей «Введение в базы данных», публиковавшемся в последнее время, мы
обсуждали различные технологии и программные средства, применяемые при создании
информационных систем — настольные и серверные СУБД, средства проектирования данных,
средства разработки приложений, а также Business Intelligence — средства анализа и обработки
данных масштаба предприятия, которые в настоящее время становятся все более популярными
в мире, в том числе и в нашей стране. Отметим, однако, что вопросы применения средств
Business Intelligence и технологии, используемые при создании приложений такого класса, в
отечественной литературе пока еще освещены недостаточно. В новом цикле статей мы
попробуем восполнить этот пробел и рассказать о том, что представляют собой технологии,
лежащие в основе подобных приложений. В качестве примеров реализации мы будем
использовать в основном OLAP-технологии фирмы Microsoft (главным образом Analysis
Services в Microsoft SQL Server 2000), но надеемся, что основная часть материала будет полезна
и пользователям других средств. Первая статья в данном цикле посвящена основам OLAP (On-Line Analytical
Processing) — технологии многомерного анализа данных. В ней мы рассмотрим концепции
хранилищ данных и OLAP, требования к хранилищам данных и OLAP-средствам, логическую
организацию OLAP-данных, а также основные термины и понятия, применяемые при
обсуждении многомерного анализа. Что такое хранилище данных
Информационные системы масштаба предприятия, как правило, содержат приложения,
предназначенные для комплексного многомерного анализа данных, их динамики, тенденций и
т. п.
Такой анализ в конечном итоге призван содействовать принятию решений. Нередко эти
системы так и называются — системы поддержки принятия решений. Принять любое управленческое решение невозможно не обладая необходимой для этого
информацией, обычно количественной. Для этого необходимо создание хранилищ данных (Data
warehouses), то есть процесс сбора, отсеивания и предварительной обработки данных с целью
предоставления результирующей информации пользователям для статистического анализа (а
нередко и создания аналитических отчетов). Ральф Кимбалл (Ralph Kimball), один из авторов концепции хранилищ данных, описывал
хранилище данных как «место, где люди могут получить доступ к своим данным» (см. ,
например, Ralph Kimball, «The Data Warehouse Toolkit: Practical Techniques for Building
Dimensional Data Warehouses», John Wiley & Sons, 1996 и «The Data Webhouse Toolkit: Building
the Web-Enabled Data Warehouse», John Wiley & Sons, 2000). Он же сформулировал и основные
требования к хранилищам данных:
• поддержка высокой скорости получения данных из хранилища;
• поддержка внутренней непротиворечивости данных;
• возможность получения и сравнения так называемых срезов данных (slice and dice);
• наличие удобных утилит просмотра данных в хранилище;
• полнота и достоверность хранимых данных;
• поддержка качественного процесса пополнения данных.