Теория СУБД

АНАЛИЗ ДАННЫХ И OLAP-ТЕХНОЛОГИИ

Часто обнаружить какие-либо ценные закономерности в получен­ных данных только с помощью средств автоматики сложно или орга­низация (она же — заказчик БД) не имеет в штате сотрудников соответ­ствующей квалификации. В этом слу­чае прибегают к технологиям ручного анализа данных, среди которых наи­более распространена технология OLAP (On-Line Analytical Processing). Суть этой технологии — в рассмотре­нии различных срезов данных с целью выявления закономерностей.

Например, имеется таблица данных о совершенных покупках и о покупате­лях (рис. 3). Можно сгруппировать суммарную стоимость покупок, с од­ной стороны, по возрастной категории, а с другой — по категории покупки. Та­кая группировка позволит выявить тот факт, что покупатели старшего по­коления предпочитают книги, в то вре­мя как люди моложе отдают предпоч­тение компакт-дискам. Группируя дан­ные различным образом и оперируя с различными суммарными показателя­ми (среднее, сумма, процент от общего значение и т.д.), аналитик может выяв­лять различные статистические зако­номерности, которые потом можно бу­дет применять на практике.

Для использования OLAP-технологий существует множество специали­зированных программных средств, од­нако базовые возможности имеются в стандартной офисной программе Microsoft Excel в виде сводных таблиц Pivot Table и графиков Pivot Chart.

ИНДУКЦИЯ ПРАВИЛ И ДЕРЕВЬЯ РЕШЕНИЙ

В то время как OLAP-технологии являются лишь инструментом аналитика, существуют методики, позволя­ющие автоматически находить в дан­ных закономерности и формулиро­вать их в виде правил. Применение алгоритмов извлечения знаний поз­воляет получать в результате прави­ла следующего вида:

ЕСЛИ дата покупки приходится на декабрь И покупатель приобрел подарочное издание книги ТО покупатель также приобрел подарочную открытку КОЭФФ. УВЕРЕННОСТИ: 80%, ПОКРЫТИЕ: 10%

Указанный коэффициент уверен­ности 80% означает, что правило вы­полняется в 80% случаев, а в 20% ситуаций его заключение при истин­ных посылках оказывается неверным. Покрытие показывает, какой процент данных из общего количества удов­летворяет этому правилу.

Индукция правил по массивам дан­ных может стать альтернативой руч­ному способу построения баз знаний (рис. 2). Однако полученные в резуль­тате правила не всегда правильно от­ражают закономерности предметной области, поэтому методы машинного обучения скорее подходят для анали­за данных в такой последовательнос­ти: обработка данных машинными ме­тодами, затем изучение полученных результатов экспертами или инжене­рами по знаниям.

Для индукции правил существуют известные алгоритмы ID3 и C4.5, реа­лизованные во многих специализи­рованных системах для анализа дан­ных и машинного обучения (Orange, iDA и другие). Эти алгоритмы основа­ны на построении деревьев решений — древовидных диаграмм, наглядно по­казывающих ход решения задачи (см. рис. 4).

Другой важной задачей, решае­мой в рамках машинного обучения, является кластеризация и классифи­кация, в ходе которых множество объ­ектов разбивается на некоторые ха­рактерные классы. В случае с интер­нет-магазином имеет смысл разбивать потребительскую аудиторию по клас­сам интересов (научная фантастика, философия и т.д.) с учетом совершен­ных ими покупок и затем предлагать каждой категории соответствующую литературу. Более сложная задача классификации — с учетом текста кни­ги относить ее к той или иной смысло­вой категории.

Задача кластеризации может ре­шаться как на основании обучения с учителем (когда мы заранее задаем множество классов и примеров объ­ектов, попадающих в эти классы), так и путем обучения без учителя, когда задается только число классов, а мно­жества похожих объектов выделяют­ся и группируются алгоритмом самос­тоятельно. Например, можно попро­сить алгоритм разбить все множество на три класса, тем самым обнаружив наиболее явные группы покупателей автоматически (это могут быть, к примеру, "техническая литера­тура и фэнтези", "любовные романы и эзотерика" и "поэзия и искусство").

Еще одна разновидность обуче­ния — группа статистических методов, известная как коллаборативная фильтрация. Вполне закономерно, что если большинство покупателей учебника по искусственному интел­лекту также приобретают какой-либо носитель с фильмом "Матрица", то новым покупателям подобных книг можно в ненавязчивой форме пред­лагать и этот товар. Простейшим при­мером коллаборативной фильтрации являются подсказки интернет-магази­нов "вместе с этим товаром также по­купают". Отличительной особен­ностью коллаборативной фильтрации является то, что генерирования зна­ний по данным не происходит, а спи­сок объектов получают с учетом ис­ходных данных чисто статистическими методами .