Pentaho BI Suite - часть четвертая, дополнительные возможности
Доброго времени суток!
В этой части публикации хочу рассказать о возможностях Pentaho BI Suite, которые скрыты от пользователя, но которые делают эту систему действительно универсальным инструментом работы с информацией. В первую очередь это, конечно, сценарии обработки данных.
Сценарии обработки данных
При формировании любого отчета (не обязательно в Pentaho, даже просто вручную в Excel) данные проходят ряд стадий обработки: получение, обработка (группировка, расчет агрегированных показателей и т.п.), форматирование. Если отчет формируется вручную, то пользователь все эти стадии выполняет сам (выгружает данные из 1С в Excel, форматирует их, подводит итоги и т.п.). Если используется некий генератор отчетов, то все эти процедуры скрыты в программном коде, и чтобы их изменить, нужно обращаться к программисту. Если используется Pentaho BI Suite, эту работу выполняет сценарий обработки данных. Сценарий представляет собой набор этапов обработки данных (от получения их из источника до генерации собственно отчета) и создается в специальном редакторе. Редактор выглядит так:
В области 1 определяются входы сценария, в области 2 — собственно сценарий, в области 3 - параметры этапа сценария. Как видно на картинке, сценарий состоит из этапов, которые выполняются в заданной последовательности. Могут существовать условные переходы и циклы (например, получить список сотрудников и для каждого сотрудника рассчитать количество опозданий в текущем месяце). В нашем примере система на первом этапе получает данные и проверяет их на соответствие некоторому условию. Например, система рассчитывает количество задач в текущем месяце, которые не были выполнены в срок ИТ-отделом)). Если количество таких задач не превышает критического значения (например, 5% от общего числа задач ИТ-отдела), система уведомляет о наличии таких задач руководителя ИТ-отдела по email. А если их количество превышает заданный порог, то система делает следующее:
-
Получает перечень таких задач;
-
Формирует отчет, включая в него перечень задач;
-
Отправляет отчет руководителю руководителя ИТ-отдела по email, с соответствующим комментарием)).
Так как интеграционные возможности Penaho BI Suite достаточно широки, перечень действий системы вовсе не ограничивается отправкой писем. Она и премии может лишить автоматически, если ей дать соответствующие полномочия. Или наоборот, добавить. То есть проверить некий критерий, связаться с учетной системой и внести в нее соответствующие записи... Звучит жутковато, а между тем это очень эффективный способ оптимизировать бизнес-процессы, снизить их трудоемкость и сделать их прозрачными и понятными, верно? Не нужно больше вручную анализировать кучу всяких данных, строить отчеты, сопоставлять их, делать выводы. Нужно просто определить ряд формальных критериев и алгоритмы обработки результатов, и система сделает все сама, автоматически, по расписанию. Пользователю останется только прочитать почту.
Интеллектуальный анализ данных
Интеллектуальный анализ, или извлечение данных (data mining) – штука, позволяющая рассмотреть лес за деревьями. Анализируя входящие данные, алгоритмы извлечения данных могут:
-
проводить классификацию (т.е. относить элементы данных к одному из заранее известных классов);
-
кластеризацию (т.е. разделение массива данных на несколько типов, причем признаки разделения система определяет сама);
-
выявлять скрытые (т.е. не очевидные на первый взгляд) зависимости.
-
анализировать отклонения, т.е. выявлять нехарактерные для данной совокупности элементы данных
-
строить деревья решений;
-
и т.п., в том числе с применением искусственного интеллекта.
В идеальном случае, после интеллектуального анализа данных, например, по продажам, Вы будете знать не только что в каком количестве продано, но и почему это продано именно сейчас, именно в таком количестве, и почему не продано все остальное.
На основе полученной информации уже можно строить достаточно надежные прогнозные модели, что всегда очень ценно для бизнеса.
Выглядеть это может так (на картинке — пример кластеризации, т.е. выявления значимых признаков и отнесения к ним элементов данных):
Заключение
Если не писать маркетинговой воды, то это, пожалуй, все, что хотелось рассказать о Pentaho BI Suite. По возникшим вопросам пишите на m.rozenson@oss-consult.ru, с удовольствием отвечу.
Макс Розенсон
Open Source Systems Consult
Комментарии
13/03/2011 - 18:14
А как у Pentaho с источниками данных? Как и откуда можно получать исходные данные?
31/03/2011 - 13:01
с источниками данных все замечательно. без них плохо))
данные можно получать практически из любого источника - от текстового файла до колоночных БД. Подойдет все, к чему есть jdbc\odbc драйвер, а если такового нет, можно написать свой и использовать его в качестве плагина.
22/08/2011 - 21:22
Интересный и полезный материал.
Было бы неплохо, если бы автор подробнее рассказал про дэшборбы (контрольные панели) - как их создавать, настраивать и т.д. Возможности использования картографических элементов в дэшбордах - как это делать (google maps). Могут ли дэшборды отображать оперативные изменения данных, если в БД информация меняется каждую минуту, то можно ли использовать Pentaho для синхронного отображения информации на экране?
С уважением,
Владимир Черкашин
p.s. Это не спам!
22/08/2011 - 21:34
Материал интересный и полезный.
Было бо неплохо, если бы автор подробнее рассказал о дэшбордах (контрольных панелях) - как их создавать, настраивать, как встраивать элементы картографии (google maps) и т.д. Также интересно рассмотреть вопрос использования дэшбордов для оперативного отображения изменений в БД. Скажем, данные в БД обновляются раз в минуту - можно ли для синхронного отображения изменений данных использовать дэшборды Pentaho и как это настраивается?
10/10/2011 - 09:53
День добрый!
Спасибо за комментарий, постараюсь это сделать в ближайшее время, в статьях про новую версию системы.
21/05/2013 - 16:02
Например отчет по разным типам документов (входящие\исходящие письма, договора) с отображением разных реквизитов документов.
19/07/2013 - 15:53