Pentaho BI Suite - часть четвертая, дополнительные возможности

 Доброго времени суток!

В этой части публикации хочу рассказать о возможностях Pentaho BI Suite, которые скрыты от пользователя, но которые делают эту систему действительно универсальным инструментом работы с информацией. В первую очередь это, конечно, сценарии обработки данных.

Сценарии обработки данных

При формировании любого отчета (не обязательно в Pentaho, даже просто вручную в Excel) данные проходят ряд стадий обработки: получение, обработка (группировка, расчет агрегированных показателей и т.п.), форматирование. Если отчет формируется вручную, то пользователь все эти стадии выполняет сам (выгружает данные из 1С в Excel, форматирует их, подводит итоги и т.п.). Если используется некий генератор отчетов, то все эти процедуры скрыты в программном коде, и чтобы их изменить, нужно обращаться к программисту. Если используется Pentaho BI Suite, эту работу выполняет сценарий обработки данных. Сценарий представляет собой набор этапов обработки данных (от получения их из источника до генерации собственно отчета) и создается в специальном редакторе. Редактор выглядит так:

 

В области 1 определяются входы сценария, в области 2 — собственно сценарий, в области 3 - параметры этапа сценария. Как видно на картинке, сценарий состоит из этапов, которые выполняются в заданной последовательности. Могут существовать условные переходы и циклы (например, получить список сотрудников и для каждого сотрудника рассчитать количество опозданий в текущем месяце). В нашем примере система на первом этапе получает данные и проверяет их на соответствие некоторому условию. Например, система рассчитывает количество задач в текущем месяце, которые не были выполнены в срок ИТ-отделом)). Если количество таких задач не превышает критического значения (например, 5% от общего числа задач ИТ-отдела), система уведомляет о наличии таких задач руководителя ИТ-отдела по email. А если их количество превышает заданный порог, то система делает следующее:

  1. Получает перечень таких задач;

  2. Формирует отчет, включая в него перечень задач;

  3. Отправляет отчет руководителю руководителя ИТ-отдела по email, с соответствующим комментарием)).

Так как интеграционные возможности Penaho BI Suite достаточно широки, перечень действий системы вовсе не ограничивается отправкой писем. Она и премии может лишить автоматически, если ей дать соответствующие полномочия. Или наоборот, добавить. То есть проверить некий критерий, связаться с учетной системой и внести в нее соответствующие записи... Звучит жутковато, а между тем это очень эффективный способ оптимизировать бизнес-процессы, снизить их трудоемкость и сделать их прозрачными и понятными, верно? Не нужно больше вручную анализировать кучу всяких данных, строить отчеты, сопоставлять их, делать выводы. Нужно просто определить ряд формальных критериев и алгоритмы обработки результатов, и система сделает все сама, автоматически, по расписанию. Пользователю останется только прочитать почту.

Интеллектуальный анализ данных

Интеллектуальный анализ, или извлечение данных (data mining) – штука, позволяющая рассмотреть лес за деревьями. Анализируя входящие данные, алгоритмы извлечения данных могут:

  • проводить классификацию (т.е. относить элементы данных к одному из заранее известных классов);

  • кластеризацию (т.е. разделение массива данных на несколько типов, причем признаки разделения система определяет сама);

  • выявлять скрытые (т.е. не очевидные на первый взгляд) зависимости.

  • анализировать отклонения, т.е. выявлять нехарактерные для данной совокупности элементы данных

  • строить деревья решений;

  • и т.п., в том числе с применением искусственного интеллекта.

В идеальном случае, после интеллектуального анализа данных, например, по продажам, Вы будете знать не только что в каком количестве продано, но и почему это продано именно сейчас, именно в таком количестве, и почему не продано все остальное.

На основе полученной информации уже можно строить достаточно надежные прогнозные модели, что всегда очень ценно для бизнеса.

Выглядеть это может так (на картинке — пример кластеризации, т.е. выявления значимых признаков и отнесения к ним элементов данных):

 

Заключение

Если не писать маркетинговой воды, то это, пожалуй, все, что хотелось рассказать о Pentaho BI Suite. По возникшим вопросам пишите на m.rozenson@oss-consult.ru, с удовольствием отвечу.

Макс Розенсон

Open Source Systems Consult

www.oss-consult.ru

 

3764

Комментарии

А как у Pentaho с источниками данных? Как и откуда можно получать исходные данные?

Приношу извинения гостю портала, чей вопрос пропал из-за технических работ. Смысл вопроса поcтаралась восстановить. webadmin

с источниками данных все замечательно. без них плохо))

данные можно получать практически из любого источника - от текстового файла до колоночных БД. Подойдет все, к чему есть jdbc\odbc драйвер, а если такового нет, можно написать свой и использовать его в качестве плагина.

Интересный и полезный материал.

Было бы неплохо, если бы автор подробнее рассказал про дэшборбы (контрольные панели) - как их создавать, настраивать и т.д. Возможности использования картографических элементов в дэшбордах - как это делать (google maps). Могут ли дэшборды отображать оперативные изменения данных, если в БД информация меняется каждую минуту, то можно ли использовать Pentaho для синхронного отображения информации на экране?

С уважением,

Владимир Черкашин

p.s. Это не спам!

Материал интересный и полезный.

Было бо неплохо, если бы автор подробнее рассказал о дэшбордах (контрольных панелях) - как их создавать, настраивать, как встраивать элементы картографии (google maps) и т.д. Также интересно рассмотреть вопрос использования дэшбордов для оперативного отображения изменений в БД. Скажем, данные в БД обновляются раз в минуту - можно ли для синхронного отображения изменений данных использовать дэшборды Pentaho и как это настраивается?

 День добрый!

Спасибо за комментарий, постараюсь это сделать в ближайшее время, в статьях про новую версию системы.

Мог бы кто-то написать статью про формирование отчетов в Pentaho по данным Alfresco?
Например отчет по разным типам документов (входящие\исходящие письма, договора) с отображением разных реквизитов документов.
Здраствуйте, нужна помощь кто нибудь интегрировал Pentaho с Liferay Portal-ом как портлет? Если да напишите более подробно как это делать=)