Данные, информация и технологии

Еще совсем недавно шутники предрекали, что конец развитию ИТ-решений наступит тогда, когда будут исчерпаны все возможные трехбуквенные названия. Впрочем, по понятным причинам прогресс не остановился: появились четырех и более буквенные аббревиатуры. Но, как известно, «в каждой шутке есть только доля шутки». Действительно, количество названий и соответственно разнообразных технологий для работы с информацией, а точнее говоря с данными, превосходит все мыслимые пределы. Если рост числа собственно технологий (а не их названий) продолжится, то конец и в самом деле возможен — прежде всего, по причине сложности. Технологий действительно море, но стройной карты для них, своего рода новой таблицы Менделеева, где каждой технологии было бы Данные, информация и технологии отведено свое место, и были бы обозначены связи между ними, пока нет. И отнюдь не случайно: причина в недостаточной определенности предмета, с которым работают технологии, называемые информационными. Эта неопределенность выражается, прежде всего, в смешении двух ключевых понятий — данные и информация.

Надо признать, что отдельные фрагменты будущей систематизирующей таблицы все таки складываются, причем, как это ни странно, раньше других не в областях, ставших классическими, а в совершенно новой области, такой как интеграция приложений на основе Web-служб. Еще совсем недавно, буквально пару лет назад Web-службы называли плохо определенной областью (ill-defined) компьютинга. Но неожиданно прозрачность в этой сфере наступает Данные, информация и технологии раньше, чем в других.

Происходит это, скорее всего, потому, что в данном случае решается задача обмена данными между приложениями. Подчеркнем: обмен ДАННЫМИ между ПРИЛОЖЕНИЯМИ. В этом фрагменте цепочки технологий нет человека, что в каком-то смысле приближает корпоративные системы к техническим системам управления или коммуникационным системам. Основной пафос происходящего в области с совпадающей аббревиатурой BI, (в данном случае обозначающей Business Integration) сводится к тому, что логика бизнес-процессов новыми средствами (прежде всего, серверами приложений) отделяется от логики процессов обработки данных — другими словами, «мухи отдельно, варенье отдельно». Таким образом, в инфраструктуре корпоративной системы в явном виде оформляются коммуникационные Данные, информация и технологии качества. Приложения ведут между собой обмен данными посредством сообщений примерно так же, как в технических системах данные передаются от датчиков (обратите внимание на однокоренные слова: «датчик» и «данные»). Система становится в большей степени инфраструктурой для передачи данных (т.е. инфраструктурой в подлинном смысле этого слова), а поверх нее работают приложения, предоставляющие доступ к источникам информации. На смену компьютингу идет коММпьютинг («коммуникации + компьютеры»).

Итак, если отбросить детали, нужно подчеркнуть, что современные технологии интеграции на основе стандартов SOAP, UDDI, WDSL и других позволяют сепарировать данные и информацию. Соответственно можно разделить и сами технологии — на те, которые работают в чистом виде с Данные, информация и технологии данными, и те, которые обеспечивают работу с информацией.



С появлением J2ЕЕ был сделан первый существенный шаг и теперь силами Sun Microsystems, тройственного союза BEA Systems, Intel, HP, корпорации IBM, а также целого ряда других заинтересованных сторон формируются платформы для обмена данными, между приложениями, образующими корпоративную систему. Но создание платформы для взаимодействия приложений не решает главной задачи — обеспечение ЧЕЛОВЕКА, также являющегося частью системы, средствами для получения ИНФОРМАЦИИИ (ведь, в конечном счете, для принятия решений нужна именно информация). Задачу создания средств для выделения информации из данных, лежащую поверх платформы, решают многие, в том числе и крупные, но по большей Данные, информация и технологии части мелкие компании. Они выступают в роли сателлитов, сопровождающих ведущих вендоров; особенно роль свиты бывает хорошо видна на всевозможных выставках, устраиваемых в рамках конференций, которые организуют крупные компании.

У задачи обеспечения человека возможностью работы с информацией есть две стороны. Одна в большей степени техническая; ее можно сравнить с полиграфическими услугами. С технической точки зрения на первый план выходят портальные технологии. Корпоративный портал играет роль интерфейсного устройства; его можно воспринимать как инструмент, посредством которого данные представляются в форме, доступной для превращения их человеком в информацию. Традиционные определения порталов (например: «единственная точка персонализированного доступа к источникам бизнес-информации и знания», Delphi Group [2]) выглядят наивно Данные, информация и технологии. Что такое источник в данном случае? Более корректное введение в портальные технологии можно найти в [3]. Определению портала в этом документе предшествует определение того, что авторы понимают под KM (knowledge management) и BI, поскольку посредством этих технологий человек реально получает доступ к данным. Подчеркивается, что управление знаниями и информационное обеспечение бизнеса поддерживаются различными технологиями, в том числе и порталами.

Информационные системы для управляющих (executive information system, EIS), системы поддержки принятия решений (decision support), раскопка текстов и данных (text mining и data mining), операционные хранилища данных (operational data store), многомерная аналитическая обработка данных (multidimensional online analytical processing, MOLAP Данные, информация и технологии), реляционная аналитическая обработка данных (relational online analytical processing, ROLAP), а теперь еще и business intelligence — все эти и им подобные многочисленные термины могут лишь ввести в заблуждение любого. На самом же деле главный смысл тех глобальных изменений, которые происходят сегодня, заключается в том, что сейчас, прежде всего, требуется выбирать ДАННЫЕ из традиционных приложений и превращать их в ИНФОРМАЦИЮ, в информацию, которая может быть использована для эффективного управления бизнесом. На основе такого подхода дается следующее определение портала: «Портал — это единая точка входа в корпоративной системе, которая позволяет обнаруживать и высвобождать (identify и unlock) структурированную и неструктурированную информацию из различных источников с тем, чтобы Данные, информация и технологии превратить ее в корпоративное знание, необходимое для принятия решений».

В число приложений, которые обеспечивают превращение данных в информацию входят перечисленные выше и еще многие другие, все вместе это и можно назвать информационным обеспечением бизнеса — или BI.

BI по-новому

Неспособность специалистов по компьютингу с достаточной точностью определить предмет своей деятельности привела к тому, что появился монстр, многоголовая гидра «информационных технологий», каждая из которых по большей части занимается чем угодно, но только не работой с информацией. В России еще хуже, у нас есть наука информатика, ее происхождение — предмет отдельного разговора.

По существу, 99% средств ИТ работают с данными. Именно информацией Данные, информация и технологии, а не данными занимались очень немногие. Среди них те, кто работал в областях Business Intelligence и Knowledge Management; долгое время это были две близкие, но совершенно не пересекающиеся между собой области. Если продолжить сравнение с геофизикой и геологией, то методы BI можно уподобить геофизическим методам (не случайна схожесть названий, например data mining и text mining). Вторая область, KM и особенно ее прикладная часть, управление контентом предприятия (Enterprise Content Management), ближе к геологии. Аналогия между BI и науками о Земле состоит в том, что прежде по формальным признакам, на основе анализа данных выявляются внутренние закономерности, а потом им даются интерпретации Данные, информация и технологии с привлечением более широкого круга знаний.

Теперь можно ответить на вопрос, почему на фоне общего спада процветает BI. Чем сильнее аналитика, тем эффективнее использование данных. И в науках о Земле, и в бизнесе аналитика обходится на порядки дешевле накопления данных. Поэтому в условиях кризиса взоры специалистов и обратились в сторону BI: бизнес стремится повысить эффективность, уровень возврата инвестиций в систему с минимальными дополнительными вложениями. Именно в этом ключ в понимании причин феномена локального успеха BI на фоне спада в остальных технологических направления. В условиях кризиса всегда оказываются более востребованными продукты с меньшим сроком возврата инвестиций, в данном случае Данные, информация и технологии — средства работы с информацией. Возросший спрос на средства BI вызывает и новое предложение, получившее название New Business Intelligence (NBI). Данное направление сложилось в результате партнерства компаний Inxight Software и Intelliseek, известных в качестве поставщиков решений для доступа к неструктурированным данным. Это две похожие небольшие, насчитывающие порядка сотни сотрудников, наукоемкие компании, но с разными корнями.

Inxight была основана в 1996 году корпорацией Xerox в рамках инициативы Xerox New Enterprises с целью дальнейшего развития технологий, созданных в исследовательских центрах Xerox Palo Alto Research Center (PARC) и Xerox Research Center Europe. Лучше родословную придумать сложно. В комплекс решаемых в Inxight проблем входят задачи Данные, информация и технологии работы с неструктурированными данными. Важность этого типа задач определяется тем, что свыше 85% корпоративных данных хранятся не в СУБД, а текстовых документах и файлах, Web-страницах, электронных письмах и аналогичных документах. Но поле это еще не пахано. По данным аналитиков IDC, большинство компаний не имеют адекватных средств для поиска и анализа информации в таких источниках.

Компания Intelliseek была создана Махендрой Вора и Сандаром Каджамом, которые стали соответственно ее генеральным директором и директором по технологиям. Основной программный продукт компании нацелен на выборку данных из разнообразных динамических источников и поиск данных в ресурсах разных типов. В Intelliseek вложили свои средства крупные промышленные компании, такие как Данные, информация и технологии Ford, Procter&Gamble и другие. Сведения еще об одном из источников финансирования Intelliseek, склоняющем к интерпретации термина Intelligence как разведка, можно найти во врезке «Защита информации vs. Информационная безопасность». В качестве примера ее практической деятельности можно назвать «анализ состояния брэндов» (brand pulse). Крупные компании с мировыми именами должны постоянно отслеживать состояние своего имени на рынке; в последние годы предназначенное для этой цели программное обеспечение активно развивается.

Появление NBI символизирует начало эпохи конвергенции двух направлений, которые до сих пор существовали независимо. Динамика этого процесса показана на рис. 1. Классическое направление BI основывается на более традиционных для бизнеса инструментах Данные, информация и технологии, предназначенных для обнаружения информации в хорошо организованных и структурированных данных. За два десятилетия своего существования BI оформилось как направление, где есть известные технические и алгоритмические принципы, существует сообщество специалистов. Важно и то, что сложились подходы, позволяющие оценить рациональность инвестиций (return on investment, ROI). В то же время управление знаниями до сих пор остается аморфной областью, с довольно большой прослойкой специалистов, как у нас, так и за рубежом, имеющих спекулятивную ориентацию в своей «проповеднической» активности. Методы KM простираются от организационных мероприятий до полнотекстового поиска и фильтрации данных, представленных на естественных языках. При том, что многим специалистам на интуитивном уровне понятна необходимость использования технологий Данные, информация и технологии KM, практических инструментов, имеющих экономическую оценку, пока не было.

Компания Intelliseek стала одной из первых, кто проложил мост между KM и BI, назвав свой подход New Business Intelligence. Стимулами к появлению NBI, как сказал Каджам [4], стали рост размещенных в Internet данных и эволюция технологий для агрегирования, анализа и подготовки отчетов на основании разнородных источников. Традиционные методы BI, предлагаемые компаниями Business Objects, MicroStrategy, Cognos, Informatica, Oracle, Microsoft и другими позволяют использовать не более 20% от общего количества доступных данных. Хороший обзор можно найти в [5]. C использованием NBI эта доля может быть увеличена от 50 до 60% за счет использования таких Данные, информация и технологии документов, как документация на изделия, исследовательские отчеты, записи о работниках. Сандар Каджам утверждает, что использование качественно иных, нежели СУБД, источников данных, позволяет существенно расширить кругозор и перейти от обработки статистики к выявлению тенденций. Свое видение проблем конвергенции KM и BI, а также их решение, в Intelliseek воплотили в двух программных продуктах — Enterprise Search Server (ESS) и BrandPulse.

Сильная сторона подхода, на котором построена идеология работы с данными предприятиями, которую предлагает Intelliseek, принципиально отличающая его от других известных, состоит в том, что в качестве исходной точки выбрано объединение KM и BI. Если отбросить маркетинговую шелуху, то легко обнаружить, что за этим Данные, информация и технологии лозунгом скрывается систематическое отношение к данным. На рис. 2 представлена схема, вполне справедливо названная «Информационным ландшафтом» (information landscape), где общая картина данных представлена во всей своей полноте. Несмотря на очевидность, она оригинальна — подобного обобщения всех разнородных источников данных прежде видеть не удавалось. (Чаще приходится наблюдать обратное. Например, совсем недавно мне довелось присутствовать при общении разработчиков систем обработки данных для страхования потенциальными заказчиками. Разработчики предлагают решения на основе CRM или ERP, а заказчики пытаются описать реальную информационную картину. Результат — взаимное «мимоговорение».) В информационном ландшафте, предложенном Intelliseek, все потенциальные источники данных разделены на две основные группы: собственные данные предприятия и данные, источником которых является Данные, информация и технологии Internet. Далее корпоративные данные делятся на структурированные и неструктурированные. К структурированным данным относятся те, которыми чаще всего оперируют в информационных системах, их собирают и обрабатывают в рамках приложений категорий EID (enterprise information data), CRM (customer relationship management), SCM (supply chain management), ERP (enterprise recourse planning) и др. Эти данные хранятся в базах данных, они подвергаются оперативной аналитической обработке (online analytical processing, OLTP), сохраняются и архивируются в хранилищах данных для того, чтобы можно было в дальнейшем выполнять аналитическую обработку средствами BI и DSS и получать в итоге проанализированные данные, отчеты и выполнять дальнейшую раскопку данных. К неструктурированным данным относятся зафиксированные Данные, информация и технологии результаты взаимодействия (collaboration), потоков работ (workflow), управления документооборотом и другие авторские материалы. Они существуют в виде электронных писем, контрактов и предложений, аудио- и видеофайлов, руководств, чертежей, маркетинговых материалов, описаний продуктов. Эти данные по совокупности образуют внутреннее знание организации.

Данные из Internet можно разделить на четыре подмножества. Основную их часть составляют данные из видимой и невидимой частей Web. В видимой части находится все то, что можно найти поисковыми машинами, т. е. собственно поисковые машины и сайты партнеров, конкурентов, государственные и т.д. Состав невидимой части Web шире, там находятся базы данных, чаты и доски объявлений, «веблоги», подписные журналы, обзоры и Данные, информация и технологии т.д. Меньшую часть представляют собственные сети Usenet и peer-to-peer (P2P).

Сведение вместе структурированных и неструктурированных данных — первый и наиважнейший шаг к объединению KM и BI. После того как создана объединенная картина информационного пространства, возникает естественный вопрос, как ею пользоваться? Очевидно, что точка входа должна быть построена на основе портальных технологий. На начальном этапе количество различных корпоративных порталов в пределах даже одного предприятия измерялось десятками. Сейчас наблюдается процесс консолидации порталов; например, совсем недавно компания Sun Microsystems сообщила, что количество используемых в ней порталов сокращено с 56 до 2. На самом деле нужна единственная точка входа ко всем виртуализированным Данные, информация и технологии корпоративным данным.

Пока реально ничего другого для доступа к данным кроме поисковых машин не существует. Массовое использование Сети наглядно это доказало. Решение этой задачи предложено Intelliseek в форме «корпоративной поисковой структуры» (Enterprise Search Framework, ESF) и «корпоративного поискового сервера» (Enterprise Search Server, ESS). Совместно они образуют информационную систему, которая имеет фирменное название — «настоящий корпоративный поиск» (True Enterprise Search).

ESF представляет собой многоуровневую систему.

Нижний уровень — интегрированный поиск (Federated Search, FS), иногда называемый также распределенным, обеспечивает поиск по разным источникам данных и упорядочивание полученных результатов. Работу FS поддерживают четыре типа технологий:

· Brokering - передача запросов в поисковые машины и получение результатов Данные, информация и технологии;

· Bridging - установление связей с базами данных;

· Full-Text Indexing- полнотекстовая индексация;

· Catalog Building - создание каталогов для полуструктурированного и неструктурированного контента.

· Следующие уровни FS:

· адаптивное обучение (Adaptive Learning), реализующее настройку маршрутизации запросов по содержанию запросов и типам источников данных;

· анализ результатов (Result Analysis) обеспечивает фильтрацию и отсеивания ошибочных, несоответствующих запросам результатов;

· отслеживание и установка контрольных точек (Tracking & Alerts)дает пользователю возможность самому корректировать процедуры поиска;

· упорядочивание (Categorization) - средство для организации полученных результатов;

· публикация знаний (Knowledge Publishing)- фиксация результатов работы пользователей;

· моделирование интересов пользователя (User Interest Modeling);

· адаптивная персонализация (Adaptive Personalization);

· представление (Presentation), технология построена на стандартных методах XML/XSLT Данные, информация и технологии;

· портальные адаптеры (EIP/Portal Adapters);

· администрирование.

· Компания Intelliseek в настоящее время предлагает три программных продукта:

· Enterprise Search Server (ESS) - основной продукт, обеспечивающий настоящий корпоративный поиск" и управление корпоративными знаниями;

· BrandPulse - продукт, построенный на платформе ESS и служащий для анализа состояния торговой марки;

· ExpressFeedback - новое предложение Intelliseek, служащее в качестве средства обратной связи для анализа отношений с покупателями.

NBI вполне можно рассматривать как одно из первых проявлений наметившегося процесса разделения корпоративных систем на два взаимодополняющих компонента: платформа, выполняющая все функции работы с данными, и надстройка, обеспечивающая перевод этих данных в информацию, воспринимаемую человеком.


Лекция 18


documentapelmaj.html
documentapeltkr.html
documentapemauz.html
documentapemifh.html
documentapemppp.html
Документ Данные, информация и технологии