Text Mining: современные технологии на информационных рудниках. Сферы применения Data Mining

Web Mining можно перевести как "добыча данных в Web". Web Intelligence или Web Интеллект готов "открыть новую главу" в стремительном развитии электронного бизнеса. Способность определять интересы и предпочтения каждого посетителя, наблюдая за его поведением, является серьезным и критичным преимуществом конкурентной борьбы на рынке электронной коммерции.

Системы Web Mining могут ответить на многие вопросы, например, кто из посетителей является потенциальным клиентом Web-магазина, какая группа клиентов Web-магазина приносит наибольший доход, каковы интересы определенного посетителя или группы посетителей.

Технология Web Mining охватывает методы, которые способны на основе данных сайта обнаружить новые, ранее неизвестные знания и которые в дальнейшем можно будет использовать на практике. Другими словами, технология Web Mining применяет технологию Data Mining для анализа неструктурированной, неоднородной, распределенной и значительной по объему информации, содержащейся на Web-узлах.

Согласно таксономии Web Mining , здесь можно выделить два основных направления: Web Content Mining и Web Usage Mining .

Web Content Mining подразумевает автоматический поиск и извлечение качественной информации из разнообразных источников Интернета, перегруженных " информационным шумом ". Здесь также идет речь о различных средствах кластеризации и аннотировании документов.

В этом направлении, в свою очередь, выделяют два подхода: подход, основанный на агентах, и подход, основанный на базах данных.

Подход, основанный на агентах (Agent Based Approach ), включает такие системы:

  • интеллектуальные поисковые агенты (Intelligent Search Agents);
  • фильтрация информации / классификация;
  • персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

  • Harvest (Brown и др., 1994),
  • FAQ -Finder (Hammond и др., 1995),
  • Information Manifold (Kirk и др., 1995),
  • OCCAM (Kwok and Weld , 1996), and ParaSite (Spertus, 1997),
  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
  • ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных (Database Approach ), включает системы:

  • многоуровневые базы данных;
  • системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

  • W3QL (Konopnicki и Shmueli, 1995),
  • WebLog (Lakshmanan и др., 1996),
  • Lorel (Quass и др., 1995),
  • UnQL (Buneman и др., 1995 and 1996),
  • TSIMMIS (Chawathe и др.., 1994).

Второе направление Web Usage Mining подразумевает обнаружение закономерностей в действиях пользователя Web-узла или их группы.

Анализируется следующая информация:

  • какие страницы просматривал пользователь;
  • какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

  • предварительная обработка;
  • операционная идентификация;
  • инструменты обнаружения шаблонов;
  • инструменты анализа шаблонов.

При использовании Web Mining перед разработчиками возникает два типа задач. Первая касается сбора данных, вторая - использования методов персонификации. В результате сбора некоторого объема персонифицированных ретроспективных данных о конкретном клиенте, система накапливает определенные знания о нем и может рекомендовать ему, например, определенные наборы товаров или услуг. На основе информации о всех посетителях сайта Web-система может выявить определенные группы посетителей и также рекомендовать им товары или же предлагать товары в рассылках.

Задачи Web Mining согласно можно подразделить на такие категории:

  • Предварительная обработка данных для Web Mining .
  • Обнаружение шаблонов и открытие знаний с использованием ассоциативных правил, временных последовательностей, классификации и кластеризации;
  • Анализ полученного знания.

Text Mining

Text Mining охватывает новые методы для выполнения семантического анализа текстов, информационного поиска и управления. Синонимом понятия Text Mining является KDT (Knowledge Discovering in Text - поиск или обнаружение знаний в тексте).

В отличие от технологии Data Mining , которая предусматривает анализ упорядоченной в некие структуры информации, технология Text Mining анализирует большие и сверхбольшие массивы неструктурированной информации.

Программы, реализующие эту задачу, должны некоторым образом оперировать естественным человеческим языком и при этом понимать семантику анализируемого текста. Один из методов, на котором основаны некоторые Text Mining системы, - поиск так называемой подстроки в строке.

Call Mining

По словам Энн Беднарц , "добыча звонков" может стать популярным инструментом корпоративных информационных систем.

Технология Call Mining объединяет в себя распознавание речи, ее анализ и Data Mining . Ее цель - упрощение поиска в аудио-архивах, содержащих записи переговоров между операторами и клиентами. При помощи этой технологии операторы могут обнаруживать недостатки в системе обслуживания клиентов, находить возможности увеличения продаж, а также выявлять тенденции в обращениях клиентов.

Среди разработчиков новой технологии Call Mining ("добыча" и анализ звонков) - компании CallMiner, Nexidia, ScanSoft, Witness Systems. В технологии Call Mining разработано два подхода - на основе преобразования речи в текст и на базе фонетического анализа.

Примером реализации первого подхода, основанного на преобразовании речи, является система CallMiner. В процессе Call Mining сначала используется система преобразования речи, затем следует ее анализ, в ходе которого в зависимости от содержания разговоров формируется статистика телефонных вызовов. Полученная информация хранится в базе данных, в которой возможен поиск, извлечение и обработка.

Пример реализации второго подхода - фонетического анализа - продукция компании Nexidia. При этом подходе речь разбивается на фонемы, являющиеся звуками или их сочетаниями. Такие элементы образуют распознаваемые фрагменты. При поиске определенных слов и их сочетаний система идентифицирует их с фонемами.

Аналитики отмечают, что за последние годы интерес к системам на основе Call Mining значительно возрос. Это объясняется тем фактом, что менеджеры высшего звена компаний, работающих в различных сферах, в т.ч. в области финансов, мобильной связи, авиабизнеса, не хотят тратить много времени на прослушивание звонков с целью обобщения информации или же выявления каких-либо фактов нарушений.

По словам Дэниэла Хонг, аналитика компании Datamonitor: "Использование этих технологий повышает оперативность и снижает стоимость обработки информации".

Типичная инсталляция продукции от разработчика Nexidia обходится в сумму от 100 до 300 тыс. долл. Стоимость внедрения системы CallMiner по преобразованию речи и набора аналитических приложений составляет около 450 тыс. долл.

По мнению Шоллера, приложения Audio Mining и Video Mining найдут со временем гораздо более широкое применение, например, при индексации учебных видеофильмов и презентаций в медиабиблиотеках компаний. Однако технологии Audio Mining и Video Mining находятся сейчас на уровне становления, а практическое их применение - на самой начальной стадии.

Технологии анализа данных (Text Mining, Data Mining)

Руководитель : Баяндин Николай Иванович.

Образовательное учреждение : Федеральное государственное бюджетное учреждение высшего профессионального образования "Московский государственный университет экономики, статистики и информатики (МЭСИ)", г. Москва

Кто владеет информацией - тот владеет миром. В наше время трудно переоценить значение аналитики и мониторинга социальных медиа. Для быстрого и успешного развития бизнеса и эффективного продвижения в интернет, эти этапы просто необходимы.

На сегодняшний день, всё большую популярность приобретают задачи, связанные с получением и накоплением новых знаний путём анализа ранее полученной информации. Возникла необходимость в создании больших хранилищ данных и систем поддержки принятия решений.

Рассмотрим подробнее технологию анализа данных.

Наиболее перспективные направления анализа данных:

·анализ текстовой информации

·интеллектуальный анализ данных

1. Анализ текстовой информации Text Mining

Анализ структурированной информации, хранящейся в базах данных, требует предварительной обработки: проектирования БД, ввод информации по определенным правилам, размещение ее в специальных структурах (например, реляционных таблицах) и т.п. Текстовые документы практически невозможно преобразовать в табличное представление без потери семантики текста и отношений между сущностями. По этой причине такие документы хранятся в БД без преобразований, как текстовые поля (BLOB-поля). В это же время в тексте скрыто огромное количество информации, но ее неструктурированность не позволяет использовать алгоритмы Data Mining. Решением этой проблемы занимаются методы анализа неструктурированного текста (Text Mining).

Определение Text Mining: Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных. "Неструктурированные текстовые данные" - набор документов, представляющих собой логически объединенный текст без каких-либо ограничений на его структуру (web-страницы, электронная почта, нормативные документы).

Процесс анализа текстовых документов можно представить как последовательность нескольких шагов:

Поиск информации. В первую очередь необходимо понять, какие документы нужно подвергнуть анализу плюс обеспечить доступ. Пользователи могут определить набор анализируемых документов самостоятельно - вручную.

Предварительная обработка документов. Выполняются необходимые преобразования с документами для представления их в нужном виде. Удаление лишних слов и придание тексту более строгой формы.

Извлечение информации. Выделение ключевых понятий для анализа.

Применение методов Text Mining. Извлекаются шаблоны и отношения, имеющиеся в текстах.

Интерпретация результатов. Представлении результатов на естественном языке, или в их визуализации в графическом виде.

Предварительная обработка документа

Удаление стоп-слов. Стоп-словами называются слова, которые являются вспомогательными и несут мало информации о содержании документа.

Стэмминг - морфологический поиск. Он заключается в преобразовании каждого слова к его нормальной форме.

Л-граммы это альтернатива морфологическому разбору и удалению стоп-слов. Позволяют сделать текст более строгим, не решают проблему уменьшения количества неинформативных слов;

Приведение регистра. Этот прием заключается в преобразовании всех символов к верхнему или нижнему регистру.

Наиболее эффективно совместное применение всех методов.

Задачи Text Mining

Классификация (classification) - определение для каждого документа одной или нескольких заранее заданных категорий, к которым этот документ относится, автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества

Автоматическое аннотирование (summarization) сокращение текста и сохранение его смысла. Результат включает в себя наиболее значимые предложения в тексте.

Извлечения ключевых понятий (feature extraction) - идентификация фактов и отношений в тексте (имена существительные и нарицательные: имена и фамилии людей, названия организаций и др.).

Навигация по тексту (text-base navigation) перемещение по документам по определённым темам и терминам. Это выполняется за счет идентификации ключевых понятий и некоторых отношений между ними.

Анализ трендов позволяет идентифицировать тренды в наборах документов на какой-то период времени.

Поиск ассоциаций. В заданном наборе документов идентифицируются ассоциативные отношения между ключевыми понятиями.

Существует достаточно большое количество разновидностей перечисленных задач, а также методов их решения. Это еще раз подтверждает значимость анализа текстов.

Примеры средства анализа текстовой информации:

Средства Oracle - Oracle Text2.

Средства от IBM - Intelligent Miner for Text1

Средства SAS Institute - Text Miner

Интеллектуальный анализ данных Data Mining

Интеллектуальный анализа данных (англ. Data mining, другие варианты перевода - "добыча данных", "раскопка данных") - обнаружение неявных закономерностей в наборах данных.

·специализированных "коробочных" программных продуктов для интеллектуального анализа;

·математических пакетов;

·электронных таблиц (и различного рода надстроек над ними);

·средств интегрированных в системы управления базами данных (СУБД);

·других программных продуктов.

Задачи интеллектуального анализа данных:

Задача классификации определение категории и класса каждому объекту.

Задача регрессии - поиск шаблонов для определения числового значения.

Задача прогнозирования новых значений на основании имеющихся значений числовой последовательности. Учитываются тренды.

анализ text data mining

Задача кластеризации - деление множества объектов на группы (кластеры) с похожими параметрами. При этом, в отличие от классификации, число кластеров и их характеристики могут быть заранее неизвестны и определяться в ходе построения кластеров исходя из степени близости объединяемых объектов по совокупности параметров.

Задача определения взаимосвязей - определение часто встречающихся наборов объектов среди множества подобных наборов.

Анализ последовательностей - обнаружение закономерностей в последовательностях событий.

Анализ отклонений - поиск событий, отличающихся от нормы.

По способу решения задачи интеллектуального анализа можно разделить на два класса: обучение с учителем (от англ. supervisedlearning) и обучение без учителя (от англ. unsupervisedlearning). В первом случае требуется обучающий набор данных, на котором создается и обучается модель интеллектуального анализа данных. Готовая модель тестируется и впоследствии используется для предсказания значений в новых наборах данных. Во втором случае целью является выявление закономерностей имеющихся в существующем наборе данных.

Вывод

Интеллектуальный анализ данных является одним из наиболее актуальных и востребованных направлений прикладной математики. Современные процессы бизнеса и производства порождают огромные массивы данных, и людям становится все труднее интерпретировать и реагировать на большое количество данных, которые динамически изменяются во времени выполнения. Нужно извлекать максимум полезных знаний из многомерных, разнородных, неполных, неточных, противоречивых, косвенных данных. А главное, сделать это эффективно, если объем данных измеряется гигабайтами или даже терабайтами.

Важно предохранить людей от информационной перегрузки, преобразовать оперативные данные в полезную информацию так, чтобы нужные действия могли быть приняты в нужное время.

Список используемой литературы и интернет - ресурсов

1.Л.М. Ермакова Методы классификации текстов и определения качества контента. Вестник пермского университета 2011. УДК 004.912

3.

4.

5.

6.

Сегодня вопросы анализа структурированной информации в различных прикладных областях в зависимости от специфики задач решены на 90-100%. С точки зрения технологий это объясняется очень просто: современные инструменты анализа позволяют "видеть" данные, хранящиеся в БД. На рынке широко представлены такие привычные пользователям технологии, как OLAP, BI и Data Mining, основанные на популярных методах статистической обработки, прогнозирования и визуализации.

Совершенно противоположная ситуация сложилась с анализом неструктурированных данных, проще говоря - текста, написанного естественным человеческим языком. Проблемы, связанные с автоматизацией этой области, для большинства пользователей пока не решены. Сразу отметим, что, говоря об анализе, всегда имеем в виду поиск ответа на конкретный вопрос того или иного человека.

Например, аналитик из службы надзора спрашивает: "Какие российские банки являются наиболее рискованными?" В упрощенном виде результат должен представлять собой отсортированный по надежности список банков, содержащий оценки рисков. В случае, когда информация находится в базе данных, все понятно: настроили инструмент анализа на запрос к базе, ввели формулу и "попросили" вывести таблицу с сортировкой по степени риска. Но в том-то и сложность, что, как правило, этой информации в базе данных нет. В той или иной форме она присутствует в Интернете и других источниках. Но как добыть ее из неструктурированных данных, например из отчетов банков и других документов, опубликованных в Сети?

Практически все пользователи делают следующее: заходят в поисковик, например Yandex, вводят запрос - и... Получают тысячи и тысячи ссылок... А теперь самое интересное: закатываем рукава и щелкаем на ссылках, просматриваем текст, выделяем нужные фрагменты с названием банка, сведениями о его услугах, уставном капитале, доходности, расходах и прочих показателях, необходимых, cогласно методике или нашему пониманию, для оценки рисков. Полученные данные загружаем в MS Excel, применяем формулы, рисуем графики и наконец любуемся на полученный честным и тяжким трудом результат.

Подобных примеров как в быту, так и в бизнесе встречается очень много. Объединяет их одно - рутина, связанная с ручным поиском и добычей данных. Очень это все напоминает картину средневековых рудников: тысячи людей кирками и лопатами вгрызаются в неподатливую породу, добывая крупицы полезных минералов. Получается, что по способу работы с неструктурированной информацией мы находимся в Средних веках. Есть ли сегодня возможность автоматизировать тяжкий труд этих "рудокопов"?

Как показывает анализ российской и зарубежной практики, такие технологии имеются. Попробуем понять, чем могут они быть полезны пользователям, и отделить мифы от реальности.

Наш путь: поиск, извлечение, анализ

Из приведенного выше упрощенного примера видно, что процесс получения конечного результата (ответа на вопрос) можно условно разделить на три фазы. Сначала ищем релевантные документы, потом из того, что найдено, извлекаем данные и в завершение анализируем их. Соответственно современные подходы можно разделить на три группы по степени автоматизации различных фаз указанного процесса: поиска документов, извлечения информации, анализа.

При этом подход, основанный только на автоматизации поиска, практикуется в 90% случаев, извлечение информации автоматизировано приблизительно в 10% решений, и только в редких случаях подобные системы берут на себя аналитическую работу. Хотя именно инструменты анализа наиболее понятны конечному пользователю. Причины такого расклада будут рассмотрены далее.

Применение поисковых систем

Этот подход подразумевает наличие на предприятии поисковой системы, используемой как основное средство в работе с неструктурированными текстами.

Менеджер или аналитик вводит ключевые слова, обрабатывает ссылки, получает документ, просматривает содержание, выбирает нужную информацию, загружает ее в программу анализа или базу данных и генерирует отчет. Известно, что производительность такой работы составляет от 400 до 1000 статей в сутки в зависимости от опытности аналитика. Это тяжкий труд, сравнимый с упомянутой выше работой на рудниках. Человек здесь занят в основном рутинными операциями, а потому не может много внимания уделить действительно интеллектуальной работе.

Основные преимущества такого подхода вполне очевидны: распространенность и общедоступность поисковых технологий. Это так называемое one-click-решение, когда вы набрали ключевое слово, нажали на одну кнопку и.... Добавьте к этому привычку думать, что с дальнейшей обработкой информации, кроме человека, никто справиться не может.

Поскольку инструменты поиска развиваются уже давно и достигли высокой стадии зрелости, они вполне успешно отвечают на вопрос, где находится информация. Их можно сравнить с компасом, который позволяет ориентироваться в мире неструктурированных данных. Пользователи уже успели настолько привыкнуть к поисковикам, что нет необходимости проводить какое-то специальное обучение.

Однако если речь идет об обработке больших массивов данных, применение одних только поисковых систем становится малоэффективным, так как требует значительных человеческих ресурсов на этапах "добычи" фактов и их анализа.

Автоматизация извлечения информации

Этот подход предполагает наличие технологически "продвинутого" инструмента, способного выделять из текста нужные элементы (Text Mining). Его работа заключается в том, что на вход подается текст, написанный на естественном языке, а на выходе пользователь получает запрошенную информацию в структурированном виде. Структуры могут представлять собой как простые сущности (персоны, организации, географические названия), так и сложные (факты, содержащие некое событие, его участников, дату, финансовые параметры и пр.). События бывают самые разные: происшествия, сделки, суды и т. п. Указанный инструмент позволяет автоматически собирать результаты своей работы в коллекции данных, которые уже пригодны для проведения анализа.

Анализировать подобные наборы данных, безусловно, проще и быстрее, чем результаты работы поисковика. Однако и здесь требуются усилия по интеграции средств Text Mining с источниками документов, поисковиком и аналитическими инструментами. Сегодня поставщики инструментов Text Mining снабжают свои продукты возможностями интеграции с источниками документов (в основном с Web-ресурсами) и с базами данных через файлы в формате XML. Предоставляется также набор SDK, применение которого подразумевает довольно дорогую дальнейшую разработку. Но основной проблемой использования этих технологий является сложность настройки и поддержки таких инструментов. Это обусловлено спецификой компьютерной лингвистики, оперирующей терминами синтаксиса, и семантики. Как правило, конечные пользователи и разработчики далеки от этих материй, а в итоге возможности таких инструментов используются лишь на 5-10%.

Тем не менее пользователь уже избавлен от необходимости вручную просматривать тысячи документов и подбирать ключевые слова. За него это делает система. Появляются дополнительные возможности автоматической классификации и сопоставления подобных документов. Кроме того, программа способна сама распознавать смысловые элементы текста, например факты, события, и передавать их на последующую обработку.

Автоматизация аналитических процедур

В простейшем случае в руках конечного пользователя есть такие аналитические инструменты, как MS Excel и MS Access, в усовершенствованном - BI и Data Mining. В отдельных заказных разработках реализуются те или иные ноу-хау. Как бы там ни было, напрашивается очевидное решение: сформировать технологическую цепочку поисковик - Text Mining - инструмент анализа. Интегрировать элементы указанной цепочки можно через базу данных. Для автоматизации процесса в идеале нужен некий механизм, который запросит информацию у поисковика, сам просканирует документы, обнаружит искомые факты, структурирует их, сохранит в базе и сообщит о выполненном задании. Тогда аналитик должен будет только открыть отчеты и проанализировать результаты.

Text Mining - как это работает?

Text Mining - это набор технологий и методов, предназначенных для извлечения информации из текстов. Основная цель - дать аналитику возможность работать с большими объемами исходных данных за счет автоматизации процесса извлечения нужной информации. Назовем основные технологии Text Mining.

1. Information Extraction (извлечение информации):

а) Feature (Entity) Extraction - извлечение слов или групп слов, которые, с точки зрения пользователя, важны для описания содержания документа. Это могут быть упоминания персон, организаций, географических мест, терминов предметной области и других слов или словосочетаний. Извлекаемые сущности также могут быть наиболее значимыми словосочетаниями, характеризующими документ по его основной теме;

б) Feature (Entity) Association Extraction - более сложные с технологической точки зрения. Прослеживаются различного рода связи между извлеченными сущностями. Например, даже если выбранные субъекты упомянуты в разных документах, но имеют какую-то общую характеристику (время, место и т. д.), можно с большой степенью определенности сказать, есть ли между ними какая-то связь или нет;

в) Relationship, Event and Fact Extraction - самый сложный вариант извлечения информации (Information Extraction), включающий в себя извлечение сущностей, распознавание фактов и событий, а также извлечение информации из этих фактов. Например, система может сделать заключение, что Иван Петров купил компанию "Пупкин и Ко", даже если в тексте содержатся только косвенные указания на это событие. Поисковая система здесь беспомощна, так как обычная человеческая речь подразумевает очень много вариантов изложения. Пользуясь лишь поисковиком, мы должны были бы идентифицировать этот факт по всем ключевым словам, которые его характеризуют. А технология Text Mining делает это сама, причем в соответствии с заданными ограничениями отличает относящиеся к делу факты от тех, что никак с ними не связаны. Например, если мы проводим анализ сделок купли-продажи компаний, система способна отнести к разным категориям факты "Мужик купил бутылку водки" и "Иван Петров купил компанию "Пупкин и Ко"".

2. Summarization (автоматическое реферирование, аннотирование) - построение краткого содержания документа по его полному тексту.

3. Categorization (категоризация, классификация) - отнесение документа или его части к одной или нескольким категориям. Категории могут определять "направленность" текста - тематическую, жанровую, эмоциональную, оценочную.

4. Clusterization - объединение документов в группы по принципу их схожести.

Проблемы такого подхода очевидны и связаны с многокомпонентностью решения. Нужно инсталлировать поисковик, инструмент извлечения данных из текста, средства анализа, а кроме того, произвести всю сопутствующую интеграцию. Тем не менее представляется, что именно этим путем будут двигаться поставщики решений для конечных пользователей. Оснований для этого несколько.

1. Инструменты анализа, в частности BI и Data Mining, во всем мире становятся стандартом де-факто, и все больше специалистов опирается на них как на основные средства создания аналитической среды. Наряду с коммерческими продуктами такого рода развивается мир открытых ресурсов (проекты Pentaho и Eclipse), доступных широкой аудитории пользователей.

2. Технологии Text Mining, включая средства интеграции с источниками информации и аналитическими инструментами, также коммерциализируются (их предлагают такие фирмы, как Clarabridge, Nstein Technologies, Attensity).

3. Развиваются и сами научные области - компьютерная лингвистика, методы анализа текстов. Появились консультанты, в основную сферу деятельности которых входит решение подобных задач. Привлечение этих экспертов делает проекты такого рода исключительно эффективными.

Чтобы не ходить далеко за примерами...

Приведем несколько примеров работы технологической связки поиска - добычи - анализа неструктурированной информации, реализованных нашей компанией на базе платформы Clarabridge. Отметим, что они иллюстрируют лишь часть возможностей такого рода инструментов. Функционал решения может быть гораздо шире.

Система, построенная по принципу технологической связки, позволяет составлять различного рода рейтинги и прогнозы на основе информации, содержащейся в открытых и корпоративных источниках. Так, при расчете рейтинга упоминаемости автомобильных брендов в новостях, публикуемых на сайте Yandex, система нашла ссылки, извлекла факты, выявила связи между ними, структурировала полученную информацию и провела ее анализ (см. рис. 1). Поскольку процесс автоматизирован, пользователь сразу получает готовый информационный продукт, позволяющий судить о том, какие позитивные (негативные) качества ассоциируются с каждым из представленных брендов и как со временем меняются мнения покупателей. Если кнопкой мыши щелкнуть на той или иной части графика - например демонстрирующей падение рейтинга BMW, - система подскажет причины этого падения (в данном случае причиной стал отзыв автомобилей с рынка).

брендов в онлайновых новостных источниках

Кроме того, технологические комплексы, подобные Clarabridge, могут использоваться для выявления "голоса клиента" или "дыхания рынка" - анализа переписки, заметок call-центров, новостных статей в СМИ и Интернете, мнений покупателей на онлайновых форумах и в блогах. При этом информация из неструктурированных документов интегрируется с данными из CRM-систем и других источников.

Историческая справка

Началом развития технологии Text Mining можно считать эпоху правления президента США Ричарда Никсона (1969-1974 гг.). Тогда были выделены десятки миллионов долларов на развитие научных направлений, связанных с автоматизацией перевода. Это происходило в эпоху холодной войны, когда, в частности, очень актуальной была задача компьютерного перевода с русского языка на английский самых разнообразных документов, начиная с научных докладов и заканчивая технической документацией. Неудивительно, что проект этот носил закрытый характер.

В то же самое время появилась новая область знаний - Natural Language Processing (NLP), называвшаяся в России компьютерной лингвистикой. В 90-х годах в открытых источниках стали появляться не только доклады с научных конференций, но и программные коды, что позволило привлечь к разработкам более широкое международное научное сообщество. Наиболее активны в этой области ученые США, Великобритании, Франции и Германии.

В нашей стране развитие компьютерной лингвистики имело свою специфику. Она развивалась в основном в интересах оборонных предприятий и служб безопасности и не была ориентирована на решения конкретных бизнес-задач. Сказалось и отсутствие в последние годы целевого финансирования этой области. Тем не менее бурное развитие СМИ и Интернета порождает спрос как со стороны федеральных служб, так и со стороны коммерческих организаций (конкурентная разведка, например).

Так, для сравнительного анализа популярности тарифов сотовых операторов, обсуждаемых на интернет-форумах, система проанализировала более 20 форумов и блогов, извлекла факты в соответствии с установленными классификаторами и ограничителями, провела сравнительный анализ и представила данные в удобном для принятия решений виде (см. рис. 2).

Рис. 2. Тенденции упоминаемости тарифов

Анализ тенденций обсуждаемости различных тарифов позволяет увидеть развитие их популярности и причины, стоящие за этим, а также смоделировать и спрогнозировать продвижение новых тарифов. При этом те или иные показатели можно детализировать до уровня исходного текста, что дает возможность проводить аудит информации с целью проверки достоверности данных и корректности настроек системы.

Выводы

В силу инерции мышления массовая аудитория с недоверием относится к тому,что машина может оперировать понятиями фактов, событий, персон, организаций и т. п. В основном именно это заставляет нас отказываться от технологий Text Mining и загружать себя ручной обработкой результатов поиска. Есть, конечно, и объективные трудности. Методы Text Mining должны быть адаптированы к предметной области, что нередко требует временных и прочих ресурсов. Некоторые типы текстов (например, художественная литература, профессиональный и иной сленг) плохо поддаются машинной обработке.

Между тем технологии добычи информации из неструктурированных текстов (Text Mining) используются на практике уже сегодня. Со временем их применение будет только расширяться, поскольку объемы доступной и полезной информации растут с каждым днем, а потребность в их анализе по-прежнему не удовлетворена.

Я не думаю, что открою Америку, если скажу, что не вся информация одинаково полезна. Иногда для объяснения какого-то понятия необходимо написать много текста, а иногда для объяснения сложнейших вопросов достаточно посмотреть на простую диаграмму. Для сокращения избыточности информации были придуманы математические формулы, чертежи, условные обозначения, программный код и т.д. Кроме того, важным является не только сама информация, но и ее представление. Понятно, что котировки акций более наглядно можно продемонстрировать с помощью графика, а математические формулы опишут законы Ньютона в более компактном виде.

В процессе развития информационных технологий, а также систем сбора и хранения данных - баз данных (databases), хранилищ данных (data warehousing), и с недавних пор, облачных репозиториев, возникла проблема анализа больших объемов данных, когда аналитик или управленец не в состоянии вручную обработать большие массивы данных и принять решение. Понятно, что аналитику необходимо каким-то образом представить исходную информацию в более компактном виде, с которой может справится человеческий мозг за приемлемое время.

Выделим несколько уровней информации:

  • исходные данные (сырые данные, исторические данные или просто данные) – необработанные массивы данных, получаемые в результате наблюдения за некой динамической системой или объекта и отображающие его состояние в конкретные моменты времени (например, данные о котировках акций за прошедший год);
  • информация – обработанные данные, которые несут в себе некую информационную ценность для пользователя; сырые данные, представленные в более компактном виде (например, результаты поиска);
  • знания - несут в себе некое ноу-хау, отображают скрытые взаимосвязи межу объектами, которые не являются общедоступными (в противном случае, это будет просто информация); данные с большой энтропией (или мерой неопределенности).
Рассмотрим пример. Допустим, у нас есть некие данные о валютных операциях на рынке Forex за определенный промежуток времени. Эти данные могут хранится в текстовом виде, в XML формате, в базе данных или в бинарном виде и сами по себе не несут никакой полезной смысловой нагрузки. Далее аналитик загружает эти данные, к примеру, в Excel и строит график изменений, таким образом получая информацию. Дальше он загружает данные (полностью или частично обработанные в Excel), например, в Microsoft SQL Server и с помощью Analysis Services получает знание о том, что завтра акции лучше продать. После этого аналитик может использовать уже полученные знания для новых оценок, таким образом получив обратную связь в информационном процессе.

Между уровнями нет четких граней, но такая классификация позволит нам в дальнейшем не запутаться с терминологией.

Data Mining

Исторически сложилось, что у термина Data Mining есть несколько вариантов перевода (и значений):
  • извлечение, сбор данных, добыча данных (еще используют Information Retrieval или IR);
  • извлечение знаний, интеллектуальный анализ данных (Knowledge Data Discovery или KDD, Business Intelligence).
IR оперирует первыми двумя уровнями информации, соответственно, KDD работает с третьим уровнем. Если же говорить о способах реализации, то первый вариант относится к прикладной области, где главной целью являются сами данные, второй - к математике и аналитике, где важно получить новое знание из большого объема уже имеющихся данных. Чаще всего извлечение данных (сбор) является подготовительным этапом для извлечения знаний (анализ).

Осмелюсь ввести еще один термин для первого пункта - Data Extracting , который буду использовать в дальнейшем.

Задачи, решаемые Data Mining:

  1. Классификация - отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
  2. Кластеризация - разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
  3. Сокращение описания - для визуализации данных, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
  4. Ассоциация - поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя».
  5. Прогнозирование – нахождение будущих состояний объекта на основании предыдущих состояний (исторических данных)
  6. Анализ отклонений - например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
  7. Визуализация данных.

Information retrieval

Information retrieval используется для получения структурированных данных или репрезентативной выборки меньшего размера. По нашей классификации information retrieval оперирует данными первого уровня, а в результате выдает информацию второго уровня.

Самым простым примером information retrieval является поисковая система, которая на основании неких алгоритмов выводит часть информации из полного набора документов. Кроме того, любая система, которая работает с тестовыми данными, метаинформаций или базами данных тем или иным способом использует инструменты information retrieval. Инструментами могут выступать методы индексации, фильтрации, сортировки данных, парсеры и т.д.

Text Mining

Другие названия: text data mining, text analysis, очень близкое понятие – concern mining.

Text mining может работать как с сырыми данными, так и с частично обработанными, но в отличие от information retrieval, text mining анализирует текстовую информацию с помощью математических методов, что позволяет получать результат с элементами знания.

Задачи, которые решает text mining: нахождение шаблонов данных, получение структурированной информации, построение иерархий объектов, классификация и кластеризация данных, определение тематики или области знаний, автоматическое реферирование документов, задачи автоматической фильтрации контента, определение семантических связей и другие.

Для решения задач text mining используют статистические методы, методы интерполяции, аппроксимации и экстраполяции, нечеткие методы, методы контент-анализа.

Web Mining

Ну и наконец мы добрались к web mining – наборе подходов и техник для извлечения данных из веб-ресурсов.
Так как веб-источники, ка правило, не являются текстовыми данными, то и подходы к процессу извлечения данных отличаются в этом случае. В первую очередь необходимо помнить, что информация в вебе хранится в виде специального языка разметки HTML (хотя есть и другие форматы – RSS, Atom, SOAP, но об этом поговорим позже), веб-страницы могут иметь дополнительную метаинформацию, а также информацию о структуре (семантике) документа, каждый веб-документ находится внутри некого домена и к нему могут применяться правила поисковой оптимизации (SEO).

Это первая статья из цикла, посвященного data mining / extracting / web mining. Пожелания и аргументированная критика принимаются.



Понравилась статья? Поделиться с друзьями: