Технологии извлечения знаний из текста

on

Основную часть знаний аналитики получают в результате сравнения, анализа и синтеза информации из разрозненных фактов, размещенных в текстах. При работе с большими потоками документов процесс автоматического структурирования текстовой информации заменяет экспертный процесс выделения фактов и объектов, выполняемый вручную. В статье рассматриваются примеры использования новых технологий извлечения знаний из текстов на русском языке, ориентированных на работу с большими хранилищами данных. НИКОЛАЙ ИЛЬИН, СЕРГЕЙ КИСЕЛЕВ, ВЛАДИСЛАВ РЯБЫШКИН, СЕРГЕЙ ТАНКОВ Технологии извлечения знаний из текста Д о 85% новых знаний аналитики до сих пор получают, изучая тексты. В ближайшем будущем наиболее востребованными станут системы с максимально автоматизированными ETL-процес-сами структурирования контента (extract, transfer, load- «извлечение, преобразование, загрузка»). Важной чертой таких систем будет функция оперативного анализа информации, полученной по запросу для выбора дальнейшего направления исследования документов (автопилотирование направления исследования), выполняемой с помощью методов интеллектуального анализа текста. К наиболее актуальным средствам интеллектуального анализа текстов относятся технологии выделения фактографической информации об объектах с учетом анафорических ссылок на них (ссылочные местоимения на объект, поименованный в тексте); нечеткий поиск; тематическое и тональное (точное и полное) рубрицирование; кластерный анализ хранилищ и подборок документов; выделение ключевых тем; построение аннотаций; построение многомерных частотных распределений документов и их исследование с помощью OLAP-технологий; использо- 51 темы № Об 2006 вание методов интеллектуального анализа текста для определения направления исследования больших подборок документов и извлечения новых знаний. В современных системах используется двухфазная технология аналитической обработки. В первой фазе (ETL) производится автоматизированный анализ отдельных документов, структуризация их контента и формирование хранилищ исходной и аналитической информации. Во второй фазе (ОLAP, Text Mining, Data Mining)- извлечение в оперативном режиме знаний из хранилища или из полученной по запросу подборки документов. На наш взгляд, к наиболее интересным системам аналитической обработки относятся ClearForest, Convera RetrievalWare, Hummingbird KM, IBM Text Miner, инструменты компании IQMen, Inxight Smart Discovery Extraction Server, Ontos Miner, Oracle Text, ODB-Text, TextAnalyst, инструменты компании Smartware, XANALYS Link Explorer, X-Files, инструменты компании «Гарант-Парк-Интернет» и «Медиалогия». Попробуем проанализировать современное состояние дел в области аналитических технологий на примерах конкретных систем. www.osmag.ru ОСОБЕННОСТИ АНАЛИТИЧЕСКОЙ ОБРАБОТКИ Первичная аналитическая обработка в фазе ETL требует значительных вычислительных ресурсов. Наш опыт эксплуатации систем с объемом фондов 5-10 млн. единиц хранения показывает, что если объем входных документов и время построения индекса принять за единицу, а запросы дополнительной памяти на диске и времени, требуемые на каждом из следующих видов обработки, как dV и dT соответственно, то получается следующая картина: • ·выполнение индексирования: dV = 0,3-2, dT = 1; • построение семантической сети: dV = 0,2-0,4, dT = 2-3; • построение рубрик: dV = 0,001, dT = 0,1; • создание аннотации и ключевых тем: dV = 0,1, dT = 1-2; • ·терминологические векторы документов: dV = 0,1, dT = 0,02; • ·хранилище аналитических данных: dV = 0,3, dT = 0,5; • база данных фактографической информации, объединенной в досье: dV = 0,3, dT = 3. Объем вторичных данных может быть в 3-4 раза больше объема документов, а время, необходимое на извлечение новых знаний, больше времени индексирования в семь-девять раз. В ходе аналитической обработки происходит выделение текста фактографической информации об объекте, причем с учетом всех ссылок. Для этого сначала выделяются все предложения с упоминаниями об объекте (создается дайджест), в которых могут встречаться названия объекта («Иванов»), ссылки на него (анафория: «он», «который»…), а также обобщающие определения (коре-ференты: «воин», «семьянин»…). Нахождение и разрешение кореферентов и анафор дает увеличение объема дайджеста на 15-30%, а значит, и объема фактографической информации. В начале исследования аналитики в первую очередь стремятся к полноте запроса, а не к его точности, поэтому объем релевантной подборки документов составляет сотни или тысячи единиц. Дальнейшее исследование проблемы производится уже после получения подборки документов с помощью кластерных, семантических карт или других методов. Такая технология работы аналитика сегодня типична как для работы в Internet, так и при работе со специализированными системами. Русский язык плохо поддается описанию формализмами различных уровней: морфологией, синтаксисом, семантикой. Например, для идентификации морфологических признаков лексемы на русском языке необходимо выполнить также предсинтаксический анализ предложения для снятия омонимии. В любом случае реализации этих формализмов используют нечеткую модель анализа текста. К наиболее актуальным направлениям извлечения знаний из текста на сегодняшний день относятся: ¦ аналитическая обработка фактов; ведение досье; • ·извлечение и структурирование фактографической информации; • поиск информации по запросам на естественном языке с использованием тезаурусов; • направления поиска информации, объектов в хранилище документов, в подборке документов; • аннотирование документов, построение дайджестов по объектам; • проведение тематического анализа документов (кластеризация и рубрицирование); • построение и динамический анализ семантической структуры текстов; • выделение ключевых тем и информационных объектов; • определение общей и объектной тональности сообщений; • исследование частотных характеристик текстов. ПОИСК Исторически первой и присутствующей сегодня во всех системах является векторная модель поиска, изобретенная Дж. Сэлтоном в 60-х годах. Большинство машин работают по принципу наличия в релевантном документе всех терминов запроса, учета их встречаемости в документах и их средней языковой частотности. Эта модель используется при обработке запросов на естественном языке, особенно на поисковых страницах сайтов; она же применяется для поиска похожих документов. Продолжает активно использоваться булева модель поиска, которая позволяет вводить в запрос логические операторы, контекстные ограничения на расстояние между словами, строить разветвленные мощные запросы, использовать стоп-словарь и лексические шаблоны аналогично регулярным выражениям в скрипто-вых языках. Профессиональные системы, в дополнение к перечисленным базовым моделям, предоставляют поиск с использованием нечеткой булевой модели поиска, позволяющей поисковой машине доставлять документы, которые она считает релевантными, даже если некоторые «слабые» элементы запроса в них не встречаются. Для семантического поиска широко используются тезаурусы, за счет которых происходит расширение запроса. Например, при поиске документов по автотранспортным происшествиям, запрос «ДТП» имеет фактор расширения 1:150, т.е. из одной лексемы системой фактически генерируется 150 лексем для сервера поиска (см. рис. 1, правый фрейм). Активное использование тезаурусов русского языка сдерживается сегодня отсутствием актуальных словарей синонимов. Многие специалисты скептически относятся к идее осмысленного диалога аналитика и системы на формальном языке, поэтому имеет смысл максимально подстраивать язык запросов к мышлению и лексике аналитика. Проблемы в том виде, в котором с ними сталкивается сотрудник, зачастую трудно сразу сформули- www.osmag.ru №062006 i приложения iia iij^*yp ¦ ¦¦.¦¦!. ¦-Л-. ¦-¦ »-1_с|j и;-1 In…™-,,, .: Г :- ¦ ¦ -\ ¦jT^n-ipinociibf «чуня _ 1 дтг .-¦ ¦¦¦ I- штат ¦Г ПГГ4п;^ж-гцц UTDVHdM.1 U* Рис. 1. Пример расширения запроса с использованием тезауруса в системе «Аналитический курьер» компании «Ай-Теко». На левом фреймекарта наиболее важных ключевых тем подборки документов ровать с помощью поисковых запросов. Возможность исполнять запросы на естественном языке с последующим использованием технологии навигации в полученной подборке документов может дать новые результаты, поскольку исследование направляется полученной информацией, а не только знаниями эксперта. НАПРАВЛЕНИЯ ПОИСКА В одном из интервью Гари Флэйк, руководитель исследовательской лаборатории Yahoo!, сказал: «Если бы Web-поиск был совершенен, он бы выдавал ответ на каждый запрос, и это происходило бы так, будто на вопрос отвечает умнейший человек в мире, у которого есть под рукой вся справочная информация, и все это выполняется меньше, чем за мгновение». Пока же современные системы предоставляют визуальный интерфейс для анализа «препарированной» ими подборки документов, предоставляя аналитику выбор направления для дальнейшего анализа несколькими способами. На рис. 1 (левый фрейм) представлен пример карты ключевых тем, полученной подборки, темы которой наилучшим образом (в математическом смыслевыделение в полученной подборке тем, имеющих максимальную дисперсию при определенном математическом ожидании) будут уточнять запрос, перемещая нужные темы в поле контекстного поиска. Альтернативным способом поиска является поиск объектов и их взаимосвязей, выделенных автоматически из текста документов в фазе ETL-процесса. Этот способ позволяет исследовать связи объектов из документов без указания контекстного критерия на фильтрацию документов. Например, можно произвести поиск взаимосвязей объекта «Чейни» с другими объектами (рис. 2). Это можно использовать для навигации к нужным объектам, для получения и анализа документов о связях этих объектов. Дальнейшее развитие методов анализа связей объектов связано с решением задач типизации связей между объектами. В свою очередь, их решение ограничено качеством синтаксических анализаторов русского языка и тезаурусов. ii_.j .¦:«.; ,ц .—у —. % ли Очень полезен метод навигации в подборке документов с использо анием OLAP-технологии. Система «на лету» строит многомерное представление полученной подборки документов с измерениями из полей карточки: рубрики, авторы, дата публикации, источники и др. Аналитик может погружаться в элементы разных измерений (например, в регионы федерального округа), просматривать документы в ячейках с нужными значениями частот и др. Дополнительно могут использоваться общие методы анализа и прогноза данных. На рис. 3 показана схема получения списка публикаций из ячейки двумерного распределения публикаций по регионам и подрубрикам рубрики «Политика». Этот метод используется при анализе динамики публикаций и факторов, ее определяющих. Рис. 2. Навигация по сети объектов АВТОМАТИЧЕСКОЕ АННОТИРОВАНИЕ Открытые источники информации делают доступными огромное количество публикаций и тем самым ставят проблему эффективной работы с большими объемами документов. Предоставление сжатого смысла первоисточников в виде аннотаций в несколько раз повышает скорость анализа. Однако, наш опыт показывает, что аннотациистатичный результат, он используется при анализе «бумажных» документов, а при анализе коллекций электронных документов более наглядное и структурированное представление содержания одного или коллекции электронных документов дает интерактивная семантическая карта взаимосвязей тем документов. Современные системы аналитической обработки текстовой информации обладают средствами автоматического составления аннотаций. При этом существует два подхода к решению этой задачи . 53 скрытые системы №062006 www.osmag.ru • ·Гниксчи mwttW ИГ11ЩМ1 щ Г Mjwlullh • ·ГгЫЯЧНЫ IIIIM ПАТИНЫ • ·riWhtrt» • ·Г em ¦*-Y!T iMMicrwimi • ·Г«пй|иК 1 • ·L Питч H4iHi I • · • · • ·В первом подходе программа-аннотатор извлекает из первоисточника небольшое количество фрагментов, в которых наиболее полно представлено содержание документа. Это могут быть предложения, содержащие термы запроса; фрагменты предложений с окружением термов несколькими словами и др. В более развитых системах выделяются предложения, прямо содержащие ключевые темы документа (но не кореферентные ссылки на них). • ·При втором подходе аннотация представляет собой синтезированный документ в виде краткого содержания. Аннотация, сформированная в соответствии с первым подходом, качественно уступает получаемой при синтезе. Для повышения качества аннотирования необходимо решить проблему обработки кореферентных ссылок в русском языке. Еще одной проблемой, возникающей при синтезе аннотаций, является отсутствие средств семантического анализа и синтеза текста на русском языке, поэтому сервисы аннотирования ориентированы либо на узкую предметную область, либо требуют участия человека. • Большинство программ-аннотаторов построены по принципу выделения фрагментов текста. Так, исследовательская система eXtragon ориентирована на аннотирование Web-документов. Для каждого предложения документа вычисляется вес на основе информации о ключевых словах, значимых словосочетаниях, их месте в тексте и присутствии в запросе, после чего предложения ранжируются, и из нескольких фраз с максимальным весом составляется реферат. В системе «Аналитический курьер» аннотация документа автоматически формируется из его фрагментов, а ее объем зависит от главных тем документа и настроек. В аннотацию по объектам или проблемам могут включаться анафорические предложения документа. Кроме этого, имеется компонент создания общей аннотации на основе взаимосвязей тем в семантической сети этой подборки документов. • ·ТЕМАТИЧЕСКОЕ РУБРИЦИРОВАНИЕ И ТОНАЛЬНОСТЬ • ·Технология автоматического рубрицирования используется при наличии сложившейся иерархии понятий в прикладной области. Технология основана на использовании метода распознавания образов применительно к текстам. Направления развития модели тематического рубрицирования связаны как с методами классификации, так и с методами выделения характерной лексики в корпусе обучающих рубрикатор документов для ее последующей классификации. Так, в системах «Аналитический курьер» и в модуле рубрицирования компании «Гарант-Парк-Интернет» каждый рубрикатор представлен в виде вероятностной нейросети. Эксперт предварительно создает типичные для рубрики коллекции документов, затем • ·l№» sm i ™ -out i я • Лътязящ^гтгпп writ ivrb i» • ·г*1р чр11Т етшшшш *tattM тллыялумм epyjrrju ь ¦ • ·Рис. 3. Пример двумерного частотного распределения публикаций о политических проблемах по регионам • ·рубрикатор «обучается» на этих примерах и ставится на поток документов. Для русского языка потенциальная точность рубрицирования зависит от многих факторов: комплексности проблем, представленных в тексте (информационные сообщения хорошо руб-рицируются, поскольку они монотемны), от модели и максимальной размерности нейросети, репрезентативности лексики в тематике рубрики. В наибольшей степени точность зависит от качества лингвистического анализа, используемого для выделения словаря рубрик, в том числе от наличия средств разрешения анафории. Для текстов на русском языке качество рубрицирования («точност