Извлечение знаний и фактов из текстов

3,363 views

Published on

4 декабря 2007
Лукашевич Н.В

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
3,363
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
51
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Извлечение знаний и фактов из текстов

  1. 1. Извлечение знаний и фактов из текстов Н.В.Лукашевич [email_address] АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр
  2. 2. Задачи извлечения: извлечение знаний (Knowledge acquisition) <ul><li>Классическая проблема искусственного интеллекта – bottleneck </li></ul><ul><li>Новая предметная область </li></ul><ul><ul><li>Сущности, понятия </li></ul></ul><ul><ul><li>Отношения ( синонимы, родовидовые отношения, часть-целое) </li></ul></ul><ul><ul><li>Закономерности </li></ul></ul><ul><li>Источники получения знаний </li></ul><ul><ul><li>Эксперты </li></ul></ul><ul><ul><li>Данные – Data mining </li></ul></ul><ul><ul><li>Тексты </li></ul></ul><ul><li>Результат: терм. словарь, тезаурус, онтология </li></ul>
  3. 3. Задачи извлечения: извлечение фактов <ul><li>Information extraction </li></ul><ul><li>Извлечение конкретных сущностей: </li></ul><ul><ul><li>персон, должностей, организаций ; </li></ul></ul><ul><ul><li>ссылок на литературу; </li></ul></ul><ul><ul><li>упоминаний генов или белков и т.п. </li></ul></ul><ul><li>Извлечение отношений между конкретными сущностями: </li></ul><ul><ul><li>место работы, телефон, покупки, слияния и поглощения </li></ul></ul><ul><ul><li>Взаимодействие белков </li></ul></ul><ul><li>Накопление базы фактов </li></ul>
  4. 4. План презентации <ul><li>Извлечение знаний о предметной области: термины </li></ul><ul><li>Извлечение информации: конкретные сущности </li></ul><ul><li>Извлечение знаний и информации: отношения </li></ul>
  5. 5. Извлечение знаний из текстов: основные этапы <ul><li>1) формирование текстового корпуса – мегабайты, гигабайты текстов </li></ul><ul><li>2) Работа автоматических процедур </li></ul><ul><li>3) Возможно, работа экспертов по проверке, отбору извлеченной информации </li></ul><ul><li>4) Результат: </li></ul><ul><ul><li>Список терминов предметной области </li></ul></ul><ul><ul><li>Онтология </li></ul></ul><ul><ul><li>Тезаурус </li></ul></ul>
  6. 6. Извлечение терминов из текстов <ul><li>Сущности, понятия </li></ul><ul><li>Понятия – категории мышления </li></ul><ul><li>- > в текстах - термины </li></ul><ul><li>Термин - слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п. </li></ul><ul><li>- > Задача автоматического извлечения терминов </li></ul>
  7. 7. Пример: Проект терминологического словаря <ul><li>Сфера государственного финансового контроля </li></ul><ul><li>- Договор со Счетной Палатой РФ </li></ul><ul><li>Имеется проект словаря, предоставленный специалистами СП, </li></ul><ul><ul><li>Род экспертизы </li></ul></ul><ul><li>Предметная область - на стыке нескольких областей: экономика, право, бухгалтерский учет </li></ul><ul><li>Срок исполнения – 4 месяца (невозможно без компьютерных технологий) </li></ul>
  8. 8. Финансовый контроль: самые частотные многословные выражения <ul><li>Федеральный бюджет </li></ul><ul><li>Российская Федерация </li></ul><ul><li>Счетная палата </li></ul><ul><li>Федеральный закон </li></ul><ul><li>Общая сумма </li></ul><ul><li>Средства федерального бюджета </li></ul><ul><li>Областной бюджет </li></ul><ul><li>Денежные средства </li></ul><ul><li>Использование средств </li></ul><ul><li>Заработная плата </li></ul><ul><li>Минфин России </li></ul><ul><li>Бюджетные средства </li></ul><ul><li>Налоговый орган </li></ul>
  9. 9. Критерии для извлечения терминологических словосочетаний <ul><li>Лингвистические критерии: </li></ul><ul><ul><li>однословные, именные группы (прил.+сущ., сущ+сущ. в род. падеже и т.п.) </li></ul></ul><ul><li>Статистические критерии </li></ul><ul><ul><li>частотность, взаимная встречаемость … </li></ul></ul><ul><li>Лексические критерии </li></ul><ul><ul><li>Списки стоп-слов: каждый, другой, оценки (красивый, плохой) , география, имена и фамилии людей… </li></ul></ul>
  10. 10. <ul><li>( PAIRS ) Естественный метод – сборка пар слов (возможно с предлогами), а затем упорядочивание их в соответствиис убывающей частотностью </li></ul><ul><li>( PAIRS .MI) « mutual information » отношения вероятности совместной встречаемости двух слов в некотором текстовом окне к произведению вероятностей встречаемости каждого слова </li></ul>Отбор словосочетаний - 1
  11. 11. Отбор словосочетаний - 2 <ul><li>( PAIRS .LL) оптимиз ац и я функци и максимального правдоподобия ( log - likelihood ) в предположении о биномиальном характере функции распределения совместной встречаемости слов </li></ul><ul><li>loglike = a * log(a+1) + b * log(b+1) + c * log(c+1) + d * log(d+1) - (a+b) * log(a+b+1) - (a+c) * log(a+c+1) - (b+d) * log(b+d+1) - (c+d) * log(c+d+1) + (a+b+c+d) * log(a+b+c+d+1) </li></ul>a - частота данного словосочетания (пары), b - суммарная частота других (отличных от данной) пар с той же самой левой леммой, c - суммарная частота других пар с той же самой правой леммой, d - суммарная частота пар, отличных от данной и не попадающих в категории ( b ) и ( c )
  12. 12. Отбор словосочетаний - 3 ( C-VALUE ) К.  Frantzi и S .  Ananiadou введена метрика C - Value , поощряющая отбор словосочетаний большей длины, которые не входят в состав других словосочетаний a – кандидат в термины, | a | - длина словосочетания, измеряемая в количестве слов, freq ( a ) – частотность a , T a – множество словосочетаний, которые содержат a , P( T a ) – количество словосочетаний, содержащих a .
  13. 13. Отбор словосочетаний - 4 Словарь сочетаемости (30000 входов): A(-)+N(-)=G(-) важная проблема A (+)+ N (-)= G (+) внешнеполитическая деятельность А(-)+ N (+)= N (+) ( G = N ) вчерашняя продажа ( OLDTERMS -- и OLDTERMS ++ ) существительное + согласованное прилагательное + существительное в род.падеже N+A+N согласованные прилагательное + прилагательное + существительное A+A+N существительное + существительное в род. падеже N + N согласованные прилагательное + существительное A + N
  14. 14. Оценка эффективности нахождения коротких терминологических словосочетаний
  15. 15. Опыт извлечения терминов <ul><li>Общественно-политический тезаурус </li></ul><ul><ul><li>1994-1997 </li></ul></ul><ul><ul><li>250 тысяч терминологических словосочетаний </li></ul></ul><ul><ul><li>Прекращено из-за слишком больших трудозатрат </li></ul></ul><ul><li>Авиа-Онтология </li></ul><ul><li>Терминологический словарь Счетной палаты </li></ul><ul><li>Онтология по естественным наукам и технологиям </li></ul><ul><li>Проблема: большое количество словосочетаний, для которых трудно принять решение – субъективность экспертов </li></ul><ul><li>Использовать новые принципы: </li></ul><ul><ul><li>анализ компонентной структуры словосочетания, </li></ul></ul><ul><ul><li>сравнение с другими извлеченными словосочетаниями, </li></ul></ul><ul><ul><li>с уже имеющимися ресурсами </li></ul></ul>
  16. 16. План презентации <ul><li>Извлечение знаний о предметной области: термины </li></ul><ul><li>Извлечение информации: конкретные сущности </li></ul><ul><li>Извлечение знаний и информации: отношения </li></ul>
  17. 17. Тестирование систем извлечения информации <ul><li>Конференция MUC - Message Understanding Conference (1987-1997) </li></ul><ul><li>MUC-1 (87) , MUC-2 (89) Военно-морские операции </li></ul><ul><li>MUC-3 (91) , MUC-4 (92) Террористическая деятельность </li></ul><ul><li>MUC-5 (93) Совместные предприятия </li></ul><ul><li>MUC-6 (95) Назначения и отставки </li></ul><ul><li>MUC-7 (97) Запуски космических кораблей и ракет </li></ul>
  18. 18. MUC-7. Запуски <ul><li>Запущенный_аппарат </li></ul><ul><li>Боевая_часть </li></ul><ul><li>Дата_запуска </li></ul><ul><li>Место_запуска </li></ul><ul><li>Тип_задания (военный, гражданский) </li></ul><ul><li>Назначение_запуска (тестирование, доставка..) </li></ul><ul><li>Статус_запуска (удачный, неудачный, выполняется, планируется) </li></ul>
  19. 19. Методы оценки <ul><li>Полнота ( R) = Число правильных ответов / общее возможное число правильных ответов </li></ul><ul><li>Точность (P) = Число правильных ответов / Число порожденных ответов </li></ul><ul><li>F1- мера = 2RP/(R+P) </li></ul><ul><li>Максимальный результат MUC: F1= 0.6 (!) </li></ul><ul><li>ACL 2007: 0.64 </li></ul><ul><li>Результаты российских групп – 0.9 (?!) </li></ul>
  20. 20. Методы автоматического извлечения информации <ul><li>Системы машинного обучения </li></ul><ul><li>опора на статистические (вероятностные) методы </li></ul><ul><li>необходим размеченный корпус для «обучения» системы </li></ul><ul><li>Системы, основанные на знаниях </li></ul><ul><li>опора на языки описания правил-шаблонов (и действий) </li></ul><ul><li>правила пишутся экспертами ; процесс написания правил может занимать много времени </li></ul><ul><li>Лучшие системы конференции MUC – системы, основанные на знаниях </li></ul>
  21. 21. Выбор методов <ul><li>Использование методов, основанных на знаниях </li></ul><ul><ul><li>Имеются словари, списки слов </li></ul></ul><ul><ul><li>Имеются инженеры по знаниям </li></ul></ul><ul><ul><li>Мало размеченных данных </li></ul></ul><ul><ul><li>Нужно максимально возможное качество </li></ul></ul><ul><li>Использование методов, основанных на машинном обучении </li></ul><ul><ul><li>Нет словарных ресурсов </li></ul></ul><ul><ul><li>Нет инженеров по знаниям </li></ul></ul><ul><ul><li>Размеченных данных много и получение их дешево </li></ul></ul><ul><ul><li>Достаточно иметь хорошее ( ?) качество извлечения </li></ul></ul><ul><li>Комбинированные подходы </li></ul>
  22. 22. Основные этапы извлечения информации <ul><li>Графематика (токенизация) </li></ul><ul><ul><li>Разбиение сложных слов (?) </li></ul></ul><ul><li>Морфологический анализ </li></ul><ul><ul><li>Определение части речи </li></ul></ul><ul><ul><li>Определение грамматических характеристик </li></ul></ul><ul><li>Лексический анализ </li></ul><ul><ul><li>Сопоставление со словарями </li></ul></ul><ul><ul><li>Разрешение лексической многозначности </li></ul></ul><ul><li>Синтаксический анализ </li></ul><ul><ul><li>Частичный анализ, шаблоны </li></ul></ul><ul><li>Предметный анализ </li></ul><ul><ul><li>Анализ референциальных ссылок </li></ul></ul><ul><ul><li>Слияние извлеченных фактов </li></ul></ul>
  23. 23. Извлечение именованных сущностей <ul><li>Особенности </li></ul><ul><ul><li>Большое количество разных </li></ul></ul><ul><ul><li>Постоянно появляются новые сущности </li></ul></ul><ul><ul><li>Нет строгих правил именования (маргарин “I Can’t Believe It’s Not Butter”) </li></ul></ul><ul><li>Примеры </li></ul><ul><ul><li>Люди </li></ul></ul><ul><ul><li>Организации </li></ul></ul><ul><ul><li>Предприятия </li></ul></ul><ul><ul><li>Места </li></ul></ul><ul><ul><li>Марки товаров </li></ul></ul>
  24. 24. Извлечение имен: достигнутые результаты <ul><li>Wall Street Journal </li></ul><ul><li>Системы, основанные на знаниях </li></ul><ul><ul><li>MUC-6 – F=96.4 </li></ul></ul><ul><ul><li>MUC-7 – F=93.7 </li></ul></ul><ul><li>Системы машинного обучения (HMM) </li></ul><ul><ul><li>MUC-6 – F=93 </li></ul></ul><ul><ul><li>MUC-7 – F=90.4 </li></ul></ul>
  25. 25. Извлечение имен на основе знаний - 1 <ul><li>Словарь имен </li></ul><ul><li>Словарь частей имен </li></ul><ul><li>Правила и шаблоны: </li></ul><ul><ul><li>Большие буквы </li></ul></ul><ul><ul><li>Использование внутренней структуры (ООО) </li></ul></ul><ul><ul><li>Проверка по корпусу </li></ul></ul><ul><ul><ul><li>Michigan State – название университета, </li></ul></ul></ul><ul><ul><ul><li>New York State – название штата </li></ul></ul></ul><ul><li>Результат: список правил </li></ul>
  26. 26. Извлечение имен на основе знаний. Скорость разработки <ul><li>Исходные данные </li></ul><ul><ul><li>5000 названий компаний и сокращений </li></ul></ul><ul><ul><li>1000 имен и фамилий людей </li></ul></ul><ul><ul><li>20000 географических названий </li></ul></ul><ul><li>Итеративная разработка правил </li></ul><ul><li>Время разработки: 2-3 недели </li></ul><ul><li>Число правил: около 100 </li></ul><ul><li>Качество извлечения: 85-90% </li></ul>
  27. 27. Ontosminer: примеры правил Синицына (в девичестве Орлова) А рландина Семеновна является менеджером картеля «Лига Охраны Перелетных Птиц». {Family} ({FormerFam}) ? {Upper} {Patr} Он поступил в Московский университет дружбы народов и отучился там 4 года. {AdjNPupper} {Lookup.majorType == “ edu &quot;, Lookup.NMB == &quot;sg&quot;} {GenNP} ({GenNP})? Примеры соответствующих фрагментов текста Шаблон на языке Jape (Cunningham et al. 2000)
  28. 28. Извлечение имен: Марковские модели <ul><li>Моделируется конечный автомат </li></ul><ul><li>Марковский процесс - будущее» процесса не зависит от «прошлого» при известном «настоящем». </li></ul><ul><li>Переходы вероятностные </li></ul><ul><li>Получение вероятностных оценок на основе размеченного корпуса </li></ul><ul><li>В момент обработки нового имени – выбор наиболее вероятного пути </li></ul>
  29. 30. Машинное обучение извлечению имен: сколько нужно данных <ul><li>BBN </li></ul><ul><ul><li>30000 слов – F 81 </li></ul></ul><ul><ul><li>1.2 млн.слов – F91 </li></ul></ul><ul><li>MITRE </li></ul><ul><ul><li>250K слов – F 79 </li></ul></ul><ul><ul><li>750K слов – F 86 </li></ul></ul><ul><ul><li>1.2 млн слов – F 87 </li></ul></ul><ul><li>1.2. млн. слов – 1800 газетных статей </li></ul><ul><li>Последовательность разметки тоже важна </li></ul><ul><li>Linguistic Data Consortium – источник данных </li></ul>
  30. 32. Извлечение имен: проблема кореференции <ul><li>Текст: множество разных именований одной и той же сущности: </li></ul><ul><ul><li>William H. Gates, Mr. Gates, Bill Gates </li></ul></ul><ul><ul><li>Местоимения </li></ul></ul><ul><ul><li>Сокращения </li></ul></ul><ul><ul><li>Именные группы (владелец Microsoft) </li></ul></ul><ul><li>MUC-6 : </li></ul><ul><li>P=0.72, R-0.63 – подмножество сущностей в единственном числе </li></ul>
  31. 33. Вторичное распознавание и связывание кореферентных наименований объектов Иной путь был у нефтяной компании «Сибнефть». Она была образована в 1995 г. на основе ряда предприятий советской нефтяной промышленности. В течение нескольких лет Борис Березовский с Романом Абрамовичем скупили на приватизационных конкурсах контрольный пакет акций компании. По данным Счетной палаты, при продаже компании государству был нанесен ущерб в размере 2,7 млрд. долларов. Об этом заявил глава СП Сергей Степашин. К «черному золоту» будущий владелец «Сибнефти» имел опосредованное отношение. Учась в институте, Р. Абрамович создал кооператив «Уют», изготавливающий игрушки из полимеров. Лишь в середине 90-х он занялся торговлей нефтью через швейцарскую компанию RUNICOM. Среди финансовых аналитиков «Сибнефть» при Абрамовиче считалась крайне эффективной компанией.
  32. 34. Разрешение кореферентности <ul><li>Полезная информация </li></ul><ul><ul><li>Синтаксический тип: имя, именная группа, местоимение </li></ul></ul><ul><ul><li>Одушевленность </li></ul></ul><ul><ul><li>Тип сущности </li></ul></ul><ul><ul><li>Род и число </li></ul></ul><ul><li>Должно быть соответствие по этим характеристикам </li></ul><ul><li>Расстояние просмотра: </li></ul><ul><ul><li>Именованная сущность – весь текст </li></ul></ul><ul><ul><li>Именная группа – фрагмент текста </li></ul></ul><ul><ul><li>Местоимение – 1-2 предложения, редко проходит через границу абзаца </li></ul></ul>
  33. 35. Полезные правила (компания RCO) <ul><li>-  Референт может употребляться дважды в одном предложении только в составе двух разных пропозиций – базовой и осложняющей ( должна стоять хотя бы одна запятая) </li></ul><ul><li>- Возможный референт слова при своем последнем упоминании не должен входить в состав группы однородных членов предложения ( Сидоров столкнулся с Ивановым и Петровым в дверях, после чего ему не удалось избежать разговора). </li></ul><ul><li>-    При наличии нескольких потенциальных референтов слову более естественно иметь того референта, который употреблялся в теме предшествующего предложения, нежели в реме – фокус внимания – ( Иванов познакомился с Петровым в прошлом году. Тогда он впервые участвовал в выставке ) </li></ul><ul><li>Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием ( Компания обанкротилась, после чего акционеры МММ тщетно пытались вернуть свои деньги ) </li></ul><ul><li>RCO: на практике эти правила часто безболезненно нарушаются </li></ul>
  34. 36. Извлечение отношений <ul><li>Шаблоны </li></ul><ul><ul><li>Инженерный подход vs. машинное обучение </li></ul></ul><ul><ul><li>База: последовательность слов и / или результаты частичного синтаксического анализа </li></ul></ul><ul><ul><li>Инженерный подход: высокая точность, низкая полнота </li></ul></ul><ul><li>Извлечение шаблонов </li></ul><ul><ul><li>Имеется множество сущностей с известными отношениями </li></ul></ul><ul><ul><li>Пример, штаб-квартиры компаний </li></ul></ul><ul><ul><li>В текстовом корпусе находятся предложения, в которых упоминаются эти пары сущностей. </li></ul></ul><ul><ul><li>Формируются наиболее вероятные шаблоны </li></ul></ul>
  35. 37. Синтаксический анализ в системах извлечения знаний <ul><li>Применяется для узкого анализа основных сущностей </li></ul><ul><li>Грамматики с конечным числом состояний </li></ul><ul><li>Предложные группы выделяются только по отношению к «важным» глаголам </li></ul><ul><li>Выделяются наречия времени и места, остальные игнорируются </li></ul><ul><li>Применение полного синтаксического анализа </li></ul><ul><ul><li>медленно, много ошибок </li></ul></ul><ul><ul><li>Проблема с длинными предложениями </li></ul></ul>
  36. 38. Слияние частичных описаний <ul><li>Лингвистический анализ проводится в рамках отдельного предложения </li></ul><ul><li>Необходимость собирания частичных описаний, полученных из разных предложений </li></ul><ul><li>The bank was the target of the attack… The lobby was completely destroyed </li></ul><ul><li>Определение специальных правил слияния, основанных на сопоставлении слотов фрейма </li></ul>
  37. 39. Качество извлечения информации: новые данные <ul><li>ACE – Automatic Content Extraction </li></ul><ul><li>Точность (Accuracy) - 2006 </li></ul><ul><li>Сущности – 90-98% </li></ul><ul><li>Атрибуты – 80% </li></ul><ul><li>Факты – 60-70% </li></ul><ul><li>События – 50-60% </li></ul><ul><li>В хорошо известных областях </li></ul><ul><li>Для новых задач - ниже </li></ul>
  38. 40. Заключение <ul><li>Извлечение терминов </li></ul><ul><ul><li>Критерии: статистический, синтаксический, лексический (стоп-слова) </li></ul></ul><ul><ul><li>Оценка: трудно принять решение </li></ul></ul><ul><ul><li>Нужны дополнительные критерии: анализ компонентов, сравнение с уже введенными терминами </li></ul></ul><ul><li>Извлечение именованных сущностей </li></ul><ul><ul><li>Два подхода </li></ul></ul><ul><ul><li>Достигнуты высокие показатели обнаружения </li></ul></ul><ul><ul><li>Проблема кореференции – определения тождества имен </li></ul></ul>
  39. 41. Заключение-2 <ul><li>Извлечение отношений и событий </li></ul><ul><ul><li>Важно: переводит информацию из неструктурированного текста в структуры базы данных </li></ul></ul><ul><ul><li>Результаты пока невысокие </li></ul></ul><ul><ul><li>Постоянно предлагаются новые подходы (комбинированные методы, учет структуры текстов и др.) </li></ul></ul>

×