Извлечение знаний и фактов из текстов
Upcoming SlideShare
Loading in...5
×
 

Like this? Share it with your network

Share

Извлечение знаний и фактов из текстов

on

  • 2,779 views

4 декабря 2007

4 декабря 2007
Лукашевич Н.В

Statistics

Views

Total Views
2,779
Views on SlideShare
2,779
Embed Views
0

Actions

Likes
1
Downloads
42
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

Извлечение знаний и фактов из текстов Presentation Transcript

  • 1. Извлечение знаний и фактов из текстов Н.В.Лукашевич [email_address] АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр
  • 2. Задачи извлечения: извлечение знаний (Knowledge acquisition)
    • Классическая проблема искусственного интеллекта – bottleneck
    • Новая предметная область
      • Сущности, понятия
      • Отношения ( синонимы, родовидовые отношения, часть-целое)
      • Закономерности
    • Источники получения знаний
      • Эксперты
      • Данные – Data mining
      • Тексты
    • Результат: терм. словарь, тезаурус, онтология
  • 3. Задачи извлечения: извлечение фактов
    • Information extraction
    • Извлечение конкретных сущностей:
      • персон, должностей, организаций ;
      • ссылок на литературу;
      • упоминаний генов или белков и т.п.
    • Извлечение отношений между конкретными сущностями:
      • место работы, телефон, покупки, слияния и поглощения
      • Взаимодействие белков
    • Накопление базы фактов
  • 4. План презентации
    • Извлечение знаний о предметной области: термины
    • Извлечение информации: конкретные сущности
    • Извлечение знаний и информации: отношения
  • 5. Извлечение знаний из текстов: основные этапы
    • 1) формирование текстового корпуса – мегабайты, гигабайты текстов
    • 2) Работа автоматических процедур
    • 3) Возможно, работа экспертов по проверке, отбору извлеченной информации
    • 4) Результат:
      • Список терминов предметной области
      • Онтология
      • Тезаурус
  • 6. Извлечение терминов из текстов
    • Сущности, понятия
    • Понятия – категории мышления
    • - > в текстах - термины
    • Термин - слово (или сочетание слов), являющееся точным обозначением определенного понятия какой-либо специальной области науки, техники, искусства, общественной жизни и т.п.
    • - > Задача автоматического извлечения терминов
  • 7. Пример: Проект терминологического словаря
    • Сфера государственного финансового контроля
    • - Договор со Счетной Палатой РФ
    • Имеется проект словаря, предоставленный специалистами СП,
      • Род экспертизы
    • Предметная область - на стыке нескольких областей: экономика, право, бухгалтерский учет
    • Срок исполнения – 4 месяца (невозможно без компьютерных технологий)
  • 8. Финансовый контроль: самые частотные многословные выражения
    • Федеральный бюджет
    • Российская Федерация
    • Счетная палата
    • Федеральный закон
    • Общая сумма
    • Средства федерального бюджета
    • Областной бюджет
    • Денежные средства
    • Использование средств
    • Заработная плата
    • Минфин России
    • Бюджетные средства
    • Налоговый орган
  • 9. Критерии для извлечения терминологических словосочетаний
    • Лингвистические критерии:
      • однословные, именные группы (прил.+сущ., сущ+сущ. в род. падеже и т.п.)
    • Статистические критерии
      • частотность, взаимная встречаемость …
    • Лексические критерии
      • Списки стоп-слов: каждый, другой, оценки (красивый, плохой) , география, имена и фамилии людей…
  • 10.
    • ( PAIRS ) Естественный метод – сборка пар слов (возможно с предлогами), а затем упорядочивание их в соответствиис убывающей частотностью
    • ( PAIRS .MI) « mutual information » отношения вероятности совместной встречаемости двух слов в некотором текстовом окне к произведению вероятностей встречаемости каждого слова
    Отбор словосочетаний - 1
  • 11. Отбор словосочетаний - 2
    • ( PAIRS .LL) оптимиз ац и я функци и максимального правдоподобия ( log - likelihood ) в предположении о биномиальном характере функции распределения совместной встречаемости слов
    • loglike = a * log(a+1) + b * log(b+1) + c * log(c+1) + d * log(d+1) - (a+b) * log(a+b+1) - (a+c) * log(a+c+1) - (b+d) * log(b+d+1) - (c+d) * log(c+d+1) + (a+b+c+d) * log(a+b+c+d+1)
    a - частота данного словосочетания (пары), b - суммарная частота других (отличных от данной) пар с той же самой левой леммой, c - суммарная частота других пар с той же самой правой леммой, d - суммарная частота пар, отличных от данной и не попадающих в категории ( b ) и ( c )
  • 12. Отбор словосочетаний - 3 ( C-VALUE ) К.  Frantzi и S .  Ananiadou введена метрика C - Value , поощряющая отбор словосочетаний большей длины, которые не входят в состав других словосочетаний a – кандидат в термины, | a | - длина словосочетания, измеряемая в количестве слов, freq ( a ) – частотность a , T a – множество словосочетаний, которые содержат a , P( T a ) – количество словосочетаний, содержащих a .
  • 13. Отбор словосочетаний - 4 Словарь сочетаемости (30000 входов): A(-)+N(-)=G(-) важная проблема A (+)+ N (-)= G (+) внешнеполитическая деятельность А(-)+ N (+)= N (+) ( G = N ) вчерашняя продажа ( OLDTERMS -- и OLDTERMS ++ ) существительное + согласованное прилагательное + существительное в род.падеже N+A+N согласованные прилагательное + прилагательное + существительное A+A+N существительное + существительное в род. падеже N + N согласованные прилагательное + существительное A + N
  • 14. Оценка эффективности нахождения коротких терминологических словосочетаний
  • 15. Опыт извлечения терминов
    • Общественно-политический тезаурус
      • 1994-1997
      • 250 тысяч терминологических словосочетаний
      • Прекращено из-за слишком больших трудозатрат
    • Авиа-Онтология
    • Терминологический словарь Счетной палаты
    • Онтология по естественным наукам и технологиям
    • Проблема: большое количество словосочетаний, для которых трудно принять решение – субъективность экспертов
    • Использовать новые принципы:
      • анализ компонентной структуры словосочетания,
      • сравнение с другими извлеченными словосочетаниями,
      • с уже имеющимися ресурсами
  • 16. План презентации
    • Извлечение знаний о предметной области: термины
    • Извлечение информации: конкретные сущности
    • Извлечение знаний и информации: отношения
  • 17. Тестирование систем извлечения информации
    • Конференция MUC - Message Understanding Conference (1987-1997)
    • MUC-1 (87) , MUC-2 (89) Военно-морские операции
    • MUC-3 (91) , MUC-4 (92) Террористическая деятельность
    • MUC-5 (93) Совместные предприятия
    • MUC-6 (95) Назначения и отставки
    • MUC-7 (97) Запуски космических кораблей и ракет
  • 18. MUC-7. Запуски
    • Запущенный_аппарат
    • Боевая_часть
    • Дата_запуска
    • Место_запуска
    • Тип_задания (военный, гражданский)
    • Назначение_запуска (тестирование, доставка..)
    • Статус_запуска (удачный, неудачный, выполняется, планируется)
  • 19. Методы оценки
    • Полнота ( R) = Число правильных ответов / общее возможное число правильных ответов
    • Точность (P) = Число правильных ответов / Число порожденных ответов
    • F1- мера = 2RP/(R+P)
    • Максимальный результат MUC: F1= 0.6 (!)
    • ACL 2007: 0.64
    • Результаты российских групп – 0.9 (?!)
  • 20. Методы автоматического извлечения информации
    • Системы машинного обучения
    • опора на статистические (вероятностные) методы
    • необходим размеченный корпус для «обучения» системы
    • Системы, основанные на знаниях
    • опора на языки описания правил-шаблонов (и действий)
    • правила пишутся экспертами ; процесс написания правил может занимать много времени
    • Лучшие системы конференции MUC – системы, основанные на знаниях
  • 21. Выбор методов
    • Использование методов, основанных на знаниях
      • Имеются словари, списки слов
      • Имеются инженеры по знаниям
      • Мало размеченных данных
      • Нужно максимально возможное качество
    • Использование методов, основанных на машинном обучении
      • Нет словарных ресурсов
      • Нет инженеров по знаниям
      • Размеченных данных много и получение их дешево
      • Достаточно иметь хорошее ( ?) качество извлечения
    • Комбинированные подходы
  • 22. Основные этапы извлечения информации
    • Графематика (токенизация)
      • Разбиение сложных слов (?)
    • Морфологический анализ
      • Определение части речи
      • Определение грамматических характеристик
    • Лексический анализ
      • Сопоставление со словарями
      • Разрешение лексической многозначности
    • Синтаксический анализ
      • Частичный анализ, шаблоны
    • Предметный анализ
      • Анализ референциальных ссылок
      • Слияние извлеченных фактов
  • 23. Извлечение именованных сущностей
    • Особенности
      • Большое количество разных
      • Постоянно появляются новые сущности
      • Нет строгих правил именования (маргарин “I Can’t Believe It’s Not Butter”)
    • Примеры
      • Люди
      • Организации
      • Предприятия
      • Места
      • Марки товаров
  • 24. Извлечение имен: достигнутые результаты
    • Wall Street Journal
    • Системы, основанные на знаниях
      • MUC-6 – F=96.4
      • MUC-7 – F=93.7
    • Системы машинного обучения (HMM)
      • MUC-6 – F=93
      • MUC-7 – F=90.4
  • 25. Извлечение имен на основе знаний - 1
    • Словарь имен
    • Словарь частей имен
    • Правила и шаблоны:
      • Большие буквы
      • Использование внутренней структуры (ООО)
      • Проверка по корпусу
        • Michigan State – название университета,
        • New York State – название штата
    • Результат: список правил
  • 26. Извлечение имен на основе знаний. Скорость разработки
    • Исходные данные
      • 5000 названий компаний и сокращений
      • 1000 имен и фамилий людей
      • 20000 географических названий
    • Итеративная разработка правил
    • Время разработки: 2-3 недели
    • Число правил: около 100
    • Качество извлечения: 85-90%
  • 27. Ontosminer: примеры правил Синицына (в девичестве Орлова) А рландина Семеновна является менеджером картеля «Лига Охраны Перелетных Птиц». {Family} ({FormerFam}) ? {Upper} {Patr} Он поступил в Московский университет дружбы народов и отучился там 4 года. {AdjNPupper} {Lookup.majorType == “ edu ", Lookup.NMB == "sg"} {GenNP} ({GenNP})? Примеры соответствующих фрагментов текста Шаблон на языке Jape (Cunningham et al. 2000)
  • 28. Извлечение имен: Марковские модели
    • Моделируется конечный автомат
    • Марковский процесс - будущее» процесса не зависит от «прошлого» при известном «настоящем».
    • Переходы вероятностные
    • Получение вероятностных оценок на основе размеченного корпуса
    • В момент обработки нового имени – выбор наиболее вероятного пути
  • 29.  
  • 30. Машинное обучение извлечению имен: сколько нужно данных
    • BBN
      • 30000 слов – F 81
      • 1.2 млн.слов – F91
    • MITRE
      • 250K слов – F 79
      • 750K слов – F 86
      • 1.2 млн слов – F 87
    • 1.2. млн. слов – 1800 газетных статей
    • Последовательность разметки тоже важна
    • Linguistic Data Consortium – источник данных
  • 31.  
  • 32. Извлечение имен: проблема кореференции
    • Текст: множество разных именований одной и той же сущности:
      • William H. Gates, Mr. Gates, Bill Gates
      • Местоимения
      • Сокращения
      • Именные группы (владелец Microsoft)
    • MUC-6 :
    • P=0.72, R-0.63 – подмножество сущностей в единственном числе
  • 33. Вторичное распознавание и связывание кореферентных наименований объектов Иной путь был у нефтяной компании «Сибнефть». Она была образована в 1995 г. на основе ряда предприятий советской нефтяной промышленности. В течение нескольких лет Борис Березовский с Романом Абрамовичем скупили на приватизационных конкурсах контрольный пакет акций компании. По данным Счетной палаты, при продаже компании государству был нанесен ущерб в размере 2,7 млрд. долларов. Об этом заявил глава СП Сергей Степашин. К «черному золоту» будущий владелец «Сибнефти» имел опосредованное отношение. Учась в институте, Р. Абрамович создал кооператив «Уют», изготавливающий игрушки из полимеров. Лишь в середине 90-х он занялся торговлей нефтью через швейцарскую компанию RUNICOM. Среди финансовых аналитиков «Сибнефть» при Абрамовиче считалась крайне эффективной компанией.
  • 34. Разрешение кореферентности
    • Полезная информация
      • Синтаксический тип: имя, именная группа, местоимение
      • Одушевленность
      • Тип сущности
      • Род и число
    • Должно быть соответствие по этим характеристикам
    • Расстояние просмотра:
      • Именованная сущность – весь текст
      • Именная группа – фрагмент текста
      • Местоимение – 1-2 предложения, редко проходит через границу абзаца
  • 35. Полезные правила (компания RCO)
    • -  Референт может употребляться дважды в одном предложении только в составе двух разных пропозиций – базовой и осложняющей ( должна стоять хотя бы одна запятая)
    • - Возможный референт слова при своем последнем упоминании не должен входить в состав группы однородных членов предложения ( Сидоров столкнулся с Ивановым и Петровым в дверях, после чего ему не удалось избежать разговора).
    • -    При наличии нескольких потенциальных референтов слову более естественно иметь того референта, который употреблялся в теме предшествующего предложения, нежели в реме – фокус внимания – ( Иванов познакомился с Петровым в прошлом году. Тогда он впервые участвовал в выставке )
    • Референт слова не должен упоминаться после него в том же предложении, будучи обозначен более полным наименованием ( Компания обанкротилась, после чего акционеры МММ тщетно пытались вернуть свои деньги )
    • RCO: на практике эти правила часто безболезненно нарушаются
  • 36. Извлечение отношений
    • Шаблоны
      • Инженерный подход vs. машинное обучение
      • База: последовательность слов и / или результаты частичного синтаксического анализа
      • Инженерный подход: высокая точность, низкая полнота
    • Извлечение шаблонов
      • Имеется множество сущностей с известными отношениями
      • Пример, штаб-квартиры компаний
      • В текстовом корпусе находятся предложения, в которых упоминаются эти пары сущностей.
      • Формируются наиболее вероятные шаблоны
  • 37. Синтаксический анализ в системах извлечения знаний
    • Применяется для узкого анализа основных сущностей
    • Грамматики с конечным числом состояний
    • Предложные группы выделяются только по отношению к «важным» глаголам
    • Выделяются наречия времени и места, остальные игнорируются
    • Применение полного синтаксического анализа
      • медленно, много ошибок
      • Проблема с длинными предложениями
  • 38. Слияние частичных описаний
    • Лингвистический анализ проводится в рамках отдельного предложения
    • Необходимость собирания частичных описаний, полученных из разных предложений
    • The bank was the target of the attack… The lobby was completely destroyed
    • Определение специальных правил слияния, основанных на сопоставлении слотов фрейма
  • 39. Качество извлечения информации: новые данные
    • ACE – Automatic Content Extraction
    • Точность (Accuracy) - 2006
    • Сущности – 90-98%
    • Атрибуты – 80%
    • Факты – 60-70%
    • События – 50-60%
    • В хорошо известных областях
    • Для новых задач - ниже
  • 40. Заключение
    • Извлечение терминов
      • Критерии: статистический, синтаксический, лексический (стоп-слова)
      • Оценка: трудно принять решение
      • Нужны дополнительные критерии: анализ компонентов, сравнение с уже введенными терминами
    • Извлечение именованных сущностей
      • Два подхода
      • Достигнуты высокие показатели обнаружения
      • Проблема кореференции – определения тождества имен
  • 41. Заключение-2
    • Извлечение отношений и событий
      • Важно: переводит информацию из неструктурированного текста в структуры базы данных
      • Результаты пока невысокие
      • Постоянно предлагаются новые подходы (комбинированные методы, учет структуры текстов и др.)