извлечение объектов и фактов из текстов

4,755
-1

Published on

извлечение объектов и фактов из текстов

  1. 1. Извлечение из текстов объектов и фактов (Text mining) Татьяна Ландо Менеджер лингвистических проектов
  2. 2. Natural Language Processing •  Автоматическая обработка естественного языка •  Искусственный интеллект •  Тест Тьюринга 3
  3. 3. 4
  4. 4. Natural Language Processing •  •  •  •  •  •  •  5 Поиск (текстовый) / Information Retrieval (IR) Извлечение фактов / Information Extraction (IE) Диалоговые системы и Question Answering Синтез и распознавание речи Оценка тональности отзывов Кластеризация и классификация текстов …
  5. 5. Text Mining 6 •  Извлечение структурированной информации из неструктурированного текста •  Основная часть посвящена объектам, их отношениям и свойствам в текстах •  Состоит из: –  Named Entity Recognition (NER) извлечение именованных сущностей / объектов –  Co-reference resolution Разрешение кореференции –  Information Extraction (IE) Извлечение фактов
  6. 6. Named Entity Recognition (NER) •  Извлечение именованных сущностей Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где он объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ему часть своей популярности, сообщает justmedia.ru. 7
  7. 7. Кореференция: анафора •  Разрешение анафоры: поиск разных выражений указывающих на одну сущность Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где ОН объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ЕМУ часть СВОЕЙ популярности, сообщает justmedia.ru. 8
  8. 8. Кореференция: “синонимы” Разнообразные способы называния одного и того же •  Транслитерация: Yandex – Яндекс •  Аббревиация: ВТБ – Внешторгбанк – Банк Внешней Торговли •  Синонимы: больница – госпиталь •  Словообразование: Москва – московский •  Графические: авто кредит - автокредит 9
  9. 9. Information Extraction •  Извлечение информации об отношениях между объектами или о значениях параметров. Популярный блогер и основатель антикоррупционного проекта "РосПил" Алексей Навальный фигурирует в уголовном деле как советник губернатора Кировской области Никиты Белых. person org Алексей Навальный основатель РосПил Никита Белых 10 position губернатор Кировская область
  10. 10. Что извлекают? Объекты: •  даты •  адреса •  телефоны •  ФИО •  название товара •  компании •  … Факты: 11 -  -  -  -  -  События Мнения и отзывы Контактные данные Объявления …
  11. 11. Теперь поговорим о технологиях 12
  12. 12. Первичная обработка текста На входе: текст на естественном языке Текст анализируется на всех лингвистических уровнях: •  лексическом •  морфологическом •  синтаксическом •  Семантическом Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов. 13
  13. 13. Первичная обработка текста текст Определение словарной формы слов и нормализация других объектов (числа, даты) токенизация / графематика частичный синтаксический разбор 14 Снятие омонимии лемматизация/ нормализация Разбиение текста на абзацы, предложения, слова. Выявление связей между словами, объединение слов в неразрывные группы
  14. 14. Графематика Разбиение текста на слова и предложения Яндекс.Маркет — сервис сравнения характеристик товаров и их цен Скоро начнется осенняя серия игр "Что? Где? Когда?". 15
  15. 15. Морфология •  Бывает словарная и автоматическая •  Еще бывает: –  Part-of-Speech Tagging –  Стемминг стекло: Стекло – существительное в ед.ч, им.п./вин.п Стекать – глагол в прош. вр., ед.ч, сред. род 16
  16. 16. Синтаксис •  Бывает полный или частичный •  Они оба ошибаются, полный чаще 17
  17. 17. Снятие омонимии •  Снятие разнообразных неоднозначностей: •  Морфологическая: Молоко стекло со стола •  Синтаксическая: Он видел их семью своими глазами •  «Объектная»: Михаил Задорнов: «20% российских семей могут себе позволить ипотеку» 18
  18. 18. Information Extraction Выделение объектов и определение типов (NER): •  Иван Петров –> ФИО •  3 апреля 1975 года –> дата •  директор по маркетингу –> должность •  ООО «Рога и копыта» -> компания Установление связей между объектами (Factes) Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад. 19
  19. 19. Пример post   geo   Вице-губернатор Новосибирской области date   FIO   Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м number   жилья. В ответ на вопрос председателя строительного комитета облсовета Александра FIO   Савельева, занимающего пост генерального post   директора компании «КПД-Газстрой», comp   post   руководитель профильного департамента comp   обладминистрации сообщил, что за государственный счет будет построено около 10 % number   заявленных площадей. 20
  20. 20. Как извлекают? •  по онтологиям •  опираясь на правила (Rule-based) •  опираясь на машинное обучение (ML ) 21
  21. 21. Наверное, сначала нужно поговорить про онтологии…
  22. 22. Онтологии •  «концептуальные словари» •  структуры в которых описываются некоторые понятия и/или объекты, отношения между ними, их характеристики •  вообще-то это философский термин 23
  23. 23. Онтологии Бывают: •  универсальные, описывают вообще все •  отраслевые, по предметным областям •  узкоспециализированные, под конкретную задачу •  онтологии объектов (база данных) •  онтологии концептов (понятий) 24
  24. 24. Онтологии Примеры: •  Wikipedia, Dbpedia •  Imdb, Кинопоиск •  CrunchBase •  SUMO •  DOLCE 25
  25. 25. IE с помощью онтологий •  Используют онтологии объектов •  Используют открытые источники, сливают их в одну онтологию объектов с типами и свойствами. Например, «препарируют» википедию •  по тексту готовят гипотезы, опираясь на контексты и имеющиеся списки объектов (т.е. свою онтологию) •  разрешают неоднозначность опираясь на связи между объектами сразу по всему тексту 26
  26. 26. Разметим предложение Википедией 27 Президент РФ Владимир Путин считает, что высказывания в ЕС по поводу решения Киева приостановить процесс интеграции с Евросоюзом оказывают давление на Украину http://ru.wikipedia.org/wiki/Президент …/wiki/Президент_Российской_Федерации …/wiki/Россия …/wiki/Владимир …/wiki/Владимир_Путин .../wiki/Высказывание …/wiki/В …/wiki/Европейский_союз …/wiki/По …wiki/Решение …wiki/Киев …/wiki/Процесс …/wiki/Интеграция …/wiki/С …/wiki/Европейский_союз …/wiki/Давление …/wiki/На …/wiki/Украина
  27. 27. IE с помощью онтологий •  получается высокая точность NER, нет случайных NE •  снятие омонимии тоже происходит с высокой точностью •  низкая полнота: извлекается только то, что есть в онтологии •  странная обновляемость, нужно либо добавлять объекты руками, либо строить процедуру автоматического обновления 28
  28. 28. IE с помощью онтологий 29 •  зависит от наличия внешних ресурсов, поэтому подход используется только для английского •  хорошо использовать для закрытых классов, например географические названия •  хорошо использовать в областях, где оперативно пополняются источники, например кинобазы •  может использовать или не использовать лингвистическую информацию, т.е. подходить для любого «стиля» текста
  29. 29. Машинное обучение: •  Методы построения алгоритмов, способных обучаться •  Дается обучающая выборка – набор данных, где объектам приписаны свойства. Характеристики, классы и т.п. •  Нужно определить зависимость, т.е. написать алгоритм, который для каждого нового объекта выдаст максимально точный ответ 30
  30. 30. Машинное обучение: пример Девочки: •  Мария Иванова •  Дарья Петрова •  Екатерина Сидорова Мальчики: •  Иван Пупкин •  Алексей Уткин •  Егор Иванов Надо определить мальчик или девочка: •  Олег Бойко •  Ангелина Алексеева 31
  31. 31. Машинное обучение: •  извлекается как можно больше лингвистической информации о словах •  размечается обучающее множество, на нем обучается система •  запускается на корпусе, получаются результаты 32
  32. 32. Машинное обучение: •  не требует большого количества ручного труда по написанию правил •  не требует заранее подготовленной онтологии •  систему легко перенастроить под другие «стили» языка, например перейти от СМИ-текстов к сообщениям в твиттере •  не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид) •  процедуры можно делать итеративными: простые правила -> факты –> более сложные правила т.е. правила можно извлекать автоматически 33
  33. 33. Машинное обучение: •  Недостаточно развиты инструменты для автоматической обработки, трудно получить лингвистические фичи (хорошо применимо для английского) •  Требуется большой обучающий корпус, правильно и полностью размеченный •  Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно» 34
  34. 34. Rule-based подход •  использует полный или частичный синтаксический анализ •  онтология категорий, т.е. указывается какие сущности могут обладать какими параметрами, например: компания – стоимость •  NER основанный на контекстах и внутренних структурах, контексты (шаблоны) составляются руками лингвистов 35
  35. 35. Rule-based NER •  для фио: есть словарь имен, правила согласования имен, отчеств, фамилий, типовые окончания для отчеств и фамилий •  для дат: словарь названий месяцев, шаблоны построения дат •  для компаний: стоят в специфических контекстах, иногда упоминаются в кавычках, имеют специфические части (ООО, ЗАО,… ) 36
  36. 36. Rule-based IE •  шаблоны поверх NER •  в шаблонах записываются отношения, в которых могут находиться разные объекты, лингвистическая информация, которая может указывать на связь, конкретные слова, которые обозначают конкретные связи. Владимир Ресин назначен и.о. мэра Москвы person (им.п.) назначен post(тв.п.) org(р.п.) 37
  37. 37. Что же выбрать? •  Начиналось все с шаблонов •  Сейчас в моде онтологии и машинное обучение •  Выбор подхода определяется конкретной задачей •  А будущее все равно за гибридными системами. 38
  38. 38. Зачем все это? •  Тэгирование новостных сообщений или сообщений в блогах. (NER) •  Мониторинг новостей по персоне, компании, продукту (NER) •  Мониторинг отношения прессы/блоггеров к событию, продукту (Facts) •  Автоматическое составление календаря будущих событий с заполнением полей когда, где… (Facts) •  Фильтры для поиска, использование в кластеризации, и в других задачах •  Придумайте сами ;) 39
  39. 39. Тенденции •  много систем для английского языка •  много онтологий, много лингв. инструментов •  простая морфология – проще настраивать машинное обучение •  большой рынок •  NER гораздо больше чем NER + Facts •  крупные новостные сайты, тематические блоги •  Мнения по твиттеру, блогам… тоже на английском 40
  40. 40. Компании •  OpenCalais – самый известный англоязычный ресурс •  Сотни стартапов по всему миру делают IE для английского языка •  Яндекс :) •  Google •  Ашманов, RCO и пр делают это с русским 41
  41. 41. Как мы делаем это в Яндексе? •  Машинное обучение •  Онтологии •  Инструмент для Rule-based подхода: Томита-парсер 42
  42. 42. Извлечение фактов в почте
  43. 43. Карты Ул. Юных Ленинцев Чулочно-носочные изделия
  44. 44. Новости
  45. 45. Поиск
  46. 46. Поиск
  47. 47. Яндекс.Работа
  48. 48. Татьяна Ландо Менеджер проектов Отдел лингвистических технологий Спасибо!
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×