Your SlideShare is downloading. ×
извлечение объектов и фактов из текстов
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

извлечение объектов и фактов из текстов

4,443

Published on

0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
4,443
On Slideshare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
45
Comments
0
Likes
4
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Извлечение из текстов объектов и фактов (Text mining) Татьяна Ландо Менеджер лингвистических проектов
  • 2. Natural Language Processing •  Автоматическая обработка естественного языка •  Искусственный интеллект •  Тест Тьюринга 3
  • 3. 4
  • 4. Natural Language Processing •  •  •  •  •  •  •  5 Поиск (текстовый) / Information Retrieval (IR) Извлечение фактов / Information Extraction (IE) Диалоговые системы и Question Answering Синтез и распознавание речи Оценка тональности отзывов Кластеризация и классификация текстов …
  • 5. Text Mining 6 •  Извлечение структурированной информации из неструктурированного текста •  Основная часть посвящена объектам, их отношениям и свойствам в текстах •  Состоит из: –  Named Entity Recognition (NER) извлечение именованных сущностей / объектов –  Co-reference resolution Разрешение кореференции –  Information Extraction (IE) Извлечение фактов
  • 6. Named Entity Recognition (NER) •  Извлечение именованных сущностей Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где он объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ему часть своей популярности, сообщает justmedia.ru. 7
  • 7. Кореференция: анафора •  Разрешение анафоры: поиск разных выражений указывающих на одну сущность Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где ОН объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ЕМУ часть СВОЕЙ популярности, сообщает justmedia.ru. 8
  • 8. Кореференция: “синонимы” Разнообразные способы называния одного и того же •  Транслитерация: Yandex – Яндекс •  Аббревиация: ВТБ – Внешторгбанк – Банк Внешней Торговли •  Синонимы: больница – госпиталь •  Словообразование: Москва – московский •  Графические: авто кредит - автокредит 9
  • 9. Information Extraction •  Извлечение информации об отношениях между объектами или о значениях параметров. Популярный блогер и основатель антикоррупционного проекта "РосПил" Алексей Навальный фигурирует в уголовном деле как советник губернатора Кировской области Никиты Белых. person org Алексей Навальный основатель РосПил Никита Белых 10 position губернатор Кировская область
  • 10. Что извлекают? Объекты: •  даты •  адреса •  телефоны •  ФИО •  название товара •  компании •  … Факты: 11 -  -  -  -  -  События Мнения и отзывы Контактные данные Объявления …
  • 11. Теперь поговорим о технологиях 12
  • 12. Первичная обработка текста На входе: текст на естественном языке Текст анализируется на всех лингвистических уровнях: •  лексическом •  морфологическом •  синтаксическом •  Семантическом Различные уровни участвуют в разных процедурах анализа текста, которые входят в системы извлечения фактов. 13
  • 13. Первичная обработка текста текст Определение словарной формы слов и нормализация других объектов (числа, даты) токенизация / графематика частичный синтаксический разбор 14 Снятие омонимии лемматизация/ нормализация Разбиение текста на абзацы, предложения, слова. Выявление связей между словами, объединение слов в неразрывные группы
  • 14. Графематика Разбиение текста на слова и предложения Яндекс.Маркет — сервис сравнения характеристик товаров и их цен Скоро начнется осенняя серия игр "Что? Где? Когда?". 15
  • 15. Морфология •  Бывает словарная и автоматическая •  Еще бывает: –  Part-of-Speech Tagging –  Стемминг стекло: Стекло – существительное в ед.ч, им.п./вин.п Стекать – глагол в прош. вр., ед.ч, сред. род 16
  • 16. Синтаксис •  Бывает полный или частичный •  Они оба ошибаются, полный чаще 17
  • 17. Снятие омонимии •  Снятие разнообразных неоднозначностей: •  Морфологическая: Молоко стекло со стола •  Синтаксическая: Он видел их семью своими глазами •  «Объектная»: Михаил Задорнов: «20% российских семей могут себе позволить ипотеку» 18
  • 18. Information Extraction Выделение объектов и определение типов (NER): •  Иван Петров –> ФИО •  3 апреля 1975 года –> дата •  директор по маркетингу –> должность •  ООО «Рога и копыта» -> компания Установление связей между объектами (Factes) Директор по маркетингу компании «Рога и копыта» Иван Петров родился ровно 35 лет назад. 19
  • 19. Пример post   geo   Вице-губернатор Новосибирской области date   FIO   Владимир Анисимов объявил, что в 2009 году в области планируется ввести в строй 979 тыс. кв. м number   жилья. В ответ на вопрос председателя строительного комитета облсовета Александра FIO   Савельева, занимающего пост генерального post   директора компании «КПД-Газстрой», comp   post   руководитель профильного департамента comp   обладминистрации сообщил, что за государственный счет будет построено около 10 % number   заявленных площадей. 20
  • 20. Как извлекают? •  по онтологиям •  опираясь на правила (Rule-based) •  опираясь на машинное обучение (ML ) 21
  • 21. Наверное, сначала нужно поговорить про онтологии…
  • 22. Онтологии •  «концептуальные словари» •  структуры в которых описываются некоторые понятия и/или объекты, отношения между ними, их характеристики •  вообще-то это философский термин 23
  • 23. Онтологии Бывают: •  универсальные, описывают вообще все •  отраслевые, по предметным областям •  узкоспециализированные, под конкретную задачу •  онтологии объектов (база данных) •  онтологии концептов (понятий) 24
  • 24. Онтологии Примеры: •  Wikipedia, Dbpedia •  Imdb, Кинопоиск •  CrunchBase •  SUMO •  DOLCE 25
  • 25. IE с помощью онтологий •  Используют онтологии объектов •  Используют открытые источники, сливают их в одну онтологию объектов с типами и свойствами. Например, «препарируют» википедию •  по тексту готовят гипотезы, опираясь на контексты и имеющиеся списки объектов (т.е. свою онтологию) •  разрешают неоднозначность опираясь на связи между объектами сразу по всему тексту 26
  • 26. Разметим предложение Википедией 27 Президент РФ Владимир Путин считает, что высказывания в ЕС по поводу решения Киева приостановить процесс интеграции с Евросоюзом оказывают давление на Украину http://ru.wikipedia.org/wiki/Президент …/wiki/Президент_Российской_Федерации …/wiki/Россия …/wiki/Владимир …/wiki/Владимир_Путин .../wiki/Высказывание …/wiki/В …/wiki/Европейский_союз …/wiki/По …wiki/Решение …wiki/Киев …/wiki/Процесс …/wiki/Интеграция …/wiki/С …/wiki/Европейский_союз …/wiki/Давление …/wiki/На …/wiki/Украина
  • 27. IE с помощью онтологий •  получается высокая точность NER, нет случайных NE •  снятие омонимии тоже происходит с высокой точностью •  низкая полнота: извлекается только то, что есть в онтологии •  странная обновляемость, нужно либо добавлять объекты руками, либо строить процедуру автоматического обновления 28
  • 28. IE с помощью онтологий 29 •  зависит от наличия внешних ресурсов, поэтому подход используется только для английского •  хорошо использовать для закрытых классов, например географические названия •  хорошо использовать в областях, где оперативно пополняются источники, например кинобазы •  может использовать или не использовать лингвистическую информацию, т.е. подходить для любого «стиля» текста
  • 29. Машинное обучение: •  Методы построения алгоритмов, способных обучаться •  Дается обучающая выборка – набор данных, где объектам приписаны свойства. Характеристики, классы и т.п. •  Нужно определить зависимость, т.е. написать алгоритм, который для каждого нового объекта выдаст максимально точный ответ 30
  • 30. Машинное обучение: пример Девочки: •  Мария Иванова •  Дарья Петрова •  Екатерина Сидорова Мальчики: •  Иван Пупкин •  Алексей Уткин •  Егор Иванов Надо определить мальчик или девочка: •  Олег Бойко •  Ангелина Алексеева 31
  • 31. Машинное обучение: •  извлекается как можно больше лингвистической информации о словах •  размечается обучающее множество, на нем обучается система •  запускается на корпусе, получаются результаты 32
  • 32. Машинное обучение: •  не требует большого количества ручного труда по написанию правил •  не требует заранее подготовленной онтологии •  систему легко перенастроить под другие «стили» языка, например перейти от СМИ-текстов к сообщениям в твиттере •  не требует детального описания каждого контекста (т.е. правил не только меньше, но они имеют более общий вид) •  процедуры можно делать итеративными: простые правила -> факты –> более сложные правила т.е. правила можно извлекать автоматически 33
  • 33. Машинное обучение: •  Недостаточно развиты инструменты для автоматической обработки, трудно получить лингвистические фичи (хорошо применимо для английского) •  Требуется большой обучающий корпус, правильно и полностью размеченный •  Сложно отследить в каком именно месте возникла ошибка и ее исправить «точечно» 34
  • 34. Rule-based подход •  использует полный или частичный синтаксический анализ •  онтология категорий, т.е. указывается какие сущности могут обладать какими параметрами, например: компания – стоимость •  NER основанный на контекстах и внутренних структурах, контексты (шаблоны) составляются руками лингвистов 35
  • 35. Rule-based NER •  для фио: есть словарь имен, правила согласования имен, отчеств, фамилий, типовые окончания для отчеств и фамилий •  для дат: словарь названий месяцев, шаблоны построения дат •  для компаний: стоят в специфических контекстах, иногда упоминаются в кавычках, имеют специфические части (ООО, ЗАО,… ) 36
  • 36. Rule-based IE •  шаблоны поверх NER •  в шаблонах записываются отношения, в которых могут находиться разные объекты, лингвистическая информация, которая может указывать на связь, конкретные слова, которые обозначают конкретные связи. Владимир Ресин назначен и.о. мэра Москвы person (им.п.) назначен post(тв.п.) org(р.п.) 37
  • 37. Что же выбрать? •  Начиналось все с шаблонов •  Сейчас в моде онтологии и машинное обучение •  Выбор подхода определяется конкретной задачей •  А будущее все равно за гибридными системами. 38
  • 38. Зачем все это? •  Тэгирование новостных сообщений или сообщений в блогах. (NER) •  Мониторинг новостей по персоне, компании, продукту (NER) •  Мониторинг отношения прессы/блоггеров к событию, продукту (Facts) •  Автоматическое составление календаря будущих событий с заполнением полей когда, где… (Facts) •  Фильтры для поиска, использование в кластеризации, и в других задачах •  Придумайте сами ;) 39
  • 39. Тенденции •  много систем для английского языка •  много онтологий, много лингв. инструментов •  простая морфология – проще настраивать машинное обучение •  большой рынок •  NER гораздо больше чем NER + Facts •  крупные новостные сайты, тематические блоги •  Мнения по твиттеру, блогам… тоже на английском 40
  • 40. Компании •  OpenCalais – самый известный англоязычный ресурс •  Сотни стартапов по всему миру делают IE для английского языка •  Яндекс :) •  Google •  Ашманов, RCO и пр делают это с русским 41
  • 41. Как мы делаем это в Яндексе? •  Машинное обучение •  Онтологии •  Инструмент для Rule-based подхода: Томита-парсер 42
  • 42. Извлечение фактов в почте
  • 43. Карты Ул. Юных Ленинцев Чулочно-носочные изделия
  • 44. Новости
  • 45. Поиск
  • 46. Поиск
  • 47. Яндекс.Работа
  • 48. Татьяна Ландо Менеджер проектов Отдел лингвистических технологий Спасибо!

×