2. Извлечение информации
• Information Extraction – перевод неструктурированной
информации в структурированную.
• Специфика:
• обработка текста или коллекции текстов
• извлечение семантически значимых данных,
релевантных (по определенной проблеме, теме,
вопросу)
• структуризация извлеченных данных (таблицы,
шаблоны),
• накопление информационной базы, визуализация
данных
2
3. Приложения
• мониторинг новостных лент (сколько кораблей
затонуло в текущем году? )
• составление дайджестов
• аннотирование документов
• аналитика деятельности: экономической,
производственной, правоохранительной и др.
3
4. Извлекаемая информация
• Именованные сущности
• персоны, компании, адреса, даты
• упоминания генов и белков и пр.
• Отношения выделенных сущностей
• место работы, должность
• взаимодействие белков
• Связанные с ними события и факты
• слияние/поглощение компаний…
• приобретение контрольного пакета акций
4
5. Извлечение именованных
сущностей
Именованная сущность (Name Entity) – слово или словосочетание,
предназначенное для конкретного, вполне определённого предмета
или явления, выделяющее этот предмет или явление из ряда
однотипных предметов или явлений.
Особенности:
1. Обычно пишется с заглавной буквы
2. Обязательно имеет референт, то есть того (тех), кому это имя
принадлежит
Примеры:
• На экраны вышел новый фильм братьев Коэнов (NE).
• В Воткинске новорождённых девочек родители очень редко именуют
Татьянами (not NE).
5
6. Основные типы именованных
сущностей
• Персоны (PER)
• География (GEO)
• Организации (ORG)
• Артефакты (ARTEFACT)
• Время (TIME)
• События (EVENT)
• Всё остальное (MISC)
6
7. Подходы к извлечению
• Основанный на машинном обучении
• Опора на статистические (вероятностные методы)
• Необходим размеченный вручную текстовый корпус
• Основанный на правилах, или инженерный
rule-based, knowledge-based
• Извлечение на основе лингвистических правил
• Правила извлечения пишутся экспертами
• Используются специальные языки записи правил и
поддерживающие их программные инструменты
• Современные тенденции: комбинирование
7
8. Машинное обучение для
извлечения именованных сущностей
• Деревья решений – DT
• Метод опорных векторов – SVM
• Скрытая марковская модель – HMM
• Conditional Random Fields - CRF
8
9. Conditional Random Field
Hidden Markov Model
Приложения:
1. Поверхностный синтаксический анализ
(Shallow parsing)
2. Распознавание именованных сущностей
(Named Entity Recognition)
3. Поиск генов (Gene finding)
4. Распознавание речи
5. Нечеткий поиск подстрок
9
10. Hidden Markov Model
Марковская цепь - последовательность случайных величин,
где каждая величина xt+1 зависит только от предыдущей xt и
при условии xt условно независима с предыдущими xt-k.
Скрытая марковская модель – это марковская цепь, в
которой мы не можем наблюдать скрытые состояния, а
видим только некоторые наблюдаемые yt, которые зависят
от текущего состояния.
10
11. Hidden Markov Model
Пример:
В распознавании речи
скрытые состояния – это
фонемы, которые вы
хотите сказать, а
наблюдаемые – это
собственно звуковые
волны, которые доходят
до распознающего
устройства.
11
12. Hidden Markov Model
В задаче распознавания
именованных сущностей
скрытые состояния – это
тип именованной
сущности, а
наблюдаемые состояния
- это слова.
12
13. Conditional Random Field
В отличие от HMM, в CRF
xt может зависеть не
только от xt-1, но и от xt+1
и yt.
13
14. Целевая метрика
𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃+𝐹𝑃
𝑅 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃+𝐹𝑁
𝐹1 =
2∙𝑃∙𝑅
𝑃+𝑅
Расчет F-меры:
1. По словам
2. По собранным сущностям
Экспертная оценка
Положительная Отрицательная
Оценка системы Положительная TP FP
Отрицательная FN TN
14
15. Подготовка коллекции перед
машинным обучением
• Лингвист во всей коллекции размечает
именованные сущности
• Вычисляется набор признаков для каждого
слова
• Текстовая коллекция готова к обработке
15
16. Разметка
1. Каждое слово размечается тем классом, к которому
принадлежит ИС, включающее в себя это слово
2. BIO-разметка. Метка ставится в зависимости от положения
слова в ИС
Слово Обычная разметка BIO-разметка
президент NO O
Российской GEO B-GEO
Федерации GEO I-GEO
Владимир PER B-PER
Путин PER I-PER
16
17. Предыдущие работы по извлечению
именованных сущностей
BIO-разметка
• Radu Florian, Abe Ittycheriah, Hongyan Jing and Tong Zhang -
PER/ORG/LOC/MISC
F-мера(English CoNLL 2003) = 88.76%
F-мера(German CoNLL 2003) = 72.41%
• Jana Strakova, Milan Straka, Jan Hajiс – 42 класса именованных
сущностей
F-мера(Czech Corpus) = 79.23%
• Антонова А. Ю., Соловьев А. Н. – NAME/GEO/ORG/PROD/EVENT
F-мера(Russian Corpus) = 87,18%
17
18. Применение CRF для извлечения
именованных сущностей из текстов
на русском языке
18
19. Категории
• Персоны (PER)
• География (LOC)
• Геополитические объекты (GEOPOLIT)
• Организации (ORG)
• Медийные компании (MEDIA)
• Артефакты (ARTEFACT)
• Должности (POST)
• Другие имена собственные (MISC)
19
20. Правила разметки ИС
Дескриптор - слово или словосочетание, указывающее на родовое
понятие именованной сущности.
Пример:
• озеро Байкал - 'озеро‘
• Комитет по безопасности - ‘Комитет'.
Дескриптор будет частью ИС:
1. Если является аббревиатурой
• ОАО “Газпром”
2. Если дескриптор является вершиной именной группы, но при этом
имя не является приложением.
• Санкт-Петербургский государственный университет
Но:
• город Тула
Знаки препинания не включаются в именованную сущность.
20
21. Правила разметки ИС
• ИС, названные в честь какого-либо
человека, полностью выделяются как
организации
• Библиотека им. Ленина
• Географические объекты внутри
именованной сущности выделяются
отдельно, если ИС не выделена кавычками
• Университет при правительстве РФ
• фильм «Каникулы в Мексике»
21
22. Признаки
• Терм
• Начальная форма
• Наличие гласной
• Регистр букв
• Длина слова
• Роль в предложении
• Является ли концом предложения
• Оканчивается ли на суффикс фамилии
(пример: -дзе, -ов, -енко, -швили …)
22
23. Списочные признаки
• География (страны, столицы, регионы,
улицы)
• Персоны (имена, фамилии, известные
люди)
• Компании (организации, медиа)
• Слова, предшествующие именам
собственным (например: город Москва,
президент Владимир Путин …)
Объем словарей около 350000 выражений
23
26. Входные признаки
Term Lemma Register Sentence
Role
Second
Name
Is
Geo
Label
в В Small Auxiliary False False NO
России РОССИЯ BigSmall Noun False True GEOPOLIT
Алиев АЛИЕВ BigSmall Noun True False PER
третий ТРЕТИЙ Small Numeral False False NO
раз РАЗ Small Auxiliary False False NO
26
27. Инструмент для классификации
CRF++
CRF++ - простая, настраиваемая, open source реализация условных
случайных полей. Эта программа создана для множества задач,
таких как распознавание именованных сущностей (NER),
извлечение информации (Informаtion Extraction), выделение
синтаксических групп (Text Chunking).
Особенности:
1. Может переопределить набор признаков
2. Написан на C++ с использованием STL
3. Быстрое обучение
4. Может выполнить n-best output
5. Открытый код
27
28. Сборка имен
В данной работе используется обычная разметка (не bio).
Поэтому для сборки имен используются следующие правила:
• Граница имени определялась длинной подряд идущих слов с
одним типом ИС
• Если внутри последовательности слов с одинаковыми типами
ИС встречается пунктуационный знак, то решение зависит от
вида знака:
• Если знак является кавычкой, открывающей скобкой или точкой,
не являющейся концом предложения, то имя накапливаем
дальше
• Иначе – текущее имя заканчиваем, и начинаем выделять новое
• Пунктуационные знаки в имя не включаются
28
29. Текущие результаты
F-МЕРА (по сущностям)
PER LOC GEO
POLIT
ORG MEDIA ARTEFACT POST MISC TOTAL
0.938 0.855 0.925 0.779 0.881 0.276 0 0.267 0.867
29
30. Пример
Члены делегации встретятся с президентом Михаилом{PER}
Саакашвили{PER}, премьерминистром Бидзиной{PER}
Иванишвили{PER}, министром иностранных дел
Майей{PER} Панджикидзе{PER}, министром обороны
Ираклием{PER} Аласания{PER}, председателем парламента
Давидом{PER} Усупашвилии{PER} и секретарем
Совета{ORG} национальной{ORG} безопасности{ORG}
Гигой{PER}{ORG} Бокерия{PER}{ORG}.
зеленый – и эксперт и система разметили одинаково
синий – эксперт и система разметили по-разному
розовый – разметила только система
красный – разметил только эксперт
30
31. Примеры ошибок
• Сложно отличать географические и геополитические объекты:
Израиль{GEOPOLIT} свернул сотрудничество с
Тбилиси{GEOPOLIT}{LOC} в военной сфере.
• Имена в организациях часто отделяются:
Государственного{ORG} музея{ORG}
изобразительных{ORG} искусств{ORG} (ГМИИ{ORG})
имени{ORG} Пушкина {ORG}{PER}
• Сложно выделять объекты таких классов как артефакты и
другие собственные имена :
отметили день начала Великой{MISC}{LOC}
Отечественной{MISC}{LOC} войны{MISC}
31
32. Дальнейшее развитие
• Новые признаки
• Увеличение обучающей выборки (особенно
для классов POST и ARTEFACT)
• Двухуровневая разметка
• Увеличение числа классов именованных
сущностей
• Использование синтаксических связей
32