SlideShare a Scribd company logo
1 of 32
Автоматическое извлечение
именованных сущностей
методами машинного обучения
Можарова В. А.
Научный руководитель
Лукашевич Н. В.
Извлечение информации
• Information Extraction – перевод неструктурированной
информации в структурированную.
• Специфика:
• обработка текста или коллекции текстов
• извлечение семантически значимых данных,
релевантных (по определенной проблеме, теме,
вопросу)
• структуризация извлеченных данных (таблицы,
шаблоны),
• накопление информационной базы, визуализация
данных
2
Приложения
• мониторинг новостных лент (сколько кораблей
затонуло в текущем году? )
• составление дайджестов
• аннотирование документов
• аналитика деятельности: экономической,
производственной, правоохранительной и др.
3
Извлекаемая информация
• Именованные сущности
• персоны, компании, адреса, даты
• упоминания генов и белков и пр.
• Отношения выделенных сущностей
• место работы, должность
• взаимодействие белков
• Связанные с ними события и факты
• слияние/поглощение компаний…
• приобретение контрольного пакета акций
4
Извлечение именованных
сущностей
Именованная сущность (Name Entity) – слово или словосочетание,
предназначенное для конкретного, вполне определённого предмета
или явления, выделяющее этот предмет или явление из ряда
однотипных предметов или явлений.
Особенности:
1. Обычно пишется с заглавной буквы
2. Обязательно имеет референт, то есть того (тех), кому это имя
принадлежит
Примеры:
• На экраны вышел новый фильм братьев Коэнов (NE).
• В Воткинске новорождённых девочек родители очень редко именуют
Татьянами (not NE).
5
Основные типы именованных
сущностей
• Персоны (PER)
• География (GEO)
• Организации (ORG)
• Артефакты (ARTEFACT)
• Время (TIME)
• События (EVENT)
• Всё остальное (MISC)
6
Подходы к извлечению
• Основанный на машинном обучении
• Опора на статистические (вероятностные методы)
• Необходим размеченный вручную текстовый корпус
• Основанный на правилах, или инженерный
rule-based, knowledge-based
• Извлечение на основе лингвистических правил
• Правила извлечения пишутся экспертами
• Используются специальные языки записи правил и
поддерживающие их программные инструменты
• Современные тенденции: комбинирование
7
Машинное обучение для
извлечения именованных сущностей
• Деревья решений – DT
• Метод опорных векторов – SVM
• Скрытая марковская модель – HMM
• Conditional Random Fields - CRF
8
Conditional Random Field
Hidden Markov Model
Приложения:
1. Поверхностный синтаксический анализ
(Shallow parsing)
2. Распознавание именованных сущностей
(Named Entity Recognition)
3. Поиск генов (Gene finding)
4. Распознавание речи
5. Нечеткий поиск подстрок
9
Hidden Markov Model
Марковская цепь - последовательность случайных величин,
где каждая величина xt+1 зависит только от предыдущей xt и
при условии xt условно независима с предыдущими xt-k.
Скрытая марковская модель – это марковская цепь, в
которой мы не можем наблюдать скрытые состояния, а
видим только некоторые наблюдаемые yt, которые зависят
от текущего состояния.
10
Hidden Markov Model
Пример:
В распознавании речи
скрытые состояния – это
фонемы, которые вы
хотите сказать, а
наблюдаемые – это
собственно звуковые
волны, которые доходят
до распознающего
устройства.
11
Hidden Markov Model
В задаче распознавания
именованных сущностей
скрытые состояния – это
тип именованной
сущности, а
наблюдаемые состояния
- это слова.
12
Conditional Random Field
В отличие от HMM, в CRF
xt может зависеть не
только от xt-1, но и от xt+1
и yt.
13
Целевая метрика
𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 =
𝑇𝑃
𝑇𝑃+𝐹𝑃
𝑅 𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃
𝑇𝑃+𝐹𝑁
𝐹1 =
2∙𝑃∙𝑅
𝑃+𝑅
Расчет F-меры:
1. По словам
2. По собранным сущностям
Экспертная оценка
Положительная Отрицательная
Оценка системы Положительная TP FP
Отрицательная FN TN
14
Подготовка коллекции перед
машинным обучением
• Лингвист во всей коллекции размечает
именованные сущности
• Вычисляется набор признаков для каждого
слова
• Текстовая коллекция готова к обработке
15
Разметка
1. Каждое слово размечается тем классом, к которому
принадлежит ИС, включающее в себя это слово
2. BIO-разметка. Метка ставится в зависимости от положения
слова в ИС
Слово Обычная разметка BIO-разметка
президент NO O
Российской GEO B-GEO
Федерации GEO I-GEO
Владимир PER B-PER
Путин PER I-PER
16
Предыдущие работы по извлечению
именованных сущностей
BIO-разметка
• Radu Florian, Abe Ittycheriah, Hongyan Jing and Tong Zhang -
PER/ORG/LOC/MISC
F-мера(English CoNLL 2003) = 88.76%
F-мера(German CoNLL 2003) = 72.41%
• Jana Strakova, Milan Straka, Jan Hajiс – 42 класса именованных
сущностей
F-мера(Czech Corpus) = 79.23%
• Антонова А. Ю., Соловьев А. Н. – NAME/GEO/ORG/PROD/EVENT
F-мера(Russian Corpus) = 87,18%
17
Применение CRF для извлечения
именованных сущностей из текстов
на русском языке
18
Категории
• Персоны (PER)
• География (LOC)
• Геополитические объекты (GEOPOLIT)
• Организации (ORG)
• Медийные компании (MEDIA)
• Артефакты (ARTEFACT)
• Должности (POST)
• Другие имена собственные (MISC)
19
Правила разметки ИС
Дескриптор - слово или словосочетание, указывающее на родовое
понятие именованной сущности.
Пример:
• озеро Байкал - 'озеро‘
• Комитет по безопасности - ‘Комитет'.
Дескриптор будет частью ИС:
1. Если является аббревиатурой
• ОАО “Газпром”
2. Если дескриптор является вершиной именной группы, но при этом
имя не является приложением.
• Санкт-Петербургский государственный университет
Но:
• город Тула
Знаки препинания не включаются в именованную сущность.
20
Правила разметки ИС
• ИС, названные в честь какого-либо
человека, полностью выделяются как
организации
• Библиотека им. Ленина
• Географические объекты внутри
именованной сущности выделяются
отдельно, если ИС не выделена кавычками
• Университет при правительстве РФ
• фильм «Каникулы в Мексике»
21
Признаки
• Терм
• Начальная форма
• Наличие гласной
• Регистр букв
• Длина слова
• Роль в предложении
• Является ли концом предложения
• Оканчивается ли на суффикс фамилии
(пример: -дзе, -ов, -енко, -швили …)
22
Списочные признаки
• География (страны, столицы, регионы,
улицы)
• Персоны (имена, фамилии, известные
люди)
• Компании (организации, медиа)
• Слова, предшествующие именам
собственным (например: город Москва,
президент Владимир Путин …)
Объем словарей около 350000 выражений
23
Инструмент для разметки
brat annotation tool
24
Коллекция
933 новостных
документа
Train: 700
Test: 233
LABEL COUNT OF TERMS
PER 9910
LOC 2907
GEOPOLIT 3852
ORG 6468
MEDIA 1419
ARTEFACT 410
POST 21
MISC 287
ALL 24864
25
Входные признаки
Term Lemma Register Sentence
Role
Second
Name
Is
Geo
Label
в В Small Auxiliary False False NO
России РОССИЯ BigSmall Noun False True GEOPOLIT
Алиев АЛИЕВ BigSmall Noun True False PER
третий ТРЕТИЙ Small Numeral False False NO
раз РАЗ Small Auxiliary False False NO
26
Инструмент для классификации
CRF++
CRF++ - простая, настраиваемая, open source реализация условных
случайных полей. Эта программа создана для множества задач,
таких как распознавание именованных сущностей (NER),
извлечение информации (Informаtion Extraction), выделение
синтаксических групп (Text Chunking).
Особенности:
1. Может переопределить набор признаков
2. Написан на C++ с использованием STL
3. Быстрое обучение
4. Может выполнить n-best output
5. Открытый код
27
Сборка имен
В данной работе используется обычная разметка (не bio).
Поэтому для сборки имен используются следующие правила:
• Граница имени определялась длинной подряд идущих слов с
одним типом ИС
• Если внутри последовательности слов с одинаковыми типами
ИС встречается пунктуационный знак, то решение зависит от
вида знака:
• Если знак является кавычкой, открывающей скобкой или точкой,
не являющейся концом предложения, то имя накапливаем
дальше
• Иначе – текущее имя заканчиваем, и начинаем выделять новое
• Пунктуационные знаки в имя не включаются
28
Текущие результаты
F-МЕРА (по сущностям)
PER LOC GEO
POLIT
ORG MEDIA ARTEFACT POST MISC TOTAL
0.938 0.855 0.925 0.779 0.881 0.276 0 0.267 0.867
29
Пример
Члены делегации встретятся с президентом Михаилом{PER}
Саакашвили{PER}, премьерминистром Бидзиной{PER}
Иванишвили{PER}, министром иностранных дел
Майей{PER} Панджикидзе{PER}, министром обороны
Ираклием{PER} Аласания{PER}, председателем парламента
Давидом{PER} Усупашвилии{PER} и секретарем
Совета{ORG} национальной{ORG} безопасности{ORG}
Гигой{PER}{ORG} Бокерия{PER}{ORG}.
зеленый – и эксперт и система разметили одинаково
синий – эксперт и система разметили по-разному
розовый – разметила только система
красный – разметил только эксперт
30
Примеры ошибок
• Сложно отличать географические и геополитические объекты:
Израиль{GEOPOLIT} свернул сотрудничество с
Тбилиси{GEOPOLIT}{LOC} в военной сфере.
• Имена в организациях часто отделяются:
Государственного{ORG} музея{ORG}
изобразительных{ORG} искусств{ORG} (ГМИИ{ORG})
имени{ORG} Пушкина {ORG}{PER}
• Сложно выделять объекты таких классов как артефакты и
другие собственные имена :
отметили день начала Великой{MISC}{LOC}
Отечественной{MISC}{LOC} войны{MISC}
31
Дальнейшее развитие
• Новые признаки
• Увеличение обучающей выборки (особенно
для классов POST и ARTEFACT)
• Двухуровневая разметка
• Увеличение числа классов именованных
сущностей
• Использование синтаксических связей
32

More Related Content

Viewers also liked

Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор БочаровYandex
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусовArtem Lukanin
 

Viewers also liked (20)

Открытый код Томита-парсера. Виктор Бочаров
 Открытый код Томита-парсера. Виктор Бочаров Открытый код Томита-парсера. Виктор Бочаров
Открытый код Томита-парсера. Виктор Бочаров
 
Баев Системы для обучения программированию
Баев Системы для обучения программированиюБаев Системы для обучения программированию
Баев Системы для обучения программированию
 
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...Савкуев. Построение формального описания фотографий на основе контекстно-собы...
Савкуев. Построение формального описания фотографий на основе контекстно-собы...
 
Савостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторингаСавостин. Системы и методы научного поиска и мониторинга
Савостин. Системы и методы научного поиска и мониторинга
 
Лукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текстаЛукьяненко. Извлечение коллокаций из текста
Лукьяненко. Извлечение коллокаций из текста
 
Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.Мищенко. Методы автоматического определения наиболее частотного значения слова.
Мищенко. Методы автоматического определения наиболее частотного значения слова.
 
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
Смирнова. Методы исправления ошибок в текстах, написанных иностранцами.
 
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстовСмолина Пользовательские интерфейсы систем лингвистической разметки текстов
Смолина Пользовательские интерфейсы систем лингвистической разметки текстов
 
Иванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателейИванов. Автоматизация построения предметных указателей
Иванов. Автоматизация построения предметных указателей
 
Тодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAMLТодуа. Сериализация и язык YAML
Тодуа. Сериализация и язык YAML
 
Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.Можарова Тематические модели: учет сходства между униграммами и биграммами.
Можарова Тематические модели: учет сходства между униграммами и биграммами.
 
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
Багдатов Методы автоматического выявления плагиата в текстах компьютерных про...
 
Сапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплениемСапин. Интеллектуальные агенты и обучение с подкреплением
Сапин. Интеллектуальные агенты и обучение с подкреплением
 
Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов Рой. Аспектный анализ тональности отзывов
Рой. Аспектный анализ тональности отзывов
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
Баев. Поиск шаблонов и машинное обучение для демографических событий (Pattern...
 
Муромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществМуромцев. Методы анализа социальных графов и поиска сообществ
Муромцев. Методы анализа социальных графов и поиска сообществ
 
Классификация корпусов
Классификация корпусовКлассификация корпусов
Классификация корпусов
 
Котиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератовКотиков Простые методы выделения ключевых слов и построения рефератов
Котиков Простые методы выделения ключевых слов и построения рефератов
 
Панфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их созданияПанфилов. Корпусы текстов и принципы их создания
Панфилов. Корпусы текстов и принципы их создания
 

Similar to Можарова. Автоматическое извлечение именованных сущностей методами машинного обучения

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Olga Maksimenkova
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 finalyaevents
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information ExtractionLidia Pivovarova
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Alexey Kachalin
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Skolkovo Robotics Center
 
Выявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхВыявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхPavel Grushetzky
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02finnopolis
 
Data base
Data baseData base
Data basesng
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поискArtem Lukanin
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаIrene Pochinok
 

Similar to Можарова. Автоматическое извлечение именованных сущностей методами машинного обучения (20)

извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)Основы С++ (операторы, типы данных, функции)
Основы С++ (операторы, типы данных, функции)
 
Russir 2010 final
Russir 2010 finalRussir 2010 final
Russir 2010 final
 
Ontologies for Information Extraction
Ontologies for Information ExtractionOntologies for Information Extraction
Ontologies for Information Extraction
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
L24
L24L24
L24
 
Лекция 1
Лекция 1Лекция 1
Лекция 1
 
Комбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоименийКомбинирование факторов для разрешения референции местоимений
Комбинирование факторов для разрешения референции местоимений
 
Rule b platf
Rule b platfRule b platf
Rule b platf
 
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
Разработка системы форензик-анализа сетевого трафика, РусКрипто-2011
 
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
Моделирование сложных систем и обработка больших объемов данных: ищем общие п...
 
Выявление неполадок в Java приложениях
Выявление неполадок в Java приложенияхВыявление неполадок в Java приложениях
Выявление неполадок в Java приложениях
 
20150129 минобороны презентация v02
20150129 минобороны презентация v0220150129 минобороны презентация v02
20150129 минобороны презентация v02
 
Data base
Data baseData base
Data base
 
Введение в информационный поиск
Введение в информационный поискВведение в информационный поиск
Введение в информационный поиск
 
Ruwikt
RuwiktRuwikt
Ruwikt
 
Построение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текстаПостроение правил для автоматического извлечения словосочетаний из текста
Построение правил для автоматического извлечения словосочетаний из текста
 

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ

More from Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ (12)

Муромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеровМуромцев. Обзор библиографических менеджеров
Муромцев. Обзор библиографических менеджеров
 
Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)Иванов. Модель Belief-Desire-Intention (BDI)
Иванов. Модель Belief-Desire-Intention (BDI)
 
Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2Тодуа. Методы разработки интерпретатора языка Рефал-2
Тодуа. Методы разработки интерпретатора языка Рефал-2
 
смирнов Data mining
смирнов Data miningсмирнов Data mining
смирнов Data mining
 
рогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированиюрогова обзор средств поддержки обучения программированию
рогова обзор средств поддержки обучения программированию
 
курышев рекомендательные системы
курышев рекомендательные системыкурышев рекомендательные системы
курышев рекомендательные системы
 
куликов Sketch engine ord
куликов Sketch engine ordкуликов Sketch engine ord
куликов Sketch engine ord
 
кулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выраженийкулагин поиск близких по смыслу языковых выражений
кулагин поиск близких по смыслу языковых выражений
 
иванов анализ речевых команд
иванов анализ речевых командиванов анализ речевых команд
иванов анализ речевых команд
 
борисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данныхборисенкова методы визуализации для анализа зависящих от времени данных
борисенкова методы визуализации для анализа зависящих от времени данных
 
бицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языкебицоев сравнение систем анализа тональности на русском языке
бицоев сравнение систем анализа тональности на русском языке
 
презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)презентация (Quasi synonyms, вмк 25.10.2011)
презентация (Quasi synonyms, вмк 25.10.2011)
 

Можарова. Автоматическое извлечение именованных сущностей методами машинного обучения

  • 1. Автоматическое извлечение именованных сущностей методами машинного обучения Можарова В. А. Научный руководитель Лукашевич Н. В.
  • 2. Извлечение информации • Information Extraction – перевод неструктурированной информации в структурированную. • Специфика: • обработка текста или коллекции текстов • извлечение семантически значимых данных, релевантных (по определенной проблеме, теме, вопросу) • структуризация извлеченных данных (таблицы, шаблоны), • накопление информационной базы, визуализация данных 2
  • 3. Приложения • мониторинг новостных лент (сколько кораблей затонуло в текущем году? ) • составление дайджестов • аннотирование документов • аналитика деятельности: экономической, производственной, правоохранительной и др. 3
  • 4. Извлекаемая информация • Именованные сущности • персоны, компании, адреса, даты • упоминания генов и белков и пр. • Отношения выделенных сущностей • место работы, должность • взаимодействие белков • Связанные с ними события и факты • слияние/поглощение компаний… • приобретение контрольного пакета акций 4
  • 5. Извлечение именованных сущностей Именованная сущность (Name Entity) – слово или словосочетание, предназначенное для конкретного, вполне определённого предмета или явления, выделяющее этот предмет или явление из ряда однотипных предметов или явлений. Особенности: 1. Обычно пишется с заглавной буквы 2. Обязательно имеет референт, то есть того (тех), кому это имя принадлежит Примеры: • На экраны вышел новый фильм братьев Коэнов (NE). • В Воткинске новорождённых девочек родители очень редко именуют Татьянами (not NE). 5
  • 6. Основные типы именованных сущностей • Персоны (PER) • География (GEO) • Организации (ORG) • Артефакты (ARTEFACT) • Время (TIME) • События (EVENT) • Всё остальное (MISC) 6
  • 7. Подходы к извлечению • Основанный на машинном обучении • Опора на статистические (вероятностные методы) • Необходим размеченный вручную текстовый корпус • Основанный на правилах, или инженерный rule-based, knowledge-based • Извлечение на основе лингвистических правил • Правила извлечения пишутся экспертами • Используются специальные языки записи правил и поддерживающие их программные инструменты • Современные тенденции: комбинирование 7
  • 8. Машинное обучение для извлечения именованных сущностей • Деревья решений – DT • Метод опорных векторов – SVM • Скрытая марковская модель – HMM • Conditional Random Fields - CRF 8
  • 9. Conditional Random Field Hidden Markov Model Приложения: 1. Поверхностный синтаксический анализ (Shallow parsing) 2. Распознавание именованных сущностей (Named Entity Recognition) 3. Поиск генов (Gene finding) 4. Распознавание речи 5. Нечеткий поиск подстрок 9
  • 10. Hidden Markov Model Марковская цепь - последовательность случайных величин, где каждая величина xt+1 зависит только от предыдущей xt и при условии xt условно независима с предыдущими xt-k. Скрытая марковская модель – это марковская цепь, в которой мы не можем наблюдать скрытые состояния, а видим только некоторые наблюдаемые yt, которые зависят от текущего состояния. 10
  • 11. Hidden Markov Model Пример: В распознавании речи скрытые состояния – это фонемы, которые вы хотите сказать, а наблюдаемые – это собственно звуковые волны, которые доходят до распознающего устройства. 11
  • 12. Hidden Markov Model В задаче распознавания именованных сущностей скрытые состояния – это тип именованной сущности, а наблюдаемые состояния - это слова. 12
  • 13. Conditional Random Field В отличие от HMM, в CRF xt может зависеть не только от xt-1, но и от xt+1 и yt. 13
  • 14. Целевая метрика 𝑃 𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑃 𝑇𝑃+𝐹𝑃 𝑅 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑃 𝑇𝑃+𝐹𝑁 𝐹1 = 2∙𝑃∙𝑅 𝑃+𝑅 Расчет F-меры: 1. По словам 2. По собранным сущностям Экспертная оценка Положительная Отрицательная Оценка системы Положительная TP FP Отрицательная FN TN 14
  • 15. Подготовка коллекции перед машинным обучением • Лингвист во всей коллекции размечает именованные сущности • Вычисляется набор признаков для каждого слова • Текстовая коллекция готова к обработке 15
  • 16. Разметка 1. Каждое слово размечается тем классом, к которому принадлежит ИС, включающее в себя это слово 2. BIO-разметка. Метка ставится в зависимости от положения слова в ИС Слово Обычная разметка BIO-разметка президент NO O Российской GEO B-GEO Федерации GEO I-GEO Владимир PER B-PER Путин PER I-PER 16
  • 17. Предыдущие работы по извлечению именованных сущностей BIO-разметка • Radu Florian, Abe Ittycheriah, Hongyan Jing and Tong Zhang - PER/ORG/LOC/MISC F-мера(English CoNLL 2003) = 88.76% F-мера(German CoNLL 2003) = 72.41% • Jana Strakova, Milan Straka, Jan Hajiс – 42 класса именованных сущностей F-мера(Czech Corpus) = 79.23% • Антонова А. Ю., Соловьев А. Н. – NAME/GEO/ORG/PROD/EVENT F-мера(Russian Corpus) = 87,18% 17
  • 18. Применение CRF для извлечения именованных сущностей из текстов на русском языке 18
  • 19. Категории • Персоны (PER) • География (LOC) • Геополитические объекты (GEOPOLIT) • Организации (ORG) • Медийные компании (MEDIA) • Артефакты (ARTEFACT) • Должности (POST) • Другие имена собственные (MISC) 19
  • 20. Правила разметки ИС Дескриптор - слово или словосочетание, указывающее на родовое понятие именованной сущности. Пример: • озеро Байкал - 'озеро‘ • Комитет по безопасности - ‘Комитет'. Дескриптор будет частью ИС: 1. Если является аббревиатурой • ОАО “Газпром” 2. Если дескриптор является вершиной именной группы, но при этом имя не является приложением. • Санкт-Петербургский государственный университет Но: • город Тула Знаки препинания не включаются в именованную сущность. 20
  • 21. Правила разметки ИС • ИС, названные в честь какого-либо человека, полностью выделяются как организации • Библиотека им. Ленина • Географические объекты внутри именованной сущности выделяются отдельно, если ИС не выделена кавычками • Университет при правительстве РФ • фильм «Каникулы в Мексике» 21
  • 22. Признаки • Терм • Начальная форма • Наличие гласной • Регистр букв • Длина слова • Роль в предложении • Является ли концом предложения • Оканчивается ли на суффикс фамилии (пример: -дзе, -ов, -енко, -швили …) 22
  • 23. Списочные признаки • География (страны, столицы, регионы, улицы) • Персоны (имена, фамилии, известные люди) • Компании (организации, медиа) • Слова, предшествующие именам собственным (например: город Москва, президент Владимир Путин …) Объем словарей около 350000 выражений 23
  • 25. Коллекция 933 новостных документа Train: 700 Test: 233 LABEL COUNT OF TERMS PER 9910 LOC 2907 GEOPOLIT 3852 ORG 6468 MEDIA 1419 ARTEFACT 410 POST 21 MISC 287 ALL 24864 25
  • 26. Входные признаки Term Lemma Register Sentence Role Second Name Is Geo Label в В Small Auxiliary False False NO России РОССИЯ BigSmall Noun False True GEOPOLIT Алиев АЛИЕВ BigSmall Noun True False PER третий ТРЕТИЙ Small Numeral False False NO раз РАЗ Small Auxiliary False False NO 26
  • 27. Инструмент для классификации CRF++ CRF++ - простая, настраиваемая, open source реализация условных случайных полей. Эта программа создана для множества задач, таких как распознавание именованных сущностей (NER), извлечение информации (Informаtion Extraction), выделение синтаксических групп (Text Chunking). Особенности: 1. Может переопределить набор признаков 2. Написан на C++ с использованием STL 3. Быстрое обучение 4. Может выполнить n-best output 5. Открытый код 27
  • 28. Сборка имен В данной работе используется обычная разметка (не bio). Поэтому для сборки имен используются следующие правила: • Граница имени определялась длинной подряд идущих слов с одним типом ИС • Если внутри последовательности слов с одинаковыми типами ИС встречается пунктуационный знак, то решение зависит от вида знака: • Если знак является кавычкой, открывающей скобкой или точкой, не являющейся концом предложения, то имя накапливаем дальше • Иначе – текущее имя заканчиваем, и начинаем выделять новое • Пунктуационные знаки в имя не включаются 28
  • 29. Текущие результаты F-МЕРА (по сущностям) PER LOC GEO POLIT ORG MEDIA ARTEFACT POST MISC TOTAL 0.938 0.855 0.925 0.779 0.881 0.276 0 0.267 0.867 29
  • 30. Пример Члены делегации встретятся с президентом Михаилом{PER} Саакашвили{PER}, премьерминистром Бидзиной{PER} Иванишвили{PER}, министром иностранных дел Майей{PER} Панджикидзе{PER}, министром обороны Ираклием{PER} Аласания{PER}, председателем парламента Давидом{PER} Усупашвилии{PER} и секретарем Совета{ORG} национальной{ORG} безопасности{ORG} Гигой{PER}{ORG} Бокерия{PER}{ORG}. зеленый – и эксперт и система разметили одинаково синий – эксперт и система разметили по-разному розовый – разметила только система красный – разметил только эксперт 30
  • 31. Примеры ошибок • Сложно отличать географические и геополитические объекты: Израиль{GEOPOLIT} свернул сотрудничество с Тбилиси{GEOPOLIT}{LOC} в военной сфере. • Имена в организациях часто отделяются: Государственного{ORG} музея{ORG} изобразительных{ORG} искусств{ORG} (ГМИИ{ORG}) имени{ORG} Пушкина {ORG}{PER} • Сложно выделять объекты таких классов как артефакты и другие собственные имена : отметили день начала Великой{MISC}{LOC} Отечественной{MISC}{LOC} войны{MISC} 31
  • 32. Дальнейшее развитие • Новые признаки • Увеличение обучающей выборки (особенно для классов POST и ARTEFACT) • Двухуровневая разметка • Увеличение числа классов именованных сущностей • Использование синтаксических связей 32