SlideShare a Scribd company logo
Оценка уверенности
извлечения информации
из текста
Белов Андрей, программист ABBYY
Диалог 2016
План выступления
● Обзор технологии ABBYY InfoExtractor
● Задача извлечения информации с высокой точностью
● Технология компании ABBYY
● Результаты
● Вопросы
2
Обзор технологии ABBYY InfoExtractor
● Извлекаем информацию из текста и представляем ее
в виде RDF-графа
3
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Person
Мстислав Ростропович Баку
Виолончелист
where
label
PointOfTime
BirthOccupation
1927
year
Location
Семантико-синтаксический парсер
4
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Иерархия семантических классов
5
ENTITY
PHYSICAL
OBJECT
BEING
HUMAN
MAN AS
PROFESSIONAL
WORKER
PROFESSIONAL IN
ENGINEERING
ENGINEER
Инженер
PROGRAMMER
Программист
PROFESSIONAL
IN MUSIC
GUITARIST
Гитарист
VIOLINIST
Скрипач
VIOLONCELLO
PLAYER
Виолончелист
PROFESSIONAL IN
EDUCATION
PROFESSIONAL IN
MEDICINE
ANIMAL
ORGANISATION
Шаблоны для деревьев семантико-
синтаксических разборов
6
Программист Иван Федоров
Программист российской компании ABBYY Иван Федоров
Самый известный виолончелист России Мстислав Ростропович
Виолончелист Мстислав Ростропович родился в Баку в 1927 году
this "MAN AS PROFESSIONAL WORKER"
Classifier_Name: child
Шаблон для извлечения профессии:
Правила извлечения информации
7
Пример правила, создающего факт Occupation и заполняющего его
атрибуты:
this "MAN_AS_PROFESSIONAL_WORKER" [
ClassifierName: child <% Person %>
]
=>
Occupation fact(this.core),
fact.position == Norm(this.core),
fact.employee == child.o,
annotation(fact, this.core);
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Сильные стороны подхода с использованием
продукционных правил и семантико-
синтаксических разборов
8
● Устойчивость к смене корпуса
● Гибкость языка правил извлечения информации
● Возможность моделировать сложные сущности, атрибуты и факты
● Поддержка конструкций для извлечения информации из таблиц
● Возможность написания универсальных правил для нескольких
языков
● Использование возможностей языковой модели ABBYY Compreno
Бизнес сценарии и постановка
задачи
● Бизнес-сценарии
● Анализ заявлений о выплате страховых компенсаций
● Анализ платежных поручений
● Ввод данных в системы электронного документооборота (СЭД)
● Требуется ручная верификация извлеченной информации
● Задача: повысить эффективность ввода данных, сократив
трудозатраты
9
Решение задачи
● Предоставить пользователю степень уверенности
извлечения информации
● «Лучший виолончелист мира Мстислав Ростропович»
● Person
– firstname = Мстислав
– surname = Ростропович
● Occupation
– position = виолончелист мира
– employee = Мстислав Ростропович
10
Степень уверенности
0.97
0.94
0.02
0.92
Процесс оценки уверенности и
верификации извлеченной информации
11
Извлеченный RDF-граф
RDF-граф с оцененной
уверенностью
Оценка уверенности
Эталонная
разметка
Автоматическая
разметка
Верифицированный
RDF-граф
Документ
Извлечение информации
Верификация
Обучение
Механизм оценки
уверенности
Пользователь
● Пример графика для подбора порога степени уверенности в
зависимости от необходимой точности извлечения
● Например:
● Для получения точности 0.94 необходимо установить порог 0.15
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1
Порогстепениуверенности
Точность
Подбор порога степени уверенности
12
Определение соотношения между
точностью и трудозатратами
● Пример графика зависимости доли верифицируемых
свойств от точности, достигаемой после верификации
● График позволяет найти компромисс между точностью и
объемом трудозатрат на верификацию
13
0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1
Доляверифицируемыхатрибутов
Точность
Обучение механизма оценки степени
уверенности
14
«Лучший виолончелист мира Мстислав Ростропович»
Эталонная разметка
Автоматическая
разметка
firstname =
“Мстислав”
firstname =
“Мстислав”
surname =
“Ростропович”
surname =
“Ростропович”
position =
“виолончелист”
position =
“виолончелист мира”
employee =
“Мстислав
Ростропович”
employee =
“Мстислав
Ростропович”
… …
Обучение механизма оценки степени
уверенности
15
«Лучший виолончелист мира Мстислав Ростропович»
Эталонная разметка
Автоматическая
разметка Is Correct
firstname =
“Мстислав”
firstname =
“Мстислав”
True
surname =
“Ростропович”
surname =
“Ростропович”
True
position =
“виолончелист”
position =
“виолончелист мира”
False
employee =
“Мстислав
Ростропович”
employee =
“Мстислав
Ростропович”
True
… … …
Обучение механизма оценки степени
уверенности
16
«Лучший виолончелист мира Мстислав Ростропович»
Эталонная разметка
Автоматическая
разметка Is Correct
Решение
классификатора P(Correct)
firstname =
“Мстислав”
firstname =
“Мстислав”
True True 0.97
surname =
“Ростропович”
surname =
“Ростропович”
True True 0.94
position =
“виолончелист”
position =
“виолончелист мира”
False False 0.02
employee =
“Мстислав
Ростропович”
employee =
“Мстислав
Ростропович”
True True 0.92
… … … … …
● Характеристики составляющих, на которых сработало
правило: семантические классы, поверхностные и
глубинные позиции, грамматические, морфологические
признаки т.п.
● Характеристики текста: длина предложений, успешность
разбора и т.п.
● Цепочка сработавших правил
Признаки для классификатора
17
create_firstname
create_surname
create_occupation_fact
create_person
add_employee
Процесс оценки уверенности и
верификации извлеченной информации
18
Извлеченный RDF-граф
RDF-граф с оцененной
уверенностью
Оценка уверенности
Эталонная
разметка
Автоматическая
разметка
Верифицированный
RDF-граф
Документ
Извлечение информации
Верификация
Обучение
Механизм оценки
уверенности
Пользователь
Дообучение механизма оценки
уверенности извлеченной информации
19
Извлеченный RDF-граф
RDF-граф с оцененной
уверенностью
Оценка уверенности
Эталонная
разметка
Автоматическая
разметка
Верифицированный
RDF-граф
Документ
Извлечение информации
Верификация
Обучение
Механизм оценки
уверенности
Верифицированные атрибуты
Извлеченные атрибуты
Пользователь
Преимущества дообучения степени
уверенности на стороне клиента
● Обучающая выборка существенно расширяется за счет
атрибутов из верифицированных RDF-графов
● Качество оценки уверенности увеличивается в процессе
эксплуатации системы
● Уменьшается количество атрибутов, требующих
верификации пользователем
● Данные находятся на стороне клиента, что гарантирует
сохранение конфиденциальной информации
20
Результаты
● Приведены результаты оценки уверенности на корпусе
● 1000 документов от заказчика
● Размечен классами: персоны, организации, локации, род деятельности,
местоположение, купля-продажа
● Около 200 000 атрибутов
21
Доля
верифицированных
свойств
Точность
извлечения
атрибутов
Без верификации 0.83
10% 0.89
30% 0.96
60% 0.99 0
0.1
0.2
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1
0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1
Доляверифицируемыхсвойств
Точность
22
Спасибо за внимание!
Вопросы и ответы
Дополнительная информация
● Система извлечения информации ABBYY Compreno
1. Anisimovich K.V., Druzhkin K. Ju., Minlos F.R., Petrova M.A., Selegey V.P.,
Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno
linguistics technologies // Proceedings of the International Conference
“Dialog”, Bekasovo, 2012
2. Starostin A. S., Smurov I.M., Stepanova M.E. A production system for
information extraction based on complete syntactic-semantic analysis //
Proceedings of the International Conference “Dialog”, Bekasovo, 2014
● Корпоративный блог ABBYY на Хабрахабре
● http://habrahabr.ru/company/abbyy/
23
КОНТАКТЫ
ABBYY Headquarters
Тел.: +7 (495) 783 3700
Факс: +7 (495) 783 2663
Адрес: Москва, ст. м. Отрадное, ул. Отрадная, 2Б,
строение 6, бизнес-центр «Отрадный»
E-mail: office@abbyy.com
Web: www.abbyy.com

More Related Content

Viewers also liked

AKUNTANSI BIAYA
AKUNTANSI BIAYAAKUNTANSI BIAYA
AKUNTANSI BIAYA
Mandiri Sekuritas
 
The human brain
The human brainThe human brain
The human brain
Shubham Thakur
 
PENGANTAR BISNIS
PENGANTAR BISNISPENGANTAR BISNIS
PENGANTAR BISNIS
Mandiri Sekuritas
 
LINGKUNGAN BISNIS
LINGKUNGAN BISNISLINGKUNGAN BISNIS
LINGKUNGAN BISNIS
Mandiri Sekuritas
 
Tips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEOTips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEO
eZdia Inc
 
The human brain
The human brainThe human brain
The human brain
Shubham Thakur
 
Finansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialFinansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialMarina Shelomentseva
 
Impact of Austerity on Economy
Impact of Austerity on EconomyImpact of Austerity on Economy
Impact of Austerity on Economy
Abhishek Sao
 
Time machine
Time machineTime machine
Time machine
Alex Higgs
 
AKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
AKUNTANSI BIAYA, MANAGEMEN & KEUANGANAKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
AKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
Mandiri Sekuritas
 
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly ContentIRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
eZdia Inc
 
ñlkñlkñl
ñlkñlkñlñlkñlkñl
How to Use Social Media to Influence the World
How to Use Social Media to Influence the WorldHow to Use Social Media to Influence the World
How to Use Social Media to Influence the World
Mark Anav
 

Viewers also liked (14)

AKUNTANSI BIAYA
AKUNTANSI BIAYAAKUNTANSI BIAYA
AKUNTANSI BIAYA
 
The human brain
The human brainThe human brain
The human brain
 
PENGANTAR BISNIS
PENGANTAR BISNISPENGANTAR BISNIS
PENGANTAR BISNIS
 
LINGKUNGAN BISNIS
LINGKUNGAN BISNISLINGKUNGAN BISNIS
LINGKUNGAN BISNIS
 
Tips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEOTips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEO
 
The human brain
The human brainThe human brain
The human brain
 
Finansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialFinansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filial
 
Impact of Austerity on Economy
Impact of Austerity on EconomyImpact of Austerity on Economy
Impact of Austerity on Economy
 
Time machine
Time machineTime machine
Time machine
 
Komunikasi-En Afian
Komunikasi-En AfianKomunikasi-En Afian
Komunikasi-En Afian
 
AKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
AKUNTANSI BIAYA, MANAGEMEN & KEUANGANAKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
AKUNTANSI BIAYA, MANAGEMEN & KEUANGAN
 
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly ContentIRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
IRCE 2014 Presentation : 10 Tips to Create SEO-Friendly Content
 
ñlkñlkñl
ñlkñlkñlñlkñlkñl
ñlkñlkñl
 
How to Use Social Media to Influence the World
How to Use Social Media to Influence the WorldHow to Use Social Media to Influence the World
How to Use Social Media to Influence the World
 

Similar to Оценка уверенности извлечения информации - Диалог 2016

Извлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонахИзвлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонах
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Дмитрий Севальнев
 
Цифровой HR в производственной компании Северсталь
Цифровой HR в производственной компании СеверстальЦифровой HR в производственной компании Северсталь
Цифровой HR в производственной компании Северсталь
HR&Trainings EXPO
 
Обеспечение высокой доступности банковской ИТ-инфраструктуры
Обеспечение высокой доступности банковской ИТ-инфраструктурыОбеспечение высокой доступности банковской ИТ-инфраструктуры
Обеспечение высокой доступности банковской ИТ-инфраструктурыVsevolod Shabad
 
Введение в performance management
Введение в performance managementВведение в performance management
Введение в performance management
CEE-SEC(R)
 
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Cybermarketing, Moscow
 
Recrubase presentation
Recrubase presentationRecrubase presentation
Recrubase presentation
Maxim Syabro
 
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
Ontico
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineSergiy Povolyashko
 
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Aleksandr Meshkov
 
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
SQALab
 
Разработка RESTful api with all bells and whistles
Разработка RESTful api with all bells and whistlesРазработка RESTful api with all bells and whistles
Разработка RESTful api with all bells and whistlesYandex
 
Роман Акинфеев «Разработка RESTful API with all bells and whistles»
Роман Акинфеев «Разработка RESTful API with all bells and whistles»Роман Акинфеев «Разработка RESTful API with all bells and whistles»
Роман Акинфеев «Разработка RESTful API with all bells and whistles»
DevDay
 
Планирование проекта часть 1
Планирование проекта часть 1Планирование проекта часть 1
Планирование проекта часть 1
Nazira Sheraly
 
Юлия Викторова; Александр Тарасов. DevOps без булшита.
Юлия Викторова; Александр Тарасов. DevOps без булшита.Юлия Викторова; Александр Тарасов. DevOps без булшита.
Юлия Викторова; Александр Тарасов. DevOps без булшита.
ScrumTrek
 
Денис Гобов “Бизнес-аналитик в распределенной команде”
Денис Гобов “Бизнес-аналитик в распределенной команде”Денис Гобов “Бизнес-аналитик в распределенной команде”
Денис Гобов “Бизнес-аналитик в распределенной команде”
Dakiry
 
Использование технологий распознавания русской речи в Cisco Contact Center и ...
Использование технологий распознавания русской речи в Cisco Contact Center и ...Использование технологий распознавания русской речи в Cisco Contact Center и ...
Использование технологий распознавания русской речи в Cisco Contact Center и ...
Cisco Russia
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
Yandex
 
Инструменты оценки персонала BRIDGE
Инструменты оценки персонала BRIDGEИнструменты оценки персонала BRIDGE
Инструменты оценки персонала BRIDGE
Amplua
 
Автоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft AzureАвтоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft Azure
WebSoft
 

Similar to Оценка уверенности извлечения информации - Диалог 2016 (20)

Извлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонахИзвлечение информации из текста на основе автоматически сформированных шаблонах
Извлечение информации из текста на основе автоматически сформированных шаблонах
 
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
Яндекс.Метрика и факторы для SEO-специалиста (Cybermarketing-2015). Севальнев...
 
Цифровой HR в производственной компании Северсталь
Цифровой HR в производственной компании СеверстальЦифровой HR в производственной компании Северсталь
Цифровой HR в производственной компании Северсталь
 
Обеспечение высокой доступности банковской ИТ-инфраструктуры
Обеспечение высокой доступности банковской ИТ-инфраструктурыОбеспечение высокой доступности банковской ИТ-инфраструктуры
Обеспечение высокой доступности банковской ИТ-инфраструктуры
 
Введение в performance management
Введение в performance managementВведение в performance management
Введение в performance management
 
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
Конференция Cybermarketing 2015: Яндекс.Метрика или как «большой брат» следит...
 
Recrubase presentation
Recrubase presentationRecrubase presentation
Recrubase presentation
 
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
Выбираем СУБД для хранения временных рядов / Павел Филонов (Лаборатория Каспе...
 
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. UkraineProcess Quality, QA and QC. QA Club. Kharkov. Ukraine
Process Quality, QA and QC. QA Club. Kharkov. Ukraine
 
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
 
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...Оптимизация процесса тестирования с использованием аналитических подходов RCA...
Оптимизация процесса тестирования с использованием аналитических подходов RCA...
 
Разработка RESTful api with all bells and whistles
Разработка RESTful api with all bells and whistlesРазработка RESTful api with all bells and whistles
Разработка RESTful api with all bells and whistles
 
Роман Акинфеев «Разработка RESTful API with all bells and whistles»
Роман Акинфеев «Разработка RESTful API with all bells and whistles»Роман Акинфеев «Разработка RESTful API with all bells and whistles»
Роман Акинфеев «Разработка RESTful API with all bells and whistles»
 
Планирование проекта часть 1
Планирование проекта часть 1Планирование проекта часть 1
Планирование проекта часть 1
 
Юлия Викторова; Александр Тарасов. DevOps без булшита.
Юлия Викторова; Александр Тарасов. DevOps без булшита.Юлия Викторова; Александр Тарасов. DevOps без булшита.
Юлия Викторова; Александр Тарасов. DevOps без булшита.
 
Денис Гобов “Бизнес-аналитик в распределенной команде”
Денис Гобов “Бизнес-аналитик в распределенной команде”Денис Гобов “Бизнес-аналитик в распределенной команде”
Денис Гобов “Бизнес-аналитик в распределенной команде”
 
Использование технологий распознавания русской речи в Cisco Contact Center и ...
Использование технологий распознавания русской речи в Cisco Contact Center и ...Использование технологий распознавания русской речи в Cisco Contact Center и ...
Использование технологий распознавания русской речи в Cisco Contact Center и ...
 
20131105 романенко
20131105 романенко20131105 романенко
20131105 романенко
 
Инструменты оценки персонала BRIDGE
Инструменты оценки персонала BRIDGEИнструменты оценки персонала BRIDGE
Инструменты оценки персонала BRIDGE
 
Автоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft AzureАвтоматизация Hr процессов на платформе Microsoft Azure
Автоматизация Hr процессов на платформе Microsoft Azure
 

Оценка уверенности извлечения информации - Диалог 2016

  • 1. Оценка уверенности извлечения информации из текста Белов Андрей, программист ABBYY Диалог 2016
  • 2. План выступления ● Обзор технологии ABBYY InfoExtractor ● Задача извлечения информации с высокой точностью ● Технология компании ABBYY ● Результаты ● Вопросы 2
  • 3. Обзор технологии ABBYY InfoExtractor ● Извлекаем информацию из текста и представляем ее в виде RDF-графа 3 «Виолончелист Мстислав Ростропович родился в Баку в 1927 году» Person Мстислав Ростропович Баку Виолончелист where label PointOfTime BirthOccupation 1927 year Location
  • 4. Семантико-синтаксический парсер 4 «Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
  • 5. Иерархия семантических классов 5 ENTITY PHYSICAL OBJECT BEING HUMAN MAN AS PROFESSIONAL WORKER PROFESSIONAL IN ENGINEERING ENGINEER Инженер PROGRAMMER Программист PROFESSIONAL IN MUSIC GUITARIST Гитарист VIOLINIST Скрипач VIOLONCELLO PLAYER Виолончелист PROFESSIONAL IN EDUCATION PROFESSIONAL IN MEDICINE ANIMAL ORGANISATION
  • 6. Шаблоны для деревьев семантико- синтаксических разборов 6 Программист Иван Федоров Программист российской компании ABBYY Иван Федоров Самый известный виолончелист России Мстислав Ростропович Виолончелист Мстислав Ростропович родился в Баку в 1927 году this "MAN AS PROFESSIONAL WORKER" Classifier_Name: child Шаблон для извлечения профессии:
  • 7. Правила извлечения информации 7 Пример правила, создающего факт Occupation и заполняющего его атрибуты: this "MAN_AS_PROFESSIONAL_WORKER" [ ClassifierName: child <% Person %> ] => Occupation fact(this.core), fact.position == Norm(this.core), fact.employee == child.o, annotation(fact, this.core); «Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
  • 8. Сильные стороны подхода с использованием продукционных правил и семантико- синтаксических разборов 8 ● Устойчивость к смене корпуса ● Гибкость языка правил извлечения информации ● Возможность моделировать сложные сущности, атрибуты и факты ● Поддержка конструкций для извлечения информации из таблиц ● Возможность написания универсальных правил для нескольких языков ● Использование возможностей языковой модели ABBYY Compreno
  • 9. Бизнес сценарии и постановка задачи ● Бизнес-сценарии ● Анализ заявлений о выплате страховых компенсаций ● Анализ платежных поручений ● Ввод данных в системы электронного документооборота (СЭД) ● Требуется ручная верификация извлеченной информации ● Задача: повысить эффективность ввода данных, сократив трудозатраты 9
  • 10. Решение задачи ● Предоставить пользователю степень уверенности извлечения информации ● «Лучший виолончелист мира Мстислав Ростропович» ● Person – firstname = Мстислав – surname = Ростропович ● Occupation – position = виолончелист мира – employee = Мстислав Ростропович 10 Степень уверенности 0.97 0.94 0.02 0.92
  • 11. Процесс оценки уверенности и верификации извлеченной информации 11 Извлеченный RDF-граф RDF-граф с оцененной уверенностью Оценка уверенности Эталонная разметка Автоматическая разметка Верифицированный RDF-граф Документ Извлечение информации Верификация Обучение Механизм оценки уверенности Пользователь
  • 12. ● Пример графика для подбора порога степени уверенности в зависимости от необходимой точности извлечения ● Например: ● Для получения точности 0.94 необходимо установить порог 0.15 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1 Порогстепениуверенности Точность Подбор порога степени уверенности 12
  • 13. Определение соотношения между точностью и трудозатратами ● Пример графика зависимости доли верифицируемых свойств от точности, достигаемой после верификации ● График позволяет найти компромисс между точностью и объемом трудозатрат на верификацию 13 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1 Доляверифицируемыхатрибутов Точность
  • 14. Обучение механизма оценки степени уверенности 14 «Лучший виолончелист мира Мстислав Ростропович» Эталонная разметка Автоматическая разметка firstname = “Мстислав” firstname = “Мстислав” surname = “Ростропович” surname = “Ростропович” position = “виолончелист” position = “виолончелист мира” employee = “Мстислав Ростропович” employee = “Мстислав Ростропович” … …
  • 15. Обучение механизма оценки степени уверенности 15 «Лучший виолончелист мира Мстислав Ростропович» Эталонная разметка Автоматическая разметка Is Correct firstname = “Мстислав” firstname = “Мстислав” True surname = “Ростропович” surname = “Ростропович” True position = “виолончелист” position = “виолончелист мира” False employee = “Мстислав Ростропович” employee = “Мстислав Ростропович” True … … …
  • 16. Обучение механизма оценки степени уверенности 16 «Лучший виолончелист мира Мстислав Ростропович» Эталонная разметка Автоматическая разметка Is Correct Решение классификатора P(Correct) firstname = “Мстислав” firstname = “Мстислав” True True 0.97 surname = “Ростропович” surname = “Ростропович” True True 0.94 position = “виолончелист” position = “виолончелист мира” False False 0.02 employee = “Мстислав Ростропович” employee = “Мстислав Ростропович” True True 0.92 … … … … …
  • 17. ● Характеристики составляющих, на которых сработало правило: семантические классы, поверхностные и глубинные позиции, грамматические, морфологические признаки т.п. ● Характеристики текста: длина предложений, успешность разбора и т.п. ● Цепочка сработавших правил Признаки для классификатора 17 create_firstname create_surname create_occupation_fact create_person add_employee
  • 18. Процесс оценки уверенности и верификации извлеченной информации 18 Извлеченный RDF-граф RDF-граф с оцененной уверенностью Оценка уверенности Эталонная разметка Автоматическая разметка Верифицированный RDF-граф Документ Извлечение информации Верификация Обучение Механизм оценки уверенности Пользователь
  • 19. Дообучение механизма оценки уверенности извлеченной информации 19 Извлеченный RDF-граф RDF-граф с оцененной уверенностью Оценка уверенности Эталонная разметка Автоматическая разметка Верифицированный RDF-граф Документ Извлечение информации Верификация Обучение Механизм оценки уверенности Верифицированные атрибуты Извлеченные атрибуты Пользователь
  • 20. Преимущества дообучения степени уверенности на стороне клиента ● Обучающая выборка существенно расширяется за счет атрибутов из верифицированных RDF-графов ● Качество оценки уверенности увеличивается в процессе эксплуатации системы ● Уменьшается количество атрибутов, требующих верификации пользователем ● Данные находятся на стороне клиента, что гарантирует сохранение конфиденциальной информации 20
  • 21. Результаты ● Приведены результаты оценки уверенности на корпусе ● 1000 документов от заказчика ● Размечен классами: персоны, организации, локации, род деятельности, местоположение, купля-продажа ● Около 200 000 атрибутов 21 Доля верифицированных свойств Точность извлечения атрибутов Без верификации 0.83 10% 0.89 30% 0.96 60% 0.99 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 0.8 0.82 0.84 0.86 0.88 0.9 0.92 0.94 0.96 0.98 1 Доляверифицируемыхсвойств Точность
  • 23. Дополнительная информация ● Система извлечения информации ABBYY Compreno 1. Anisimovich K.V., Druzhkin K. Ju., Minlos F.R., Petrova M.A., Selegey V.P., Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno linguistics technologies // Proceedings of the International Conference “Dialog”, Bekasovo, 2012 2. Starostin A. S., Smurov I.M., Stepanova M.E. A production system for information extraction based on complete syntactic-semantic analysis // Proceedings of the International Conference “Dialog”, Bekasovo, 2014 ● Корпоративный блог ABBYY на Хабрахабре ● http://habrahabr.ru/company/abbyy/ 23
  • 24. КОНТАКТЫ ABBYY Headquarters Тел.: +7 (495) 783 3700 Факс: +7 (495) 783 2663 Адрес: Москва, ст. м. Отрадное, ул. Отрадная, 2Б, строение 6, бизнес-центр «Отрадный» E-mail: office@abbyy.com Web: www.abbyy.com