SlideShare a Scribd company logo
Извлечение информации из
текста: от знаний о языке
к знаниям о мире
Белов Андрей, ABBYY
Летняя лингвистическая школа 2016
Извлечение информации из текста
● Извлечение информации – это задача автоматического
извлечения структурированной информации из
неструктурированных машиночитаемых документов
● Пример: новостная статья
УЕФА назвал самый красивый гол на Евро-2016
Гол футболиста сборной Венгрии Золтана Геро в ворота национальной
команды Португалии признан лучшим на прошедшем во Франции
чемпионате Европы, сообщается на сайте УЕФА…
2
Представление извлеченной
информации. RDF-граф
object1 – type – Person
object1 – firstname – “Мстислав”
object1 – surname – “Ростропович” 3
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Person
Мстислав Ростропович Баку
Виолончелист
where
label
PointOfTime
BirthOccupation
1927
year
Location
object2 – type – Occupation
object2 – position – “Виолончелист”
object2 – employee – object1
Запись в виде триплетов:
Онтология – модель предметной
области
4
Entity
Fact
when: Time
where: Location
Thing
label: строка
Person
firstname: строка
surname: строка
Organization Location
Department
whole_organization:
Organization
Commercial Governmental
Country Town
Occupation
employee: Person
employer: Organization
Position: строка
PlacementBirth
born: Person
Представление извлеченной
информации. RDF-граф
object1 – type – Person
object1 – firstname – “Мстислав”
object1 – surname – “Ростропович” 5
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Person
Мстислав Ростропович Баку
Виолончелист
where
label
PointOfTime
BirthOccupation
1927
year
Location
object2 – type – Occupation
object2 – position – “Виолончелист”
object2 – employee – object1
Запись в виде триплетов:
Алгоритм автоматического
извлечения информации
● Чем может помочь лингвистика?
● Словари
● Морфология
● Синтаксис
6
Этапы извлечения информации
ABBYY InfoExtractor
1. Разбиение текста на предложения и токены (слова,
пунктуация)
2. Лексический анализ
3. Синтаксический анализ
4. Семантический анализ
5. Применение правил извлечения информации
(прагматический анализ)
7
Семантико-синтаксический парсер
8
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Иерархия семантических классов
9
ENTITY
PHYSICAL
OBJECT
BEING
HUMAN
MAN AS
PROFESSIONAL
WORKER
PROFESSIONAL IN
ENGINEERING
ENGINEER
Инженер
PROGRAMMER
Программист
PROFESSIONAL
IN MUSIC
GUITARIST
Гитарист
VIOLINIST
Скрипач
VIOLONCELLO
PLAYER
Виолончелист
PROFESSIONAL IN
EDUCATION
PROFESSIONAL IN
MEDICINE
ANIMAL
ORGANISATION
Шаблоны для деревьев семантико-
синтаксических разборов
10
Программист Иван Федоров
Программист российской компании ABBYY Иван Федоров
Самый известный виолончелист России Мстислав Ростропович
Виолончелист Мстислав Ростропович родился в Баку в 1927 году
this "MAN AS PROFESSIONAL WORKER"
Classifier_Name: child
Шаблон для извлечения профессии:
Правила извлечения информации
11
Пример правила, создающего факт Occupation и заполняющего его
атрибуты:
this "MAN_AS_PROFESSIONAL_WORKER" [
ClassifierName: child <% Person %>
]
=>
Occupation fact(this.core),
fact.position == Norm(this.core),
fact.employee == child.o,
annotation(fact, this.core);
«Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
Сложности при работе с текстом
в извлечении информации
● Разбиение текста на предложения и токены
● Сокращения, инициалы
● Немецкий язык
● Тире-дефис
● URL, смайлы
● Лексический анализ
● Лексическая омонимия: три (число) – три (тереть); замок (крепость) – замок (дверной)
● Синтаксический анализ
● Синтаксическая омонимия: Microsoft купила Google. Эти типы стали есть на складе.
● Эллипсис: Николай занял первое место, а Иван – второе.
● Семантический анализ
● Кореференция: Она увидела принца на коне и поцеловала его.
Иван занял первое место. Спортсмен победил с большим отрывом.
12
Применения извлечения
информации
● Общая задача – помочь человеку обработать большой
объем документов, повысив эффективность работы
● Анализ документов
● Анализ заявлений о выплате страховых компенсаций
● Анализ платежных поручений
● Ввод данных в системы электронного документооборота
● Анализ тональности текстов
● Вопросно-ответные системы
13
Digital humanities – цифровые
гуманитарные науки
● Digital humanities исследует применение методов
компьютерного анализа для решения задач из
гуманитарных наук
● Что можно узнать о героях «Войны и мира»:
● Кто как выглядит
● Кто что носит
● Кто, сколько и как говорит
● Кто куда ездит
● Подробнее – приложение «живые страницы»,
voinaimir.com/info
Кто как выглядит?
Кто как выглядит?
Кто как выглядит?
Кто как выглядит?
Кто что носит?
Персонаж Одежда
Соня Ростова платье, наряд, лента, пеньюар, рукав, подкладка, башмачок, юбка, платьице, бант, шубка
Василий Курагин кафтан, шубка, шарф, платок, рукав, жабо
Платон Каратаев рубаха, фуражка, сапог, обувь, лапоть, шинель
Николай Ростов плащ, платье, куртка, шнурок, фуражка
Наташа Ростова чулок, мантилья, башмачок, сережка, платье, бантик, лента
Петя Ростов воротничок, сюртучок, сапог, платье, панталоны, платок
Тихон Щербатый сапог, лапоть
Борис Друбецкой мундир, рукав, обшлаг, сюртук, шинель
Марья Болконская платье, наряд, лента, блуза, шарф, карман, тройка, шляпа, кафтан, рубище, рубашка, платок,
Александр I шляпа, мундир, лента, пояс, перчатка
Василий Денисов мундир, куртка, платок, бурка, сюртук, папаха, шляпа, платье, пояс, кафтан, фуражка
Михаил Кутузов
мундир, кольцо, полушубок, платок, перчатка, козырек, сюртук, форма, рубаха, шляпа, околыш, шапка,
подштанники, воротник, парадная форма, шинель, фуражка, эполет
Элен Курагина рукав, туалет, платье, роба, корсет, кольцо
Петр Багратион бурка, козырек штиблета, бурка, картуз, эполет
Граф Илья Ростов каблук, кафтан, халат
Пьер Безухов шуба, сапог, кафтан, рукав, шляпа
Анна Михайловна платок, платье, перчатка
Вера Ростова колечко, платье шарф
Старый князь Николай шапка, шубка, воротник, халат
Анатоль Курагин карман, мундир, шляпа, воротник мундир, платок, камзол, ремень
Mariya Akhrosimova халат, колпак, шаль, карман, рукав, платье
Countess Natalya
Rostova платок, чепец, лента
Fyodor Dolokhov шинель
Том 1 (“мирный”):
1. Платье (женское) - 35
2. Шинель - 32
3. Платок -26
4. Мундир -25
5. Сапоги - 12
Том 3 (“мирный”):
1. Мундир – 45
2. Шляпа – 29
3. Шапка – 22
4. Платье (женское) - 21
5. Шинель – 21
20
Том 2 (“военный”):
1. Платье (женское) – 50
2. Мундир – 29
3. Халат – 17
4. Платок – 17
5. Шапка – 15
Том 4 (“военный”):
1. Шинель – 16
2. Сапоги – 13
3. Чулки – 10
4. Платье (вообще одежда) – 8
5. Платье (женское) – 8
6. Мундир – 8
Война и м ир
унд
Кто сколько говорит?
481
361
336 336
212
139 127
113
99 96
78 75 68 64 64 56 54 46
0
100
200
300
400
500
600
Вопросы и восклицания
36.23%
35.56%
31.08%
40.19%
20.00%
26.32%
25.62%
34.42%
26.92%
28.92%
11.11%
53.62%
44.44%
43.24%
33.27%
37.14%
28.07%
26.45%
14.32%
16.03%
8.01%
7.41%
10.14%
25.60%
25.68%
26.55%
42.86%
45.61%
47.93%
51.26%
57.05%
63.07%
81.48%
0% 20% 40% 60% 80% 100%
Старый князь Николай Андреевич
Петя Ростов
Илья Ростов (старый граф)
Наташа Ростова
Василий Денисов
Николай Ростов
Соня Ростова
Пьер Безухов
Марья Болконская
Андрей Болконский
Борис Друбецкой
?
!
"Нейтральная"
речь
Кто куда ездит?
24
Спасибо за внимание!
Вопросы и ответы
Дополнительная информация
● Система извлечения информации ABBYY Compreno
1. Anisimovich K.V., Druzhkin K. Ju., Minlos F.R., Petrova M.A., Selegey V.P.,
Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno
linguistics technologies // Proceedings of the International Conference
“Dialog”, Bekasovo, 2012
2. Starostin A. S., Smurov I.M., Stepanova M.E. A production system for
information extraction based on complete syntactic-semantic analysis //
Proceedings of the International Conference “Dialog”, Bekasovo, 2014
● Корпоративный блог ABBYY на Хабрахабре
● http://habrahabr.ru/company/abbyy/
25

More Related Content

Viewers also liked

PENGANTAR BISNIS
PENGANTAR BISNISPENGANTAR BISNIS
PENGANTAR BISNIS
Mandiri Sekuritas
 
Impact of Austerity on Economy
Impact of Austerity on EconomyImpact of Austerity on Economy
Impact of Austerity on Economy
Abhishek Sao
 
ETIKA BISNISS
ETIKA BISNISSETIKA BISNISS
ETIKA BISNISS
Mandiri Sekuritas
 
How to Use Social Media to Influence the World
How to Use Social Media to Influence the WorldHow to Use Social Media to Influence the World
How to Use Social Media to Influence the World
Mark Anav
 
ANALISIS SISTEM INFORMASI DASAR
ANALISIS SISTEM INFORMASI DASARANALISIS SISTEM INFORMASI DASAR
ANALISIS SISTEM INFORMASI DASAR
Mandiri Sekuritas
 
Finansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialFinansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialMarina Shelomentseva
 
Twitter tips-infographic
Twitter tips-infographicTwitter tips-infographic
Twitter tips-infographic
eZdia Inc
 
Portfolio - Heather Holt
Portfolio - Heather HoltPortfolio - Heather Holt
Portfolio - Heather Holt
Heather Holt
 
Time machine
Time machineTime machine
Time machine
Alex Higgs
 
Tips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEOTips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEO
eZdia Inc
 
LINGKUNGAN BISNIS
LINGKUNGAN BISNISLINGKUNGAN BISNIS
LINGKUNGAN BISNIS
Mandiri Sekuritas
 
PANDUAN DO'A IBADAH HAJI & UMRAH
PANDUAN DO'A IBADAH HAJI & UMRAHPANDUAN DO'A IBADAH HAJI & UMRAH
PANDUAN DO'A IBADAH HAJI & UMRAH
Mandiri Sekuritas
 
The human brain
The human brainThe human brain
The human brain
Shubham Thakur
 
ñlkñlkñl
ñlkñlkñlñlkñlkñl
Amarozko auzo elkartea 3 a
Amarozko auzo elkartea 3 aAmarozko auzo elkartea 3 a
Amarozko auzo elkartea 3 aXabi Uzturre
 

Viewers also liked (17)

PENGANTAR BISNIS
PENGANTAR BISNISPENGANTAR BISNIS
PENGANTAR BISNIS
 
Impact of Austerity on Economy
Impact of Austerity on EconomyImpact of Austerity on Economy
Impact of Austerity on Economy
 
ETIKA BISNISS
ETIKA BISNISSETIKA BISNISS
ETIKA BISNISS
 
How to Use Social Media to Influence the World
How to Use Social Media to Influence the WorldHow to Use Social Media to Influence the World
How to Use Social Media to Influence the World
 
Rp preading2
Rp preading2Rp preading2
Rp preading2
 
ANALISIS SISTEM INFORMASI DASAR
ANALISIS SISTEM INFORMASI DASARANALISIS SISTEM INFORMASI DASAR
ANALISIS SISTEM INFORMASI DASAR
 
Finansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filialFinansovyy universitet smolensk_filial
Finansovyy universitet smolensk_filial
 
Twitter tips-infographic
Twitter tips-infographicTwitter tips-infographic
Twitter tips-infographic
 
Komunikasi-En Afian
Komunikasi-En AfianKomunikasi-En Afian
Komunikasi-En Afian
 
Portfolio - Heather Holt
Portfolio - Heather HoltPortfolio - Heather Holt
Portfolio - Heather Holt
 
Time machine
Time machineTime machine
Time machine
 
Tips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEOTips to Grow your Business with Local SEO
Tips to Grow your Business with Local SEO
 
LINGKUNGAN BISNIS
LINGKUNGAN BISNISLINGKUNGAN BISNIS
LINGKUNGAN BISNIS
 
PANDUAN DO'A IBADAH HAJI & UMRAH
PANDUAN DO'A IBADAH HAJI & UMRAHPANDUAN DO'A IBADAH HAJI & UMRAH
PANDUAN DO'A IBADAH HAJI & UMRAH
 
The human brain
The human brainThe human brain
The human brain
 
ñlkñlkñl
ñlkñlkñlñlkñlkñl
ñlkñlkñl
 
Amarozko auzo elkartea 3 a
Amarozko auzo elkartea 3 aAmarozko auzo elkartea 3 a
Amarozko auzo elkartea 3 a
 

Выступление в ЛЛШ 2016

  • 1. Извлечение информации из текста: от знаний о языке к знаниям о мире Белов Андрей, ABBYY Летняя лингвистическая школа 2016
  • 2. Извлечение информации из текста ● Извлечение информации – это задача автоматического извлечения структурированной информации из неструктурированных машиночитаемых документов ● Пример: новостная статья УЕФА назвал самый красивый гол на Евро-2016 Гол футболиста сборной Венгрии Золтана Геро в ворота национальной команды Португалии признан лучшим на прошедшем во Франции чемпионате Европы, сообщается на сайте УЕФА… 2
  • 3. Представление извлеченной информации. RDF-граф object1 – type – Person object1 – firstname – “Мстислав” object1 – surname – “Ростропович” 3 «Виолончелист Мстислав Ростропович родился в Баку в 1927 году» Person Мстислав Ростропович Баку Виолончелист where label PointOfTime BirthOccupation 1927 year Location object2 – type – Occupation object2 – position – “Виолончелист” object2 – employee – object1 Запись в виде триплетов:
  • 4. Онтология – модель предметной области 4 Entity Fact when: Time where: Location Thing label: строка Person firstname: строка surname: строка Organization Location Department whole_organization: Organization Commercial Governmental Country Town Occupation employee: Person employer: Organization Position: строка PlacementBirth born: Person
  • 5. Представление извлеченной информации. RDF-граф object1 – type – Person object1 – firstname – “Мстислав” object1 – surname – “Ростропович” 5 «Виолончелист Мстислав Ростропович родился в Баку в 1927 году» Person Мстислав Ростропович Баку Виолончелист where label PointOfTime BirthOccupation 1927 year Location object2 – type – Occupation object2 – position – “Виолончелист” object2 – employee – object1 Запись в виде триплетов:
  • 6. Алгоритм автоматического извлечения информации ● Чем может помочь лингвистика? ● Словари ● Морфология ● Синтаксис 6
  • 7. Этапы извлечения информации ABBYY InfoExtractor 1. Разбиение текста на предложения и токены (слова, пунктуация) 2. Лексический анализ 3. Синтаксический анализ 4. Семантический анализ 5. Применение правил извлечения информации (прагматический анализ) 7
  • 8. Семантико-синтаксический парсер 8 «Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
  • 9. Иерархия семантических классов 9 ENTITY PHYSICAL OBJECT BEING HUMAN MAN AS PROFESSIONAL WORKER PROFESSIONAL IN ENGINEERING ENGINEER Инженер PROGRAMMER Программист PROFESSIONAL IN MUSIC GUITARIST Гитарист VIOLINIST Скрипач VIOLONCELLO PLAYER Виолончелист PROFESSIONAL IN EDUCATION PROFESSIONAL IN MEDICINE ANIMAL ORGANISATION
  • 10. Шаблоны для деревьев семантико- синтаксических разборов 10 Программист Иван Федоров Программист российской компании ABBYY Иван Федоров Самый известный виолончелист России Мстислав Ростропович Виолончелист Мстислав Ростропович родился в Баку в 1927 году this "MAN AS PROFESSIONAL WORKER" Classifier_Name: child Шаблон для извлечения профессии:
  • 11. Правила извлечения информации 11 Пример правила, создающего факт Occupation и заполняющего его атрибуты: this "MAN_AS_PROFESSIONAL_WORKER" [ ClassifierName: child <% Person %> ] => Occupation fact(this.core), fact.position == Norm(this.core), fact.employee == child.o, annotation(fact, this.core); «Виолончелист Мстислав Ростропович родился в Баку в 1927 году»
  • 12. Сложности при работе с текстом в извлечении информации ● Разбиение текста на предложения и токены ● Сокращения, инициалы ● Немецкий язык ● Тире-дефис ● URL, смайлы ● Лексический анализ ● Лексическая омонимия: три (число) – три (тереть); замок (крепость) – замок (дверной) ● Синтаксический анализ ● Синтаксическая омонимия: Microsoft купила Google. Эти типы стали есть на складе. ● Эллипсис: Николай занял первое место, а Иван – второе. ● Семантический анализ ● Кореференция: Она увидела принца на коне и поцеловала его. Иван занял первое место. Спортсмен победил с большим отрывом. 12
  • 13. Применения извлечения информации ● Общая задача – помочь человеку обработать большой объем документов, повысив эффективность работы ● Анализ документов ● Анализ заявлений о выплате страховых компенсаций ● Анализ платежных поручений ● Ввод данных в системы электронного документооборота ● Анализ тональности текстов ● Вопросно-ответные системы 13
  • 14. Digital humanities – цифровые гуманитарные науки ● Digital humanities исследует применение методов компьютерного анализа для решения задач из гуманитарных наук ● Что можно узнать о героях «Войны и мира»: ● Кто как выглядит ● Кто что носит ● Кто, сколько и как говорит ● Кто куда ездит ● Подробнее – приложение «живые страницы», voinaimir.com/info
  • 19. Кто что носит? Персонаж Одежда Соня Ростова платье, наряд, лента, пеньюар, рукав, подкладка, башмачок, юбка, платьице, бант, шубка Василий Курагин кафтан, шубка, шарф, платок, рукав, жабо Платон Каратаев рубаха, фуражка, сапог, обувь, лапоть, шинель Николай Ростов плащ, платье, куртка, шнурок, фуражка Наташа Ростова чулок, мантилья, башмачок, сережка, платье, бантик, лента Петя Ростов воротничок, сюртучок, сапог, платье, панталоны, платок Тихон Щербатый сапог, лапоть Борис Друбецкой мундир, рукав, обшлаг, сюртук, шинель Марья Болконская платье, наряд, лента, блуза, шарф, карман, тройка, шляпа, кафтан, рубище, рубашка, платок, Александр I шляпа, мундир, лента, пояс, перчатка Василий Денисов мундир, куртка, платок, бурка, сюртук, папаха, шляпа, платье, пояс, кафтан, фуражка Михаил Кутузов мундир, кольцо, полушубок, платок, перчатка, козырек, сюртук, форма, рубаха, шляпа, околыш, шапка, подштанники, воротник, парадная форма, шинель, фуражка, эполет Элен Курагина рукав, туалет, платье, роба, корсет, кольцо Петр Багратион бурка, козырек штиблета, бурка, картуз, эполет Граф Илья Ростов каблук, кафтан, халат Пьер Безухов шуба, сапог, кафтан, рукав, шляпа Анна Михайловна платок, платье, перчатка Вера Ростова колечко, платье шарф Старый князь Николай шапка, шубка, воротник, халат Анатоль Курагин карман, мундир, шляпа, воротник мундир, платок, камзол, ремень Mariya Akhrosimova халат, колпак, шаль, карман, рукав, платье Countess Natalya Rostova платок, чепец, лента Fyodor Dolokhov шинель
  • 20. Том 1 (“мирный”): 1. Платье (женское) - 35 2. Шинель - 32 3. Платок -26 4. Мундир -25 5. Сапоги - 12 Том 3 (“мирный”): 1. Мундир – 45 2. Шляпа – 29 3. Шапка – 22 4. Платье (женское) - 21 5. Шинель – 21 20 Том 2 (“военный”): 1. Платье (женское) – 50 2. Мундир – 29 3. Халат – 17 4. Платок – 17 5. Шапка – 15 Том 4 (“военный”): 1. Шинель – 16 2. Сапоги – 13 3. Чулки – 10 4. Платье (вообще одежда) – 8 5. Платье (женское) – 8 6. Мундир – 8 Война и м ир унд
  • 21. Кто сколько говорит? 481 361 336 336 212 139 127 113 99 96 78 75 68 64 64 56 54 46 0 100 200 300 400 500 600
  • 22. Вопросы и восклицания 36.23% 35.56% 31.08% 40.19% 20.00% 26.32% 25.62% 34.42% 26.92% 28.92% 11.11% 53.62% 44.44% 43.24% 33.27% 37.14% 28.07% 26.45% 14.32% 16.03% 8.01% 7.41% 10.14% 25.60% 25.68% 26.55% 42.86% 45.61% 47.93% 51.26% 57.05% 63.07% 81.48% 0% 20% 40% 60% 80% 100% Старый князь Николай Андреевич Петя Ростов Илья Ростов (старый граф) Наташа Ростова Василий Денисов Николай Ростов Соня Ростова Пьер Безухов Марья Болконская Андрей Болконский Борис Друбецкой ? ! "Нейтральная" речь
  • 25. Дополнительная информация ● Система извлечения информации ABBYY Compreno 1. Anisimovich K.V., Druzhkin K. Ju., Minlos F.R., Petrova M.A., Selegey V.P., Zuev K.A. Syntactic and semantic parser based on ABBYY Compreno linguistics technologies // Proceedings of the International Conference “Dialog”, Bekasovo, 2012 2. Starostin A. S., Smurov I.M., Stepanova M.E. A production system for information extraction based on complete syntactic-semantic analysis // Proceedings of the International Conference “Dialog”, Bekasovo, 2014 ● Корпоративный блог ABBYY на Хабрахабре ● http://habrahabr.ru/company/abbyy/ 25