Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
NLP

Татьяна Ландо
Отдел лингвистических технологий
NLP
Natural Language Processing
Natural Language Processing
• Автоматическая
обработка
естественного
языка

• Искусственный
интеллект
• Тест Тьюринга
4
5
Что делает NLP?
•
•
•
•
•
•
•
•
6

Поиск (текстовый) / Information Retrieval
Извлечение фактов / Information Extraction
Ав...
Что внутри?
•
•
•
•
•
•
•
•
7

Графематика
Морфология
Синтаксис
Named Entity Recognition
Кореференция
Снятие омонимии
Гене...
Графематика

Разбиение текста на слова и предложения
Яндекс.Маркет — сервис сравнения
характеристик товаров и их цен
Скоро...
Морфология
• Бывает словарная и автоматическая
• Еще бывает:
– Part-of-Speech Tagging
– Стемминг

стекло:
Стекло – существ...
Синтаксис

• Бывает полный
или частичный
• Они оба
ошибаются,
полный чаще

10
Named Entity Recognition (NER)
• Извлечение именованных сущностей
Ранее "Коммерсантъ" и "Интерфакс"
удалили со своих сайто...
Кореференция: анафора
• Разрешение анафоры: поиск разных
выражений указывающих на одну сущность
Ранее "Коммерсантъ" и "Инт...
Кореференция: “синонимы”
• Разнообразные способы называния одного
и того же
• Транслитерация: Yandex – Яндекс
• Аббревиаци...
Снятие омонимии
• Снятие разнообразных неоднозначностей:

• Морфологическая:
Молоко стекло со стола
• Синтаксическая:
Он в...
Генерация текста
• Чат-боты!
Me: I read about Turing test.
Bot: Ah the Turing Test. People are always trying
to get me to ...
Генерация текста: SCIgen
• A Methodology for the Synthesis of Expert
Systems
• 802.11B must work. After years of significa...
Методы
• Machine learning
• Machine learning
• Machine learning
•
•
•
•
•
17

Статистика
Контекстно-свободные грамматики
С...
Яндекс.Перевод

18
Голосовые команды

Едем от «улица Льва Толстого, 16»
до «Азбука Вкуса» через «Лукойл»

19
Извлечение фактов в почте

20
Карты

Ул. Юных
Ленинцев
Чулочноносочные изделия
21
Новости

22
Поиск

23
Поиск

24
Поиск

25
Поиск

26
"Every time I fire a linguist, the performance of the
speech recognizer goes up"
Frederick Jelinek
А на самом деле:

Нас 80 человек
And counting…

28
Татьяна Ландо
Менеджер проектов

Отдел лингвистических
технологий

Спасибо!
3 nlp
Upcoming SlideShare
Loading in …5
×

3 nlp

580 views

Published on

Выступление Тани Ландо на открытии проекта Я.Студент в МГУ
Natural Language Processing

Published in: Education
  • Be the first to comment

3 nlp

  1. 1. NLP Татьяна Ландо Отдел лингвистических технологий
  2. 2. NLP Natural Language Processing
  3. 3. Natural Language Processing • Автоматическая обработка естественного языка • Искусственный интеллект • Тест Тьюринга 4
  4. 4. 5
  5. 5. Что делает NLP? • • • • • • • • 6 Поиск (текстовый) / Information Retrieval Извлечение фактов / Information Extraction Автоматический перевод Диалоговые системы и Question Answering Синтез и распознавание речи Оценка тональности Автореферирование Кластеризация и классификация текстов
  6. 6. Что внутри? • • • • • • • • 7 Графематика Морфология Синтаксис Named Entity Recognition Кореференция Снятие омонимии Генерация текста Речевые технологии
  7. 7. Графематика Разбиение текста на слова и предложения Яндекс.Маркет — сервис сравнения характеристик товаров и их цен Скоро начнется осенняя серия игр "Что? Где? Когда?". 8
  8. 8. Морфология • Бывает словарная и автоматическая • Еще бывает: – Part-of-Speech Tagging – Стемминг стекло: Стекло – существительное в ед.ч, им.п./вин.п Стекать – глагол в прош. вр., ед.ч, сред. род 9
  9. 9. Синтаксис • Бывает полный или частичный • Они оба ошибаются, полный чаще 10
  10. 10. Named Entity Recognition (NER) • Извлечение именованных сущностей Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где он объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ему часть своей популярности, сообщает justmedia.ru. 11
  11. 11. Кореференция: анафора • Разрешение анафоры: поиск разных выражений указывающих на одну сущность Ранее "Коммерсантъ" и "Интерфакс" удалили со своих сайтов высказывание Пескова, где ОН объясняет, что Путин публично не произносит имени Алексея Навального, так как боится отдать ЕМУ часть СВОЕЙ популярности, сообщает justmedia.ru. 12
  12. 12. Кореференция: “синонимы” • Разнообразные способы называния одного и того же • Транслитерация: Yandex – Яндекс • Аббревиация: ВТБ – Внешторгбанк – Банк Внешней Торговли • Синонимы: больница – госпиталь • Словообразование: Москва – московский • Графические: авто кредит - автокредит 13
  13. 13. Снятие омонимии • Снятие разнообразных неоднозначностей: • Морфологическая: Молоко стекло со стола • Синтаксическая: Он видел их семью своими глазами • «Объектная»: Михаил Задорнов: «20% российских семей могут себе позволить ипотеку» 14
  14. 14. Генерация текста • Чат-боты! Me: I read about Turing test. Bot: Ah the Turing Test. People are always trying to get me to take it, but I just pretend not to understand. Me: You are doing a good job. Bot : Why, thank you very much. I like you, too. If I could have a pet you would be my first choice. 15
  15. 15. Генерация текста: SCIgen • A Methodology for the Synthesis of Expert Systems • 802.11B must work. After years of significant research into the Internet, we disprove the improvement of virtual machines, which embodies the structured principles of steganography. We show that although the acclaimed flexible algorithm for the important unification of information retrieval systems and robots by Miller et al. is Turing complete, cache coherence and agents are entirely incompatible. Of course, this is not always the case. 16
  16. 16. Методы • Machine learning • Machine learning • Machine learning • • • • • 17 Статистика Контекстно-свободные грамматики Словарные и корпусные данные Онтологии Построение языковой модели
  17. 17. Яндекс.Перевод 18
  18. 18. Голосовые команды Едем от «улица Льва Толстого, 16» до «Азбука Вкуса» через «Лукойл» 19
  19. 19. Извлечение фактов в почте 20
  20. 20. Карты Ул. Юных Ленинцев Чулочноносочные изделия 21
  21. 21. Новости 22
  22. 22. Поиск 23
  23. 23. Поиск 24
  24. 24. Поиск 25
  25. 25. Поиск 26
  26. 26. "Every time I fire a linguist, the performance of the speech recognizer goes up" Frederick Jelinek
  27. 27. А на самом деле: Нас 80 человек And counting… 28
  28. 28. Татьяна Ландо Менеджер проектов Отдел лингвистических технологий Спасибо!

×