SlideShare a Scribd company logo
1 of 21
Download to read offline
Морфологический
анализатор Mystem 3.0
Алексей Зобнин
Программа Mystem
│  Mystem – свободно распространяемый морфологический анализатор
для русского языка, созданный в Яндексе
http://api.yandex.ru/mystem/
Первая версия программы была написана Ильёй Сегаловичем
и его коллегами ещё в 1997 году
Словоформа и парадигма
Словоформа: чай кофе потанцуем
Лемма: [ча]й [кофе] [потанц]евать
Парадигма: -й -и - -ую -уем
-я -ев -уешь -уете
-ю -ям -уй -уйте
-й -и -ует -уют
-ем -ями -евал
-евали-е -ях -евала
-евало
-евать
Добавим грамматические теги
ковер
[ковер] S, неод, муж, ед, им
[ковр]а S, неод, муж, ед, род
[ковр]у S, неод, муж, ед, дат
[ковер] S, неод, муж, ед, вин
[ковр]ом S, неод, муж, ед, твор
[ковр]е S, неод, муж, ед, пр
[ковр]ы S, неод, муж, мн, им
[ковр]ов S, неод, муж, мн, род
[ковр]ам S, неод, муж, мн, дат
[ковр]ы S, неод, муж, мн, вин
[ковр]ами S, неод, муж, мн, твор
[ковр]ах S, неод, муж, мн, пр
А если слова нет в словаре?
я иду {идти} по ковру {ковёр}
мы идем {идти} по коврём {коврать?}
ты идешь {идти} по коврёшь {коврать?}
вы идете {идти} по коврёте {коврать?}
он идет {идти} по коврёт {коврать?}
они идут {идти} по коврут {коврать?}
А если слова нет в словаре?
«Глокая куздра штеко будланула бокра и курдячит бокрёнка»
Л. В. Щерба
глокая {глокать? глокий?}
куздра {куздра?}
штеко {штекий? штеко?}
будланула {будланул? будланула? будлануть?}
бокра {бокр? бокра? бокрый?}
и {и}
кудрячит {кудрячит? кудрячита? кудрячитый? кудрячить?}
бокренка {бокренк? бокренка? бокренок?}
Построение гипотез по образцу
бокренка:
кенгуренка буренка
тигренка сестренка
→ бокренок → бокренка
черенка керенка
→ бокренок шестеренка
→ бокренка
будланула:
обманула гранула
→ будлануть → будланула
манула
→ будланул
https://ru.wikipedia.org/wiki/Манул
Программа Mystem: новая версия
│  Мы представляем версию Mystem 3.0
http://api.yandex.ru/mystem/
│  Её отличия:
›  ранжирование разборов и снятие омонимии
›  поддержка фикслистов
›  разные форматы ввода-вывода
Ранжирование разборов
есть:
есть=V,несов,пе=инф
есть=INTJ=
быть=V,нп=(…)
│  Задача №1: ранжировать разборы без учета контекста
Ранжирование разборов
есть:
есть=V,несов,пе=инф
есть=INTJ=
быть=V,нп=(…)
айпад:
айпада?=S,муж,од=(вин,мн|род,мн)
айпад?=ADV=
айпад?=S,муж,неод=(вин,ед|им,ед)
айпада?=S,жен,неод=род,мн
│  Задача №1: ранжировать разборы без учета контекста
Ранжирование разборов
есть:
2. есть=V,несов,пе=инф
3. есть=INTJ=
1. быть=V,нп=(…)
айпад:
айпада?=S,муж,од=(вин,мн|род,мн)
айпад?=ADV=
1. айпад?=S,муж,неод=(вин,ед|им,ед)
айпада?=S,жен,неод=род,мн
│  Должно получиться примерно так:
Частоты для ранжирования
›  Берём из подкорпуса со снятой омонимией Национального
корпуса русского языка
›  Учитываем частоты слов из веба
│  Однако корпус не полон, и запоминать частоты для каждой
словоформы расточительно. Поэтому мы «факторизуем» частоты,
настраивая их отдельно для:
›  окончаний каждой схемы
›  основ каждой схемы
›  самих морфологических схем
Более формально
Пусть зафиксирована парадигма (схема разбора) scheme,
и в слове word выделены основа stem и окончание flex.
Считаем, что события «встретить основу слова» и «встретить окончание слова»
в рамках этой схемы независимы.
𝑃(𝑠𝑐ℎ𝑒𝑚𝑒| 𝑤𝑜𝑟𝑑)=
=​ 𝑃(𝑤𝑜𝑟𝑑| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑠𝑐ℎ𝑒𝑚𝑒)/𝑃(𝑤𝑜𝑟𝑑) =
=​ 𝑃(𝑠𝑡𝑒𝑚| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑓𝑙𝑒𝑥| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑠𝑐ℎ𝑒𝑚𝑒)/𝑃(𝑤𝑜𝑟𝑑) .
Оценка качества
Мы тестировали программу на подкорпусе НКРЯ со снятой омонимией,
выбирая самую вероятную лемму из предложенных
│  Стратегии:
›  Первая по алфавиту лемма: 89%
›  Лемма с самой частотной парадигмой: 90%
›  Самая вероятная лемма в новой модели: 95,5%!
Снятие омонимии
›  Опция -d включает переранжирование разборов с учётом контекста
›  Модель обучена с помощью технологии машинного обучения MatrixNet
›  В качестве факторов используются в том числе «нормализующие
подстановки» из модели Ю. Зеленкова, И. Сегаловича и В. Титова
(Диалог-2005)
›  Точность первого разбора (по тексту леммы) составляет 97,8%
Пример
./mystem -n ./mystem -n -d
сорока жила на горе сорока жила на горе
сорока {сорок|сорока} сорока {сорока}
жила {жить|жила|жило} жила {жить}
на {на} на {на}
горе {горе|гора|гор} горе {гора}
Дополнительные опции
›  Опция --generate-all строит все гипотезы для неизвестных слов,
а не только те, где совпадение с образцом максимально
›  Опция --filter-gram разрешает строить только разборы с указанными
грамматическими тегами
mystem --filter-gram V
батарея {батареть?=V,несов,нп=непрош,деепр}
Использование
│  Программа распространяется в бинарном виде
и в виде динамической библиотеки для C
Пример использования – Томита-парсер
Спасибо!
http://api.yandex.ru/mystem/
mystem@yandex-team.ru

More Related Content

Viewers also liked

Cекретный доклад. Иванов Роман
Cекретный доклад. Иванов РоманCекретный доклад. Иванов Роман
Cекретный доклад. Иванов РоманYandex
 
Как мы делали TLS в Яндексе. Эльдар Заитов
 Как мы делали TLS в Яндексе. Эльдар Заитов Как мы делали TLS в Яндексе. Эльдар Заитов
Как мы делали TLS в Яндексе. Эльдар ЗаитовYandex
 
Документирование блоков. Раскрываем все плюсы
Документирование блоков. Раскрываем все плюсыДокументирование блоков. Раскрываем все плюсы
Документирование блоков. Раскрываем все плюсыYandex
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеYandex
 
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
Онлайн-классификация пользователей в быстрой Крипте. Родион ЖелудковYandex
 
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеПрактика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеДмитрий Шахов
 
Екатерина Зудина - Неестественные тексты в интернете
Екатерина Зудина - Неестественные тексты в интернетеЕкатерина Зудина - Неестественные тексты в интернете
Екатерина Зудина - Неестественные тексты в интернетеYandex
 
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEO
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEOДмитрий Шахов. Как конкуренты могут обрушить ваше SEO
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEOДмитрий Шахов
 
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...Yandex
 
Поиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхПоиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхYandex
 
Информационная безопасность — мир «белых и чёрных шляп»
Информационная безопасность — мир «белых и чёрных шляп»Информационная безопасность — мир «белых и чёрных шляп»
Информационная безопасность — мир «белых и чёрных шляп»Yandex
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, ЯндексYandex
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOArtem Lukanin
 
Dima maksimov
Dima maksimovDima maksimov
Dima maksimovyarulet
 
живые сайты
живые сайтыживые сайты
живые сайтыzexzex
 

Viewers also liked (20)

Cекретный доклад. Иванов Роман
Cекретный доклад. Иванов РоманCекретный доклад. Иванов Роман
Cекретный доклад. Иванов Роман
 
Как мы делали TLS в Яндексе. Эльдар Заитов
 Как мы делали TLS в Яндексе. Эльдар Заитов Как мы делали TLS в Яндексе. Эльдар Заитов
Как мы делали TLS в Яндексе. Эльдар Заитов
 
Документирование блоков. Раскрываем все плюсы
Документирование блоков. Раскрываем все плюсыДокументирование блоков. Раскрываем все плюсы
Документирование блоков. Раскрываем все плюсы
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
Компьютерная лингвистика в Яндексе
Компьютерная лингвистика в ЯндексеКомпьютерная лингвистика в Яндексе
Компьютерная лингвистика в Яндексе
 
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
Онлайн-классификация пользователей в быстрой Крипте. Родион Желудков
 
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентствеПрактика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
Практика контент-маркетинга: как развернуть эту услугу в интернет-агентстве
 
Екатерина Зудина - Неестественные тексты в интернете
Екатерина Зудина - Неестественные тексты в интернетеЕкатерина Зудина - Неестественные тексты в интернете
Екатерина Зудина - Неестественные тексты в интернете
 
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEO
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEOДмитрий Шахов. Как конкуренты могут обрушить ваше SEO
Дмитрий Шахов. Как конкуренты могут обрушить ваше SEO
 
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...
Как сделать стриминг для сервиса, который хранит миллионы видеофайлов — Лев Т...
 
Поиск списков в неструктурированных данных
Поиск списков в неструктурированных данныхПоиск списков в неструктурированных данных
Поиск списков в неструктурированных данных
 
Информационная безопасность — мир «белых и чёрных шляп»
Информационная безопасность — мир «белых и чёрных шляп»Информационная безопасность — мир «белых и чёрных шляп»
Информационная безопасность — мир «белых и чёрных шляп»
 
cjdk
cjdkcjdk
cjdk
 
usereto
useretousereto
usereto
 
Иван Ямщиков, Яндекс
Иван Ямщиков, ЯндексИван Ямщиков, Яндекс
Иван Ямщиков, Яндекс
 
Морфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMOМорфологический анализатор PC-KIMMO
Морфологический анализатор PC-KIMMO
 
Dima maksimov
Dima maksimovDima maksimov
Dima maksimov
 
живые сайты
живые сайтыживые сайты
живые сайты
 
1
11
1
 
112
112112
112
 

Similar to Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс

Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поискеЕвгений Летов
 
Методическая разработка по русскому языку
Методическая разработка по русскому языкуМетодическая разработка по русскому языку
Методическая разработка по русскому языкуcotwt
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1Noobie312
 
ExpressEnglish 2.0 Словообразование
ExpressEnglish 2.0 СловообразованиеExpressEnglish 2.0 Словообразование
ExpressEnglish 2.0 СловообразованиеSvetlana Gracheva
 
урок русского языка 3 класс
урок  русского языка  3 классурок  русского языка  3 класс
урок русского языка 3 классVasiliiiii
 

Similar to Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс (7)

Яндекс Малый ШАД - лингвистика в поиске
Яндекс  Малый ШАД - лингвистика в поискеЯндекс  Малый ШАД - лингвистика в поиске
Яндекс Малый ШАД - лингвистика в поиске
 
Методическая разработка по русскому языку
Методическая разработка по русскому языкуМетодическая разработка по русскому языку
Методическая разработка по русскому языку
 
Модули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ruМодули автоматической обработки текстов в проекте aot.ru
Модули автоматической обработки текстов в проекте aot.ru
 
лекция 5 тема 1
лекция 5 тема 1лекция 5 тема 1
лекция 5 тема 1
 
ExpressEnglish 2.0 Словообразование
ExpressEnglish 2.0 СловообразованиеExpressEnglish 2.0 Словообразование
ExpressEnglish 2.0 Словообразование
 
урок русского языка 3 класс
урок  русского языка  3 классурок  русского языка  3 класс
урок русского языка 3 класс
 
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекцииАвтоматическое извлечение синтаксических контекстов из текстовой коллекции
Автоматическое извлечение синтаксических контекстов из текстовой коллекции
 

More from Yandex

Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаYandex
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаYandex
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Yandex
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Yandex
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Yandex
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Yandex
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Yandex
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Yandex
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Yandex
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Yandex
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровYandex
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Yandex
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Yandex
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Yandex
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Yandex
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Yandex
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Yandex
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Yandex
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовYandex
 
Производительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформыПроизводительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформыYandex
 

More from Yandex (20)

Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров ЯндексаСтруктурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
Структурированные данные, Юлия Тихоход, лекция в Школе вебмастеров Яндекса
 
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров ЯндексаПредставление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
Представление сайта в поиске, Сергей Лысенко, лекция в Школе вебмастеров Яндекса
 
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
Плохие методы продвижения сайта, Екатерины Гладких, лекция в Школе вебмастеро...
 
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
Основные принципы ранжирования, Сергей Царик и Антон Роменский, лекция в Школ...
 
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
Основные принципы индексирования сайта, Александр Смирнов, лекция в Школе веб...
 
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
Мобильное приложение: как и зачем, Александр Лукин, лекция в Школе вебмастеро...
 
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
Сайты на мобильных устройствах, Олег Ножичкин, лекция в Школе вебмастеров Янд...
 
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
Качественная аналитика сайта, Юрий Батиевский, лекция в Школе вебмастеров Янд...
 
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
Что можно и что нужно измерять на сайте, Петр Аброськин, лекция в Школе вебма...
 
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
Как правильно поставить ТЗ на создание сайта, Алексей Бородкин, лекция в Школ...
 
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеровКак защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
Как защитить свой сайт, Пётр Волков, лекция в Школе вебмастеров
 
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
Как правильно составить структуру сайта, Дмитрий Сатин, лекция в Школе вебмас...
 
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
Технические особенности создания сайта, Дмитрий Васильева, лекция в Школе веб...
 
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
Конструкторы для отдельных элементов сайта, Елена Першина, лекция в Школе веб...
 
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
Контент для интернет-магазинов, Катерина Ерошина, лекция в Школе вебмастеров ...
 
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
Как написать хороший текст для сайта, Катерина Ерошина, лекция в Школе вебмас...
 
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
Usability и дизайн - как не помешать пользователю, Алексей Иванов, лекция в Ш...
 
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
Cайт. Зачем он и каким должен быть, Алексей Иванов, лекция в Школе вебмастеро...
 
Эталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатовЭталонное описание фильма на основе десятков дубликатов
Эталонное описание фильма на основе десятков дубликатов
 
Производительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформыПроизводительность параметрического поиска на основе опенсорс-платформы
Производительность параметрического поиска на основе опенсорс-платформы
 

Морфологический анализатор Mystem 3.0. Алексей ЗобнинЯндекс

  • 1.
  • 3. Программа Mystem │  Mystem – свободно распространяемый морфологический анализатор для русского языка, созданный в Яндексе http://api.yandex.ru/mystem/ Первая версия программы была написана Ильёй Сегаловичем и его коллегами ещё в 1997 году
  • 4. Словоформа и парадигма Словоформа: чай кофе потанцуем Лемма: [ча]й [кофе] [потанц]евать Парадигма: -й -и - -ую -уем -я -ев -уешь -уете -ю -ям -уй -уйте -й -и -ует -уют -ем -ями -евал -евали-е -ях -евала -евало -евать
  • 5. Добавим грамматические теги ковер [ковер] S, неод, муж, ед, им [ковр]а S, неод, муж, ед, род [ковр]у S, неод, муж, ед, дат [ковер] S, неод, муж, ед, вин [ковр]ом S, неод, муж, ед, твор [ковр]е S, неод, муж, ед, пр [ковр]ы S, неод, муж, мн, им [ковр]ов S, неод, муж, мн, род [ковр]ам S, неод, муж, мн, дат [ковр]ы S, неод, муж, мн, вин [ковр]ами S, неод, муж, мн, твор [ковр]ах S, неод, муж, мн, пр
  • 6. А если слова нет в словаре? я иду {идти} по ковру {ковёр} мы идем {идти} по коврём {коврать?} ты идешь {идти} по коврёшь {коврать?} вы идете {идти} по коврёте {коврать?} он идет {идти} по коврёт {коврать?} они идут {идти} по коврут {коврать?}
  • 7. А если слова нет в словаре? «Глокая куздра штеко будланула бокра и курдячит бокрёнка» Л. В. Щерба глокая {глокать? глокий?} куздра {куздра?} штеко {штекий? штеко?} будланула {будланул? будланула? будлануть?} бокра {бокр? бокра? бокрый?} и {и} кудрячит {кудрячит? кудрячита? кудрячитый? кудрячить?} бокренка {бокренк? бокренка? бокренок?}
  • 8. Построение гипотез по образцу бокренка: кенгуренка буренка тигренка сестренка → бокренок → бокренка черенка керенка → бокренок шестеренка → бокренка будланула: обманула гранула → будлануть → будланула манула → будланул
  • 10. Программа Mystem: новая версия │  Мы представляем версию Mystem 3.0 http://api.yandex.ru/mystem/ │  Её отличия: ›  ранжирование разборов и снятие омонимии ›  поддержка фикслистов ›  разные форматы ввода-вывода
  • 13. Ранжирование разборов есть: 2. есть=V,несов,пе=инф 3. есть=INTJ= 1. быть=V,нп=(…) айпад: айпада?=S,муж,од=(вин,мн|род,мн) айпад?=ADV= 1. айпад?=S,муж,неод=(вин,ед|им,ед) айпада?=S,жен,неод=род,мн │  Должно получиться примерно так:
  • 14. Частоты для ранжирования ›  Берём из подкорпуса со снятой омонимией Национального корпуса русского языка ›  Учитываем частоты слов из веба │  Однако корпус не полон, и запоминать частоты для каждой словоформы расточительно. Поэтому мы «факторизуем» частоты, настраивая их отдельно для: ›  окончаний каждой схемы ›  основ каждой схемы ›  самих морфологических схем
  • 15. Более формально Пусть зафиксирована парадигма (схема разбора) scheme, и в слове word выделены основа stem и окончание flex. Считаем, что события «встретить основу слова» и «встретить окончание слова» в рамках этой схемы независимы. 𝑃(𝑠𝑐ℎ𝑒𝑚𝑒| 𝑤𝑜𝑟𝑑)= =​ 𝑃(𝑤𝑜𝑟𝑑| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑠𝑐ℎ𝑒𝑚𝑒)/𝑃(𝑤𝑜𝑟𝑑) = =​ 𝑃(𝑠𝑡𝑒𝑚| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑓𝑙𝑒𝑥| 𝑠𝑐ℎ𝑒𝑚𝑒)𝑃(𝑠𝑐ℎ𝑒𝑚𝑒)/𝑃(𝑤𝑜𝑟𝑑) .
  • 16. Оценка качества Мы тестировали программу на подкорпусе НКРЯ со снятой омонимией, выбирая самую вероятную лемму из предложенных │  Стратегии: ›  Первая по алфавиту лемма: 89% ›  Лемма с самой частотной парадигмой: 90% ›  Самая вероятная лемма в новой модели: 95,5%!
  • 17. Снятие омонимии ›  Опция -d включает переранжирование разборов с учётом контекста ›  Модель обучена с помощью технологии машинного обучения MatrixNet ›  В качестве факторов используются в том числе «нормализующие подстановки» из модели Ю. Зеленкова, И. Сегаловича и В. Титова (Диалог-2005) ›  Точность первого разбора (по тексту леммы) составляет 97,8%
  • 18. Пример ./mystem -n ./mystem -n -d сорока жила на горе сорока жила на горе сорока {сорок|сорока} сорока {сорока} жила {жить|жила|жило} жила {жить} на {на} на {на} горе {горе|гора|гор} горе {гора}
  • 19. Дополнительные опции ›  Опция --generate-all строит все гипотезы для неизвестных слов, а не только те, где совпадение с образцом максимально ›  Опция --filter-gram разрешает строить только разборы с указанными грамматическими тегами mystem --filter-gram V батарея {батареть?=V,несов,нп=непрош,деепр}
  • 20. Использование │  Программа распространяется в бинарном виде и в виде динамической библиотеки для C Пример использования – Томита-парсер