SlideShare a Scribd company logo
1 of 36
Download to read offline
Принципы извлечения и
структурирования информации
из описательного текста
Евгений Ветров
Пустой Слайд
Data Mining Extraction
Извлечение Характеристик
Структурирование
Семантическая Разметка
The Rock
Demo
Next Challenge
Результат
• ~ 0.015 ER
• В продакшене (beta)
Первый Шаг
PoS
PoS Tagging
Продаю /Verb
квартиру /Noun
недалеко /Adverb
от /Preposition
Таганки /Proper_Noun
Семантический анализ
предложений
Стилистика ОЧЕНЬ важна
Стилистика. Case #1
Стилистика. Case #2
Divide et Impera
• Выделение предложений
• Выделение фраз
Tokenization
Продаю двухкомнатную квартиру 50 кв.
Продаю /word
двух /number
квартиру /word
50 /number
кв /word
. /point
Форматирование текста
Punctuation Hell
• 10,000 рублей
• 2.5 млн
• 20,40,30 и 15 м2
Значение где-то рядом
Вариации имени свойства
апартаменты = квартира = кв.
кв. = квадратный метр
комната = комн. = ком. = к.
Синонимы и акронимы
• Словари и Тезаурусы
• Частотный Анализ
Частотный анализ
Частотный анализ
Boolean Features
Продажа… ипотека
Продажа… ипотека невозможна
Self descriptive values
Исключения из правил
• Ленинская площадь 20
• на 1-ом этаже спортзал
Верификация результата
• Инварианты
10 этаж 5 этажного дома
• Регрессионный анализ
Типы ошибок извлечения
• Характеристика не извлечена
• Неправильное значение хар-ки
• Несуществующая хар-ка
Наборы данных
• Обучающий набор
• Тестовый набор
ИТОГО
• Ориентированность на
домен
• Статистика
Спасибо!
Буду рад ответить на ваши вопросы:
Евгений Ветров – eugene@choister.net

More Related Content

Viewers also liked

гузовский втб24 4
гузовский втб24 4гузовский втб24 4
гузовский втб24 4crm2life
 
Семинар для кредитных сотрудников по оценке кредитного риска
Семинар для кредитных сотрудников по оценке кредитного рискаСеминар для кредитных сотрудников по оценке кредитного риска
Семинар для кредитных сотрудников по оценке кредитного рискаАртем Ковтун
 
time_for_credits
time_for_creditstime_for_credits
time_for_creditsLeadGid
 
Кликнет+Motiv8 Банковский Сектор
Кликнет+Motiv8 Банковский СекторКликнет+Motiv8 Банковский Сектор
Кликнет+Motiv8 Банковский Секторmotiv8_ru
 
Как управлять сотрудниками в свободном графике. Переход от процессного управл...
Как управлять сотрудниками в свободном графике. Переход от процессного управл...Как управлять сотрудниками в свободном графике. Переход от процессного управл...
Как управлять сотрудниками в свободном графике. Переход от процессного управл...metrosphera
 
Карьера риэлтора-краткий путь к богатству или длинная дорога в никуда
Карьера риэлтора-краткий путь к богатству или длинная дорога в никудаКарьера риэлтора-краткий путь к богатству или длинная дорога в никуда
Карьера риэлтора-краткий путь к богатству или длинная дорога в никудаГеннадий Метёлкин
 
Лена Выморкова (iConText): Цели и задачи рекламной кампании
Лена Выморкова (iConText): Цели и задачи рекламной кампанииЛена Выморкова (iConText): Цели и задачи рекламной кампании
Лена Выморкова (iConText): Цели и задачи рекламной кампанииYana Sarukhanyan
 
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...metrosphera
 
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...metrosphera
 
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...НЭПК "СОЮЗ "АТАМЕКЕН"
 
Поисковые запросы: как ваши компании ищут на практике. Фотеев Валерий
Поисковые запросы: как ваши компании ищут на практике. Фотеев ВалерийПоисковые запросы: как ваши компании ищут на практике. Фотеев Валерий
Поисковые запросы: как ваши компании ищут на практике. Фотеев Валерийmetrosphera
 
Презентация Сбербанка
Презентация СбербанкаПрезентация Сбербанка
Презентация СбербанкаAnton Lowes
 
Олег Блохин, Контракт с дьяволом
Олег Блохин, Контракт с дьяволомОлег Блохин, Контракт с дьяволом
Олег Блохин, Контракт с дьяволомScrumTrek
 
Комплексное сотрудничество для банков: инновации, технологии, прибыль
Комплексное сотрудничество для банков: инновации, технологии, прибыльКомплексное сотрудничество для банков: инновации, технологии, прибыль
Комплексное сотрудничество для банков: инновации, технологии, прибыльАндрей Бабин
 

Viewers also liked (18)

Что продает сайт АН
Что продает сайт АНЧто продает сайт АН
Что продает сайт АН
 
гузовский втб24 4
гузовский втб24 4гузовский втб24 4
гузовский втб24 4
 
Семинар для кредитных сотрудников по оценке кредитного риска
Семинар для кредитных сотрудников по оценке кредитного рискаСеминар для кредитных сотрудников по оценке кредитного риска
Семинар для кредитных сотрудников по оценке кредитного риска
 
time_for_credits
time_for_creditstime_for_credits
time_for_credits
 
Кликнет+Motiv8 Банковский Сектор
Кликнет+Motiv8 Банковский СекторКликнет+Motiv8 Банковский Сектор
Кликнет+Motiv8 Банковский Сектор
 
Как управлять сотрудниками в свободном графике. Переход от процессного управл...
Как управлять сотрудниками в свободном графике. Переход от процессного управл...Как управлять сотрудниками в свободном графике. Переход от процессного управл...
Как управлять сотрудниками в свободном графике. Переход от процессного управл...
 
Карьера риэлтора-краткий путь к богатству или длинная дорога в никуда
Карьера риэлтора-краткий путь к богатству или длинная дорога в никудаКарьера риэлтора-краткий путь к богатству или длинная дорога в никуда
Карьера риэлтора-краткий путь к богатству или длинная дорога в никуда
 
Лена Выморкова (iConText): Цели и задачи рекламной кампании
Лена Выморкова (iConText): Цели и задачи рекламной кампанииЛена Выморкова (iConText): Цели и задачи рекламной кампании
Лена Выморкова (iConText): Цели и задачи рекламной кампании
 
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...
Инструменты увеличения продаж, применяемые застройщиком и банком при ипотечно...
 
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...
Изменения земельного кодекса, вступающие в силу с 1 января 2015 года. Логинов...
 
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...
Партнерская программа МСБ вокруг компании ТОО "Тенгизшевройл" в Атырауской об...
 
Causa Privata - Mortgage - Recommendations
Causa Privata - Mortgage - RecommendationsCausa Privata - Mortgage - Recommendations
Causa Privata - Mortgage - Recommendations
 
Tea
TeaTea
Tea
 
Поисковые запросы: как ваши компании ищут на практике. Фотеев Валерий
Поисковые запросы: как ваши компании ищут на практике. Фотеев ВалерийПоисковые запросы: как ваши компании ищут на практике. Фотеев Валерий
Поисковые запросы: как ваши компании ищут на практике. Фотеев Валерий
 
Презентация Сбербанка
Презентация СбербанкаПрезентация Сбербанка
Презентация Сбербанка
 
Буклет Адвокатского бюро "Недвижимость и строительство"
Буклет Адвокатского бюро "Недвижимость и строительство"Буклет Адвокатского бюро "Недвижимость и строительство"
Буклет Адвокатского бюро "Недвижимость и строительство"
 
Олег Блохин, Контракт с дьяволом
Олег Блохин, Контракт с дьяволомОлег Блохин, Контракт с дьяволом
Олег Блохин, Контракт с дьяволом
 
Комплексное сотрудничество для банков: инновации, технологии, прибыль
Комплексное сотрудничество для банков: инновации, технологии, прибыльКомплексное сотрудничество для банков: инновации, технологии, прибыль
Комплексное сотрудничество для банков: инновации, технологии, прибыль
 

More from Ontico

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...Ontico
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Ontico
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Ontico
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Ontico
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Ontico
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)Ontico
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Ontico
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Ontico
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)Ontico
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)Ontico
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Ontico
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Ontico
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Ontico
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Ontico
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)Ontico
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Ontico
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Ontico
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...Ontico
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Ontico
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Ontico
 

More from Ontico (20)

One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
One-cloud — система управления дата-центром в Одноклассниках / Олег Анастасье...
 
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)Масштабируя DNS / Артем Гавриченков (Qrator Labs)
Масштабируя DNS / Артем Гавриченков (Qrator Labs)
 
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
Создание BigData-платформы для ФГУП Почта России / Андрей Бащенко (Luxoft)
 
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
Готовим тестовое окружение, или сколько тестовых инстансов вам нужно / Алекса...
 
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
Новые технологии репликации данных в PostgreSQL / Александр Алексеев (Postgre...
 
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
PostgreSQL Configuration for Humans / Alvaro Hernandez (OnGres)
 
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
Inexpensive Datamasking for MySQL with ProxySQL — Data Anonymization for Deve...
 
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
Опыт разработки модуля межсетевого экранирования для MySQL / Олег Брославский...
 
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
ProxySQL Use Case Scenarios / Alkin Tezuysal (Percona)
 
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)MySQL Replication — Advanced Features / Петр Зайцев (Percona)
MySQL Replication — Advanced Features / Петр Зайцев (Percona)
 
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
Внутренний open-source. Как разрабатывать мобильное приложение большим количе...
 
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
Подробно о том, как Causal Consistency реализовано в MongoDB / Михаил Тюленев...
 
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
Балансировка на скорости проводов. Без ASIC, без ограничений. Решения NFWare ...
 
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
Перехват трафика — мифы и реальность / Евгений Усков (Qrator Labs)
 
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
И тогда наверняка вдруг запляшут облака! / Алексей Сушков (ПЕТЕР-СЕРВИС)
 
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
Как мы заставили Druid работать в Одноклассниках / Юрий Невиницин (OK.RU)
 
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
Разгоняем ASP.NET Core / Илья Вербицкий (WebStoating s.r.o.)
 
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...100500 способов кэширования в Oracle Database или как достичь максимальной ск...
100500 способов кэширования в Oracle Database или как достичь максимальной ск...
 
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
Apache Ignite Persistence: зачем Persistence для In-Memory, и как он работает...
 
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
Механизмы мониторинга баз данных: взгляд изнутри / Дмитрий Еманов (Firebird P...
 

Принципы излечения и структурирования информации из описательного текста / Евгений Ветров (Choister)