SlideShare a Scribd company logo
Оптимизация поиска интента/
в системе LeadScanner /
Варвара Красавина/
 
	
  
	
  
	
  
Варвара	
  Красавина,	
  
computa2onal	
  linguist	
  @LeadScanr	
  
кафедра	
  компьютерной	
  лингвистики	
  СПбГУ	
  
@varvarakras	
  
	
  
Наша	
  задача/
•  Найти	
  как	
  можно	
  больше	
  сообщений	
  
•  Сократить	
  количество	
  нерелевантных	
  сообщений	
  
Автоматическое	
  извлечение	
  
ключевых	
  слов	
  и	
  словосочетаний/
•  Автоматическая	
  обработка	
  больших	
  объемов	
  текстов	
  
•  Легок	
  в	
  реализации	
  
•  Дает	
  хорошие	
  результаты	
  
Популярные	
  методы/
•  TF-­‐IDF	
  
•  Log-­‐Likelihood	
  
•  Co-­‐occurrence	
  Matrix	
  &	
  Xi-­‐Square	
  
•  …	
  
Отличие	
  от	
  других	
  методов/
•  Понимание	
  терминов	
  «текст»	
  /	
  «корпус»	
  
•  TF-­‐IDF	
  –	
  кластеризация	
  (противопоставляем	
  один	
  
текст	
  корпуса	
  всем	
  остальным)	
  
•  У	
  нас	
  –	
  однородная	
  группа	
  
В	
  чем	
  суть	
  метода/
•  Задача:	
  извлечь	
  словосочетания,	
  которые	
  лучше	
  
всего	
  характеризовали	
  бы	
  текст.	
  	
  
•  Гипотеза:	
  если	
  какие-­‐либо	
  два	
  слова	
  часто	
  
встречаются	
  вместе	
  (в	
  одном	
  предложении)	
  и	
  редко	
  
по	
  отдельности	
  (с	
  другими	
  словами),	
  то	
  между	
  ними	
  
существует	
  семантическая	
  связь.	
  
•  Следовательно,	
  эти	
  два	
  слова	
  характеризуют	
  этот	
  
текст	
  лучше,	
  чем	
  остальные	
  пары	
  
Метод:	
  шаги/
•  В	
  тексте	
  N	
  слов.	
  
•  Считаем	
  частоту	
  каждого	
  слова	
  в	
  тексте.	
  
•  Выбираем	
  из	
  них	
  K	
  наиболее	
  частотных	
  –	
  они	
  
составляют	
  множество	
  G.	
  
•  Строим	
  матрицу	
  K*N.	
  
•  В	
  матрицу	
  записываем	
  частоту	
  совместной	
  
встречаемости.	
  
•  Оцениваем	
  значимость	
  слова	
  по	
  критерию	
  Xi-­‐Square.	
  
Xi-­‐Square/
Как	
  это	
  работает	
  у	
  нас/
Отрасль:	
  недвижимость	
  
	
  
•  Прогнали	
  метод	
  по	
  тематическим	
  группам	
  VK	
  
•  Тестировали	
  на	
  нерелевантных	
  лидах	
  
	
  
Спорные	
  вопросы/
•  Стоп-­‐слова	
  и	
  Text	
  Preprocessing	
  
•  Источники	
  
•  Лемматизация	
  
•  Machine	
  Learning	
  
Text	
  Preprocessing/
•  Удаление  стоп−слов	
  
•  text.Split();	
  
	
  
•  Что	
  считать	
  стоп-­‐словами?	
  	
  
•  Как	
  составить	
  список	
  стоп-­‐слов?	
  
•  Split	
  по	
  предложениям	
  или	
  по	
  абзацам?	
  
Источники/
•  Тематические	
  группы	
  
•  Форумы	
  
Лемматизация/
•  Нужна	
  или	
  нет?	
  
Machine	
  Learning/
Ручной	
  контроль	
  качества	
  
	
  
•  Большие	
  объемы	
  подтвержденных	
  сообщений	
  
•  Большие	
  объемы	
  удаленных	
  сообщений	
  
Cпасибо,	
  ваши	
  вопросы!	
  
	
  
	
  
	
  
Варвара	
  Красавина,	
  
skype:	
  opavshie_listya	
  
varvara.krasavina@youscan.ru	
  
@varvarakras	
  
	
  
We’re hiring! :)/

More Related Content

Similar to AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"

Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Pavel Egorov
 
Никулин Павел. Machine learning для текстового анализа
Никулин Павел. Machine learning для текстового анализаНикулин Павел. Machine learning для текстового анализа
Никулин Павел. Machine learning для текстового анализа
Дмитрий Шахов
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04Computer Science Club
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
20111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture220111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture2Computer Science Club
 
Methods for building dialog agents and the technologies we used
Methods for building dialog agents and the technologies we used Methods for building dialog agents and the technologies we used
Methods for building dialog agents and the technologies we used
Grid Dynamics
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
Ontico
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
GeeksLab Odessa
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Спецсеминар "Искусственный Интеллект" кафедры АЯ ВМК МГУ
 
Юрий Цыганенко, QA как услуга
Юрий Цыганенко, QA как услугаЮрий Цыганенко, QA как услуга
Юрий Цыганенко, QA как услуга
SQADays_2009_Piter
 
Особенности заработка в нише Essay
Особенности заработка в нише EssayОсобенности заработка в нише Essay
Особенности заработка в нише Essay
Дмитрий Петренко
 
Pedalim vacancy IT HR
Pedalim vacancy IT HRPedalim vacancy IT HR
Pedalim vacancy IT HR
IT-HR Club
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферированияArtem Lukanin
 
разработка бизнес приложений (7)
разработка бизнес приложений (7)разработка бизнес приложений (7)
разработка бизнес приложений (7)
Alexander Gornik
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)
Alexander Gornik
 
Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...
Eugene Bartov
 
Карта граблей на поле сбора и доставки логов. Lazada-way.
Карта граблей на поле сбора и доставки логов. Lazada-way.Карта граблей на поле сбора и доставки логов. Lazada-way.
Карта граблей на поле сбора и доставки логов. Lazada-way.
Yury Bushmelev
 
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
Ontico
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrievalAnton Konushin
 

Similar to AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний" (20)

Query expansion
Query expansionQuery expansion
Query expansion
 
Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)Машинное обучение (Открытый семинар по средам)
Машинное обучение (Открытый семинар по средам)
 
Никулин Павел. Machine learning для текстового анализа
Никулин Павел. Machine learning для текстового анализаНикулин Павел. Machine learning для текстового анализа
Никулин Павел. Machine learning для текстового анализа
 
20120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-0420120226 information retrieval raskovalov_lecture03-04
20120226 information retrieval raskovalov_lecture03-04
 
Реализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначностиРеализация метода автоматического разрешения лексической многозначности
Реализация метода автоматического разрешения лексической многозначности
 
20111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture220111001 information retrieval raskovalov_lecture2
20111001 information retrieval raskovalov_lecture2
 
Methods for building dialog agents and the technologies we used
Methods for building dialog agents and the technologies we used Methods for building dialog agents and the technologies we used
Methods for building dialog agents and the technologies we used
 
Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...Машинное обучение в электронной коммерции - практика использования и подводны...
Машинное обучение в электронной коммерции - практика использования и подводны...
 
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
FOSS Sea 2014_Текстовый анализ на R: подбор рекомендаций для книжного магазина
 
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализаКластеризация русскоязычных текстов на основе латентно-семантического анализа
Кластеризация русскоязычных текстов на основе латентно-семантического анализа
 
Юрий Цыганенко, QA как услуга
Юрий Цыганенко, QA как услугаЮрий Цыганенко, QA как услуга
Юрий Цыганенко, QA как услуга
 
Особенности заработка в нише Essay
Особенности заработка в нише EssayОсобенности заработка в нише Essay
Особенности заработка в нише Essay
 
Pedalim vacancy IT HR
Pedalim vacancy IT HRPedalim vacancy IT HR
Pedalim vacancy IT HR
 
Системы аннотирования и реферирования
Системы аннотирования и реферированияСистемы аннотирования и реферирования
Системы аннотирования и реферирования
 
разработка бизнес приложений (7)
разработка бизнес приложений (7)разработка бизнес приложений (7)
разработка бизнес приложений (7)
 
разработка бизнес приложений (6)
разработка бизнес приложений (6)разработка бизнес приложений (6)
разработка бизнес приложений (6)
 
Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...Освоение новых тематик в научно-технических переводах с привлечением специали...
Освоение новых тематик в научно-технических переводах с привлечением специали...
 
Карта граблей на поле сбора и доставки логов. Lazada-way.
Карта граблей на поле сбора и доставки логов. Lazada-way.Карта граблей на поле сбора и доставки логов. Lazada-way.
Карта граблей на поле сбора и доставки логов. Lazada-way.
 
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
Карта граблей на поле сбора и доставки логов. Lazada-way / Юрий Бушмелев (Laz...
 
CV2011 Lecture 10. Image retrieval
CV2011 Lecture 10.  Image retrievalCV2011 Lecture 10.  Image retrieval
CV2011 Lecture 10. Image retrieval
 

More from GeeksLab Odessa

DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
GeeksLab Odessa
 
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
GeeksLab Odessa
 
DataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Блиц-доклад_Турский ВикторDataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Блиц-доклад_Турский Виктор
GeeksLab Odessa
 
DataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScience Lab 2017_Обзор методов детекции лиц на изображениеDataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScience Lab 2017_Обзор методов детекции лиц на изображение
GeeksLab Odessa
 
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
GeeksLab Odessa
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
GeeksLab Odessa
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
GeeksLab Odessa
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
GeeksLab Odessa
 
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
GeeksLab Odessa
 
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
GeeksLab Odessa
 
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
GeeksLab Odessa
 
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
GeeksLab Odessa
 
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
GeeksLab Odessa
 
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
GeeksLab Odessa
 
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
GeeksLab Odessa
 
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
GeeksLab Odessa
 
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
GeeksLab Odessa
 
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
GeeksLab Odessa
 
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
GeeksLab Odessa
 
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
GeeksLab Odessa
 

More from GeeksLab Odessa (20)

DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
DataScience Lab2017_Коррекция геометрических искажений оптических спутниковых...
 
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
DataScience Lab 2017_Kappa Architecture: How to implement a real-time streami...
 
DataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Блиц-доклад_Турский ВикторDataScience Lab 2017_Блиц-доклад_Турский Виктор
DataScience Lab 2017_Блиц-доклад_Турский Виктор
 
DataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScience Lab 2017_Обзор методов детекции лиц на изображениеDataScience Lab 2017_Обзор методов детекции лиц на изображение
DataScience Lab 2017_Обзор методов детекции лиц на изображение
 
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
DataScienceLab2017_Сходство пациентов: вычистка дубликатов и предсказание про...
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
 
DataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-докладDataScienceLab2017_Блиц-доклад
DataScienceLab2017_Блиц-доклад
 
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
DataScienceLab2017_Cервинг моделей, построенных на больших данных с помощью A...
 
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
DataScienceLab2017_BioVec: Word2Vec в задачах анализа геномных данных и биоин...
 
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
DataScienceLab2017_Data Sciences и Big Data в Телекоме_Александр Саенко
 
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
DataScienceLab2017_Высокопроизводительные вычислительные возможности для сист...
 
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
DataScience Lab 2017_Мониторинг модных трендов с помощью глубокого обучения и...
 
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
DataScience Lab 2017_Кто здесь? Автоматическая разметка спикеров на телефонны...
 
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
DataScience Lab 2017_From bag of texts to bag of clusters_Терпиль Евгений / П...
 
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
DataScience Lab 2017_Графические вероятностные модели для принятия решений в ...
 
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
DataScienceLab2017_Оптимизация гиперпараметров машинного обучения при помощи ...
 
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
DataScienceLab2017_Как знать всё о покупателях (или почти всё)?_Дарина Перемот
 
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
JS Lab 2017_Mapbox GL: как работают современные интерактивные карты_Владимир ...
 
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
JS Lab2017_Под микроскопом: блеск и нищета микросервисов на node.js
 

AI&BigData Lab. Варвара Красавина "Оптимизация поиска в системе LeadScanner с помощью автоматического выделения ключевых слов и словосочетаний"

  • 1. Оптимизация поиска интента/ в системе LeadScanner / Варвара Красавина/
  • 2.         Варвара  Красавина,   computa2onal  linguist  @LeadScanr   кафедра  компьютерной  лингвистики  СПбГУ   @varvarakras    
  • 3.
  • 4.
  • 5.
  • 6. Наша  задача/ •  Найти  как  можно  больше  сообщений   •  Сократить  количество  нерелевантных  сообщений  
  • 7. Автоматическое  извлечение   ключевых  слов  и  словосочетаний/ •  Автоматическая  обработка  больших  объемов  текстов   •  Легок  в  реализации   •  Дает  хорошие  результаты  
  • 8. Популярные  методы/ •  TF-­‐IDF   •  Log-­‐Likelihood   •  Co-­‐occurrence  Matrix  &  Xi-­‐Square   •  …  
  • 9. Отличие  от  других  методов/ •  Понимание  терминов  «текст»  /  «корпус»   •  TF-­‐IDF  –  кластеризация  (противопоставляем  один   текст  корпуса  всем  остальным)   •  У  нас  –  однородная  группа  
  • 10. В  чем  суть  метода/ •  Задача:  извлечь  словосочетания,  которые  лучше   всего  характеризовали  бы  текст.     •  Гипотеза:  если  какие-­‐либо  два  слова  часто   встречаются  вместе  (в  одном  предложении)  и  редко   по  отдельности  (с  другими  словами),  то  между  ними   существует  семантическая  связь.   •  Следовательно,  эти  два  слова  характеризуют  этот   текст  лучше,  чем  остальные  пары  
  • 11. Метод:  шаги/ •  В  тексте  N  слов.   •  Считаем  частоту  каждого  слова  в  тексте.   •  Выбираем  из  них  K  наиболее  частотных  –  они   составляют  множество  G.   •  Строим  матрицу  K*N.   •  В  матрицу  записываем  частоту  совместной   встречаемости.   •  Оцениваем  значимость  слова  по  критерию  Xi-­‐Square.  
  • 13.
  • 14. Как  это  работает  у  нас/ Отрасль:  недвижимость     •  Прогнали  метод  по  тематическим  группам  VK   •  Тестировали  на  нерелевантных  лидах    
  • 15. Спорные  вопросы/ •  Стоп-­‐слова  и  Text  Preprocessing   •  Источники   •  Лемматизация   •  Machine  Learning  
  • 16. Text  Preprocessing/ •  Удаление  стоп−слов   •  text.Split();     •  Что  считать  стоп-­‐словами?     •  Как  составить  список  стоп-­‐слов?   •  Split  по  предложениям  или  по  абзацам?  
  • 19. Machine  Learning/ Ручной  контроль  качества     •  Большие  объемы  подтвержденных  сообщений   •  Большие  объемы  удаленных  сообщений  
  • 20. Cпасибо,  ваши  вопросы!         Варвара  Красавина,   skype:  opavshie_listya   varvara.krasavina@youscan.ru   @varvarakras     We’re hiring! :)/