SlideShare a Scribd company logo
1 of 18
Николай Хиврин, CEO ALTWeb Group
Новые технологии в поисковом
ранжировании
К чему все привыкли?
- Число вхождений
- Переспам
- TF
- IDF
- TF*IDF
Так ли это актуально сейчас?
Deep learning
- набор алгоритмов машинного обучения, которые
пытаются моделировать высокоуровневые абстракции в
данных, используя архитектуры, состоящие из множества
нелинейных трансформаций
Применение
- распознавание изображений
- распознавание смысла текста
- определение коммерческих факторов
- расширение запроса
- подсказки
и т.д.
Векторные представления слов (word
embeddings)
W: words -> Rn
W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…)
W(“окна”) = (0.0,0.1,0.5,0.1,…)
Обычно, функция определяется матрицей
Функция корректности N-грамм
Новые подходы к проверке орфографии
- обучение на текстах с высоким уровнем доверия
- автоматическая подстройка алгоритма
Word2vec
- вычисление расстояний между словами
https://code.google.com/archive/p/word2vec/
Word2vec
Word2vec
GBRT (Gradient Boosted Regression Trees)
DSSM (Deep Structured Semantic Models)
DSSM, developed by the MSR Deep Learning Technology
Center(DLTC), is a deep neural network (DNN) modeling
technique for representing text strings (sentences, queries,
predicates, entity mentions, etc.) in a continuous semantic
space and modeling semantic similarity between two text
strings (e.g., Sent2Vec)
RNN (Recurrent neural network)
Вид нейронных сетей, в которых имеется обратная связь.
При этом под обратной связью подразумевается связь от
логически более удалённого элемента к менее
удалённому. Наличие обратных связей позволяет
запоминать и воспроизводить целые последовательности
реакций на один стимул
Векторное представление документов
Векторная модель (vector space model) представление
коллекции документов векторами из одного общего для
всей коллекции векторного пространства.
Дистрибутивная семантика
- область лингвистики, которая занимается вычислением
степени семантической близости между лингвистическими
единицами на основании их дистрибуционных признаков в
больших массивах лингвистических данных
- каждому слову присваивается свой контекстный вектор.
Множество векторов формирует словесное векторное
пространство
Пример словесного векторного пространства,
описывающего дистрибутивные характеристики слов tea и
coffee, в котором контекстом выступает соседнее слово

More Related Content

Viewers also liked

English cataloge
English catalogeEnglish cataloge
English catalogechan2580
 
Автоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияАвтоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияNikolay Khivrin
 
Analysing a pop music video conventions (5sos)
Analysing a pop music video conventions (5sos)Analysing a pop music video conventions (5sos)
Analysing a pop music video conventions (5sos)helkin
 
Focus group feedback
Focus group feedbackFocus group feedback
Focus group feedbackhelkin
 
Q6 (1)
Q6 (1)Q6 (1)
Q6 (1)helkin
 
Defining America: media discourse surrounding All-American Muslim
Defining America: media discourse surrounding All-American MuslimDefining America: media discourse surrounding All-American Muslim
Defining America: media discourse surrounding All-American MuslimCortney Copeland
 
493458
493458493458
493458fomga
 
Composition teaching resource
Composition teaching resourceComposition teaching resource
Composition teaching resourceChloe_ann07
 
Nhóm 3: chính trị gia
Nhóm 3: chính trị giaNhóm 3: chính trị gia
Nhóm 3: chính trị gianhok_violet
 
Скрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиСкрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиNikolay Khivrin
 

Viewers also liked (14)

English cataloge
English catalogeEnglish cataloge
English cataloge
 
Advertising campaigns
Advertising campaignsAdvertising campaigns
Advertising campaigns
 
Автоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжированияАвтоматизированное влияние на социальные факторы ранжирования
Автоматизированное влияние на социальные факторы ранжирования
 
Analysing a pop music video conventions (5sos)
Analysing a pop music video conventions (5sos)Analysing a pop music video conventions (5sos)
Analysing a pop music video conventions (5sos)
 
Focus group feedback
Focus group feedbackFocus group feedback
Focus group feedback
 
Task 31
Task 31Task 31
Task 31
 
Q6 (1)
Q6 (1)Q6 (1)
Q6 (1)
 
Defining America: media discourse surrounding All-American Muslim
Defining America: media discourse surrounding All-American MuslimDefining America: media discourse surrounding All-American Muslim
Defining America: media discourse surrounding All-American Muslim
 
Thuyết trình
Thuyết trìnhThuyết trình
Thuyết trình
 
493458
493458493458
493458
 
Composition teaching resource
Composition teaching resourceComposition teaching resource
Composition teaching resource
 
Nhóm 3: chính trị gia
Nhóm 3: chính trị giaNhóm 3: chính trị gia
Nhóm 3: chính trị gia
 
Evaluation q2
Evaluation q2Evaluation q2
Evaluation q2
 
Скрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковкиСкрытый потенциал внутренней перелинковки
Скрытый потенциал внутренней перелинковки
 

Similar to Новые технологии в поисковом ранжировании

Хиврин - Алгоритмы выявления Seo ссылок
Хиврин - Алгоритмы выявления Seo ссылокХиврин - Алгоритмы выявления Seo ссылок
Хиврин - Алгоритмы выявления Seo ссылокSEO Conference
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...SQALab
 
Ml and its bright future
Ml and its bright futureMl and its bright future
Ml and its bright futureSergey Melekhin
 
School IT recruiting
School IT recruiting School IT recruiting
School IT recruiting Olga Kotova
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серыйVladislav Morgun
 
Управление &#1087...
Управление &#1087...Управление &#1087...
Управление &#1087...akor
 
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Ontico
 
Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasNetpeak
 
Построение гендерного классификатора
Построение гендерного классификатораПостроение гендерного классификатора
Построение гендерного классификатораVladimir Pavlov
 
Архитектура фронтенда и дизайн-системы
Архитектура фронтенда и дизайн-системыАрхитектура фронтенда и дизайн-системы
Архитектура фронтенда и дизайн-системыЮлия Коваленко
 
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!SPB SQA Group
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаAndrei Builov
 
Microsoft Visual Studio 2010
Microsoft Visual Studio 2010Microsoft Visual Studio 2010
Microsoft Visual Studio 2010Alexander Babich
 
Building SOC for business: desires and reality
Building SOC for business: desires and realityBuilding SOC for business: desires and reality
Building SOC for business: desires and realityA1 Belarus
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)NLPseminar
 
Pedalim vacancy IT HR
Pedalim vacancy IT HRPedalim vacancy IT HR
Pedalim vacancy IT HRIT-HR Club
 
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art)
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art) DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art)
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art) it-people
 
Дмитрий Сошников Искусственный интеллект и нейросети для .NET-разработчиков
Дмитрий Сошников    Искусственный интеллект и нейросети для .NET-разработчиковДмитрий Сошников    Искусственный интеллект и нейросети для .NET-разработчиков
Дмитрий Сошников Искусственный интеллект и нейросети для .NET-разработчиковMskDotNet Community
 
Эмоции в разработки. Спасаем продуктивность
Эмоции в разработки. Спасаем продуктивностьЭмоции в разработки. Спасаем продуктивность
Эмоции в разработки. Спасаем продуктивностьEgor Malkevich
 

Similar to Новые технологии в поисковом ранжировании (20)

Хиврин - Алгоритмы выявления Seo ссылок
Хиврин - Алгоритмы выявления Seo ссылокХиврин - Алгоритмы выявления Seo ссылок
Хиврин - Алгоритмы выявления Seo ссылок
 
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
Тестирование высоконагруженных облачных веб-сервисов в Amazon - подводные кам...
 
Ml and its bright future
Ml and its bright futureMl and its bright future
Ml and its bright future
 
School IT recruiting
School IT recruiting School IT recruiting
School IT recruiting
 
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
08.11 SEMPRO Club - Влад Моргун - Цвет настроения серый
 
Управление &#1087...
Управление &#1087...Управление &#1087...
Управление &#1087...
 
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
Современные архитектуры диалоговых систем / Анатолий Востряков (Segmento)
 
Основы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой PandasОсновы Python. Работа с библиотекой Pandas
Основы Python. Работа с библиотекой Pandas
 
855493.pptx
855493.pptx855493.pptx
855493.pptx
 
Построение гендерного классификатора
Построение гендерного классификатораПостроение гендерного классификатора
Построение гендерного классификатора
 
Архитектура фронтенда и дизайн-системы
Архитектура фронтенда и дизайн-системыАрхитектура фронтенда и дизайн-системы
Архитектура фронтенда и дизайн-системы
 
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
ITGM8. Илья Коробицын (Grid Dinamics) Автоматизатор, копай глубже, копай шире!
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея Буйлова
 
Microsoft Visual Studio 2010
Microsoft Visual Studio 2010Microsoft Visual Studio 2010
Microsoft Visual Studio 2010
 
Building SOC for business: desires and reality
Building SOC for business: desires and realityBuilding SOC for business: desires and reality
Building SOC for business: desires and reality
 
Fact Extraction (ideograph)
Fact Extraction (ideograph)Fact Extraction (ideograph)
Fact Extraction (ideograph)
 
Pedalim vacancy IT HR
Pedalim vacancy IT HRPedalim vacancy IT HR
Pedalim vacancy IT HR
 
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art)
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art) DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art)
DUMP-2012 - Только хардкор! - "Расширяем PHP" Сергей Горшков (index.art)
 
Дмитрий Сошников Искусственный интеллект и нейросети для .NET-разработчиков
Дмитрий Сошников    Искусственный интеллект и нейросети для .NET-разработчиковДмитрий Сошников    Искусственный интеллект и нейросети для .NET-разработчиков
Дмитрий Сошников Искусственный интеллект и нейросети для .NET-разработчиков
 
Эмоции в разработки. Спасаем продуктивность
Эмоции в разработки. Спасаем продуктивностьЭмоции в разработки. Спасаем продуктивность
Эмоции в разработки. Спасаем продуктивность
 

More from Nikolay Khivrin

Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Nikolay Khivrin
 
Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Nikolay Khivrin
 
Cпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФCпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФNikolay Khivrin
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Nikolay Khivrin
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринNikolay Khivrin
 
Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринNikolay Khivrin
 

More from Nikolay Khivrin (6)

Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
Эффективная оценка видимости сайтов в поисковых системах - Optimization 2016
 
Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015Изменения на рынке SEO, Николай Хиврин - RIW 2015
Изменения на рынке SEO, Николай Хиврин - RIW 2015
 
Cпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФCпособы естественного улучшения ПФ
Cпособы естественного улучшения ПФ
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
 
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай ХивринВлияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
Влияние переходов по ссылкам на поисковое ранжирование, Николай Хиврин
 
Факторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай ХивринФакторы ранжирования Яндекс, Николай Хиврин
Факторы ранжирования Яндекс, Николай Хиврин
 

Новые технологии в поисковом ранжировании

  • 1. Николай Хиврин, CEO ALTWeb Group Новые технологии в поисковом ранжировании
  • 2. К чему все привыкли? - Число вхождений - Переспам - TF - IDF - TF*IDF Так ли это актуально сейчас?
  • 3.
  • 4.
  • 5. Deep learning - набор алгоритмов машинного обучения, которые пытаются моделировать высокоуровневые абстракции в данных, используя архитектуры, состоящие из множества нелинейных трансформаций
  • 6. Применение - распознавание изображений - распознавание смысла текста - определение коммерческих факторов - расширение запроса - подсказки и т.д.
  • 7. Векторные представления слов (word embeddings) W: words -> Rn W(“пластиковые”) = (0.1,0.3,-0.2,0.7,…) W(“окна”) = (0.0,0.1,0.5,0.1,…) Обычно, функция определяется матрицей
  • 9. Новые подходы к проверке орфографии - обучение на текстах с высоким уровнем доверия - автоматическая подстройка алгоритма
  • 10. Word2vec - вычисление расстояний между словами https://code.google.com/archive/p/word2vec/
  • 13. GBRT (Gradient Boosted Regression Trees)
  • 14. DSSM (Deep Structured Semantic Models) DSSM, developed by the MSR Deep Learning Technology Center(DLTC), is a deep neural network (DNN) modeling technique for representing text strings (sentences, queries, predicates, entity mentions, etc.) in a continuous semantic space and modeling semantic similarity between two text strings (e.g., Sent2Vec)
  • 15. RNN (Recurrent neural network) Вид нейронных сетей, в которых имеется обратная связь. При этом под обратной связью подразумевается связь от логически более удалённого элемента к менее удалённому. Наличие обратных связей позволяет запоминать и воспроизводить целые последовательности реакций на один стимул
  • 16. Векторное представление документов Векторная модель (vector space model) представление коллекции документов векторами из одного общего для всей коллекции векторного пространства.
  • 17. Дистрибутивная семантика - область лингвистики, которая занимается вычислением степени семантической близости между лингвистическими единицами на основании их дистрибуционных признаков в больших массивах лингвистических данных - каждому слову присваивается свой контекстный вектор. Множество векторов формирует словесное векторное пространство
  • 18. Пример словесного векторного пространства, описывающего дистрибутивные характеристики слов tea и coffee, в котором контекстом выступает соседнее слово