SlideShare a Scribd company logo
1 of 7
Пономарёв С.В. serv@newmail.ru
• Возьмём Викисловарь, и закодируем его в виде графа, где узлами 
являются слова, а рёбрами – именованные связи между словами. 
• Связи будем кодировать в виде “яблоко > [гипероним] > плод” и “плод > 
[~гипероним] > яблоко”. Всего Викисловарь даёт порядка 315 тысяч 
вершин и 4.5 миллионов связей между ними. 
• Расширим базу, загрузив в неё доступные в открытом доступе словари 
(толковые, энциклопедические, синонимов, взаимозаменяемых 
выражений, арго и т.д.), а также тезаурусы. 
• Проведём парсинг 10 Гб художественных текстов и новостных 
сообщений, занесём в базу накопленные согласованные N-граммы. 
• В результате получим базу, содержащую в себе более 1 млн. вершин и 
порядка 150 миллионов связей между вершинами 32-х типов. База 
именованных связей между понятиями – триплетов, является 
онтологией. А база, накопленная на основании автоматического 
парсинга разнородных источников и статистической обработки текстов, 
является народной онтологией. 
Теория: http://en.wikipedia.org/wiki/Folksonomy#Folksontology
• Среднее число связей на вершину – 150, при этом, для 
распространённых слов и понятий количество связей 
достигает сотен тысяч, а для нераспространённых – 
единиц и десятков. Важно, что база имеет высокую 
связность, и всегда можно найти множество вариантов 
пути от одной вершины к другой. Это справедливо даже 
для слов, не представленных ни в одном из словарей и 
тезаурусов. Такие слова как минимум имеют связи 
через статистику использования – N-граммы. 
Теория: 
http://en.wikipedia.org/wiki/Folksonomy#Folksontology
Предположим, некто ввёл в Яндексе поисковый запрос 
Изучив результаты выдачи, некто решил конкретизировать 
свой запрос и ввёл 
Имеется ли возможность определить, что минивэны 
релевантны запросу “большая семейная машина” для 
таргетирования рекламы и улучшения результатов поиска?
Для этого в базе народной онтологии необходимо найти 
такой путь от вершин “большая”, “семейная” и “машина”, 
чтобы они сходились на вершине “минивэн” с высокой 
достоверностью. Рассмотрим возможный вариант такого 
пути: 
1. машина > [синоним] > автомобиль 
2. большой > [~N-грамма прил.-сущ.] > минивэн 
3. семейный > [~N-грамма прил.-сущ.] > минивэн 
4. автомобиль > [~определяющее слово] > минивэн 
Источником первой связи являются словари, источниками 
остальных связей – парсинг текстов.
Таким образом, изучив историю запросов пользователя Яндекса, мы смогли 
построить некоторый алгоритм вычисления уточнённого запроса. Попробуем 
применить этот алгоритм. 
1. способ > [синоним] > алгоритм 
2. быстрый > [~N-грамма прил.-сущ.] > поразрядная сортировка 
3. сортировки > [прямое соответствие лемм] > поразрядная сортировка 
4. алгоритм > [~определяющее слово] > поразрядная сортировка 
В итоге, имеем ожидаемое уточнение запроса “быстрый способ сортировки” 
до запроса “поразрядная сортировка”. Можно сформировать подсказку вида 
Возможно, Вас заинтересует поразрядная сортировка 
и таргетировать рекламу.
На примере показано, что: 
• Пользователи Яндекса могут обучать Яндекс стратегии поиска, в 
результате Яндекс способен предполагать следующий уточняющий 
запрос, давать подсказки, повышая юзабилити, и таргетировать рекламу; 
• Пути в базе народной онтологии универсальны и применимы к запросам 
из разных предметных областей; 
• Пути, описывающие стратегию поиска пользователей Яндекса, можно 
генерировать и уточнять автоматически. 
При автоматической генерации пути, соответствующего паре “запрос” – 
“уточнённый запрос”, генерируется не единственный, как в примере, путь, а 
набор путей, взвешенных весовыми коэффициентами. При обработке 
однотипных пар “запрос” – “уточнённый запрос” коэффициенты 
настраиваются методами машинного обучения под максимальную 
релевантность результата. Другими словами, при автоматической генерации 
формируется правило, принимающее на своём входе набор путей, 
взвешивающее их весовыми коэффициентами и подстраивающее 
коэффициенты для уменьшения ошибки. Да, это он - 
https://ru.wikipedia.org/wiki/Персептрон Только оперирует персептрон не 
числовыми значениями входов, а словами.

More Related Content

What's hot

[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.You DZ
 
Query expansion
Query expansionQuery expansion
Query expansionNLPseminar
 
Аналитика SEO: часть 2. Ссылочные факторы ранжирования
Аналитика SEO: часть 2. Ссылочные факторы ранжированияАналитика SEO: часть 2. Ссылочные факторы ранжирования
Аналитика SEO: часть 2. Ссылочные факторы ранжированияДмитрий Севальнев
 
ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДbibibstu
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Nikolay Khivrin
 
Pavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski YandexPavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski Yandexrit2010
 
How to search and to find everytime
How to search and to find everytimeHow to search and to find everytime
How to search and to find everytimeEduCampKyiv2008
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовYandex
 
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...Mail.ru Group
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов Lidia Pivovarova
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииIlia Karpov
 

What's hot (19)

Автоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображенияАвтоматический анализ текста для аннотирования изображения
Автоматический анализ текста для аннотирования изображения
 
[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.[Youdz.ru] поиск в интернете.
[Youdz.ru] поиск в интернете.
 
презентация интернет
презентация интернетпрезентация интернет
презентация интернет
 
Query expansion
Query expansionQuery expansion
Query expansion
 
Аналитика SEO: часть 2. Ссылочные факторы ранжирования
Аналитика SEO: часть 2. Ссылочные факторы ранжированияАналитика SEO: часть 2. Ссылочные факторы ранжирования
Аналитика SEO: часть 2. Ссылочные факторы ранжирования
 
ИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БДИВИС Инструкция по работе с БД
ИВИС Инструкция по работе с БД
 
Извлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстовИзвлечение знаний и фактов из текстов
Извлечение знаний и фактов из текстов
 
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
Алгоритмы автоматизированного составления и группировки семантических ядер (Н...
 
Masa
MasaMasa
Masa
 
PressPortrets
PressPortretsPressPortrets
PressPortrets
 
РОМИП
РОМИПРОМИП
РОМИП
 
Pavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski YandexPavel Braslavski Related Queries Braslavski Yandex
Pavel Braslavski Related Queries Braslavski Yandex
 
How to search and to find everytime
How to search and to find everytimeHow to search and to find everytime
How to search and to find everytime
 
Методы морфологического анализа текстов
Методы морфологического анализа текстовМетоды морфологического анализа текстов
Методы морфологического анализа текстов
 
извлечение объектов и фактов из текстов
извлечение объектов и фактов из текстовизвлечение объектов и фактов из текстов
извлечение объектов и фактов из текстов
 
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...
Python для тематического моделирования комментариев ВКонтакте, Дмитрий Сергее...
 
Алексей Колосов
Алексей Колосов Алексей Колосов
Алексей Колосов
 
Сбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информацииСбор, анализ, обработка текстовой информации
Сбор, анализ, обработка текстовой информации
 
Программная поддержка морфемного словаря
Программная поддержка морфемного словаряПрограммная поддержка морфемного словаря
Программная поддержка морфемного словаря
 

Viewers also liked

Автоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиАвтоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиСергей Пономарев
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахСергей Пономарев
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросовСергей Пономарев
 

Viewers also liked (6)

Автоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержкиАвтоматическая голосовая служба поддержки
Автоматическая голосовая служба поддержки
 
Word2vec для поискового движка II
Word2vec для поискового движка IIWord2vec для поискового движка II
Word2vec для поискового движка II
 
Learning by Analogy
Learning by AnalogyLearning by Analogy
Learning by Analogy
 
Технологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языкахТехнологический стек классификации текстов на естественных языках
Технологический стек классификации текстов на естественных языках
 
Классификация поисковых запросов
Классификация поисковых запросовКлассификация поисковых запросов
Классификация поисковых запросов
 
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORKLEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
LEARNING BY ANALOGY IN A HYBRID ONTOLOGICAL NETWORK
 

Similar to Концепция поисковых расширений

поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернетеsolodmar
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Дмитрий Севальнев
 
Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Agency for social information
 
презентация форма
презентация формапрезентация форма
презентация формаDimaTopExpert
 
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантикаIvan Pronko
 
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев ДмитрийДмитрий Севальнев
 
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаПрезентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаAndrew PersonBh
 
технология поиска информации в интернете
технология поиска информации в интернететехнология поиска информации в интернете
технология поиска информации в интернетеANSevrukova
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системыNetpeak
 
Семантика
Семантика Семантика
Семантика ptax
 
Поисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининПоисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининMyAcademy
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwYury Katkov
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученикаKuznecov
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentationKuznecov
 
работа в интернет
работа в интернетработа в интернет
работа в интернетNatalyaSH
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаAndrei Builov
 

Similar to Концепция поисковых расширений (20)

поиск в интернете
поиск в интернетепоиск в интернете
поиск в интернете
 
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
Мадорский. Извлечение тематически сгруппированных ключевых терминов из тексто...
 
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
Анализ механизма обработки запроса в поисковых системах [Севальнев, MegaIndex...
 
Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»Медиаклуб «SEO для НКО: инструкция по применению»
Медиаклуб «SEO для НКО: инструкция по применению»
 
презентация форма
презентация формапрезентация форма
презентация форма
 
скIm2 занятие 2 - seo, семантика
скIm2   занятие 2 - seo, семантикаскIm2   занятие 2 - seo, семантика
скIm2 занятие 2 - seo, семантика
 
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
«SEO-экспериментариум», выпуск 1 на MegaIndex.TV. Севальнев Дмитрий
 
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайтаПрезентация SEO - все что нужно знать про поисковую оптимизацию сайта
Презентация SEO - все что нужно знать про поисковую оптимизацию сайта
 
технология поиска информации в интернете
технология поиска информации в интернететехнология поиска информации в интернете
технология поиска информации в интернете
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Принципы работы поисковой системы
Принципы работы поисковой системыПринципы работы поисковой системы
Принципы работы поисковой системы
 
Семантика
Семантика Семантика
Семантика
 
Поисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил ФедорининПоисковое продвижение - Михаил Федоринин
Поисковое продвижение - Михаил Федоринин
 
разработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSwразработка методов извлечения информации из веб ресурсовSw
разработка методов извлечения информации из веб ресурсовSw
 
поисковые системы презентация ученика
поисковые системы презентация ученикапоисковые системы презентация ученика
поисковые системы презентация ученика
 
Puple's presentation
Puple's presentationPuple's presentation
Puple's presentation
 
работа в интернет
работа в интернетработа в интернет
работа в интернет
 
лекция 5
лекция 5лекция 5
лекция 5
 
Извлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусовИзвлечение перевожных эквивалентов из параллельных корпусов
Извлечение перевожных эквивалентов из параллельных корпусов
 
Продвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея БуйловаПродвижение сайтов в Уфе от Андрея Буйлова
Продвижение сайтов в Уфе от Андрея Буйлова
 

Концепция поисковых расширений

  • 2. • Возьмём Викисловарь, и закодируем его в виде графа, где узлами являются слова, а рёбрами – именованные связи между словами. • Связи будем кодировать в виде “яблоко > [гипероним] > плод” и “плод > [~гипероним] > яблоко”. Всего Викисловарь даёт порядка 315 тысяч вершин и 4.5 миллионов связей между ними. • Расширим базу, загрузив в неё доступные в открытом доступе словари (толковые, энциклопедические, синонимов, взаимозаменяемых выражений, арго и т.д.), а также тезаурусы. • Проведём парсинг 10 Гб художественных текстов и новостных сообщений, занесём в базу накопленные согласованные N-граммы. • В результате получим базу, содержащую в себе более 1 млн. вершин и порядка 150 миллионов связей между вершинами 32-х типов. База именованных связей между понятиями – триплетов, является онтологией. А база, накопленная на основании автоматического парсинга разнородных источников и статистической обработки текстов, является народной онтологией. Теория: http://en.wikipedia.org/wiki/Folksonomy#Folksontology
  • 3. • Среднее число связей на вершину – 150, при этом, для распространённых слов и понятий количество связей достигает сотен тысяч, а для нераспространённых – единиц и десятков. Важно, что база имеет высокую связность, и всегда можно найти множество вариантов пути от одной вершины к другой. Это справедливо даже для слов, не представленных ни в одном из словарей и тезаурусов. Такие слова как минимум имеют связи через статистику использования – N-граммы. Теория: http://en.wikipedia.org/wiki/Folksonomy#Folksontology
  • 4. Предположим, некто ввёл в Яндексе поисковый запрос Изучив результаты выдачи, некто решил конкретизировать свой запрос и ввёл Имеется ли возможность определить, что минивэны релевантны запросу “большая семейная машина” для таргетирования рекламы и улучшения результатов поиска?
  • 5. Для этого в базе народной онтологии необходимо найти такой путь от вершин “большая”, “семейная” и “машина”, чтобы они сходились на вершине “минивэн” с высокой достоверностью. Рассмотрим возможный вариант такого пути: 1. машина > [синоним] > автомобиль 2. большой > [~N-грамма прил.-сущ.] > минивэн 3. семейный > [~N-грамма прил.-сущ.] > минивэн 4. автомобиль > [~определяющее слово] > минивэн Источником первой связи являются словари, источниками остальных связей – парсинг текстов.
  • 6. Таким образом, изучив историю запросов пользователя Яндекса, мы смогли построить некоторый алгоритм вычисления уточнённого запроса. Попробуем применить этот алгоритм. 1. способ > [синоним] > алгоритм 2. быстрый > [~N-грамма прил.-сущ.] > поразрядная сортировка 3. сортировки > [прямое соответствие лемм] > поразрядная сортировка 4. алгоритм > [~определяющее слово] > поразрядная сортировка В итоге, имеем ожидаемое уточнение запроса “быстрый способ сортировки” до запроса “поразрядная сортировка”. Можно сформировать подсказку вида Возможно, Вас заинтересует поразрядная сортировка и таргетировать рекламу.
  • 7. На примере показано, что: • Пользователи Яндекса могут обучать Яндекс стратегии поиска, в результате Яндекс способен предполагать следующий уточняющий запрос, давать подсказки, повышая юзабилити, и таргетировать рекламу; • Пути в базе народной онтологии универсальны и применимы к запросам из разных предметных областей; • Пути, описывающие стратегию поиска пользователей Яндекса, можно генерировать и уточнять автоматически. При автоматической генерации пути, соответствующего паре “запрос” – “уточнённый запрос”, генерируется не единственный, как в примере, путь, а набор путей, взвешенных весовыми коэффициентами. При обработке однотипных пар “запрос” – “уточнённый запрос” коэффициенты настраиваются методами машинного обучения под максимальную релевантность результата. Другими словами, при автоматической генерации формируется правило, принимающее на своём входе набор путей, взвешивающее их весовыми коэффициентами и подстраивающее коэффициенты для уменьшения ошибки. Да, это он - https://ru.wikipedia.org/wiki/Персептрон Только оперирует персептрон не числовыми значениями входов, а словами.