ТЕМАТИЧЕСКАЯ 
КЛАССИФИКАЦИЯ
Павел Браславский ‐ Анализ запросов 34
Тематическая классификацияТематическая классификация
?Зачем?
• релевантность (в т.ч. рекламы)р ( р )
• вертикальные поиски...
Selectional Preferences: Step 1Selectional Preferences: Step 1
• Obtain a large log of unlabeled web queries
• View each q...
Selectional Preferences: Step 2Selectional Preferences: Step 2
Obt i t f ll l b l d i• Obtain a set of manually labeled qu...
Selectional Preferences: Step 2Selectional Preferences: Step 2
“Personal Finance”
Category
“Personal Finance”
CategoryCate...
Selectional Preferences: Step 3Selectional Preferences: Step 3
• Score each preference using Resnik’s Selectional Preferen...
Selectional Preferences: Step 4Selectional Preferences: Step 4
• Use the mined preferences and weighted scores from Steps ...
Selectional Preference Rule ExamplesSelectional Preference Rule Examples
Forward Rules
– harlem club X
Backward Rules
– X ...
На основе коллекции текстовНа основе коллекции текстов
запросзапрос
поиск
дом спорт музыка кинодом спорт музыка кино
10
15...
KDD Cup 2005KDD Cup 2005
• Классификация запросов
• 800,000 запросов, 67 категорий
б• есть примеры, нет обучающего множест...
Nature of ProblemNature of Problem
queries …? 67 kdd-categories
synonym-basedPage Categories
Phase I Phase II
classifier
q...
Phase I: From queries to pages and 
categories 
• Input: 
– A query: Qi,
• We collected 
– 40 million entries
50GBA query:...
Phase II.a Synonym‐based Classifier: 
using directories
– 67 KDD‐categories in KDDCUP
– 172,565 in ODP/Google,
• Advantage...
Phase II b: Statistical ClassifiersPhase II.b: Statistical Classifiers
• Statistical Classifiers• Statistical Classifiers
...
Component Classifier IntegrationComponent Classifier Integration
W f ll bl l i h• We follow an ensemble learning approach
...
Final Result GenerationFinal Result Generation
• Two Solutions: One for each evaluation criteria 
– S1: Using the validati...
Putting them togetherPutting them together
Phase I Phase II Ensemble
Павел Браславский ‐ Анализ запросов 50
[Shen]
Классификация на основе кликовКлассификация на основе кликов
1. Расширение обучающего множества
2. Классификация на основе...
Классификация запросовКлассификация запросов
x за рос y к асс (0/1)x – запрос, y – класс (0/1)
Признаки φ(x, y) - n‐граммы...
Распространение метокРаспространение меток
• W – матрица mxn, wij – количество кликов на 
документ j по запросу iд у j р у...
КомбинацияКомбинация
Павел Браславский ‐ Анализ запросов 54
БЛИЗКИЕ ЗАПРОСЫ
Павел Браславский ‐ Анализ запросов 55
михаил булгаков богдан ступка и аил булга ов
мастер и маргарита
мастер и маргарита фильм
богда с у а
михаил боярский 
д'ар...
ПодробнееПодробнее
1. Уточнение:
золотое кольцо  золотое кольцо с бриллиантом
2. Снятие неоднозначности: 
ягуар  ягуар жив...
Еще подробнееЕще подробнее
5. Другой запрос на ту же тему: 
мерседес ауди
6 С й6. Смена поисковой цели:
купить санки детск...
Близкие но «про другое»Близкие, но «про другое»
• Опечатки: курсовая робота – курсовая работа
• Транслитерация: золото – z...
Хороший запрос это непростоХороший запрос – это непросто
Назовите глагол из вопроса, помещенного 
б дна борту транспортног...
Работа мыслиРабота мысли
• Фатих Терим
• сборная турции на борту самолета 
• сборная турции "на борту" самолетасборная тур...
ОтветОтвет
Вместит ли автобус всю страсть Турции?Вместит ли автобус всю страсть Турции?
62Павел Браславский ‐ Анализ запро...
63Павел Браславский ‐ Анализ запросов
64Павел Браславский ‐ Анализ запросов
65Павел Браславский ‐ Анализ запросов
66Павел Браславский ‐ Анализ запросов
67Павел Браславский ‐ Анализ запросов
68Павел Браславский ‐ Анализ запросов
Источники данныхИсточники данных
• Лог запросов
• Текст ссылокТекст ссылок 
• Корпус текстов
ford  ford focus, ford fusion...
Близость запросовБлизость запросов
q2 q3 q4q1
слова/буквы сессиислова/буквы сессии
клики
70Павел Браславский ‐ Анализ запр...
МетодМетод
0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки)
запрос=<timeStamp, userId, queryText, ckic...
Метод 2Метод – 2 
3 (3. нормализация запросов (стоп‐слова, капитализация, лемматизация, 
сортировка слов + выбор лучшего о...
ОценкаОценка
• «оценка глазами»
• «классы объектов»«классы объектов»
• кластеры запросов Яндекс.Директа
• кликабельность
7...
РезультатРезультат
74Павел Браславский ‐ Анализ запросов
ЛитератураЛитература
• Broder A. A Taxonomy of Web Search. SIGIR 2002.
• Broder A. et al. Robust classification of rare qu...
СсылкиСсылки
• И AOL• История про лог AOL – см. 
http://en.wikipedia.org/wiki/AOL_search_data_scandal
• Поиск по логу AOL2...
ПРАКТИКА
Павел Браславский ‐ Анализ запросов 77
ПрактикаПрактика
З• Задачи 
– Сегментация
– Тематическая классификацияТематическая классификация
– Близкие запросы
• Данны...
DMOZDMOZ
няго уровнии второкатегорик
Павел Браславский ‐ Анализ запросов 79
ПримерыПримеры
Сегментация
• at the vet | norman rockwell | litho
• big weenie | by eminem
Тематическая классификация
• bi...
• Присылайте по почте с темой 
querylog_analysis_resultsq y g_ y _
• segmentation_имя_фамилия.txt
l ifi i ф• classificatio...
Павел БраславскийПавел Браславский
pb@yandex‐team.ru
82Павел Браславский ‐ Анализ запросов
Upcoming SlideShare
Loading in...5
×

20101127 search query_analysis_braslavski_lecture02

476

Published on

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
476
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
4
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

20101127 search query_analysis_braslavski_lecture02

  1. 1. ТЕМАТИЧЕСКАЯ  КЛАССИФИКАЦИЯ Павел Браславский ‐ Анализ запросов 34
  2. 2. Тематическая классификацияТематическая классификация ?Зачем? • релевантность (в т.ч. рекламы)р ( р ) • вертикальные поиски ДанныеДанные • список запросов • коллекция текстов • вебвеб • клики Павел Браславский ‐ Анализ запросов 35
  3. 3. Selectional Preferences: Step 1Selectional Preferences: Step 1 • Obtain a large log of unlabeled web queries • View each query as pairs of lexical units:View each query as pairs of lexical units: – <head, tail> O l li bl i f 2– Only applicable to queries of 2+ terms – Queries with n terms form n‐1 pairs – Example: “directions to DIMACS” forms two pairs: • <directions to DIMACS> and <directions to<directions, to DIMACS> and <directions to,  DIMACS> Павел Браславский ‐ Анализ запросов 36[Beitzel]
  4. 4. Selectional Preferences: Step 2Selectional Preferences: Step 2 Obt i t f ll l b l d i• Obtain a set of manually labeled queries • Check the heads and tails of each pair to see if  h i h ll l b l dthey appear in the manually labeled set • Convert each <head, tail> pair into: – <head, CATEGORY> (forward preference) – <CATEGORY, tail> (backward preference) Павел Браславский ‐ Анализ запросов 37[Beitzel]
  5. 5. Selectional Preferences: Step 2Selectional Preferences: Step 2 “Personal Finance” Category “Personal Finance” CategoryCategory Query Log Forward SP Rule:… banks Category Query Log Forward SP Rule:… banks … Yahoo mail banks bonds stocks Head PERSONAL Tail… Yahoo mail banks bonds stocks Head PERSONAL Tail interest rates Ebay motors … rates savings checking interest PERSONAL FINANCE interest rates Ebay motors … rates savings checking interest PERSONAL FINANCE …… Павел Браславский ‐ Анализ запросов 38[Beitzel]
  6. 6. Selectional Preferences: Step 3Selectional Preferences: Step 3 • Score each preference using Resnik’s Selectional Preference  Strength formula: S (x ) = D ( P (U |x ) || P (U ) ) P (u |x ) P (u |x )lo g ⎛ ⎞ ⎜ ⎟∑ 2 u ( | ) = P (u |x )lo g P (u ) ⎜ ⎟ ⎝ ⎠ ∑ Where u represents a category, as found in Step 2. S(x) is the sum of the weighted scores for every category  i d i h i l i l iassociated with a given lexical unit Павел Браславский ‐ Анализ запросов 39[Beitzel]
  7. 7. Selectional Preferences: Step 4Selectional Preferences: Step 4 • Use the mined preferences and weighted scores from Steps 3 and 4 to  assign classifications to unseen queries Incoming Query Matching SP Rule: Head Tail Incoming Query Matching SP Rule: Head Tail interest only loan Incoming Query interest PERSONAL FINANCE interest only loan Incoming Query interest PERSONAL FINANCE “interest only loan” is classified as a“interest only loan” is classified as ate est o y oa s c ss ed s PERSONAL FINANCE query. te est o y oa s c ss ed s PERSONAL FINANCE query. Павел Браславский ‐ Анализ запросов 40[Beitzel]
  8. 8. Selectional Preference Rule ExamplesSelectional Preference Rule Examples Forward Rules – harlem club X Backward Rules – X gets hot wont startharlem club X • ENT‐>0.722  • PLACES‐>0.378  • TRAVEL >1 531 • AUTOS‐>2.049  • PLACES‐>0.594 – X getaway bargain• TRAVEL‐>1.531 – harley all stainless X • AUTOS‐>3.448 g y g • PLACES‐>0.877 • SHOPPING‐>0.047 • TRAVEL‐>0.862  • SHOPPING‐>0.021  – harley chicks with X • PORN‐>5.681 – X getaway bargain hotel and  airfare • PLACES‐>0.594PORN 5.681  • TRAVEL‐>2.057  Павел Браславский ‐ Анализ запросов 41[Beitzel]
  9. 9. На основе коллекции текстовНа основе коллекции текстов запросзапрос поиск дом спорт музыка кинодом спорт музыка кино 10 15 0 5 Павел Браславский ‐ Анализ запросов 42 0
  10. 10. KDD Cup 2005KDD Cup 2005 • Классификация запросов • 800,000 запросов, 67 категорий б• есть примеры, нет обучающего множества • нет подробного описания категорий • ответ системы: до 5 категорий• ответ системы: до 5 категорий  • оценка: 800 запросов оцениваются тремя асессорами  • метрика: F1метрика: F1 Павел Браславский ‐ Анализ запросов 43
  11. 11. Nature of ProblemNature of Problem queries …? 67 kdd-categories synonym-basedPage Categories Phase I Phase II classifier query … 67 kdd-categoriesSearch engines Page Content statistical Павел Браславский ‐ Анализ запросов 44 classifiers [Shen]
  12. 12. Phase I: From queries to pages and  categories  • Input:  – A query: Qi, • We collected  – 40 million entries 50GBA query: Qi,  • Output:  – <Page listi, Category listi >  – 50GB • Search engines – Lumur (CMU open source) • Approach:  – through Search Engines (SE) ( p ) – Google  – ODP L k t– Looksmart Павел Браславский ‐ Анализ запросов 45[Shen]
  13. 13. Phase II.a Synonym‐based Classifier:  using directories – 67 KDD‐categories in KDDCUP – 172,565 in ODP/Google, • Advantage – Fast, – Precise172,565 in ODP/Google,  272,405 in Looksmart • For each of the KDDCUP category • Disadvantage – Many of the 172K and 272K  categories from ODP/Google  d L k t d t t g y – Apply Wordnet to find the  corresponding synonyms in the  categories of ODP (Google) and  Looksmart respectively and Looksmart do not map to  KDDCUP categories – This may result in low recall Looksmart, respectively • This produces one mapping  function f for each directory – Also returns a rank by matchingAlso returns a rank by matching  frequency Павел Браславский ‐ Анализ запросов 46[Shen]
  14. 14. Phase II b: Statistical ClassifiersPhase II.b: Statistical Classifiers • Statistical Classifiers• Statistical Classifiers – Support Vector Machine (SVM): mapping pages to KDDCUP categories • Training Data – 15 million pages with categories from ODP Directory– 15 million pages with categories from ODP Directory – Apply the mapping f from Phase II.a, to build training data.   f15 Million Pairs 15 Million Pairs • Application of the classifier f15 Million Pairs (page, odp-categories) 15 Million Pairs (page, kdd-categories) – Construct a virtual document for each query by combining the snippets from the  returned pages given in Phase I. – Classifier returns category and rank Павел Браславский ‐ Анализ запросов 47[Shen]
  15. 15. Component Classifier IntegrationComponent Classifier Integration W f ll bl l i h• We follow an ensemble learning approach – Each classifier returns the category and rank – The two kinds of classifiers have the similar performance.p – We integrate the different classifiers together by a weighted  sum of the ranks • Weights can be determined by validation data set:• Weights can be determined by validation data set: – Based on the performance on the 111 sample data; – Assign different weight values for a classifier on different categories – The higher the precision the higher the weight valueThe higher the precision, the higher the weight value • We have also tried to use equally weighted component  classifiers Павел Браславский ‐ Анализ запросов 48[Shen]
  16. 16. Final Result GenerationFinal Result Generation • Two Solutions: One for each evaluation criteria  – S1: Using the validation data set is expected to achieve better precision  measuremeasure  • Since each component classifier is highly weighted on the classes  where it achieves high precision. S2 E ll i ht d bi ti i t d t hi hi h F1– S2: Equally weighted combination is expected to achieve higher F1  performance  • Since the recall is relatively high – Evaluation Results(http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html) Submission ID Precision F1 S1 37 0.423741 0.426123 • The Results are generated automatically. S2 22 0.414067 0.444395 Павел Браславский ‐ Анализ запросов 49 [Shen]
  17. 17. Putting them togetherPutting them together Phase I Phase II Ensemble Павел Браславский ‐ Анализ запросов 50 [Shen]
  18. 18. Классификация на основе кликовКлассификация на основе кликов 1. Расширение обучающего множества 2. Классификация на основе лексических признаков 3. Комбинация методов Павел Браславский ‐ Анализ запросов 51 Li et al. SIGIR2008 ц д
  19. 19. Классификация запросовКлассификация запросов x за рос y к асс (0/1)x – запрос, y – класс (0/1) Признаки φ(x, y) - n‐граммы [britney spears][britney spears]  britney, spears,  <s> britney britney spears spears </s><s> britney, britney spears, spears </s>,  <s> britney spears, britney spears </s> Павел Браславский ‐ Анализ запросов 52
  20. 20. Распространение метокРаспространение меток • W – матрица mxn, wij – количество кликов на  документ j по запросу iд у j р у • F – матрица mx2, fiy – вероятность  принадлежности запроса i классу yпринадлежности запроса i классу y • F0 – первоначальная разметка И• Итерации: Павел Браславский ‐ Анализ запросов 53
  21. 21. КомбинацияКомбинация Павел Браславский ‐ Анализ запросов 54
  22. 22. БЛИЗКИЕ ЗАПРОСЫ Павел Браславский ‐ Анализ запросов 55
  23. 23. михаил булгаков богдан ступка и аил булга ов мастер и маргарита мастер и маргарита фильм богда с у а михаил боярский  д'артаньянмастер и маргарита фильм  владимир бортко д'артаньян три мушкетера тарас бульба фильм  александр дюма 56Павел Браславский ‐ Анализ запросов
  24. 24. ПодробнееПодробнее 1. Уточнение: золотое кольцо  золотое кольцо с бриллиантом 2. Снятие неоднозначности:  ягуар  ягуар животное 3. Расширение:  золотое кольцо  ювелирные украшения 4. Синоним:   японская вишня  сакура 57Павел Браславский ‐ Анализ запросов
  25. 25. Еще подробнееЕще подробнее 5. Другой запрос на ту же тему:  мерседес ауди 6 С й6. Смена поисковой цели: купить санки детский мир 7 Перевод:7. Перевод:  коралловый клуб  coral club 58Павел Браславский ‐ Анализ запросов
  26. 26. Близкие но «про другое»Близкие, но «про другое» • Опечатки: курсовая робота – курсовая работа • Транслитерация: золото – zoloto • Раскладка: lbvf ,bkfy – дима билан • Реникса: otbeptka – отвертка• Реникса: otbeptka – отвертка 59Павел Браславский ‐ Анализ запросов
  27. 27. Хороший запрос это непростоХороший запрос – это непросто Назовите глагол из вопроса, помещенного  б дна борту транспортного средства  подопечных Фатиха Терима на первенстве континента? IX Кубок Яндекса по поиску (2008) http://kubok.yandex.ru Павел Браславский ‐ Анализ запросов 60
  28. 28. Работа мыслиРабота мысли • Фатих Терим • сборная турции на борту самолета  • сборная турции "на борту" самолетасборная турции на борту  самолета  • сборная турции надпись "на борту" самолета  • сборная турции надпись "на борту" автобуса  • сборная турции надпись на автобусе  • футбол "сборная турции" надпись на автобусе  ф б " б " б• чемпионат европы футбол "сборная турции" надпись на автобусе  61Павел Браславский ‐ Анализ запросов
  29. 29. ОтветОтвет Вместит ли автобус всю страсть Турции?Вместит ли автобус всю страсть Турции? 62Павел Браславский ‐ Анализ запросов
  30. 30. 63Павел Браславский ‐ Анализ запросов
  31. 31. 64Павел Браславский ‐ Анализ запросов
  32. 32. 65Павел Браславский ‐ Анализ запросов
  33. 33. 66Павел Браславский ‐ Анализ запросов
  34. 34. 67Павел Браславский ‐ Анализ запросов
  35. 35. 68Павел Браславский ‐ Анализ запросов
  36. 36. Источники данныхИсточники данных • Лог запросов • Текст ссылокТекст ссылок  • Корпус текстов ford  ford focus, ford fusion, ford mondeo карта  карта памяти, карта города машина  стиральная машина, швейная машина  69Павел Браславский ‐ Анализ запросов
  37. 37. Близость запросовБлизость запросов q2 q3 q4q1 слова/буквы сессиислова/буквы сессии клики 70Павел Браславский ‐ Анализ запросов
  38. 38. МетодМетод 0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки) запрос=<timeStamp, userId, queryText, ckicks> 1. выделение сессий (по времени) 2. выделение пар (в.ч. транзитивно) Павел Браславский ‐ Анализ запросов 71
  39. 39. Метод 2Метод – 2  3 (3. нормализация запросов (стоп‐слова, капитализация, лемматизация,  сортировка слов + выбор лучшего обратного преобразования) 4 борьба со флешмобами и «событийными» ассоциациями4. борьба со флешмобами и «событийными» ассоциациями  5. матрица частоты переходов «запрос‐запрос» (пороги для  пользователя ограничение на абсолютную частоту)пользователя, ограничение на абсолютную частоту) 6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1) 7. ранжирование, отсечение по порогу 8. индекс: q  q1, q2, q3… (оригинальные запросы)д q q , q , q ( р р ) Павел Браславский ‐ Анализ запросов 72
  40. 40. ОценкаОценка • «оценка глазами» • «классы объектов»«классы объектов» • кластеры запросов Яндекс.Директа • кликабельность 73Павел Браславский ‐ Анализ запросов
  41. 41. РезультатРезультат 74Павел Браславский ‐ Анализ запросов
  42. 42. ЛитератураЛитература • Broder A. A Taxonomy of Web Search. SIGIR 2002. • Broder A. et al. Robust classification of rare queries using web knowledge.  SIGIR 2007. • Risvik K. M. et al. Query Segmentation for Web Search. WWW2003.  • Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation.  EMNLP‐CoNLL 2007. • Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010. • Beitzel, S.M. et al. Temporal analysis of a very large topically categorized  web query log, JASIST, vol. 58, no. 2, 2007. • Beitzel, S.M., et al. Automatic classification of web queries using very large  l b l d l ACM T I f S 25(2) 9 2007unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007. • Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in  KDDCUP 2005, SIGKDD Explorations 7(2). Li X l L i Q I f R l i d Cli k G h SIGIR• Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR  2008. Павел Браславский ‐ Анализ запросов 75
  43. 43. СсылкиСсылки • И AOL• История про лог AOL – см.  http://en.wikipedia.org/wiki/AOL_search_data_scandal • Поиск по логу AOL2006 htt // l t lk /http://www.aolstalker.com/ • Query Log Analysis Workshop @ WWW2007,  http://querylogs2007.webir.org/ • KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html • WSCD09: Workshop on Web Search Click Data 2009,  http://research.microsoft.com/users/nickcr/wscd09/p // / / / / • Microsoft Web N‐gram Services, http://research.microsoft.com/en‐ us/collaboration/focus/cs/web‐ngram.aspx • Jiang D et al Web Search/Browse Log Mining: ChallengesJiang D. et al. Web Search/Browse Log Mining: Challenges,  Methods, and Applications, http://research.microsoft.com/en‐ us/people/djiang/web_search_and_browse_log_mining.pdf Павел Браславский ‐ Анализ запросов 76
  44. 44. ПРАКТИКА Павел Браславский ‐ Анализ запросов 77
  45. 45. ПрактикаПрактика З• Задачи  – Сегментация – Тематическая классификацияТематическая классификация – Близкие запросы • Данные – AOL2006Д http://www.gregsadetsky.com/aol‐data/ – seed ~2000 запросов,  http://www kansas ru/querylog analysis/2000queries txthttp://www.kansas.ru/querylog_analysis/2000queries.txt – + описания DMOZ для категорий второго уровня http://narod.ru/disk/371552001/dmoz_data.zip.html • Можно использовать любые внешние ресурсы (не  человеческие ;) Павел Браславский ‐ Анализ запросов 78
  46. 46. DMOZDMOZ няго уровнии второкатегорик Павел Браславский ‐ Анализ запросов 79
  47. 47. ПримерыПримеры Сегментация • at the vet | norman rockwell | litho • big weenie | by eminem Тематическая классификация • big weenie by eminem ‐‐> Arts_Music /t Art_Television До трех категорий, упорядоченных по уменьшению уверенности Кластеризация • 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyotag p g / y corolla /t toyota sienna hybrid До 10 запросов из большого лога (сначала – самый близкий) Павел Браславский ‐ Анализ запросов 80
  48. 48. • Присылайте по почте с темой  querylog_analysis_resultsq y g_ y _ • segmentation_имя_фамилия.txt l ifi i ф• classification_имя_фамилия.txt • clustering имя фамилия.txtg_ _ф • имя_фамилия.pdf ‐ краткое описание  методов Павел Браславский ‐ Анализ запросов 81
  49. 49. Павел БраславскийПавел Браславский pb@yandex‐team.ru 82Павел Браславский ‐ Анализ запросов
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×