• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content

Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

20101127 search query_analysis_braslavski_lecture02

on

  • 493 views

 

Statistics

Views

Total Views
493
Views on SlideShare
362
Embed Views
131

Actions

Likes
0
Downloads
3
Comments
0

4 Embeds 131

http://logic.pdmi.ras.ru 102
http://compsciclub.ru 23
http://www.compsciclub.ru 5
http://censys.ru 1

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    20101127 search query_analysis_braslavski_lecture02 20101127 search query_analysis_braslavski_lecture02 Presentation Transcript

    • ТЕМАТИЧЕСКАЯ КЛАССИФИКАЦИЯ Павел Браславский ‐ Анализ запросов 34
    • Тематическая классификация Тематическая классификацияЗачем??• релевантность (в т.ч. рекламы) р ( р )• вертикальные поискиДанные• список запросов• коллекция текстов• веб• клики Павел Браславский ‐ Анализ запросов 35
    • Selectional Preferences: Step 1 Selectional Preferences: Step 1• Obtain a large log of unlabeled web queries• View each query as pairs of lexical units: View each query as pairs of lexical units: – <head, tail> –O l Only applicable to queries of 2+ terms li bl i f2 – Queries with n terms form n‐1 pairs – Example: “directions to DIMACS” forms two pairs: • <directions to DIMACS> and <directions to <directions, to DIMACS> and <directions to,  DIMACS> Павел Браславский ‐ Анализ запросов [Beitzel] 36
    • Selectional Preferences: Step 2 Selectional Preferences: Step 2• Obt i Obtain a set of manually labeled queries t f ll l b l d i• Check the heads and tails of each pair to see if  they appear in the manually labeled set h i h ll l b l d• Convert each <head, tail> pair into: – <head, CATEGORY> (forward preference) – <CATEGORY, tail> (backward preference) Павел Браславский ‐ Анализ запросов [Beitzel] 37
    • Selectional Preferences: Step 2 Preferences: Step 2 “Personal Finance” Category … Forward SP Rule: Query Log banks… bonds Head TailYahoo mail stocks PERSONALinterest rates rates interest FINANCEEbay motors savings… checking … Павел Браславский ‐ Анализ запросов [Beitzel] 38
    • Selectional Preferences: Step 3 Selectional Preferences: Step 3• Score each preference using Resnik’s Selectional Preference  Strength formula: S ( x ) = D ( P ( U |x ) || P ( U ) ) ⎛ P ( u |x ) ⎞ | = ∑ P ( u |x ) lo g 2 ⎜ ⎟ u ⎝ P (u ) ⎠ Where u represents a category, as found in Step 2. S(x) is the sum of the weighted scores for every category  associated with a given lexical unit i d ih i l i l i Павел Браславский ‐ Анализ запросов [Beitzel] 39
    • Selectional Preferences: Step 4 Selectional Preferences: Step 4• Use the mined preferences and weighted scores from Steps 3 and 4 to  assign classifications to unseen queries Matching SP Rule: Head Tail Incoming Query interest only loan PERSONAL interest FINANCE “interest only loan” is c ss ed as a te est o y oa s classified s PERSONAL FINANCE query. Павел Браславский ‐ Анализ запросов [Beitzel] 40
    • Selectional Preference Rule ExamplesSelectional Preference Rule ExamplesForward Rules Backward Rules – harlem club X harlem club X – X gets hot wont start • ENT‐>0.722  • AUTOS‐>2.049  • PLACES‐>0.594 • PLACES‐>0.378  • TRAVEL >1 531 TRAVEL‐>1.531 – X getaway bargain g y g • PLACES‐>0.877 – harley all stainless X • SHOPPING‐>0.047 • AUTOS‐>3.448 • TRAVEL‐>0.862  • SHOPPING‐>0.021  – X getaway bargain hotel and  – harley chicks with X airfare • PORN‐>5.681 PORN 5.681  • PLACES‐>0.594 • TRAVEL‐>2.057  Павел Браславский ‐ Анализ запросов [Beitzel] 41
    • На основе коллекции текстовНа основе коллекции текстов запрос поиск дом спорт музыка кино151050 Павел Браславский ‐ Анализ запросов 42
    • KDD Cup 2005 KDD Cup 2005• Классификация запросов• 800,000 запросов, 67 категорий• есть примеры, нет обучающего множества б• нет подробного описания категорий• ответ системы: до 5 категорий  ответ системы: до 5 категорий• оценка: 800 запросов оцениваются тремя асессорами • метрика: F1 метрика: F1 Павел Браславский ‐ Анализ запросов 43
    • Nature of Problem Nature of Problem queries ? … 67 kdd-categories Phase I Phase II Page Categories synonym-based classifierquery … 67 kdd-categories Search engines Page Content statistical classifiers Павел Браславский ‐ Анализ запросов [Shen] 44
    • Phase I: From queries to pages and  categories  • We collected • Input:  – 40 million entries – A query: Qi, A query: Q ,  – 50GB• Output:  • Search engines – <Page listi, Category listi >  – Lumur (CMU open source) ( p )• Approach:  – Google  – through Search Engines (SE) – ODP – Looksmart L k t Павел Браславский ‐ Анализ запросов [Shen] 45
    • Phase II.a Synonym‐based Classifier:  using directories – 67 KDD‐categories in KDDCUP • Advantage – Fast, – 172,565 in ODP/Google, 172,565 in ODP/Google,  – Precise 272,405 in Looksmart • Disadvantage – Many of the 172K and 272K • For each of the KDDCUP category g y categories from ODP/Google  and Looksmart d dL k t do not map to  t t – Apply Wordnet to find the  KDDCUP categories corresponding synonyms in the  categories of ODP (Google) and  – This may result in low recall Looksmart, respectively Looksmart respectively• This produces one mapping  function f for each directory – Also returns a rank by matching Also returns a rank by matching  frequency Павел Браславский ‐ Анализ запросов [Shen] 46
    • Phase II.b: Statistical Classifiers Phase II b: Statistical Classifiers• Statistical Classifiers Statistical Classifiers – Support Vector Machine (SVM): mapping pages to KDDCUP categories• Training Data – 15 million pages with categories from ODP Directory 15 million pages with categories from ODP – Apply the mapping f from Phase II.a, to build training data.   15 Million Pairs f 15 Million Pairs (page, odp-categories) (page, kdd-categories)• Application of the classifier – Construct a virtual document for each query by combining the snippets from the  returned pages given in Phase I. – Classifier returns category and rank Павел Браславский ‐ Анализ запросов [Shen] 47
    • Component Classifier Integration Component Classifier Integration• W f ll We follow an ensemble learning approach bl l i h – Each classifier returns the category and rank – The two kinds of classifiers have the similar performance. p – We integrate the different classifiers together by a weighted  sum of the ranks • Weights can be determined by validation data set: Weights can be determined by validation data set: – Based on the performance on the 111 sample data; – Assign different weight values for a classifier on different categories – The higher the precision the higher the weight value The higher the precision, the higher the weight value • We have also tried to use equally weighted component  classifiers Павел Браславский ‐ Анализ запросов [Shen] 48
    • Final Result Generation Final Result Generation• Two Solutions: One for each evaluation criteria  – S1: Using the validation data set is expected to achieve better precision  measure  measure • Since each component classifier is highly weighted on the classes  where it achieves high precision. – S2 E S2: Equally weighted combination i ll i ht d bi ti is expected to achieve higher F1  t dt hi hi h F1 performance  • Since the recall is relatively high – Evaluation Results (http://www.acm.org/sigs/sigkdd/kdd2005/kddcup.html) Submission ID Precision F1 S1 37 0.423741 0.426123 S2 22 0.414067 0.444395• The Results are generated automatically. Павел Браславский ‐ Анализ запросов 49 [Shen]
    • Putting them togetherPutting them togetherPhase I Phase II Ensemble [Shen] Павел Браславский ‐ Анализ запросов 50
    • Классификация на основе кликовКлассификация на основе кликов1. Расширение обучающего множества2. Классификация на основе лексических признаков3. Комбинация методов ц д Li et al. SIGIR2008 Павел Браславский ‐ Анализ запросов 51
    • Классификация запросовx – за рос y – к асс (0/1) запрос, y класс (0/1)Признаки φ(x, y) - n‐граммы[britney spears] spears] britney, spears, <s> britney, britney spears, spears </s>, <s> britney britney spears spears </s><s> britney spears, britney spears </s> Павел Браславский ‐ Анализ запросов 52
    • Распространение меток Распространение меток• W – матрица mxn, wij – количество кликов на  документ j по запросу i д у р у• F – матрица mx2, fiy – вероятность  принадлежности запроса i классу y принадлежности запроса• F0 – первоначальная разметка• И Итерации: Павел Браславский ‐ Анализ запросов 53
    • КомбинацияПавел Браславский ‐ Анализ запросов 54
    • БЛИЗКИЕ ЗАПРОСЫ Павел Браславский ‐ Анализ запросов 55
    • михаил булгаков и аил булга ов богда с у а богдан ступка мастер и маргарита михаил боярский мастер и маргарита фильм мастер и маргарита фильм дартаньянвладимир бортко три мушкетератарас бульба фильм  александр дюма Павел Браславский ‐ Анализ запросов 56
    • Подробнее1. Уточнение: золотое кольцо  золотое кольцо с бриллиантом2. Снятие неоднозначности:  ягуар  ягуар животное3. Расширение:  золотое кольцо  ювелирные украшения4. Синоним:   японская вишня  сакура Павел Браславский ‐ Анализ запросов 57
    • Еще подробнее Еще подробнее5. Другой запрос на ту же тему:  мерседес ауди6. Смена поисковой цели:6 С й купить санки детский мир7. Перевод: 7 Перевод: коралловый клуб  coral club Павел Браславский ‐ Анализ запросов 58
    • Близкие, но «про другое» Близкие но «про другое»• Опечатки: курсовая робота – курсовая работа• Транслитерация: золото – zoloto• Раскладка: lbvf ,bkfy – дима билан• Реникса: otbeptka Реникса: otbeptka – отвертка Павел Браславский ‐ Анализ запросов 59
    • Хороший запрос – это непростоХороший запрос это непростоНазовите глагол из вопроса, помещенного  на борту транспортного средства  б д подопечных Фатиха Терима на первенстве континента? IX Кубок Яндекса по поиску (2008) http://kubok.yandex.ru Павел Браславский ‐ Анализ запросов 60
    • Работа мысли Работа мысли• Фатих Терим• сборная турции на борту самолета • сборная турции на борту самолета сборная турции "на борту" самолета • сборная турции надпись "на борту" самолета • сборная турции надпись "на борту" автобуса • сборная турции надпись на автобусе • футбол "сборная турции" надпись на автобусе • чемпионат европы ф б " б футбол "сборная турции" надпись на автобусе  " б Павел Браславский ‐ Анализ запросов 61
    • ОтветВместит ли автобус всю страсть Турции? ли автобус всю страсть Турции? Павел Браславский ‐ Анализ запросов 62
    • Павел Браславский ‐ Анализ запросов 63
    • Павел Браславский ‐ Анализ запросов 64
    • Павел Браславский ‐ Анализ запросов 65
    • Павел Браславский ‐ Анализ запросов 66
    • Павел Браславский ‐ Анализ запросов 67
    • Павел Браславский ‐ Анализ запросов 68
    • Источники данных Источники данных• Лог запросов• Текст ссылок Текст ссылок • Корпус текстов ford  ford focus, ford fusion, ford mondeo карта  карта памяти, карта города машина  стиральная машина, швейная машина  Павел Браславский ‐ Анализ запросов 69
    • Близость запросов Близость запросов q1 q2 q3 q4слова/буквы сессии клики Павел Браславский ‐ Анализ запросов 70
    • Методзапрос=<timeStamp, userId, queryText, ckicks>0. чистка лога (порно, Яндекс, «подсказки», язык запросов, опечатки)1. выделение сессий (по времени)2. выделение пар (в.ч. транзитивно) Павел Браславский ‐ Анализ запросов 71
    • Метод – 2  Метод 23. нормализация запросов (3 (стоп‐слова, капитализация, лемматизация, сортировка слов + выбор лучшего обратного преобразования)4. борьба со флешмобами и «событийными» ассоциациями 4 борьба со флешмобами и «событийными» ассоциациями5. матрица частоты переходов «запрос‐запрос» (пороги для пользователя, ограничение на абсолютную частоту)пользователя ограничение на абсолютную частоту)6. weight(q1  q2)= f(freqq1, freqq2, freqq1q2)*f(freqq2q1)7. ранжирование, отсечение по порогу8. индекс: q  д q q ,q ,q ( р q1, q2, q3… (оригинальные запросы) р ) Павел Браславский ‐ Анализ запросов 72
    • Оценка• «оценка глазами»• «классы объектов» «классы объектов»• кластеры запросов Яндекс.Директа• кликабельность Павел Браславский ‐ Анализ запросов 73
    • РезультатПавел Браславский ‐ Анализ запросов 74
    • Литература• Broder A. A Taxonomy of Web Search. SIGIR 2002.• Broder A. et al. Robust classification of rare queries using web knowledge.  SIGIR 2007.• Risvik K. M. et al. Query Segmentation for Web Search. WWW2003. • Bergsma S. & Wang Q. I. Learning Noun Phrase Query Segmentation.  EMNLP‐CoNLL 2007.• Hagen M. et al. The Power of Naïve Query Segmentation. SIGIR 2010.• Beitzel, S.M. et al. Temporal analysis of a very large topically categorized  web query log, JASIST, vol. 58, no. 2, 2007.• Beitzel, S.M., et al. Automatic classification of web queries using very large  unlabeled query logs. ACM Trans. Inf. Syst., 25(2):9, 2007. l b l d l ACM T I f S 25(2) 9 2007• Shen D. et al. Q2C@UST: Our Winning Solution to Query Classification in  KDDCUP 2005, SIGKDD Explorations 7(2).• Li X. et al. Learning Query Intent from Regularized Click Graphs. SIGIR  Li X l L i Q I f R l i d Cli k G h SIGIR 2008. Павел Браславский ‐ Анализ запросов 75
    • Ссылки• И История про лог AOL – см.  AOL http://en.wikipedia.org/wiki/AOL_search_data_scandal• Поиск по логу AOL2006 http://www.aolstalker.com/ htt // l t lk /• Query Log Analysis Workshop @ WWW2007,  http://querylogs2007.webir.org/• KDD Cup 2005, http://www.sigkdd.org/kdd2005/kddcup.html• WSCD09: Workshop on Web Search Click Data 2009,  http://research.microsoft.com/users/nickcr/wscd09/ p // / / / /• Microsoft Web N‐gram Services, http://research.microsoft.com/en‐ us/collaboration/focus/cs/web‐ngram.aspx• Jiang D et al Web Search/Browse Log Mining: Challenges Jiang D. et al. Web Search/Browse Log Mining: Challenges,  Methods, and Applications, http://research.microsoft.com/en‐ us/people/djiang/web_search_and_browse_log_mining.pdf Павел Браславский ‐ Анализ запросов 76
    • ПРАКТИКА Павел Браславский ‐ Анализ запросов 77
    • Практика• З Задачи  – Сегментация – Тематическая классификация Тематическая классификация – Близкие запросы• Данные – AOL2006 Д http://www.gregsadetsky.com/aol‐data/ – seed ~2000 запросов,  http://www.kansas.ru/querylog_analysis/2000queries.txt http://www kansas ru/querylog analysis/2000queries txt – + описания DMOZ для категорий второго уровня http://narod.ru/disk/371552001/dmoz_data.zip.html• Можно использовать любые внешние ресурсы (не  человеческие ;) Павел Браславский ‐ Анализ запросов 78
    • DMOZкатегорик ня ии второго уровн Павел Браславский ‐ Анализ запросов 79
    • ПримерыСегментация• at the vet | norman rockwell | litho• big weenie | by eminemТематическая классификация• big weenie by eminem ‐‐> Arts_Music /t Art_TelevisionДо трех категорий, упорядоченных по уменьшению уверенностиКластеризация• 1996 mitsubishi mirage ‐‐> 2001 subaru impreza wagon /t toyota g p g / y corolla /t toyota sienna hybridДо 10 запросов из большого лога (сначала – самый близкий) Павел Браславский ‐ Анализ запросов 80
    • • Присылайте по почте с темой  q y g_ querylog_analysis_results y _• segmentation_имя_фамилия.txt• classification_имя_фамилия.txt l ifi i ф• clustering имя_ф g_ фамилия.txt• имя_фамилия.pdf ‐ краткое описание  методов Павел Браславский ‐ Анализ запросов 81
    • Павел Браславский Павел Браславский pb@yandex‐team.ruПавел Браславский ‐ Анализ запросов 82