SlideShare a Scribd company logo
1 of 19
Download to read offline
Получение	
  структуры	
  для	
  
поисковых	
  запросов	
  на	
  примере	
  
      товарных	
  запросов	
  
            	
  Юлия	
  Киселева	
  
                         	
  
            Saint-­‐Petersburg,	
  2011	
  
План	
  
•      Цели	
  данной	
  работы	
  
•      Описание	
  разработанного	
  метода	
  
•      Описание	
  входных	
  данных	
  
•      Метрики	
  для	
  оценки	
  
•      Базовый	
  метод	
  	
  
•      Результаты	
  



18.10.11	
              Сегментация	
  товарных	
  запросов	
     2	
  
Поисковые запросы о товарах

                                                                      Классификация запросов
                                                                      [Bernard J. Jenson et al., 2008]
                                                                      •  Информационные
                                                                          (80,6%)
                                                                      •  Навигационные (10,2%)
     Поисковый
                                                                      •  Транзакционные (9,2	
  %)
     запрос:
     dell inspiron 15 2gb
                                                                      Запрос отражает интерес
                                                                         пользователя

Анализ поисковых запросов
                                                                       Запрос имеет структуру




            Поисковая	
  
             машина	
  
 18.10.11	
                 Сегментация	
  товарных	
  запросов	
                                        3	
  
Сегментация запросов




<QUERY>
   < TERM WORD   =   "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" />
   < TERM WORD   =   "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" />
   < TERM WORD   =   "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" />
   < TERM WORD   =   "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE
= "0.40" />
</ QUERY >


18.10.11	
                    Сегментация	
  товарных	
  запросов	
        4	
  
Описание	
  процесса	
  обучения	
  системы	
  
                                              	
  




18.10.11	
                   Сегментация	
  товарных	
  запросов	
     5	
  
Входные	
  данные	
  	
  
	
                                                 	
                                            	
  
              БД                                                                                             Журнал
	
        продуктов
                                                   	
             Словарь                        	
          Щелчков
                                                                  брендов                                   пользова-
	
                                                 	
                                            	
           телей
Название	
  товара:	
  	
  Dell	
                  	
                                            	
  
      Inspiron	
  1545	
  15.6-­‐Inch	
            Словарь	
  брендов	
  с	
                     Пары(запрос,	
  выбранный	
  
      Laptop	
  (Cherry	
  Red),	
  2.2GHz	
  
                                                        синонимами	
                                  пользователем	
  
      Intel	
  Pen^um	
  Dual	
  Core	
  T4400	
  
      CPU;	
  2GB	
  System	
  Memory;	
           Пример:	
  Hewlea	
  Packard	
                     продукт)	
  
      500GB	
  Hard	
  Drive	
                          -­‐>	
  hp   	
                          Запрос:	
  dell	
  inspiron	
  2gb	
  
Атрибуты	
  товара:	
  	
                                                                        	
  
Brand	
  –	
  Dell;	
  
Family	
  Line	
  	
  –	
  	
  dell	
  Inspiron;	
  
Display	
  Size	
  –	
  	
  15.6	
  inch;	
  
Memory	
  capacity	
  –	
  2	
  gb;	
  
Color	
  –	
  cherry	
  Red;	
  
………	
  
   18.10.11	
                                          Сегментация	
  товарных	
  запросов	
                                        6	
  
Автоматическое
   БД
продуктов
                   Журнал
                  Щелчков
                  пользова-          маркирование
                                       запросов	
  
                    телей
Словарь
брендов




Выбранный пользователем товар = {атрибуты товара}
Вес терма = tf*idf – style
“Документ” - это комбинация всех термов из описания всех атрибутов
Пример: Brand “документ” <„dell‟:14, „ hewlett packard ‟:10, „lenovo‟:9, „asus‟:7>
tf = term frequency in attribute description
                    |D|
idf = log | di        wi |
Similarity = косинусное расстояние

                                                                                           Memory
           Token              Brand           Family Line                   Display Size   Capacity
            dell               0.9               0.1                              0           0
          inspiron             0.1               0.9                              0           0
             15                 0                 0                             0.95         0.05
            2gb	
               0	
                0	
                            0	
          1	
  

   18.10.11	
                           Сегментация	
  товарных	
  запросов	
                          7	
  
Автоматическое маркирование
                        запросов	
  




18.10.11	
             Сегментация	
  товарных	
  запросов	
     8	
  
Улучшение качества автоматического
                маркирования запросов	
  




18.10.11	
            Сегментация	
  товарных	
  запросов	
     9	
  
Генерация	
  синтетических	
  запросов	
  	
  

	
                 Генерация                                     	
  
                 синтетических                                                                                      Синтетические
                                                                                                                     Synthetic

	
                  запросов                                     	
                                                   queries
                                                                                                                          запросы


•      Во	
  время	
  маркирования	
  запросов	
                 	
  	
  	
  	
  	
  	
  Считаем	
  вероятность	
  перехода	
  
       мы	
  сохраняем	
  словари	
  для	
                                               между	
  атрибутами,	
  основываясь	
  
       атрибутов	
                                                                       на	
  промаркированной	
  выборке	
  
•      Для	
  каждого	
  терма	
  считается	
  вес	
             •  Начинаем	
  со	
  спец	
  символа	
  “$begin	
  
       быть	
  промаркированным	
                                •  Случайным	
  образом	
  выбираем	
  
       конкретным	
  атрибутом	
                                                         число	
  	
  из	
  [0,	
  1]	
  
•      Затем:	
                                                  •  Продолжаем	
  до	
  специального	
  
        •  Есть	
  атрибут	
  “unknown”	
                                                символа	
  $end	
  
              проверяем	
  словарь	
                             •  Получаем	
  готовый	
  синтетический	
  
        •  Если	
  находим	
  несколько	
                                                запрос	
  
              атрибутов	
  для	
  терма	
  :	
                   NB	
  :	
  Алгоритм	
  Сглаживания             	
  
              выбираем	
  атрибут	
  с	
  
              наибольшим	
  весом	
  


18.10.11	
                                 Сегментация	
  товарных	
  запросов	
                                               10	
  
Генерация	
  синтетических	
  запросов	
  (1)	
  




18.10.11	
                     Сегментация	
  товарных	
  запросов	
     11	
  
Conditional Random Fields
x = (x1 , x 2 ,..., x n )       -    запрос, состоящий из n
                                -    слов
                                     последовательность атрибутов для этих
y = (y1 , y 2 ,..., y n )            n слов
f j (y i 1 , yi , x, i) = exp(∑ λ j t j (y i 1 , yi , x, i) + ∑ µ k s k (y i , x, i))
                                       j                       k
t j (y i 1 , yi , x, i)     -        вероятность перехода

s k (y i , x, i)            -        признак
                1
p(y | x, λ) =         exp(∑ λ jf j (y, x))
              Ζ(x, λ)     j

{(x (i) , y(i) )}im1
                  =
                            -        обучающее множество




                                                                                        12	
  
Обучение модели сегментации
                                                  	
  


           Модель : Conditional Random Fields (CRF)
           Атрибуты: the union of all attribute names matched automatically




18.10.11	
                       Сегментация	
  товарных	
  запросов	
        13	
  
Признаки	
  для	
  модели	
  сегментации	
  

Общие	
  признаки:	
  
•  юниграммы	
  (unigrams)	
  -­‐	
  s,	
  o,	
  n	
  ,y.	
  	
  
•  биграммы	
  (bigrams)	
  :	
  de,	
  el,	
  ll	
  
•  регулярные	
  выражения:	
  «vaio»	
  -­‐	
  это	
  слово,	
  «15.4»	
  -­‐	
  это	
  число,	
  
   «250gb»	
  -­‐	
  это	
  смешанное	
  слово.	
  	
  
•  контекстная	
  информация	
  
Признаки,	
  характерные	
  для	
  чисел:	
  
•  Интервал	
  
Признаки,	
  характерные	
  для	
  «смешанных»	
  элементов:	
  
•  2gb	
  =>	
  “2”	
  и	
  “gb”	
  
Признаки,	
  основанные	
  на	
  словаре	
  или	
  словарные	
  
  признаки:	
  
•  Словарь	
  брендов	
  
•  Словарь	
  атрибутов	
  и	
  слов	
  


18.10.11	
                             Сегментация	
  товарных	
  запросов	
                          14	
  
Описание	
  текстового	
  и	
  обучающего	
  множеств	
  

•  Обучающее множество: Query log from Shopping.com
   September 2009, December 2009 and March 2010

•  29257 queries.	
  

•  Запросы, принадлежащие категории
   «Компьютеры» : laptops, hard drives, laptop accessories,
   printers, memory cards, software

•  mechanical Turk

•  450 запросов в тестовом множестве



18.10.11	
                  Сегментация	
  товарных	
  запросов	
     15	
  
Метрики	
  для	
  оценки	
  
           	
  
           	
  
           	
                     i =1

           	
                    ∑q|Pr ecision(ti )
                                i =< |
           	
   Pr ecision(q) =
                                       |q|
           	
  
                                      i =1

               	
                    ∑ Re call (t )
                                     i =< |q|
                                                                    i
               	
  Re call ( q ) =
               	
                                  |q|
               	
  
               	
  	
  


18.10.11	
                                   Сегментация	
  товарных	
  запросов	
     16	
  
Оценка	
  автоматического	
  маркирования	
  запросов	
  


                                              Точность	
               Полнота	
                 F-­‐мера	
  
               0,95	
  
                 0,9	
  
               0,85	
  
                 0,8	
  
               0,75	
  
                 0,7	
  
               0,65	
  
                0,6	
  
               0,55	
  
                 0,5	
  
                           0	
     0,1	
       0,2	
     0,3	
     0,4	
     0,5	
     0,6	
          0,7	
     0,8	
     0,9	
  
                                                   значение	
  косинусной	
  метрики	
  




18.10.11	
                                   Сегментация	
  товарных	
  запросов	
                                                  17	
  
Оценка	
  	
  сегментации	
  запросов	
  

                                                                                                                                M3	
                  база	
  

                                                             0,9	
  


        	
                                            т
                                                           0,85	
  
                                                      о 0,8	
  
                                                      ч
                                                      н 0,75	
  
                                                      о
        	
                                            с
                                                      т 0,7	
  
                                                      ь
                                                           0,65	
  


        	
  
                                                             0,6	
  
                                                                             0	
               0,1	
          0,2	
          0,3	
          0,4	
       0,5	
      0,6	
     0,7	
     0,8	
     0,9	
  

                                                                                                                        Уровень доверия
        	
                                                                                                                                                                                          (a)	
  




п
о
        	
  
    0,55	
  

                                                                                                                                                         F
                                                                                                                                                                  0,6	
  
л 0,45	
                                                                                                                                                 -
                                                                                                                                                         м
н                                                                                                                                                        е
о                                                                                                                                                        р        0,5	
  
т                                                                                                                                                        а
а
    0,35	
  
                                                                                                                                                                  0,4	
  
    0,25	
                                                                                                                                                                     0	
     0,1	
   0,2	
   0,3	
   0,4	
   0,5	
   0,6	
   0,7	
   0,8	
   0,9	
  
               0	
     0,1	
     0,2	
      0,3	
      0,4	
       0,5	
             0,6	
          0,7	
          0,8	
          0,9	
  
                                                                                                                                                                                                           Уровень	
  доверия
                                           Уровень доверия                                                                        (b)	
                                                                                                                     (c)	
  



        18.10.11	
                                                                                       Сегментация	
  товарных	
  запросов	
                                                                                                     18	
  
Использование	
  модели	
  сегментации	
  


                                                                  Использование
                                                               сегментации в режиме
                                Запрос о
                                продукте                        реального времени


                пользователь
                               Предсказать         Структуриров
                               сегментацию         анный запрос
                                                   Слово ->
                                                   атрибут
                                                                                 Продукт из
                                                                                 БД

                                 Модель
                               сегментации

                                                                   БД
                                                                продуктов




18.10.11	
                             Сегментация	
  товарных	
  запросов	
                  19	
  

More Related Content

Similar to Kiseleva

Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRC
Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRCMicrosoft FAST Enterprise Search for Customer Insight, Productivity & GRC
Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRCMichael Kozloff
 
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбора
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбораCodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбора
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбораCodeFest
 
Business intelligence в Ozon.ru
Business intelligence в Ozon.ruBusiness intelligence в Ozon.ru
Business intelligence в Ozon.ruRoman Zykov
 
Microsoft FAST Enterprise Search Customer Scenarios and ROI
Microsoft FAST Enterprise Search Customer Scenarios and ROIMicrosoft FAST Enterprise Search Customer Scenarios and ROI
Microsoft FAST Enterprise Search Customer Scenarios and ROIMichael Kozloff
 
Microsoft SQL server - complete BI platform by Alexander Gacz
Microsoft SQL server - complete BI platform by Alexander GaczMicrosoft SQL server - complete BI platform by Alexander Gacz
Microsoft SQL server - complete BI platform by Alexander GaczMark Tapley
 
Вебинар 2/5. Сравнительный анализ шумности поисковых запросов
Вебинар 2/5. Сравнительный анализ шумности поисковых запросовВебинар 2/5. Сравнительный анализ шумности поисковых запросов
Вебинар 2/5. Сравнительный анализ шумности поисковых запросовsmm3
 
Command-Query Responsibility Segregation: теория и практика
Command-Query Responsibility Segregation: теория и практикаCommand-Query Responsibility Segregation: теория и практика
Command-Query Responsibility Segregation: теория и практикаKiev ALT.NET
 
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...Создание повторно используемых бизнес моделей с помощью технологии Domain Com...
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...GetDev.NET
 
опыт превращения корпоративного сайта в инструмент продаж
опыт превращения корпоративного сайта в инструмент продажопыт превращения корпоративного сайта в инструмент продаж
опыт превращения корпоративного сайта в инструмент продажSamson Bezmyatezhny
 
САЙТ 2012
САЙТ 2012САЙТ 2012
САЙТ 2012iSEO
 
2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнесantishmanti
 
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...Maxim Uvarov
 
Maxim.uvarov optimisation2010
Maxim.uvarov optimisation2010Maxim.uvarov optimisation2010
Maxim.uvarov optimisation2010Maxim Uvarov
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данныхSergey Gorshkov
 
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом i-Media рекламное агентство
 
Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)VEKA Rus
 
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareМониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareMarina Gryshko
 

Similar to Kiseleva (20)

Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRC
Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRCMicrosoft FAST Enterprise Search for Customer Insight, Productivity & GRC
Microsoft FAST Enterprise Search for Customer Insight, Productivity & GRC
 
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбора
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбораCodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбора
CodeFest 2012. Катков С. — Бенчмарки как критерий естественного отбора
 
Business intelligence в Ozon.ru
Business intelligence в Ozon.ruBusiness intelligence в Ozon.ru
Business intelligence в Ozon.ru
 
Presty
PrestyPresty
Presty
 
Microsoft FAST Enterprise Search Customer Scenarios and ROI
Microsoft FAST Enterprise Search Customer Scenarios and ROIMicrosoft FAST Enterprise Search Customer Scenarios and ROI
Microsoft FAST Enterprise Search Customer Scenarios and ROI
 
Microsoft SQL server - complete BI platform by Alexander Gacz
Microsoft SQL server - complete BI platform by Alexander GaczMicrosoft SQL server - complete BI platform by Alexander Gacz
Microsoft SQL server - complete BI platform by Alexander Gacz
 
Bi Ыystem
Bi ЫystemBi Ыystem
Bi Ыystem
 
BI System
BI SystemBI System
BI System
 
Вебинар 2/5. Сравнительный анализ шумности поисковых запросов
Вебинар 2/5. Сравнительный анализ шумности поисковых запросовВебинар 2/5. Сравнительный анализ шумности поисковых запросов
Вебинар 2/5. Сравнительный анализ шумности поисковых запросов
 
Command-Query Responsibility Segregation: теория и практика
Command-Query Responsibility Segregation: теория и практикаCommand-Query Responsibility Segregation: теория и практика
Command-Query Responsibility Segregation: теория и практика
 
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...Создание повторно используемых бизнес моделей с помощью технологии Domain Com...
Создание повторно используемых бизнес моделей с помощью технологии Domain Com...
 
опыт превращения корпоративного сайта в инструмент продаж
опыт превращения корпоративного сайта в инструмент продажопыт превращения корпоративного сайта в инструмент продаж
опыт превращения корпоративного сайта в инструмент продаж
 
САЙТ 2012
САЙТ 2012САЙТ 2012
САЙТ 2012
 
2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес2 sap v1_do_как big_data меняет бизнес
2 sap v1_do_как big_data меняет бизнес
 
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...
Текст доклада для конференции оптимизация 2010. Примеры оценки эффективности ...
 
Maxim.uvarov optimisation2010
Maxim.uvarov optimisation2010Maxim.uvarov optimisation2010
Maxim.uvarov optimisation2010
 
Логическая витрина данных
Логическая витрина данныхЛогическая витрина данных
Логическая витрина данных
 
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом
Поисковое продвижение интернет-проекта в Сети. Управление SEO-бюджетом
 
Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)Интернет-реклама для оконного бизнеса (Новосибирск)
Интернет-реклама для оконного бизнеса (Новосибирск)
 
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell SoftwareМониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software
Мониторинг, тюнинг и оптимизация баз данных, используя продукты Dell Software
 

More from NLPseminar

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна ЛандоNLPseminar
 
клышинский
клышинскийклышинский
клышинскийNLPseminar
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гавриловаNLPseminar
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3NLPseminar
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловскаяNLPseminar
 
потапов
потаповпотапов
потаповNLPseminar
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)NLPseminar
 
белканова
белкановабелканова
белкановаNLPseminar
 
гвоздикин
гвоздикингвоздикин
гвоздикинNLPseminar
 
веселов
веселоввеселов
веселовNLPseminar
 

More from NLPseminar (20)

[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
[ИТ-лекторий ФКН ВШЭ]: Диалоговые системы. Татьяна Ландо
 
Events
EventsEvents
Events
 
Tomita
TomitaTomita
Tomita
 
бетин
бетинбетин
бетин
 
Andreev
AndreevAndreev
Andreev
 
клышинский
клышинскийклышинский
клышинский
 
конф ии и ея гаврилова
конф ии и ея  гавриловаконф ии и ея  гаврилова
конф ии и ея гаврилова
 
кудрявцев V3
кудрявцев V3кудрявцев V3
кудрявцев V3
 
rubashkin
rubashkinrubashkin
rubashkin
 
Vlasova
VlasovaVlasova
Vlasova
 
Ageev
AgeevAgeev
Ageev
 
Khomitsevich
Khomitsevich Khomitsevich
Khomitsevich
 
акинина осмоловская
акинина осмоловскаяакинина осмоловская
акинина осмоловская
 
Serebryakov
SerebryakovSerebryakov
Serebryakov
 
потапов
потаповпотапов
потапов
 
molchanov(promt)
molchanov(promt)molchanov(promt)
molchanov(promt)
 
белканова
белкановабелканова
белканова
 
Skatov
SkatovSkatov
Skatov
 
гвоздикин
гвоздикингвоздикин
гвоздикин
 
веселов
веселоввеселов
веселов
 

Kiseleva

  • 1. Получение  структуры  для   поисковых  запросов  на  примере   товарных  запросов    Юлия  Киселева     Saint-­‐Petersburg,  2011  
  • 2. План   •  Цели  данной  работы   •  Описание  разработанного  метода   •  Описание  входных  данных   •  Метрики  для  оценки   •  Базовый  метод     •  Результаты   18.10.11   Сегментация  товарных  запросов   2  
  • 3. Поисковые запросы о товарах Классификация запросов [Bernard J. Jenson et al., 2008] •  Информационные (80,6%) •  Навигационные (10,2%) Поисковый •  Транзакционные (9,2  %) запрос: dell inspiron 15 2gb Запрос отражает интерес пользователя Анализ поисковых запросов Запрос имеет структуру Поисковая   машина   18.10.11   Сегментация  товарных  запросов   3  
  • 4. Сегментация запросов <QUERY> < TERM WORD = "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" /> < TERM WORD = "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" /> < TERM WORD = "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" /> < TERM WORD = "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE = "0.40" /> </ QUERY > 18.10.11   Сегментация  товарных  запросов   4  
  • 5. Описание  процесса  обучения  системы     18.10.11   Сегментация  товарных  запросов   5  
  • 6. Входные  данные           БД Журнал   продуктов   Словарь   Щелчков брендов пользова-       телей Название  товара:    Dell       Inspiron  1545  15.6-­‐Inch   Словарь  брендов  с   Пары(запрос,  выбранный   Laptop  (Cherry  Red),  2.2GHz   синонимами   пользователем   Intel  Pen^um  Dual  Core  T4400   CPU;  2GB  System  Memory;   Пример:  Hewlea  Packard   продукт)   500GB  Hard  Drive   -­‐>  hp   Запрос:  dell  inspiron  2gb   Атрибуты  товара:       Brand  –  Dell;   Family  Line    –    dell  Inspiron;   Display  Size  –    15.6  inch;   Memory  capacity  –  2  gb;   Color  –  cherry  Red;   ………   18.10.11   Сегментация  товарных  запросов   6  
  • 7. Автоматическое БД продуктов Журнал Щелчков пользова- маркирование запросов   телей Словарь брендов Выбранный пользователем товар = {атрибуты товара} Вес терма = tf*idf – style “Документ” - это комбинация всех термов из описания всех атрибутов Пример: Brand “документ” <„dell‟:14, „ hewlett packard ‟:10, „lenovo‟:9, „asus‟:7> tf = term frequency in attribute description |D| idf = log | di wi | Similarity = косинусное расстояние Memory Token Brand Family Line Display Size Capacity dell 0.9 0.1 0 0 inspiron 0.1 0.9 0 0 15 0 0 0.95 0.05 2gb   0   0   0   1   18.10.11   Сегментация  товарных  запросов   7  
  • 8. Автоматическое маркирование запросов   18.10.11   Сегментация  товарных  запросов   8  
  • 9. Улучшение качества автоматического маркирования запросов   18.10.11   Сегментация  товарных  запросов   9  
  • 10. Генерация  синтетических  запросов       Генерация   синтетических Синтетические Synthetic   запросов   queries запросы •  Во  время  маркирования  запросов              Считаем  вероятность  перехода   мы  сохраняем  словари  для   между  атрибутами,  основываясь   атрибутов   на  промаркированной  выборке   •  Для  каждого  терма  считается  вес   •  Начинаем  со  спец  символа  “$begin   быть  промаркированным   •  Случайным  образом  выбираем   конкретным  атрибутом   число    из  [0,  1]   •  Затем:   •  Продолжаем  до  специального   •  Есть  атрибут  “unknown”   символа  $end   проверяем  словарь   •  Получаем  готовый  синтетический   •  Если  находим  несколько   запрос   атрибутов  для  терма  :   NB  :  Алгоритм  Сглаживания   выбираем  атрибут  с   наибольшим  весом   18.10.11   Сегментация  товарных  запросов   10  
  • 11. Генерация  синтетических  запросов  (1)   18.10.11   Сегментация  товарных  запросов   11  
  • 12. Conditional Random Fields x = (x1 , x 2 ,..., x n ) - запрос, состоящий из n -  слов последовательность атрибутов для этих y = (y1 , y 2 ,..., y n ) n слов f j (y i 1 , yi , x, i) = exp(∑ λ j t j (y i 1 , yi , x, i) + ∑ µ k s k (y i , x, i)) j k t j (y i 1 , yi , x, i) - вероятность перехода s k (y i , x, i) - признак 1 p(y | x, λ) = exp(∑ λ jf j (y, x)) Ζ(x, λ) j {(x (i) , y(i) )}im1 = - обучающее множество 12  
  • 13. Обучение модели сегментации   Модель : Conditional Random Fields (CRF) Атрибуты: the union of all attribute names matched automatically 18.10.11   Сегментация  товарных  запросов   13  
  • 14. Признаки  для  модели  сегментации   Общие  признаки:   •  юниграммы  (unigrams)  -­‐  s,  o,  n  ,y.     •  биграммы  (bigrams)  :  de,  el,  ll   •  регулярные  выражения:  «vaio»  -­‐  это  слово,  «15.4»  -­‐  это  число,   «250gb»  -­‐  это  смешанное  слово.     •  контекстная  информация   Признаки,  характерные  для  чисел:   •  Интервал   Признаки,  характерные  для  «смешанных»  элементов:   •  2gb  =>  “2”  и  “gb”   Признаки,  основанные  на  словаре  или  словарные   признаки:   •  Словарь  брендов   •  Словарь  атрибутов  и  слов   18.10.11   Сегментация  товарных  запросов   14  
  • 15. Описание  текстового  и  обучающего  множеств   •  Обучающее множество: Query log from Shopping.com September 2009, December 2009 and March 2010 •  29257 queries.   •  Запросы, принадлежащие категории «Компьютеры» : laptops, hard drives, laptop accessories, printers, memory cards, software •  mechanical Turk •  450 запросов в тестовом множестве 18.10.11   Сегментация  товарных  запросов   15  
  • 16. Метрики  для  оценки         i =1   ∑q|Pr ecision(ti ) i =< |   Pr ecision(q) = |q|   i =1   ∑ Re call (t ) i =< |q| i  Re call ( q ) =   |q|       18.10.11   Сегментация  товарных  запросов   16  
  • 17. Оценка  автоматического  маркирования  запросов   Точность   Полнота   F-­‐мера   0,95   0,9   0,85   0,8   0,75   0,7   0,65   0,6   0,55   0,5   0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9   значение  косинусной  метрики   18.10.11   Сегментация  товарных  запросов   17  
  • 18. Оценка    сегментации  запросов   M3   база   0,9     т 0,85   о 0,8   ч н 0,75   о   с т 0,7   ь 0,65     0,6   0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9   Уровень доверия   (a)   п о   0,55   F 0,6   л 0,45   - м н е о р 0,5   т а а 0,35   0,4   0,25   0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9   0   0,1   0,2   0,3   0,4   0,5   0,6   0,7   0,8   0,9   Уровень  доверия Уровень доверия (b)   (c)   18.10.11   Сегментация  товарных  запросов   18  
  • 19. Использование  модели  сегментации   Использование сегментации в режиме Запрос о продукте реального времени пользователь Предсказать Структуриров сегментацию анный запрос Слово -> атрибут Продукт из БД Модель сегментации БД продуктов 18.10.11   Сегментация  товарных  запросов   19