1. Получение
структуры
для
поисковых
запросов
на
примере
товарных
запросов
Юлия
Киселева
Saint-‐Petersburg,
2011
2. План
• Цели
данной
работы
• Описание
разработанного
метода
• Описание
входных
данных
• Метрики
для
оценки
• Базовый
метод
• Результаты
18.10.11
Сегментация
товарных
запросов
2
3. Поисковые запросы о товарах
Классификация запросов
[Bernard J. Jenson et al., 2008]
• Информационные
(80,6%)
• Навигационные (10,2%)
Поисковый
• Транзакционные (9,2
%)
запрос:
dell inspiron 15 2gb
Запрос отражает интерес
пользователя
Анализ поисковых запросов
Запрос имеет структуру
Поисковая
машина
18.10.11
Сегментация
товарных
запросов
3
4. Сегментация запросов
<QUERY>
< TERM WORD = "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" />
< TERM WORD = "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" />
< TERM WORD = "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" />
< TERM WORD = "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE
= "0.40" />
</ QUERY >
18.10.11
Сегментация
товарных
запросов
4
10. Генерация
синтетических
запросов
Генерация
синтетических Синтетические
Synthetic
запросов
queries
запросы
• Во
время
маркирования
запросов
Считаем
вероятность
перехода
мы
сохраняем
словари
для
между
атрибутами,
основываясь
атрибутов
на
промаркированной
выборке
• Для
каждого
терма
считается
вес
• Начинаем
со
спец
символа
“$begin
быть
промаркированным
• Случайным
образом
выбираем
конкретным
атрибутом
число
из
[0,
1]
• Затем:
• Продолжаем
до
специального
• Есть
атрибут
“unknown”
символа
$end
проверяем
словарь
• Получаем
готовый
синтетический
• Если
находим
несколько
запрос
атрибутов
для
терма
:
NB
:
Алгоритм
Сглаживания
выбираем
атрибут
с
наибольшим
весом
18.10.11
Сегментация
товарных
запросов
10
12. Conditional Random Fields
x = (x1 , x 2 ,..., x n ) - запрос, состоящий из n
- слов
последовательность атрибутов для этих
y = (y1 , y 2 ,..., y n ) n слов
f j (y i 1 , yi , x, i) = exp(∑ λ j t j (y i 1 , yi , x, i) + ∑ µ k s k (y i , x, i))
j k
t j (y i 1 , yi , x, i) - вероятность перехода
s k (y i , x, i) - признак
1
p(y | x, λ) = exp(∑ λ jf j (y, x))
Ζ(x, λ) j
{(x (i) , y(i) )}im1
=
- обучающее множество
12
13. Обучение модели сегментации
Модель : Conditional Random Fields (CRF)
Атрибуты: the union of all attribute names matched automatically
18.10.11
Сегментация
товарных
запросов
13
14. Признаки
для
модели
сегментации
Общие
признаки:
• юниграммы
(unigrams)
-‐
s,
o,
n
,y.
• биграммы
(bigrams)
:
de,
el,
ll
• регулярные
выражения:
«vaio»
-‐
это
слово,
«15.4»
-‐
это
число,
«250gb»
-‐
это
смешанное
слово.
• контекстная
информация
Признаки,
характерные
для
чисел:
• Интервал
Признаки,
характерные
для
«смешанных»
элементов:
• 2gb
=>
“2”
и
“gb”
Признаки,
основанные
на
словаре
или
словарные
признаки:
• Словарь
брендов
• Словарь
атрибутов
и
слов
18.10.11
Сегментация
товарных
запросов
14
15. Описание
текстового
и
обучающего
множеств
• Обучающее множество: Query log from Shopping.com
September 2009, December 2009 and March 2010
• 29257 queries.
• Запросы, принадлежащие категории
«Компьютеры» : laptops, hard drives, laptop accessories,
printers, memory cards, software
• mechanical Turk
• 450 запросов в тестовом множестве
18.10.11
Сегментация
товарных
запросов
15
16. Метрики
для
оценки
i =1
∑q|Pr ecision(ti )
i =< |
Pr ecision(q) =
|q|
i =1
∑ Re call (t )
i =< |q|
i
Re call ( q ) =
|q|
18.10.11
Сегментация
товарных
запросов
16
18. Оценка
сегментации
запросов
M3
база
0,9
т
0,85
о 0,8
ч
н 0,75
о
с
т 0,7
ь
0,65
0,6
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Уровень доверия
(a)
п
о
0,55
F
0,6
л 0,45
-
м
н е
о р 0,5
т а
а
0,35
0,4
0,25
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9
Уровень
доверия
Уровень доверия (b)
(c)
18.10.11
Сегментация
товарных
запросов
18
19. Использование
модели
сегментации
Использование
сегментации в режиме
Запрос о
продукте реального времени
пользователь
Предсказать Структуриров
сегментацию анный запрос
Слово ->
атрибут
Продукт из
БД
Модель
сегментации
БД
продуктов
18.10.11
Сегментация
товарных
запросов
19