Kiseleva

Получение
структуры
для

поисковых
запросов
на
примере

товарных
запросов

Юлия
Киселева

Saint-‐Petersburg,
2011

План

•  Цели
данной
работы

•  Описание
разработанного
метода

•  Описание
входных
данных

•  Метрики
для
оценки

•  Базовый
метод

•  Результаты

18.10.11
Сегментация
товарных
запросов
2

Поисковые запросы о товарах

Классификация запросов
[Bernard J. Jenson et al., 2008]
•  Информационные
(80,6%)
•  Навигационные (10,2%)
Поисковый
•  Транзакционные (9,2
%)
запрос:
dell inspiron 15 2gb
Запрос отражает интерес
пользователя

Анализ поисковых запросов
Запрос имеет структуру

Поисковая

машина

18.10.11
товарных
запросов
3

Сегментация запросов

<QUERY>
< TERM WORD = "dell" ATTRIBUTE = “бренд” CONFIDENCE = "0.86" />
< TERM WORD = "inspiron" ATTRIBUTE = “модель” CONFIDENCE = "0.86" />
< TERM WORD = "15" ATTRIBUTE = “размер экрана” CONFIDENCE = "0.99" />
< TERM WORD = "2gb" ATTRIBUTE= “объем оперативной памяти” CONFIDENCE
= "0.40" />
</ QUERY >

18.10.11
товарных
запросов
4

Описание
процесса
обучения
системы

18.10.11
товарных
запросов
5

Входные
данные

БД Журнал

продуктов

Словарь
Щелчков
брендов пользова-

телей
Название
товара:

Dell

Inspiron
1545
15.6-‐Inch
Словарь
брендов
с
Пары(запрос,
выбранный

Laptop
(Cherry
Red),
2.2GHz

синонимами
пользователем

Intel
Pen^um
Dual
Core
T4400

CPU;
2GB
System
Memory;
Пример:
Hewlea
Packard
продукт)

500GB
Hard
Drive
-‐>
hp
Запрос:
dell
inspiron
2gb

Атрибуты
товара:

Brand
–
Dell;

Family
Line

–

dell
Inspiron;

Display
Size
–

15.6
inch;

Memory
capacity
–
2
gb;

Color
–
cherry
Red;

………

18.10.11
товарных
запросов
6

Автоматическое
БД
продуктов
Журнал
Щелчков
пользова- маркирование
запросов

телей
Словарь
брендов

Выбранный пользователем товар = {атрибуты товара}
Вес терма = tf*idf – style
“Документ” - это комбинация всех термов из описания всех атрибутов
Пример: Brand “документ” <„dell‟:14, „ hewlett packard ‟:10, „lenovo‟:9, „asus‟:7>
tf = term frequency in attribute description
|D|
idf = log | di wi |
Similarity = косинусное расстояние

Memory
Token Brand Family Line Display Size Capacity
dell 0.9 0.1 0 0
inspiron 0.1 0.9 0 0
15 0 0 0.95 0.05
2gb
0
0
0
1

18.10.11
товарных
запросов
7

Автоматическое маркирование
запросов

18.10.11
товарных
запросов
8

Улучшение качества автоматического
маркирования запросов

18.10.11
товарных
запросов
9

Генерация
синтетических
запросов

Генерация

синтетических Синтетические
Synthetic

запросов
queries
запросы

•  Во
время
маркирования
запросов

Считаем
вероятность
перехода

мы
сохраняем
словари
для
между
атрибутами,
основываясь

атрибутов
на
промаркированной
выборке

•  Для
каждого
терма
считается
вес
•  Начинаем
со
спец
символа
“$begin

быть
промаркированным
•  Случайным
образом
выбираем

конкретным
атрибутом
число

из
[0,
1]

•  Затем:
•  Продолжаем
до
специального

•  Есть
атрибут
“unknown”
символа
$end

проверяем
словарь
•  Получаем
готовый
синтетический

•  Если
находим
несколько
запрос

атрибутов
для
терма
:
NB
:
Алгоритм
Сглаживания

выбираем
атрибут
с

наибольшим
весом

18.10.11
товарных
запросов
10

Генерация
синтетических
запросов
(1)

18.10.11
товарных
запросов
11

Conditional Random Fields
x = (x1 , x 2 ,..., x n ) - запрос, состоящий из n
-  слов
последовательность атрибутов для этих
y = (y1 , y 2 ,..., y n ) n слов
f j (y i 1 , yi , x, i) = exp(∑ λ j t j (y i 1 , yi , x, i) + ∑ µ k s k (y i , x, i))
j k
t j (y i 1 , yi , x, i) - вероятность перехода

s k (y i , x, i) - признак
1
p(y | x, λ) = exp(∑ λ jf j (y, x))
Ζ(x, λ) j

{(x (i) , y(i) )}im1
=
- обучающее множество

12

Обучение модели сегментации

Модель : Conditional Random Fields (CRF)
Атрибуты: the union of all attribute names matched automatically

18.10.11
товарных
запросов
13

Признаки
для
модели
сегментации

Общие
признаки:

•  юниграммы
(unigrams)
-‐
s,
o,
n
,y.

•  биграммы
(bigrams)
:
de,
el,
ll

•  регулярные
выражения:
«vaio»
-‐
это
слово,
«15.4»
-‐
это
число,

«250gb»
-‐
это
смешанное
слово.

•  контекстная
информация

Признаки,
характерные
для
чисел:

•  Интервал

Признаки,
характерные
для
«смешанных»
элементов:

•  2gb
=>
“2”
и
“gb”

Признаки,
основанные
на
словаре
или
словарные

признаки:

•  Словарь
брендов

•  Словарь
атрибутов
и
слов

18.10.11
товарных
запросов
14

Описание
текстового
и
обучающего
множеств

•  Обучающее множество: Query log from Shopping.com
September 2009, December 2009 and March 2010

•  29257 queries.

•  Запросы, принадлежащие категории
«Компьютеры» : laptops, hard drives, laptop accessories,
printers, memory cards, software

•  mechanical Turk

•  450 запросов в тестовом множестве

18.10.11
товарных
запросов
15

Оценка
автоматического
маркирования
запросов

Точность
Полнота
F-‐мера

0,95

0,9

0,85

0,8

0,75

0,7

0,65

0,6

0,55

0,5

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

значение
косинусной
метрики

18.10.11
товарных
запросов
17

Оценка

запросов

M3
база

0,9

т
0,85

о 0,8

ч
н 0,75

о

с
т 0,7

ь
0,65

0,6

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

Уровень доверия

(a)

п
о

0,55

F
0,6

л 0,45
-
м
н е
о р 0,5

т а
а
0,35

0,4

0,25
0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

0
0,1
0,2
0,3
0,4
0,5
0,6
0,7
0,8
0,9

Уровень
доверия
Уровень доверия (b)
(c)

18.10.11
товарных
запросов
18

Использование
модели

Использование
сегментации в режиме
Запрос о
продукте реального времени

пользователь
Предсказать Структуриров
сегментацию анный запрос
Слово ->
атрибут
Продукт из
БД

Модель

БД
продуктов

18.10.11
товарных
запросов
19

Kiseleva

Recommended

Recommended

More Related Content

Similar to Kiseleva

Similar to Kiseleva (20)

More from NLPseminar

More from NLPseminar (20)

Kiseleva