Международная конференция по интернет-маркетингу «Неделя Байнета». День Поискового маркетинга, 22 апреля, Минск, Беларусь. Больше информации о Михаиле Сливинском и о других спикерах Недели Байнета смотрите на сайте конференции www.bynetweek.by
3. Как искать и находить?
Факторов много, но основа – слово
Какие слова важнее других?
Много нюансов – морфология, зонирование,…
4
4. О чём эта фраза?
│ «Гло́кая ку́здра ште́ко будлану́ла
бо́кра и курдя́чит бокрёнка»
Л. В. Щерба, ~30-е годы XX в.
О чём эта фраза?
5
5. Но смысл есть не всегда
Отличительная особенность кофе … — это
его крепостца. …. Если же для покупателя
кофейло-помойло – это, в первую очередь,
возможность взбодриться, то … — это
отличный выбор. …. Если речь идет о
молотом кофейло-помойло, то его помол
будет равномерным, без вкраплений слишком
крупных частиц. …
6. Это то, что хочет услышать покупатель?
Орфография и пунктуация авторов сохранены.
…И поэтому, кабель телефонный Воронеж - это надежная связь с
внешним миром для всех нас...
…Купить электровелосипед Пежо AE21 можно нажав кнопку "Купить" или
позвонив нашим менеджерам…
…Купить розы с доставкой не составит особого труда. Вам просто
нужно сделать заказ и наш интернет-магазин сделает свою работу
быстро и качественно. Приобрести наш товар недорого, можно не
выходя из дома…
9. Дистрибутивная семантика
Дистрибути́вная сема́нтика — это область лингвистики,
которая занимается вычислением степени семантической
близости между лингвистическими единицами на основании
их дистрибуционных признаков в больших массивах
лингвистических данных.
https://ru.wikipedia.org/wiki/Дистрибутивная_семантика
10
10. Дистрибутивная гипотеза
▌ Лингвистические единицы, встречающиеся в схожих
контекстах, имеют близкие значения.
▌ A word is characterized by the company it keeps.
John Rupert Firth, 1957
11
11. И очень простое объяснение:
▌ …Шума никакого существенного не обнаружено. Как и
полагается любому ------------------, урчит
12
Какое слово пропущено?
▌ …Шума никакого существенного не обнаружено. Как и
полагается любому ------------------, урчит компрессорами и
хладагентом, по громкости примерно как урчание котёнка.
▌ …Шума никакого существенного не обнаружено. Как и
полагается любому ------------------, урчит компрессорами и
хладагентом, по громкости примерно как урчание котёнка.
Поскольку не "No-frost", никакого постоянно жужжащего
вентилятора нет…
12. Слово – вектор контекстов
13
Проблема: слишком большая размерность векторов, обусловленная
огромным числом контекстов. Нужно снижать размерность.
Слово/контекст … напиток … горячий …
…
вода 14 2
...
…
кофе 9 5
…
13. Технология word2vec
Efficient Estimation of Word Representations in Vector Space (2013),
T. Mikolov, K. Chen, G. Corrado, J. Dean.
Distributed Representations of Words and Phrases and their
Compositionality (2013),
T. Mikolov, I. Sutskever, K. Chen, G. Corrado, J. Dean.
14
17. От частного – к общему
18
белый
красный
синий
зеленый
голубой
розовый
желтый
зелёный
оранжевый
светлый
коричневый
прозрачный
…
декабря
января
октября
ноября
марта
мая
июля
сентября
февраля
июня
апреля
августа
…
тульский
самарский
нижегородский
воронежский
владимирский
новосибирский
омский
тюменский
смоленский
ростовский
калужский
челябинский
…
Андрей
Алексей
Игорь
Евгений
Николай
Олег
Юрий
Виктор
Павел
Константин
Валерий
Илья
…
18. │ Линейные операции над векторами
соответствуют семантическим
преобразованиям!
19. Поищем аналогии вместе
король - мужчина
? - женщина
20
0.6804 королева
0.6779 принцесса
0.6408 царица
20. Поищем аналогии вместе
брат - сестра
внук - ?
21
0.7826 внучка
0.6031 племянница
0.5755 правнучка
21. Поищем аналогии вместе
день - ночь
полдень - ?
22
0.5149 полночь
0.4718 темень
0.4578 тень
22. Поищем аналогии вместе
возможно - невозможно
удобно - ?
23
0.7071 сложно
0.6700 трудно
0.6643 неудобно
23. Немного о городах и жителях
В Костроме – костромичи, а в Курске?
24
0.5596 куряне
0.5707 смоляне
В Перми – пермяки, а в Смоленске?