2. 2
1. Понятие об обработке естественных языков
2. Words Embeddings
3. Вероятностные основы Word2Vec
4. Свойства пространства векторов
5. …
6. Проблема многозначных слов
7. Моделирование векторов фраз / предложений /
документов
8. Recursive Neural Networks
9. Recurrent Neural Networks
3. 3
The quick brown fox jumps over the lazy dog
предсказываются
контекстные слова
предсказываются
контекстные слова
7. 1. Построить word2vec вектора по обучающему корпусу
2. Выбрать ширину k окна контекста
3. Для каждого слова v в корпусе
a) Построить все вектора контекстов, в которых оно встречается:
… and I really like Apple iPad! Amazing …
… than conventional filtered apple juice, depending on …
b) Кластеризовать все контексты с
c) Заменить все вхождения слова v на v_k согласно кластеризации:
… and I really like Apple_1 iPad! Amazing …
… than conventional filtered apple_2 juice, depending on …
4. На переразмеченном корпусе обучить новые вектора для
значений слов
7
8. Sergey Bartunov, Dmitry Kondrashkin, Anton Osokin, Dmitry Vetrov
“Breaking sticks and ambiguities with adaptive Skip-Gram”
Adaptive Skip-Gram:
Skip-Gram:
Вероятность того, что
слово xi употреблено
в смысле zi
Вероятность контекстного
слова yij, при условии, что xi
употреблено в смысле zi
8
Априорная вероятность k-го
значения слова w
(stick-breaking representation
of Dirichlet Process)
Вероятность контекста yi
для слова xi
Контекстные слова
полагаются независимыми
10. 10
• Оригинальная статья:
https://arxiv.org/abs/1502.07257
• Выступление одного из авторов (Дмитрия Ветрова):
https://www.youtube.com/watch?v=vYbee1InliU
• Introduction to the Dirichlet Distribution and Related Processes:
https://www.ee.washington.edu/techsite/papers/refer/UWEETR-2010-0006.html
11. Для векторизации более крупных текстовых объектов используют:
1. Объединение через разделитель (“_”)
2. Взвешенное суммирование векторов предложения / документа
3. Doc2Vec
4. RNN^2
5. …
11
13. 13
CBOW
Три слова из контекста используются
чтобы предсказать четвертое.
Doc2Vec
Три слова из контекста используются
чтобы предсказать четвертое. Для
каждого документа коллекции
заводится свой вектор документа. В
процессе обучения вектор документа
конкатенируется с векторами слов.
Quoc V. Le, Tomas Mikolov,
Distributed Representations of Sentences and Documents
14. 14
Quoc V. Le, Tomas Mikolov,
Distributed Representations of Sentences and Documents
15. Фаза обучения:
получение матриц векторов W, W’ и матрицы документов D
Фаза предсказания:
1. Случайно инициализированные вектора, соответствующие
новым документам, добавляются к матрице D из (1)
2. Матрицы W, W’ фиксируются и осуществляется градиентный
спуск только по параметрам из D
“On average, our implementation takes 30 minutes to compute
the paragraph vectors of the IMDB test set, using a 16 core
machine (25,000 documents, each document on average has
230 words).”
https://radimrehurek.com/gensim/models/doc2vec.html
15
18. NP (Noun Phrase) -> DT N
N -> JJ N
N -> NN N
N -> NN
…
PP (Prepositional Phrase) -> IN NP
N -> N PP
…
VP (Verb Phrase) -> VI
VP -> Vt NP
VP -> VP PP
…
S (Sentence) -> NP VP
…
18
26. 26
Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng.
Semantic Compositionality through Recursive Matrix-Vector Spaces
27. 27
Richard Socher, Brody Huval, Christopher D. Manning, Andrew Y. Ng.
Semantic Compositionality through Recursive Matrix-Vector Spaces
28. 28
1. xt – вход в момент времени t
2. st – скрытое состояние сети в момент времени t
3. st вычисляется на основе текущего входа и st-1 :
4. ot – выход в момент времени t, например softmax(Vst)
30. На практике это работает плохо:
1. Вектор внутреннего состояния (памяти) значительно
изменяется при каждом t
2. Vanishing gradient problem
3. Exploding gradient problem
30
42. 1. Затронули проблему многозначных слов
2. Изящное решение - Adaptive Skip-Gram
3. Неизящное решение – множество
кластеризаций
4. Кратко рассмотрели моделирование более
крупных текстовых объектов: Doc2Vec, RNN^2
42