ODS.ai Odessa Meetup #4: NLP: изменения за последние 10 лет

The Decade of NLP
Давайте разберемся, как NLP развивался на протяжении
последних 10 лет

До 2012...
● Rule-based подходы
● Графовые подходы
● Большинство классических методов ML
● Простые векторные представления документов/предложений/слов
● Весь DL -- только гипотеза без подтверждения
Боли:
● Громоздкость
● Отсутствие мощностей
● Малая точность
● Об интеграции никто даже не задумывлася

2013: word2vec
● Efficient Estimation of Word Representations in Vector Space (Tomas Mikolov
et al., 2013) https://arxiv.org/pdf/1301.3781.pdf
● Distributed Representations of Words and Phrases and their Compositionality
(Tomas Mikolov et al., 2013) https://arxiv.org/pdf/1310.4546.pdf
● We propose two novel model architectures for computing continuous vector
representations of words from very large data sets.
● Основная идея: попробовать сформировать из большого количества
текстов датасет, чтобы в supervised стиле обучить какую-то модель с
помощью gradient descent метода предсказывать контекст/семантику
слова, а параметры модели использовать как представления.

Как это работает
iggle
0
0
0
0
1
0
0
…
0
H
i
d
d
e
n
OHE
(..., n)
3.54
-0.84
0.123
...
(..., n)
(iggle, squiggs)
squiggs
Loss: CE
The iggle squiggs trazed wombly
in the harlish hoop.
(The, iggle), (The, squiggs), (Iggle,
the), (iggle, squiggs), (iggle,
trazed)...
n-gramms
В итоге соответствие в матрице u -- входным словам, а в v --
выходным.
w(squiggs) = u(squiggs) + v(squiggs)

Что мы получаем в итоге?

Реализации и использование
● классическая модель
● fasttext
● Glove
Обычно, использование сводится к
● конкатенации векторов
●

Предложение — последовательность
1. w2v не учитывает последовательность слов в предложении
2. усредненный контекст вместо конкретного

2013-2014: RNN
“What’s going on?”

Backpropagation through time
...
W W W W W
...
И тогда общий
backpopagation для какого-то
момента времени -- сумма
всех производных по
параметрам сети до этого
момента
В случае RNN, на
каждом шаге времени
мы можем посчитать
целевой лосс.

RNN для разных задач
1 to 1
Usual NN
1 to n
Text generation
n to 1
Classification
https://colah.github.io/posts/2015-08-Understanding-LSTMs/

RNN для разных задач
n to n
POS, NER Machine
translation

Vanishing and exploding gradients
n n^10 n^100
1.77 ~301 ~6*10^24
0.45 ~0.0003 ~0
http://web.stanford.edu/class/cs224n/re
adings/cs224n-2019-notes05-LM_RNN.
pdf

Каким образом пофиксить?
1) Для борьбы со
взрывающимися
градиентами мы можем
просто не давать им сильно
расти -- gradient clipping.
2) Разбивать
последовательности
3) Identity инициализация
вместо рандома
4) ReLU

Вариации LSTM
Peephole connections
No input gates
GRU и так далее...

LSTM: A Search Space Odyssey
https://arxiv.org/abs/1503.04069

2014: seq2seq
https://arxiv.org/pdf/1409.3215.pdf

2016: Attention!
● в какой пропорции надо взять
вектора на текущем шагу
Bidirectional
RNN

2016: Google bridges the gap between human and
machines

2014-2016: эра LSTM
● Огромная куча вариаций
● Все task-specific
● Нет transfer learning

2018: ULM-Fit
https://arxiv.org/pdf/1801.06146
We propose Universal Language Model Fine-tuning (ULMFiT), an effective transfer learning method that
can be applied to any task in NLP, and introduce techniques that are key for fine-tuning a language model.
Our method significantly outperforms the state-of-the-art on six text classification tasks, reducing the error
by 18- 24% on the majority of datasets. Furthermore, with only 100 labeled examples, it matches the
performance of training from scratch on 100× more data. We open-source our pretrained models and
code

2018: ELMO (Embeddings from Language Models)

2017: Attention is all you need!
● главный вопрос: а зачем нам
рекуррентность?
encoder
decoder

Multi-Head attention
Учим h подобных сетей:
● На вход слою подаются вектора key,
value, query (key = value)
● От каждого из векторов считается
линейное преобразование
● Считаем скалярное произведение Q
со всеми K
● Считается softmax
● Вектора складываются и
прогоняются через линейный слой

2018: GPT (Generative pretrained transformers)
https://jalammar.github.io/illustrated-gpt2/

Как использовать?

2019: BERT (Bidirectional encoder representation of
transformer)

BERT pretraining: masked language model

BERT pretraining: next sentence prediction

На данный момент имеем
● GPT-2, GPT-3
● BERT и его модификации
● ELMo
● One-shot / few-shot learning
● индивидуальный подход ;)

ODS.ai Odessa Meetup #4: NLP: изменения за последние 10 лет

Recommended

Recommended

More Related Content

Similar to ODS.ai Odessa Meetup #4: NLP: изменения за последние 10 лет

Similar to ODS.ai Odessa Meetup #4: NLP: изменения за последние 10 лет (7)

More from DataPhoenix

More from DataPhoenix (7)

ODS.ai Odessa Meetup #4: NLP: изменения за последние 10 лет