Modern neural net architectures - Year 2019 version

Modern Neural Net
Architectures /
Year 2019 version
Григорий Сапунов (CTO, Intento)

План доклада
• Recap: основные типы нейросетей
• Self-Attention и Трансформер
• Трансформер
• BERT, XLNet, GPT-2
• GAN
• Modern Sequence Learning
• Другие архитектурные улучшения
• Процедуры обучения

Recap: “классические” типы нейросетей

FNN: Feedforward Neural Network
Multilayer Perceptron (MLP) — классика FFN.
Хорошо работают для классификации, но
есть трудности:
● много параметров
● градиенты затухают в глубокой сети → трудно обучать

ResNet: Residual Network
Помогает сохранить градиенты в глубоких сетях.

СNN: Convolutional Neural Network
FNN сеть специального вида для работы с данными, имеющими
локальную структуру

RNN: Recurrent Neural Network
RNN имеют циклические связи в структуре сети, подходит для
работы с последовательностями.

LSTM/GRU: более хитрые RNN
http://kvitajakub.github.io/2016/04/14/rnn-diagrams
Позволяет выучивать более “длинные” закономерности, помогает
бороться с затуханием или взрывом градиентов.

http://karpathy.github.io/2015/05/21/rnn-effectiveness/
Последовательность как first-class citizen.
Sequence to Sequence Learning (seq2seq)

https://www.quora.com/What-is-an-Encoder-Decoder-in-Deep-Learning
Encoder-Decoder architecture
Классика работы с последовательностями разной длины.

Проблемы архитектуры Encoder-Decoder
Энкодер кодирует всю входную последовательность в вектор
фиксированной длины (контекст) независимо от её размера.
Достаточен ли размер этого вектора? Одинаково ли хорош этот
вектор для каждого генерируемого выходного элемента?

Механизм внимания
Механизм внимания позволяет декодеру учитывать разные
элементы входной последовательности по-разному при генерации
каждого элемента выходной последовательности.
Мы даём модели возможность сформировать свой контекст для
каждой позиции.

Механизм внимания (soft attention)
http://en.diveintodeeplearning.org/chapter_natural-language-processing/attention.html

Внимание можно визуализировать
Neural Machine Translation by Jointly Learning to Align and Translate
https://arxiv.org/abs/1409.0473

Внимание можно визуализировать
Teaching Machines to Read and Comprehend, https://arxiv.org/abs/1506.03340

Self-attention (Intra-Attention)
Каждый элемент последовательности “принимает во внимание”
остальные элементы этой же последовательности.

Трансформер
Энкодер-декодер специального вида,
построенный на блоках attention без
использования RNN/CNN.
Основной компонент — multi-head self-attention.
Быстрые матричные операции, хорошее качество
на различных задачах (в первую очередь
машинный перевод).

Multi-head self-attention
По сути, просто несколько слоёв внимания,
производящие различные линейные
преобразования над входными данными и
составленные вместе.

Энкодер-декодер
http://jalammar.github.io/illustrated-transformer/

Вход

Энкодер

Более правдивый энкодер

Более правдивый энкодер-декодер

Пример визуализации (2 головы)

Энкодер-декодер в работе

Transformer-XL
Модификация LM на обычном трансформере (декодере)
Добавляется возможность посмотреть на репрезентации
предыдущего сегмента → можно выучивать более длинные
зависимости.

Другие виды трансформеров
● Image Transformer
● Music Transformer
● Universal Transformer
● Transformer-XL
● Sparse Transformer
● ...

BERT
Bidirectional Encoder Representations from Transformers
Использует только энкодер трансформера.
Предобучается на больших массивах текстов, учитывая
для каждой позиции контекст слева и справа.
Можно взять предобученный BERT (представления из
него) и дообучить его под свою задачу (часто на небольшом
датасете).
Open Sourcing BERT: State-of-the-Art Pre-training for Natural Language Processing,
https://ai.googleblog.com/2018/11/open-sourcing-bert-state-of-art-pre.html

BERT vs. GPT vs. ELMo
BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding,

BERT: masked language model
https://jalammar.github.io/illustrated-bert/

BERT: next sentence prediction (deprecated)
https://jalammar.github.io/illustrated-bert/

BERT: using fine-tuning approach

XLNet: Permutation Language Modeling
BERT — это, по сути, denoising autoencoder.
Он не учитывает взаимозависимость
маскируемых слов.
Традиционные LM не видят правый
контекст.
Как устранить проблемы этих методов?
Берём в качестве левого контекста
различные перестановки слов во всём
предложении.
XLNet = Transformer-XL + PLM
XLNet: Generalized Autoregressive Pretraining for Language Understanding

RoBERTa: A Robustly Optimized BERT
BERT был “недотюнен”.
Улучшения:
● Взять больше данных, тренировать дольше
● Next sentence prediction лишний
● Более длинные предложения
● Большие батчи
● Динамическое маскирование
Результат: state-of-the-art на 4 из 9 задачах в GLUE.

GPT-2
Языковая модель на декодере трансформера.
Умеет генерить продолжение текста. Настолько хорошо, что
OpenAI отказался её публиковать и устроил мощный PR.
Публикует понемногу, начиная с маленьких моделей.
Разные языковые модели на трансформерах можно попробовать
здесь: https://transformer.huggingface.co/
https://openai.com/blog/better-language-models/

GPT-2
http://jalammar.github.io/illustrated-gpt2/

GPT-2 / BERT / Transformer-XL
http://jalammar.github.io/illustrated-gpt2/

Language Model Zoo
● ELMo
● ULMFiT
● GPT
● BERT (BioBERT, ClinicalBERT, …)
● ERNIE
● XLNet
● KERMIT
● ERNIE 2.0
● GPT-2
● …
Готовые модели:
• https://github.com/huggingface/pytorch-transformers
• https://github.com/deepmipt/DeepPavlov

Generative Adversarial Networks (GANs)

AE & VAE (not a GAN, but ...)
http://kvfrans.com/variational-autoencoders-explained/

VAE: арифметика в латентном пространстве
https://www.manning.com/books/deep-learning-with-python

Классика для задач сегментации изображений.
U-Net: AE со skip-connections

GAN

https://github.com/hindupuravinash/the-gan-zoo

GAN rapid evolution
https://twitter.com/goodfellow_ian/status/1084973596236144640

Проблемы GAN
Одна из главных проблем — нестабильность процесса обучения.
Много трюков предназначены для решения этого класса проблем:
● Более хитрые loss-функции
● Различные процедуры нормализации и регуляризации
● Модификации процедуры обучения (например, на одну
итерацию обучения дискриминатора выполняем N итераций
обучения генератора)
● Модификации архитектуры нейросети (например, добавление
BatchNorm)
● Пример: “How to Train a GAN? Tips and tricks to make GANs
work”, https://github.com/soumith/ganhacks

DCGAN: deep convolutional GAN
● Генератор и дискриминатор становятся свёрточными
● Используется batch normalization

DCGAN: generated bedrooms

Арифметика в пространстве z

Progressive GAN (aka PGGAN, or ProGAN)
Постепенное наращивание разрешения в процессе обучения.

SGAN: Semi-Supervised GAN
Improved Techniques for Training GANs
● Дискриминатор — мультиклассовый классификатор (N классов
объектов + 1 класс для real/fake, а не, как обычно, бинарный
real/fake)
● Здесь ценность не в обученном генераторе, а в обученном
дискриминаторе
● Позволяет обучаться на небольшом числе размеченных
примеров и большом — неразмеченных. GAN, по сути,
используется для задачи, похожей на multi-task learning.

CGAN: Conditional GAN
Conditional Generative Adversarial Nets
● Хочется иметь генератор, способный генерировать объекты
заданных классов

pix2pix: CGAN для целых изображений
Image-to-Image Translation with Conditional Adversarial Networks

● Зачем GAN? Почему не свести к задаче supervised learning?
● Есть трудности с формулированием loss function, особенно под
специальные варианты трансляции.
● GAN позволяет использовать универсальный фреймворк без
“hand-engineering our loss functions”.
● GAN — это и есть обучаемая loss функция!
● Одна нейросеть используется в качестве loss функции для
обучения другой нейросети.

pix2pix: выбор loss-функции

● Проблема: нужны пары изображений.
● В некоторых случаях пары можно получить или сгенерировать
(например, цветное→ч/б), но в других случаях это сделать
трудно или нельзя.
● Как перейти к задаче unpaired domain translation?

CycleGAN: Cycle-Consistent GAN
Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks
Как перейти к задаче unpaired domain translation?

→ Хитрые функции потерь

→ Хитрые функции потерь:
● Cycle-consistent loss: обеспечивает F(G(X)) ≈ X и наоборот.
● Identity loss: помогает сохранить цвет исходных
изображений.
● Adversarial loss: обеспечивает реалистичность картинки.

Но...

Будьте осторожны со своими желаниями!
Cycle-consistent loss делает ровно то, что его попросили.

StackGAN: Мультимодальный GAN

StackGAN: Мультимодальный GAN
StackGAN: Text to Photo-realistic Image Synthesis with Stacked Generative Adversarial Networks

SA-GAN: Self-attention GAN
При генерации изображений хочется учитывать дальние
зависимости (long-range dependencies), в то время как CNN
оперируют в основном локальными признаками.
В случае CNN локальная
структура может быть
непротиворечива, но
глобальная —
бессмысленна.

SA-GAN: Self-attention GAN
Self-Attention Generative Adversarial Networks
Специальный self-attention модуль + spectral normalization

SA-GAN: Пример применения
https://github.com/jantic/DeOldify

BigGAN: прогресс в качестве генерации
Large Scale GAN Training for High Fidelity Natural Image Synthesis,

BigGAN: особенности
Large Scale GAN Training for High Fidelity Natural Image Synthesis,
● SAGAN + class conditioning (CGAN)
● Более тяжёлая архитектура (больше каналов, 2-4x больше
параметров, 8x больше размер батча)
● Более мощное железо для обучения
● Различные улучшения и хаки в процессе обучения: Truncation
Trick, Spectral Normalization, ...

Но...
https://twitter.com/quasimondo/status/1065610256917692416

Свежие примеры: GauGAN/SPADE
Semantic Image Synthesis with Spatially-Adaptive Normalization
https://arxiv.org/abs/1903.07291, https://nvlabs.github.io/SPADE/demo.html

Свежие примеры: vid2vid
https://github.com/NVIDIA/vid2vid
Video-to-Video Synthesis: https://arxiv.org/abs/1808.06601

https://distill.pub/2019/gan-open-problems/

Classical RNN Encoder-Decoder
Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation,

СNN+RNN character-level Encoder-Decoder
Fully Character-Level Neural Machine Translation without Explicit Segmentation,

CNN encoder
A Convolutional Encoder Model for Neural Machine Translation

CNN encoder + decoder
Convolutional Sequence to Sequence Learning

Modern seq2seq architectures
Why Self-Attention? A Targeted Evaluation of Neural Machine Translation Architectures,

Другие архитектурные улучшения

Separable Convolution
Xception: Deep Learning with Depthwise Separable Convolutions
model = Sequential()
model.add(SeparableConv2D(32, activation='relu', input_shape=(height, width, channels)))
model.add(SeparableConv2D(64, activation='relu'))
model.add(MaxPooling2D(2))
Separable conv =
Depthwise conv + Pointwise conv

Dynamic Convolutions
Pay Less Attention with Lightweight and Dynamic Convolutions

Batch Normalization

Роль skip connections
Visualizing the Loss Landscape of Neural Nets
https://arxiv.org/abs/1712.09913, https://www.cs.umd.edu/~tomg/projects/landscapes/

Другие нормализации
https://research.fb.com/wp-content/uploads/2018/09/Group-Normalization.pdf
● Batch Renormalization
● Layer Normalization
● Instance Normalization
● Group Normalization
● Weight Normalization
● ...

CLR: Cyclical Learning Rate
Cyclical Learning Rates for Training Neural Networks
https://arxiv.org/abs/1506.01186, https://github.com/bckenstler/CLR

SGDR: SGD with Warm Restarts
SGDR: Stochastic Gradient Descent with Warm Restarts

Snapshot Ensembling
Snapshot Ensembles: Train 1, get M for free

Modern neural net architectures - Year 2019 version

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Modern neural net architectures - Year 2019 version

Similar to Modern neural net architectures - Year 2019 version (20)

More from Grigory Sapunov

More from Grigory Sapunov (20)

Modern neural net architectures - Year 2019 version