全力解説!Transformer

Arithmer Inc.
Arithmer Inc.Arithmer Inc.
自 動 車 、 バ イク等
全力解説!Transformer
2 0 2 1 / 4 / 1 3
N L P t e a m : H a r u y a U m e m o t o
2
梅本 晴弥 (Umemoto Haruya)
キャリア
2018, 青山学院大学(情報テクノロジー学科)卒業 学士(工学)
2020, 青山学院大学大学院(知能情報コース)卒業 修士(工学)
2020, Arithmer 株式会社(NLPチーム)
専門分野:強化学習,機械学習,自然言語処理(対話システム, 大規模事前学習モデル)
ポートフォリオサイト:https://umeco.tokyo
受賞歴
2020 - 人工知能学会研究会優秀賞
2020 - 薦田先端学術賞
2020 - 学業成績最優秀賞
2020 - 修士論文発表優秀賞
2017 - データ解析ハッカソン2017準優勝
(SIG-DOCMAS主催)
担当案件等
◼ 自己学習を促す教育用レコメンドAI
(https://arithmer.co.jp/210405)
◼ SPI等に基づいた能力予測システム
◼ 就活生の傾向把握のためのES分析
◼ 人間のフィードバックに基づいた対話シス
テム研究開発
3
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
4
【概要】Transformerって何?
2017年の論文 Attention Is All You Need[1] で発表されたモデル
[1] Vaswani, Ashish et al. “Attention is All you Need.” ArXiv abs/1706.03762 (2017)
機械翻訳タスクにおいて既存SOTAよりも高いスコアを記録
5
【概要】Transformerの他分野への応用
[2] Dosovitskiy, A. et al. “An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale.” ArXiv abs/2010.11929 (2020)
[3] Gulati, Anmol et al. “Conformer: Convolution-augmented Transformer for Speech Recognition.” ArXiv abs/2005.08100 (2020)
[2] 画像分野での応用
[3] 音声分野での応用
NLPだけでなく幅広い分野へ応用
6
【概要】NLPにおけるモデルの発展
事前学習モデル
• GPT-1,2,3
• BERT
• M2M100
• T5
Attention改良
Full Fonnection
• Bug of Words
• 分かち書き
• 共起ベクトル
以前 2011年 ~ 2017年 ~ 現在
統計的自然言語処理
🔥Transformer爆誕🔥
分散表現獲得手法
• Word2vec
• Glove
• Fasttext
RNN系
CNN
* RNNやLSTM,CNNのモデル提案はもっと以前
• Refomer
• Longformer
• Big Bird
• Peformer
7
【概要】RNN, CNN vs Transfomer
Recurrent Neural Network (RNN)
👍 以前の情報の記憶による時系列入力処理
👎 長い系列における記憶がほとんどできない
👎 👎 前の状態の演算結果が次の演算に必要でGPUを活用できない
Convolutional Neural Network (CNN)
👍 局所特徴量の抽出
👍 並列演算によるGPUの活用
👎 長期的な依存関係を捉えることができない
Transformer
👍 Attentionベース構造によるGPUの活用
👍 Self-Attentionによる超高性能な特徴量抽出
👍 長期的な依存関係を捉えることができる
👎 系列長が長い場合のメモリ消費
8
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
9
【構造解説】Transformer の全体図
単語のベクトル化
時系列情報の付与
残差演算+
レイヤー正規化
全結合層
Attentionによる
特徴量抽出
残差演算+
レイヤー正規化
エンコーダ部分 デコーダ部分
Attentionによる
特徴量抽出
未来の情報のマスク
単語のベクトル化
時系列情報の付与
10
【構造解説】Positional Encoding( 1)
入力例:[“猫”, “は”, “可愛い”]
Embedding Layer
[“猫”, “は”, “可愛い”]
単語をベクトル化(単語列なので行列)
猫
は
可愛い
入力長
(3 dim.)
埋め込み次元
(512 dim.)
Positional Encoding 時系列情報の付与
猫
は
可愛い
時系列情報 時系列情報が付与された
単語特徴量
単語特徴量
11
【構造解説】Positional Encoding( 2)
時系列情報の計算方法
pythonでの実装
特徴量の次元
(𝑑𝑑𝑖𝑚)
単語の場所
(pos)
特徴量のインデックス
(𝑖)
TransformerはRNNのように
モデル構造で時系列を扱わない
なぜ時系列情報を付与するのか?
特徴量側で時系列情報を扱う
12
【構造解説】Positional Encoding( 3)
[4] http://jalammar.github.io/illustrated-transformer より
Positional Encodingの可視化[4]
横軸:特徴量のインデックス(𝑖)
縦軸:単語の位置(pos)
1
-1
0
猫
は
可愛い
時系列情報
単語特徴量
13
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
14
【構造解説】Attention機構(1)
従来のSeq2Seq型のRNN翻訳モデル
猫 は 可愛い <BOS>
Cats
Cats
are
are
cute
cute
<EOS>
入力長が長くなるほど精度が低下
エンコーダ デコーダ
今までの入力全てをベクトルとして保持するのが難しい
15
【構造解説】Attention機構(2)
Attentionを利用したSeq2Seq型のRNN翻訳モデル
猫 は 可愛い <BOS>
softmax
内積
Cats
Cats
are
are
cute
cute
<EOS>
Attention機構
16
【構造解説】Attention機構(3)
Attention計算式(dot product attention)
Attention 𝑄, 𝐾, 𝑉 = softmax 𝑄𝐾𝑇
𝑉
𝑄: Query,これに関連するものをAttentionしたい
𝐾: Key,memoryの特徴量
𝑉: Value,memoryの値(多くの場合は𝐾 = 𝑉)
猫 は 可愛い
<BOS>
𝑄
𝐾𝑇
𝑉
猫
は
可愛い
行列積 1.3 0.4 0.9
softmax
0.5 0.2 0.3
行列積
“猫”要素が強めのベクトル
AttentionとはQueryで
Memory(key, value)から
重み付けして情報を取得する手法
17
【構造解説】Attention機構(4)
Attentionを利用したSeq2Seq型のRNN翻訳モデル
猫 は 可愛い <BOS>
softmax
内積
Cats
Cats
are
are
cute
cute
<EOS>
Attention機構
18
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
19
【構造解説】Transformer のAttention
猫
は
可愛い
(時系列情報が付与)
Multi-Headed Scaled Dot-Product Self-Attention
• Self-Attention
Query, Key, Valueが全て同じAttention
• Scaled Dot-Product (Attention)
scaling factorを用いる内積Attention
• Multi-Headed (Attention)
複数のヘッドを用いたAttention
20
【構造解説】Self-Attention
Query, Key, Valueが全て同じAttention
猫 は 可愛い
𝑄
𝐾𝑇
𝑉
行列積
softmax
行列積
各単語の特徴量が他の単語を考慮されて再構成
猫
は
可愛い
猫
は
可愛い
[seq_len, emb_dim]
[emb_dim, seq_len]
[seq_len, seq_len]
[seq_len, emb_dim]
0.1 0.0 0.0
0.1 0.3 0.2
0.0 0.0 0.0
猫
は
可愛い
猫 は 可愛い
1.2 0.4 0.9
1.3 2.1 1.9
0.2 0.5 0.7
21
【構造解説】Scaled Dot-Product Attention
𝑄: Query,これに関連するものをAttentionしたい
𝐾: Key,memoryの特徴量
𝑉: Value,memoryの値(多くの場合は𝐾 = 𝑉)
𝑑𝑘: 埋め込みベクトルの次元数さっきのemb_dim
なぜ𝑑𝑘で割るのか? 確率が低い部分の勾配情報を保持したいため
平均0,分散1の正規分布から独立に取得された要素で構成されるベクトル𝑞と𝑘を仮定
この時,内積は平均0,分散dkとなる softmaxした時に極小となる要素が発生
22
【構造解説】Multi-Head Attention( 1)
猫 は 可愛い
𝑄
𝐾𝑇
𝑉
行列積
softmax
行列積
各単語の特徴量が他の単語を考慮されて再構成
猫
は
可愛い
猫
は
可愛い
[seq_len, emb_dim]
[emb_dim, seq_len]
[seq_len, seq_len]
[seq_len, emb_dim]
0.1 0.0 0.0
0.1 0.3 0.2
0.0 0.0 0.0
猫
は
可愛い
猫 は 可愛い
1.2 0.4 0.9
1.3 2.1 1.9
0.2 0.5 0.7
並列に複数のAttentionを実施 • 愚直にn並列にすると計算量もn倍
• 結果も同じ
23
【構造解説】Multi-Head Attention( 2)
𝑄
𝑉
猫
は
可愛い
猫
は
可愛い
[seq_len, emb_dim]
𝐾
猫
は
可愛い
線形写像で行列の次元を減らしてから並列化(図の例では3並列)
[emb_dim, emb_dim/3] [seq_len, emb_dim/3]
行列積
𝑄1
′
転置
𝐾1
′
𝑉1
′
softmax
[seq_len, seq_len]
0.1 0.0 0.0
0.1 0.3 0.2
0.0 0.0 0.0
猫
は
可愛い
猫 は 可愛い
1.2 0.4 0.9
1.3 2.1 1.9
0.2 0.5 0.7
[emb_dim/3, seq_len]
[seq_len, seq_len]
[seq_len, emb_dim/3]
行列積
[seq_len, emb_dim/3]
𝑊
1
𝑄
𝑊1
𝐾
𝑊1
𝑧
24
【構造解説】Multi-Head Attention( 3)
𝑄
𝑉
猫
は
可愛い
猫
は
可愛い
[seq_len, emb_dim]
𝐾
猫
は
可愛い
線形写像で行列の次元を減らしてから並列化(図の例では3並列)
[emb_dim, emb_dim/3] [seq_len, emb_dim/3]
𝑄𝑖
′
𝐾𝑖
′
𝑉𝑖
′
𝑊
𝑖
𝑄
𝑊𝑖
𝐾
𝑊𝑖
𝑉
Attention
結合
[seq_len, emb_dim]
𝑊𝑜
[emb_dim, emb_dim]
出力
[seq_len, emb_dim]
25
【構造解説】Multi-Head Attention( 4)
数式
なぜMulti-Headなのか?
• Attentionする空間を選択でき、限定された特徴量空間でAttentionできる
• 単一Attentionでは平均的なAttentionとなる(大雑把なAttention)
• そして,単語の要素は1つではないのでMultiが望ましい(単語意味,品詞)
猫
は
可愛い
特徴量次元を圧縮 -> Attentionに利用する次元を学習
26
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
27
【構造解説】Shortcut Connection
2015年に提案されたResidual Network(ResNet)[4]の要素
Shortcut Connection
[4] He, Kaiming et al. “Deep Residual Learning for Image Recognition.” 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (2016).
レイヤ部分は入力と出力の残差を予測すれば良く,
入力が理想的であれば値をほぼ変えずに出力できる
導入によりTransformerは層をより増やすことが可能
28
【構造解説】Layer Normalization
NNのレイヤーの出力を平均0, 分散1に正規化する手法
• 勾配消失・爆発対策
• 学習がより効率良く進む
ℎ 𝑡, 𝑖 : ℎ番目のheadの
𝑡番目の単語の𝑖番目の特徴量
𝛽, 𝛾:学習可能なパラメータ
猫
は
可愛い
最終的にAdd & Normは次のように表記できる
ResidualLayerNorm 𝑥 = LayerNorm(sub_block(𝑥) + 𝑥)
29
【構造解説】Position-wise Feed-Forward Networks
各単語ごとに隔離された全結合層
猫
は
可愛い
[seq_len, emb_dim] [emb_dim, emb_dim*4]
𝑊1
普通の全結合層
[seq_len * emb_dim]
[seq_len * emb_dim, emb_dim*4]
𝑊2
[emb_dim*4, emb_dim]
各単語への重みは共有(図で言うと横方向に同じ重みが並ぶ)
30
【構造解説】Transformer Module のまとめ
Multi-Head Attention
[seq_len, emb_dim]
[seq_len, emb_dim]
Add &Norm
ResidualLayerNorm 𝑥 = LayerNorm(sub_block(𝑥) + 𝑥)
Feed Forward
各サブレイヤーの出力次元は入力次元と同一,実際にはこのModuleを複数層重ねる
31
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
32
【構造解説】Transformer の全体図(再掲)
単語のベクトル化
時系列情報の付与
残差演算+
レイヤー正規化
全結合層
Attentionによる
特徴量抽出
残差演算+
レイヤー正規化
エンコーダ部分 デコーダ部分
Attentionによる
特徴量抽出
未来の情報のマスク
単語のベクトル化
時系列情報の付与
33
【構造解説】RNN系の推論方法
従来のSeq2Seq型のRNN翻訳モデル
猫 は 可愛い <BOS>
Cats
Cats
are
are
cute
cute
<EOS>
エンコーダ デコーダ
出力されたものをデコーダの入力に再度入力して得ていく
34
【構造解説】Transformer Decoder の推論(イメージ)
入力例:[“猫”, “は”, “可愛い”] [”<BOS>”,“Cats”, “are”]
1. Decoderの入力として[“<BOS>”,””,””]を入れる
2. Outputに”Cats”が出力される
3. Decoderの入力として[“<BOS>”,”Cats”,””]を入れる
4. Outputに”are”が出力される
RNN系の推論と類似(自己回帰)
“cute”
35
【構造解説】 Transformer Decoderの学習
[“猫”, “は”, “可愛い”] [”<BOS>”,“Cats”, “are”, ”cute”,”<EOS>”]
[“Cats”, ”are”, “cute”, “<EOS>”, “<PAD>”]
学習段階では時系列の予測を並列に1度で実施
Transformer Moduleの変換
”<BOS>”
“Cats”
“are”
”cute”
”<EOS>”]
Linear変換
[seq_len, emb_dim] [seq_len, emb_dim] [seq_len, vocab_size]
softmax
[seq_len, vocab_size]
確率最大なindexを抽出
[seq_len, 1]
“Cats”
“are”
”cute”
”<EOS>”
“<PAD>”
36
【構造解説】Masked Attention
学習段階では時系列の予測を並列に1度で実施
そのままだと正解データが入力に含まれている!
Attention 𝑄, 𝐾, 𝑉, 𝑀 = softmax 𝑀 + 𝑄𝐾𝑇
𝑉
Attentionにおいて未来の単語をマスクする演算を追加
Cats
are
cute
Catsarecute
𝑄𝐾𝑇 𝑀
-∞-∞
-∞
0
0 0
0 0 0
0 0
softmax
0
Cats
are
cute
𝑉
37
目次
1. Transformerの概要
2. Transformerの各構造解説
1. Positional Encoding
2. Attention
3. Multi-headed Scaled Dot-Product Self-Attetion
4. Shortcut Connection, Layer Normalization, Position-wise
Feedforward Network
5. TransformerのDecoder
3. Transformerの実験結果・考察
38
【実験結果】機械翻訳タスクの実験結果
[1] Vaswani, Ashish et al. “Attention is All you Need.” ArXiv abs/1706.03762 (2017)
既存の手法よりも高いスコア & 学習コストも
39
【実験結果】Self-Attentionの計算量
1. 𝑛 < 𝑑の場合は,Self-Attentionの計算量はRNNよりも小さくなる
2. RNNは前の値を待つ必要があるので計算時間はよりかかる
3. Self-Attentionは長期の依存関係を学習しやすい
40
【実験結果】各パラメータの精度への影響
Transformer
Module数 特徴量次元
全結合層の次元
head数
Attentionの写像次元
Dropout率 label smoothing
41
Transformer まとめ
1. TransformerはAttentionベース構造で計算量・GPU親和性が高いモデル
2. 時系列データを一度に処理するためPositional Encodingを実施する必要
3. TransformerのAttentionは以下の要素を持つ
1. Self-Attention(入力同士を用いて特徴量を再構築)
2. Scaled Dot-Product Attention(勾配情報を保持しつつ内積する)
3. Multi-Headed Attention(複数のヘッドを用いて並列にAttention)
4. デコーダでは未来の情報のリークを防ぐためにMasked Attentionする
5. 実験結果からTransformerの高性能,低計算量が示された
Arithmer AI Systems
43
1 of 43

Recommended

Transformer メタサーベイ by
Transformer メタサーベイTransformer メタサーベイ
Transformer メタサーベイcvpaper. challenge
27.4K views181 slides
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) by
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
25.6K views173 slides
Transformerを雰囲気で理解する by
Transformerを雰囲気で理解するTransformerを雰囲気で理解する
Transformerを雰囲気で理解するAtsukiYamaguchi1
4.8K views37 slides
画像キャプションの自動生成 by
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
58K views101 slides
Active Learning 入門 by
Active Learning 入門Active Learning 入門
Active Learning 入門Shuyo Nakatani
51.8K views60 slides
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021) by
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)Deep Learning JP
3.8K views24 slides

More Related Content

What's hot

2014 3 13(テンソル分解の基礎) by
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)Tatsuya Yokota
40.6K views44 slides
Transformerを多層にする際の勾配消失問題と解決法について by
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
4.8K views16 slides
Curriculum Learning (関東CV勉強会) by
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)Yoshitaka Ushiku
64.1K views43 slides
Triplet Loss 徹底解説 by
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
11.5K views46 slides
【メタサーベイ】基盤モデル / Foundation Models by
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Modelscvpaper. challenge
16.5K views63 slides
Optimizer入門&最新動向 by
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向Motokawa Tetsuya
23K views21 slides

What's hot(20)

2014 3 13(テンソル分解の基礎) by Tatsuya Yokota
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota40.6K views
Transformerを多層にする際の勾配消失問題と解決法について by Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K views
Curriculum Learning (関東CV勉強会) by Yoshitaka Ushiku
Curriculum Learning (関東CV勉強会)Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku64.1K views
Triplet Loss 徹底解説 by tancoro
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
tancoro11.5K views
【メタサーベイ】基盤モデル / Foundation Models by cvpaper. challenge
【メタサーベイ】基盤モデル / Foundation Models【メタサーベイ】基盤モデル / Foundation Models
【メタサーベイ】基盤モデル / Foundation Models
cvpaper. challenge16.5K views
最適輸送入門 by joisino
最適輸送入門最適輸送入門
最適輸送入門
joisino11.6K views
深層学習時代の自然言語処理 by Yuya Unno
深層学習時代の自然言語処理深層学習時代の自然言語処理
深層学習時代の自然言語処理
Yuya Unno149.4K views
機械学習モデルの判断根拠の説明(Ver.2) by Satoshi Hara
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara48K views
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs by Deep Learning JP
【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs &amp; outputs
【DL輪読会】Perceiver io a general architecture for structured inputs &amp; outputs
Deep Learning JP1.5K views
【DL輪読会】時系列予測 Transfomers の精度向上手法 by Deep Learning JP
【DL輪読会】時系列予測 Transfomers の精度向上手法【DL輪読会】時系列予測 Transfomers の精度向上手法
【DL輪読会】時系列予測 Transfomers の精度向上手法
Deep Learning JP3.1K views
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? by Deep Learning JP
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
Deep Learning JP1.1K views
【DL輪読会】ViT + Self Supervised Learningまとめ by Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP4K views
最適輸送の解き方 by joisino
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino21.7K views
マルチモーダル深層学習の研究動向 by Koichiro Mori
マルチモーダル深層学習の研究動向マルチモーダル深層学習の研究動向
マルチモーダル深層学習の研究動向
Koichiro Mori45.5K views
Skip Connection まとめ(Neural Network) by Yamato OKAMOTO
Skip Connection まとめ(Neural Network)Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO17K views
機械学習による統計的実験計画(ベイズ最適化を中心に) by Kota Matsui
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui13.1K views
モデル高速化百選 by Yusuke Uchida
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida24.8K views

Similar to 全力解説!Transformer

深層学習フレームワーク Chainer の開発と今後の展開 by
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
26.9K views62 slides
ADVENTUREの他のモジュール・関連プロジェクトの紹介 by
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTURE Project
364 views26 slides
Convolutional Neural Netwoks で自然言語処理をする by
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をするDaiki Shimada
21.1K views28 slides
MapReduceによる大規模データを利用した機械学習 by
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習Preferred Networks
15.8K views33 slides
【チュートリアル】コンピュータビジョンによる動画認識 v2 by
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2Hirokatsu Kataoka
4.9K views67 slides
20170806 Discriminative Optimization by
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative OptimizationTakuya Minagawa
6.9K views36 slides

Similar to 全力解説!Transformer(20)

深層学習フレームワーク Chainer の開発と今後の展開 by Seiya Tokui
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui26.9K views
ADVENTUREの他のモジュール・関連プロジェクトの紹介 by ADVENTURE Project
ADVENTUREの他のモジュール・関連プロジェクトの紹介ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTUREの他のモジュール・関連プロジェクトの紹介
ADVENTURE Project364 views
Convolutional Neural Netwoks で自然言語処理をする by Daiki Shimada
Convolutional Neural Netwoks で自然言語処理をするConvolutional Neural Netwoks で自然言語処理をする
Convolutional Neural Netwoks で自然言語処理をする
Daiki Shimada21.1K views
MapReduceによる大規模データを利用した機械学習 by Preferred Networks
MapReduceによる大規模データを利用した機械学習MapReduceによる大規模データを利用した機械学習
MapReduceによる大規模データを利用した機械学習
Preferred Networks15.8K views
【チュートリアル】コンピュータビジョンによる動画認識 v2 by Hirokatsu Kataoka
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka4.9K views
20170806 Discriminative Optimization by Takuya Minagawa
20170806 Discriminative Optimization20170806 Discriminative Optimization
20170806 Discriminative Optimization
Takuya Minagawa6.9K views
Jubatusの特徴変換と線形分類器の仕組み by JubatusOfficial
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
JubatusOfficial6.9K views
深層生成モデルによるメディア生成 by kame_hirokazu
深層生成モデルによるメディア生成深層生成モデルによるメディア生成
深層生成モデルによるメディア生成
kame_hirokazu1.1K views
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. by Satoshi Kato
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Satoshi Kato8.1K views
Chainerの使い方と 自然言語処理への応用 by Yuya Unno
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
Yuya Unno30.4K views
点群SegmentationのためのTransformerサーベイ by Takuya Minagawa
点群SegmentationのためのTransformerサーベイ点群SegmentationのためのTransformerサーベイ
点群SegmentationのためのTransformerサーベイ
Takuya Minagawa251 views
20150803.山口大学講演 by Hayaru SHOUNO
20150803.山口大学講演20150803.山口大学講演
20150803.山口大学講演
Hayaru SHOUNO2.4K views
2017-05-30_deepleaning-and-chainer by Keisuke Umezawa
2017-05-30_deepleaning-and-chainer2017-05-30_deepleaning-and-chainer
2017-05-30_deepleaning-and-chainer
Keisuke Umezawa649 views
Teslaにおけるコンピュータビジョン技術の調査 (2) by Kazuyuki Miyazawa
Teslaにおけるコンピュータビジョン技術の調査 (2)Teslaにおけるコンピュータビジョン技術の調査 (2)
Teslaにおけるコンピュータビジョン技術の調査 (2)
Kazuyuki Miyazawa2.7K views
Variational Template Machine for Data-to-Text Generation by harmonylab
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
harmonylab3.5K views
令和元年度 実践セミナー - Deep Learning 概論 - by Yutaka KATAYAMA
令和元年度 実践セミナー - Deep Learning 概論 -令和元年度 実践セミナー - Deep Learning 概論 -
令和元年度 実践セミナー - Deep Learning 概論 -
Yutaka KATAYAMA314 views
Deformable Part Modelとその発展 by Takao Yamanaka
Deformable Part Modelとその発展Deformable Part Modelとその発展
Deformable Part Modelとその発展
Takao Yamanaka17.3K views

More from Arithmer Inc.

コーディネートレコメンド by
コーディネートレコメンドコーディネートレコメンド
コーディネートレコメンドArithmer Inc.
243 views6 slides
Test for AI model by
Test for AI modelTest for AI model
Test for AI modelArithmer Inc.
182 views43 slides
最適化 by
最適化最適化
最適化Arithmer Inc.
182 views7 slides
Arithmerソリューション紹介 流体予測システム by
Arithmerソリューション紹介 流体予測システムArithmerソリューション紹介 流体予測システム
Arithmerソリューション紹介 流体予測システムArithmer Inc.
160 views6 slides
Weakly supervised semantic segmentation of 3D point cloud by
Weakly supervised semantic segmentation of 3D point cloudWeakly supervised semantic segmentation of 3D point cloud
Weakly supervised semantic segmentation of 3D point cloudArithmer Inc.
111 views21 slides
Arithmer NLP 自然言語処理 ソリューション紹介 by
Arithmer NLP 自然言語処理 ソリューション紹介Arithmer NLP 自然言語処理 ソリューション紹介
Arithmer NLP 自然言語処理 ソリューション紹介Arithmer Inc.
229 views43 slides

More from Arithmer Inc.(20)

コーディネートレコメンド by Arithmer Inc.
コーディネートレコメンドコーディネートレコメンド
コーディネートレコメンド
Arithmer Inc.243 views
Arithmerソリューション紹介 流体予測システム by Arithmer Inc.
Arithmerソリューション紹介 流体予測システムArithmerソリューション紹介 流体予測システム
Arithmerソリューション紹介 流体予測システム
Arithmer Inc.160 views
Weakly supervised semantic segmentation of 3D point cloud by Arithmer Inc.
Weakly supervised semantic segmentation of 3D point cloudWeakly supervised semantic segmentation of 3D point cloud
Weakly supervised semantic segmentation of 3D point cloud
Arithmer Inc.111 views
Arithmer NLP 自然言語処理 ソリューション紹介 by Arithmer Inc.
Arithmer NLP 自然言語処理 ソリューション紹介Arithmer NLP 自然言語処理 ソリューション紹介
Arithmer NLP 自然言語処理 ソリューション紹介
Arithmer Inc.229 views
Arithmer Robo Introduction by Arithmer Inc.
Arithmer Robo IntroductionArithmer Robo Introduction
Arithmer Robo Introduction
Arithmer Inc.157 views
Arithmer AIチャットボット by Arithmer Inc.
Arithmer AIチャットボットArithmer AIチャットボット
Arithmer AIチャットボット
Arithmer Inc.149 views
Arithmer R3 Introduction by Arithmer Inc.
Arithmer R3 Introduction Arithmer R3 Introduction
Arithmer R3 Introduction
Arithmer Inc.632 views
VIBE: Video Inference for Human Body Pose and Shape Estimation by Arithmer Inc.
VIBE: Video Inference for Human Body Pose and Shape EstimationVIBE: Video Inference for Human Body Pose and Shape Estimation
VIBE: Video Inference for Human Body Pose and Shape Estimation
Arithmer Inc.173 views
Arithmer Inspection Introduction by Arithmer Inc.
Arithmer Inspection IntroductionArithmer Inspection Introduction
Arithmer Inspection Introduction
Arithmer Inc.248 views
Arithmer NLP Introduction by Arithmer Inc.
Arithmer NLP IntroductionArithmer NLP Introduction
Arithmer NLP Introduction
Arithmer Inc.431 views
Introduction of Quantum Annealing and D-Wave Machines by Arithmer Inc.
Introduction of Quantum Annealing and D-Wave MachinesIntroduction of Quantum Annealing and D-Wave Machines
Introduction of Quantum Annealing and D-Wave Machines
Arithmer Inc.734 views
Arithmer OCR Introduction by Arithmer Inc.
Arithmer OCR IntroductionArithmer OCR Introduction
Arithmer OCR Introduction
Arithmer Inc.280 views
Arithmer Dynamics Introduction by Arithmer Inc.
Arithmer Dynamics Introduction Arithmer Dynamics Introduction
Arithmer Dynamics Introduction
Arithmer Inc.496 views
ArithmerDB Introduction by Arithmer Inc.
ArithmerDB IntroductionArithmerDB Introduction
ArithmerDB Introduction
Arithmer Inc.1.6K views
Summarizing videos with Attention by Arithmer Inc.
Summarizing videos with AttentionSummarizing videos with Attention
Summarizing videos with Attention
Arithmer Inc.926 views
3D human body modeling from RGB images by Arithmer Inc.
3D human body modeling from RGB images3D human body modeling from RGB images
3D human body modeling from RGB images
Arithmer Inc.1K views
Object Pose Estimation by Arithmer Inc.
Object Pose EstimationObject Pose Estimation
Object Pose Estimation
Arithmer Inc.1.5K views

Recently uploaded

パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可 by
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可
パスキーでリードする: NGINXとKeycloakによる効率的な認証・認可Hitachi, Ltd. OSS Solution Center.
10 views22 slides
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PC Cluster Consortium
28 views36 slides
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向 by
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向
Keycloakの全体像: 基本概念、ユースケース、そして最新の開発動向Hitachi, Ltd. OSS Solution Center.
109 views26 slides
定例会スライド_キャチs 公開用.pdf by
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdfKeio Robotics Association
146 views64 slides
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
66 views12 slides

Recently uploaded(7)

PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga28 views

全力解説!Transformer