本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
Get To The Point: Summarization with Pointer-Generator Networks_acl17_論文紹介Masayoshi Kondo
Neural Text Summarizationタスクの研究論文.ACL'17- long paper採択.スタンフォード大のD.Manning-labの博士学生とGoogle Brainの共同研究.長文データ(multi-sentences)に対して、生成時のrepetitionを回避するような仕組みをモデルに導入し、長文の要約生成を可能とした.ゼミでの論文紹介資料.論文URL : https://arxiv.org/abs/1704.04368
10. 学習時にランダム初期化されたパラメータを最適化しようとするから難しい。
だったら、学習の前に良良い初期値を求める「事前学習」を⾏行行えばよくね?
【解決】: A fast learning algorithm for deep belief nets. (2006, Hinton+)
⽬目的とするネットワークの学習前に、層ごとに学習を⾏行行うことで
パラメータの良良い初期値を得る⽅方法
事前学習(pretraining)
Hintonらは、DBN(Deep Belief Network)に対して各層をRBM(Restricted
Boltzman Machine)とみなし、⼊入⼒力力層側から貪欲法の考え⽅方に従って順番に教
師なし学習を⾏行行い、多層ネットワークの実⽤用化を達成
【課題】: 誤差逆伝搬法では多層化したネットワークの学習は困難
勾配消失問題
多層化したネットワークでは誤差逆伝搬法での学習を⾏行行うと、⼊入⼒力力層から離離
れた「深い」層に計算が進むに連れて、勾配が急速に⼩小さく・⼤大きくなって
発散してしまう現象
02: 研究の歴史
1.1.2 多層ネットワークの事前学習(pre-‐‑‒training)
その後:⾃自⼰己符号化器(auto-‐‑‒encoder)を利利⽤用した多層ネットワークの事前学習も可能
11. [ex.1]: Emergence of simple-‐‑‒cell receptive field properties by learning a
sparse code for natural images (Nature, 1996)
[実験]: ⾃自然画像から切切り出したパッチ集合を対象にスパース符号化
(sparse encoding) によって辞書(基底)を学習
[結果]: 哺乳類の脳の初期視覚野で取り出されるとされる”ガボールウェーブレット”
状の基底が得られる
[ex.2]: Sparse deep belief net model for visual area (NIPS, 2008)
[実験]: ⾃自然画像のパッチを2層以上のネットワーク(RBMを重ねたもの)で学習
[結果]: 霊⻑⾧長類の視覚野のV2領領域に⾒見見られるとされる特徴に類似した特徴が学習される
03: 研究の歴史
1.1.3 特徴量量の学習
【仮説】画像や⾳音声など⾃自然界のデータは、⼀一般的に⾼高次元空間上に存在し強い
偏りを持ちながら複雑に広がっていると考えられる
Thatʼ’s very interesting, I can learn a lot from you! That’s very interesting, I can
learn a lot from you!
【科学者の興味・関⼼心】
多層ネットワークが⾃自然界のデータを学習した際に、⾃自然界のデータの持つ構造
がどのようにネットワークの多層構造に捉えられて表現されるのだろうか?
-‐‑‒ 過去の研究
15. 【順伝搬型ニューラルネットワーク (Feedforward Neural Network)】
• 層状に並べたユニットが隣隣接層間でのみ結合した構造を持つ
• 情報が⼊入⼒力力側から出⼒力力側へ⼀一⽅方向にのみ伝搬する
• 別名:多層パーセプトロン (multi-‐‑‒layer perceptron)
05: 順伝搬型ネットワーク
2.1 ユニットの出⼒力力
x1
x2
x3
x4
⼊入
⼒力力
ベ
ク
ト
ル
f
活性化関数
z
出⼒力力
u z
<ユニット図>
(※ u, z : 変数)
順伝搬型ネットワークでは
上記ユニットが層状に並べられ、層間でのみ結合をもつ
16. 06: 順伝搬型ネットワーク
2.1 ユニットの出⼒力力
x1
x2
x3
x4
⼊入
⼒力力
ベ
ク
ト
ル
f
活性化関数
z
出⼒力力
u z
<ユニット図>
(※ u, z : 変数)
z = f (u)
u = w1x1 + w2 x2 + w3x3 + w4x4 + b
[総⼊入⼒力力] [重み(Weight)] [⼊入⼒力力] [バイアス]
「学習」
⼊入⼒力力データから
[重み(Weight)]と[バイアス]のパラメータを定めること