生成モデルの Deep Learning

Seiya Tokui
Seiya TokuiEngineer at Preferred Infrastructure, Inc.
生成モデルの Deep Learning
PFI セミナー 得居 誠也
Preferred Networks, Inc.
2016/02/25
自己紹介
 得居 誠也 (Seiya Tokui)
 beam2d (Twitter, GitHub)
 略歴
– PFIアルバイト(2010.10)→PFI(2012.04)→PFN(2014.10)
– 東大情報理工数理 (2010.04-2012.03):近傍探索の機械学習
– 4 月から社会人博士課程に入る予定
 主な仕事
– Chainer
– 深層学習まわりをやっています
2
生成モデル
 訓練データを生成する確率分布 を推定したい
 主な目的
– 新しいデータを生成したい ← 今日はこちら
– 半教師あり学習につかいたい
– 事前学習につかいたい(最近は下火)
3
データの生成器
 目標:自然なデータを生成したい
– 画像:写真、絵
(今日はおもに画像生成の話をします)
– 自然言語:文章、会話文
 モチベーション
– 創作活動の補助
– 人に対するインターフェイスの提供(とくに自然文生成)
– データ作成コストの削減(「シミュレータ」としての使用)
4
問題設定
 サンプリング可能なモデル (generator)
 この を訓練データから学習して、 がデータの生成分布 に合うよ
うにしたい
 難しいポイント
– はサンプリングできる形になっていないといけない。
このとき、普通は密度 の値は計算できない。
– 訓練データは一般に有限個しかない。 の推定には自由度がある。
– 多くの応用で、サンプリングは低コストな方が望ましい。
表現力の高いモデル は、サンプリングの計算コストが高くなりがち。
例:MCMC vs. 伝承サンプリング
 今日は主に伝承サンプリングで済む手法のみを紹介
5
今日のおはなし
 データ生成の問題に対する深層学習でのアプローチを紹介します
 大きく3つのトピックからなります
– Helmholtz Machine
– Generative Adversarial Nets
– 生成モデルと意思決定
6
Helmholtz Machine
7
Helmholtz Machine [Dayan+, ’95]
 Generator:潜在変数 から伝承サンプリングで を生成
 逆向きの推論をする推論モデルを一緒に学習する
推論モデル 生成モデル
Helmholtz Machine の目的関数:変分下界
不等号の両辺の差は で、 を最大化すればこの差は最小
化される
9
(イェンセンの不等式)
変分下界最大化 1:Wake-Sleep [Hinton+, ’95]
についてのこの量の最大化は、 を最小化するのと等価。
これを最小化する代わりに、分布をひっくり返した を最小
化する。
これは について を最大化するのと等価。
10
Wake phase
はデータセット
からサンプリング
(real data)
Sleep phase
はモデルから
サンプリング
(fantasy)
変分下界最大化 2:Reweighted Wake-Sleep [Bornschein+, ‘15]
を により正しく近づけたい。
これを使って勾配を近似。
11
Wake phase
はデータセット
からサンプリング
Sleep phase は
Wake-Sleep と同じ
変分下界最大化 3:変分 AutoEncoder [Kingma+, ‘14][Rezende+, ‘14]
変分下界を違う形に変形
12
訓練データ 復元
❷ 近づける:復元誤差
❶ 近づける:正則化
❶ ❷
各手法のいいところ・わるいところ
 Wake-Sleep, Reweighted Wake-Sleep
– 潜在変数 が多層になっていても・離散変数でも学習できる
– 勾配は不偏推定でないので、学習がうまくいくかは問題による
(Reweighted WS に関してはサンプル数 を大きくすれば正しい勾配に近づく)
 変分 AutoEncoder
– 潜在変数 がガウシアンの場合、復元誤差の に関する勾配が低バリアンスで推定で
きる(Reparameterization Trick)
 という変数変換により、 に関する勾配を直
接 に逆伝播できる
– が高次元ガウシアンの場合に、多くの次元が正則化で「潰れて」しまうことが多い
( が に縮退してしまう)
 どちらの手法も、伝承サンプリングで現れる条件付き分布の密度とその勾配が計
算できないといけない
13
条件付き尤度に勾配が計算可能なベルヌーイ分布やガウス分布を使う場合の限界
 データが低次元多様体に密集してい
るという仮説がある
 この仮説が正しい場合、多様体に沿
うずれと直交するずれは区別して評
価できないといけない
 がベルヌーイやガウスな
ど単純な分布だと、これらを区別で
きない
 例:画像の場合、平行移動は多様体
に沿う(ユークリッド距離では大き
な)ずれ、ガウスぼかしは多様体に
直交する(ユークリッド距離では小
さな)ずれ
 → ぼけた画像を生成しやすくなる
14
K. Gregor, I. Danihelka, A. Graves, D. Wierstra.
DRAW: A Recurrent Neural Network For Image Generation.
ICML 2015.
Helmholtz Machine のまとめ
 Helmoholtz Machine は、生成モデルと推論モデルを一緒に学習する枠組み
 変分下界を最大化するように各モデルを学習する
 Wake-Sleep では、推論モデルで実データから推論した潜在変数に生成モデル
をマッチさせ (wake phase)、生成モデルがつくった仮想データに推論モデル
をマッチさせる (sleep phase)
 Wake-Sleep は推論モデルの学習におけるバイアスが大きいが、Reweighted
Wake-Sleep はモンテカルロ近似によってこれを改善する
 変分 AutoEncoder はガウス潜在変数をつかった場合に勾配を低バリアンスで
推定でき、効率的に学習できる
15
Generative Adversarial Nets
16
尤度関数を陽にモデル化せずにデータを生成したい
 いままでは、 (の勾配)が計算できないと学習できなかった
 そのためには としてベルヌーイ分布やガウス分布など、単純な分布を
使う必要がある
– 平均値や標準偏差をニューラルネットなど複雑なモデルで推定することはできる
– つまり、条件付けの部分のモデル化は自由
– しかし、最終的に予測できる分布は計算可能な単純なものでないといけなかった
 分布の形状自体をニューラルネットで推定できないか?
– 自体をニューラルネットで推定しようとすると、正規化が困難という問題
が出てくる(分配関数が計算できない)
– 正規化されていない量をつかって分布をマッチングできないか
17
Discriminator による密度比推定
 「どれくらい真のデータっぽいか」をニューラルネットで測る
 確率変数 を用意して、 の条件付き分布を次のように定める
 簡単のため とする(つまり と のどち
らからサンプリングするかは等確率に決める)
 このとき、 と の密度比は、ベイズの定理より
 つまり、データが と のどちらから来たかを予測する識別モデル
を学習できれば、密度比が推定できる
18
Discriminator
Discriminator によるダイバージェンス推定
 Generative Adversarial Nets では Discriminator を用いて Jensen-Shannon
ダイバージェンスを推定する。 とおいて、
 この JS ダイバージェンスを最小化すれば、生成モデルを真の分布にマッチさせ
ることができる
19
Discriminator の目的関数そのもの
GAN: Discriminator と Generator を交互に更新 [Goodfellow+, ‘14]
 生成モデルを と定義
( は任意の分布)
 識別モデルを とおく
 GAN: さきほどの min-max 問題を、これらを交互に更新して解く
20
GAN: Tips
 Discriminator を のような式でモデル化する場合、
その対数は
ただし
 Discriminator はチャンスレートよりよい識別をする。このとき
より の方が に関する勾配が大きくて、学習が進
みやすい。そこで実際には
という問題を代わりに解くようにすると学習しやすい
(というかそうしないと学習が進まない)
21
ぼやけない画像生成: Deep Convolutional GAN [Radford+, ’16]
22
 LSUN bedroom データセットに対し、Generator に Deconv Net、
Discriminator に Conv Net を使って GAN を学習した例
 Pooling を使わない (strided conv)、BatchNormalization を使うなどの工夫
GAN の問題点:最適化が難しい、定量的な指標がない
 Discriminator の学習が足りないと、Generator が正しい方向に導かれない
 一方、Discriminator の学習が進み過ぎると、 の に関する勾配が小さ
くなってしまい、Generator の学習が進まなくなる
 単一の目的関数を最適化する問題になっていないので、Discriminator と
Generator の各目的関数の値をみても、学習がうまくいっているのかわからな
い(学習曲線が描けない)
– Discriminator が圧勝するのは見てわかるので、その場合学習がうまくいかなさそう
と推測できる
– そうでない場合、うまく進んでいるのかどうかロス値だけではわからない
– Parzen 窓による密度推定などで定量評価するのが一般的だが、この方法は GAN と
あまり相性が良くない(VAE のようにガウス分布をつかったモデルの方が有利になっ
てしまう)
23
Adversarial AutoEncoder [Makhzani+, ‘16 (arXiv)]
 GAN は 以外の確率変数をマッ
チングするのにも使える
 Adversarial AutoEncoder
— AutoEncoder の を所望の分
布 にマッチさせるのに使
う
— が単純な標準ガウス分布
であっても、KL ダイバージェ
ンスによるマッチングに比べ
て分布がきれいに合う
24
Generative Adversarial Nets まとめ
 GAN は条件付き尤度 やその勾配が計算できなくても学習できる生成モ
デル
 識別モデルによる JS ダイバージェンス推定にもとづいて、Generator と
Discriminator の間の min-max 最適化を行う
 Generator と Discriminator を交互に更新して学習する
 Deconv Net / Conv Net と組み合わせることで、ぼけないキレイな画像が生成
できる
– まだうまく生成できないデータセットはたくさんある(特にバリエーションが多く解
像度の高い画像)
 一方、GAN の最適化は難しい
25
生成モデルと意思決定
26
複雑なデータを少しずつ生成する
 複雑なデータ分布を学習したい
– たくさんの層が必要
– でもパラメータ数は抑えたい
– つまり、同じパラメータを複数回使いたい → ConvNet, Recurrent Net
 層を増やしたときに、途中状態に何かしらの構造を入れないと学習が難しい
– 一番単純で意味がありそうなのは、データと同じ構造を持った変数を入れること
– たとえば、各ステップでの出力の総和が結果になるような Recurrent Net
– → データを少しずつ生成する
複雑なデータを少しずつ生成する
 「キャンバス」に出力を足しこんでいく
 現在のキャンバスの状態を Recurrent Net に再入力する
 「キャンバス」が大きい場合、どちらも Attention を入れることでネットワー
クの複雑度を下げられる
– 一度にキャンバスの一部にだけ書き込む
– 一度にキャンバスの一部だけを読み込む
28
Recurrent Net
Canvas
構造を持ったデータに対する Attention
 長さや縦横などの構造を持ったデータに
ついて、一部だけを読みだす・書き込む
 Hard Attention
– 中心座標とサイズを指定して、そこから正
確に矩形を切り抜く/その矩形に足し込む
– Attention のサイズだけに依存した計算量
だが、微分できない
 Soft Attention
– 矩形に加えて「ぼかし幅」を指定して、周
辺の要素との重み付き和を読みだす/重み
付きで足し込む
– Hard Attention を 1-hot な action とみ
なして、softmax を使うことが多い
– 微分できるが、周辺要素も計算に絡む
(softmaxの場合、全体を見る必要)29
Soft attention: DRAW [Gregor+, ‘15]
 Soft Attention による reader / writer を変分 AutoEncoder と組み合わせる
30
(追試例)
Hard attention: Recurrent Attention Model [Mnih+, ‘14]
 最近の attention + Recurrent Net のはしり
 データ生成ではなく、分類問題に使っていた
 Hard attention は微分できないので、単純な誤差逆伝播では attention の当て
方を学習できない
 Attention の当て方を , 目的関数を と書く
 Attention を確率的に決める: ( は attention を出力するのに使う
パラメータ)
 すると、目的関数の に関する勾配は
31
微分できない確率変数の入ったモデルの最適化:尤度比法
 このように、期待値を取る分布に関する勾配を対数勾配の期待値で近似する方
法を尤度比法 (Likelihood Ratio; LR) という
 強化学習においては REINFORCE と呼ばれる
 REINFORCE
– 行動にたいする環境の状態変化の微分がわからないときに、報酬の方策にたいする勾
配を尤度比法とおなじように求める手法 (policy gradient)
– Hard attention が行動に、その結果得られる入力が状態に、最終的な生成データか
ら得られる目的関数が報酬(コスト)に対応する
32
尤度比法は勾配推定の分散が大きい
 例:単純な 0/1 値変数(ベルヌーイ分布の平均 で指定する)
33
 確率 で青い線の勾配が、確率
で赤い線の勾配が選ばれる
 (青赤の線の絶対的な値には意味
がなく、勾配だけを見る)
 選ばれる線によって、勾配の符号
が逆であることに注目
 特に が小さいとき、ほぼ確実に
正しくない符号の勾配を推定して
しまう
 同様の事象は、
reparameterization trick が可能
なガウス分布でも観察できる
勾配推定の分散を下げる:Control Variate(ベースライン)
 尤度比法において勾配推定を安定させる手法
 期待値が解析的に求まる変数 (ベースライン)をつかって
のように変形( )して、サンプリングされる勾配の分散を下げる
– たとえば、報酬の期待値を推定してそれをつかう、というのがよくやられる
– ほかに期待値を action として使える環境で線形近似でベースラインを求める手法も
出てきている (MuProp)
 Control Variate を使っても、分散はある程度のこる
 サンプリングに使う分布が単純な場合(基本的にそう)、Reparameterization
Trick より確実に分散が大きい
– ただ、Reparameterization Trick は微分可能な変数変換がないと使えないので、
hard attention にはつかえない
34
データ生成は意思決定のくりかえし [Bachman+, ‘15]
 “Data Generation as Sequential Decision Making”
 モデル中の中間変数を
その分布パラメータを出力する action
分布パラメータ (action) をもとにサンプリングを行う環境
とみなすと、マルコフ決定過程における報酬最大化問題になる
 この場合、学習したいのは action を予測する方策 (policy)
 Helmholtz Machine のように変分ベイズにもとづく手法は、policy に対して
「データを知っている」推論モデルの予測に policy を近づける
– これは、強化学習における Guided Policy Search と等価
35
生成モデルと意思決定のまとめ
 複雑なデータ分布を生成するには、少しずつデータを生成するのが有効と考え
られている
 その際、attention など、何かしらの action によってデータを読み書きする
 Soft attention は微分でき、全体を誤差逆伝播法で学習できるが、計算コスト
が高い
 Hard attention は微分できないので、学習に尤度比法などを用いるが、勾配推
定の分散が大きく学習が遅い
 尤度比法は REINFORCE とも呼ばれ、Policy Gradient 法と関連が深い
 さらにデータ生成の確率モデルはマルコフ決定過程としても定式化でき、変分
ベイズ法は Guided Policy Search と対応づけられる
36
まとめ
 生成モデルの Deep Learning について、とくに画像生成の文脈での研究を紹介
 Helmholtz Machine は問題がキレイだが、尤度をモデル化する必要があって画
像など低次元多様体を意識するべきデータとは相性が悪い
 Generative Adversarial Nets はそれを解決するが、学習・評価が難しい
 一方で、微分できないモデルの研究も進んでいて、とくに強化学習との融合が
進んでいる
 Recurrent Net を組み込んだモデルは盛んに研究されていますが、今回は省略
 言語モデル系の話も省略しました
37
Reference
P. Bachman, D. Precup. Data Generation as Sequential Decision Making. NIPS, 2015.
J. Bornschein, Y. Bengio. Reweighted Wake-Sleep. ICLR, 2015.
P. Dayan, G. E. Hinton, R. M. Neal, R. S. Zemel. The Helmholtz Machine. Neural Computation 7, 889-904,
1995.
I. J. Goodfellow, J. P.-Abadie, M. Mirza, B. Xu, D. W.-Farley, S. Ozair, A. Courville, Y. Bengio. Generative
Adversarial Nets. NIPS, 2014.
K. Gregor, I. Danihelka, A. Graves, D. Wierstra. DRAW: A Recurrent Neural Networks For Image
Generation. ICML, 2015.
G. E. Hinton, P. Dayan, B. J. Frey, R. M. Neal. The wake-sleep algorithm for unsupervised neural
networks. Science, vol. 268, pp. 1158-1161, 1995.
D. P. Kingma, M. Welling. Auto-Encoding Variational Bayes. ICLR, 2014.
A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow. Adversarial Autoencoders. ArXiv:1511.05644, 2015.
V. Mnih, N. Hees, A. Graves, K. Kavukcuoglu. Recurrent Models of Visual Attention. NIPS, 2014.
A. Radford, L. Metz, S. Chintala. Unsupervised Representation Learning with Deep Convolutional
Generative Adversarial Networks. ICLR, 2016.
D. J. Rezende, S. Mohamed, D. Wierstra. Stochastic Backpropagation and Approximate Inference in
Deep Generative Models. ICML, 2014.
38
1 of 38

Recommended

近年のHierarchical Vision Transformer by
近年のHierarchical Vision Transformer近年のHierarchical Vision Transformer
近年のHierarchical Vision TransformerYusuke Uchida
13.9K views46 slides
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models by
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion Models
【DL輪読会】High-Resolution Image Synthesis with Latent Diffusion ModelsDeep Learning JP
2.6K views15 slides
「世界モデル」と関連研究について by
「世界モデル」と関連研究について「世界モデル」と関連研究について
「世界モデル」と関連研究についてMasahiro Suzuki
13.1K views52 slides
IIBMP2016 深層生成モデルによる表現学習 by
IIBMP2016 深層生成モデルによる表現学習IIBMP2016 深層生成モデルによる表現学習
IIBMP2016 深層生成モデルによる表現学習Preferred Networks
51.4K views68 slides
深層学習の数理 by
深層学習の数理深層学習の数理
深層学習の数理Taiji Suzuki
79.7K views182 slides
実装レベルで学ぶVQVAE by
実装レベルで学ぶVQVAE実装レベルで学ぶVQVAE
実装レベルで学ぶVQVAEぱんいち すみもと
12.6K views23 slides

More Related Content

What's hot

深層生成モデルと世界モデル(2020/11/20版) by
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)Masahiro Suzuki
7.1K views62 slides
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) by
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
25.6K views173 slides
[DL輪読会]Neural Ordinary Differential Equations by
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential EquationsDeep Learning JP
29.2K views41 slides
[DL輪読会]相互情報量最大化による表現学習 by
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
7.6K views43 slides
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision by
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language SupervisionDeep Learning JP
46.5K views25 slides
モデル高速化百選 by
モデル高速化百選モデル高速化百選
モデル高速化百選Yusuke Uchida
24.8K views64 slides

What's hot(20)

深層生成モデルと世界モデル(2020/11/20版) by Masahiro Suzuki
深層生成モデルと世界モデル(2020/11/20版)深層生成モデルと世界モデル(2020/11/20版)
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki7.1K views
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial) by RyuichiKanoh
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
RyuichiKanoh25.6K views
[DL輪読会]Neural Ordinary Differential Equations by Deep Learning JP
[DL輪読会]Neural Ordinary Differential Equations[DL輪読会]Neural Ordinary Differential Equations
[DL輪読会]Neural Ordinary Differential Equations
Deep Learning JP29.2K views
[DL輪読会]相互情報量最大化による表現学習 by Deep Learning JP
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP7.6K views
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision by Deep Learning JP
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
[DL輪読会]Learning Transferable Visual Models From Natural Language Supervision
Deep Learning JP46.5K views
モデル高速化百選 by Yusuke Uchida
モデル高速化百選モデル高速化百選
モデル高速化百選
Yusuke Uchida24.8K views
【DL輪読会】ViT + Self Supervised Learningまとめ by Deep Learning JP
【DL輪読会】ViT + Self Supervised Learningまとめ【DL輪読会】ViT + Self Supervised Learningまとめ
【DL輪読会】ViT + Self Supervised Learningまとめ
Deep Learning JP4K views
猫でも分かるVariational AutoEncoder by Sho Tatsuno
猫でも分かるVariational AutoEncoder猫でも分かるVariational AutoEncoder
猫でも分かるVariational AutoEncoder
Sho Tatsuno131.6K views
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料 by Yusuke Uchida
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida16K views
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース... by Deep Learning JP
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
[DL輪読会]“SimPLe”,“Improved Dynamics Model”,“PlaNet” 近年のVAEベース系列モデルの進展とそのモデルベース...
Deep Learning JP4.4K views
A3C解説 by harmonylab
A3C解説A3C解説
A3C解説
harmonylab14.1K views
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten... by Deep Learning JP
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
[DL輪読会]Life-Long Disentangled Representation Learning with Cross-Domain Laten...
Deep Learning JP5.7K views
[DL輪読会]近年のエネルギーベースモデルの進展 by Deep Learning JP
[DL輪読会]近年のエネルギーベースモデルの進展[DL輪読会]近年のエネルギーベースモデルの進展
[DL輪読会]近年のエネルギーベースモデルの進展
Deep Learning JP2.6K views
Transformerを多層にする際の勾配消失問題と解決法について by Sho Takase
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
Sho Takase4.8K views
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning by Deep Learning JP
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP536 views
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー... by Deep Learning JP
[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...[DL輪読会]Revisiting Deep Learning Models for Tabular Data  (NeurIPS 2021) 表形式デー...
[DL輪読会]Revisiting Deep Learning Models for Tabular Data (NeurIPS 2021) 表形式デー...
Deep Learning JP2.5K views
画像生成・生成モデル メタサーベイ by cvpaper. challenge
画像生成・生成モデル メタサーベイ画像生成・生成モデル メタサーベイ
画像生成・生成モデル メタサーベイ
cvpaper. challenge8.3K views
[DL輪読会]GQNと関連研究,世界モデルとの関係について by Deep Learning JP
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP8.9K views
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder by Deep Learning JP
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
[DL輪読会]NVAE: A Deep Hierarchical Variational Autoencoder
Deep Learning JP1.9K views
強化学習その2 by nishio
強化学習その2強化学習その2
強化学習その2
nishio22.7K views

Viewers also liked

現在のDNNにおける未解決問題 by
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題Daisuke Okanohara
46.6K views26 slides
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3 by
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Daiki Shimada
9.2K views33 slides
論文紹介 Semi-supervised Learning with Deep Generative Models by
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative ModelsSeiya Tokui
150.6K views20 slides
機械学習のためのベイズ最適化入門 by
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
185.7K views67 slides
"Playing Atari with Deep Reinforcement Learning" by
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"mooopan
62.5K views16 slides
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions by
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable ConvolutionsDeep Learning JP
21.4K views24 slides

Viewers also liked(20)

現在のDNNにおける未解決問題 by Daisuke Okanohara
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
Daisuke Okanohara46.6K views
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3 by Daiki Shimada
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Adversarial Networks の画像生成に迫る @WBAFLカジュアルトーク#3
Daiki Shimada9.2K views
論文紹介 Semi-supervised Learning with Deep Generative Models by Seiya Tokui
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
Seiya Tokui150.6K views
機械学習のためのベイズ最適化入門 by hoxo_m
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m185.7K views
"Playing Atari with Deep Reinforcement Learning" by mooopan
"Playing Atari with Deep Reinforcement Learning""Playing Atari with Deep Reinforcement Learning"
"Playing Atari with Deep Reinforcement Learning"
mooopan62.5K views
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions by Deep Learning JP
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
[DL輪読会]Xception: Deep Learning with Depthwise Separable Convolutions
Deep Learning JP21.4K views
15分でわかる(範囲の)ベイズ統計学 by Ken'ichi Matsui
15分でわかる(範囲の)ベイズ統計学15分でわかる(範囲の)ベイズ統計学
15分でわかる(範囲の)ベイズ統計学
Ken'ichi Matsui55K views
[Dl輪読会]video pixel networks by Deep Learning JP
[Dl輪読会]video pixel networks[Dl輪読会]video pixel networks
[Dl輪読会]video pixel networks
Deep Learning JP1.3K views
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2 by Daiki Shimada
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Convolutional Neural Networks のトレンド @WBAFLカジュアルトーク#2
Daiki Shimada45.1K views
Variational AutoEncoder by Kazuki Nitta
Variational AutoEncoderVariational AutoEncoder
Variational AutoEncoder
Kazuki Nitta14.4K views
Deep Learning による視覚×言語融合の最前線 by Yoshitaka Ushiku
Deep Learning による視覚×言語融合の最前線Deep Learning による視覚×言語融合の最前線
Deep Learning による視覚×言語融合の最前線
Yoshitaka Ushiku32.5K views
変分ベイズ法の説明 by Haruka Ozaki
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki41.4K views
変分推論法(変分ベイズ法)(PRML第10章) by Takao Yamanaka
変分推論法(変分ベイズ法)(PRML第10章)変分推論法(変分ベイズ法)(PRML第10章)
変分推論法(変分ベイズ法)(PRML第10章)
Takao Yamanaka30.5K views
Tensor Decomposition and its Applications by Keisuke OTAKI
Tensor Decomposition and its ApplicationsTensor Decomposition and its Applications
Tensor Decomposition and its Applications
Keisuke OTAKI5.2K views
ElasticsearchとTasteプラグインで作るレコメンドシステム by Shinsuke Sugaya
ElasticsearchとTasteプラグインで作るレコメンドシステムElasticsearchとTasteプラグインで作るレコメンドシステム
ElasticsearchとTasteプラグインで作るレコメンドシステム
Shinsuke Sugaya5.2K views
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換 by Koichi Hamada
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Generative Adversarial Networks (GAN) の学習方法進展・画像生成・教師なし画像変換
Koichi Hamada28.2K views
PredictionIOでSparkMLを使った開発方法 by Shinsuke Sugaya
PredictionIOでSparkMLを使った開発方法PredictionIOでSparkMLを使った開発方法
PredictionIOでSparkMLを使った開発方法
Shinsuke Sugaya1.1K views
強化学習その3 by nishio
強化学習その3強化学習その3
強化学習その3
nishio26.8K views

Similar to 生成モデルの Deep Learning

ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf by
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdfChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdfGinpei Kobayashi
124 views51 slides
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem by
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
1.2K views14 slides
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太 by
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太Preferred Networks
4.4K views46 slides
ディープラーニング最近の発展とビジネス応用への課題 by
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
18.3K views47 slides
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin... by
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...Deep Learning JP
3.7K views38 slides
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization by
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy GeneralizationDeep Learning JP
386 views17 slides

Similar to 生成モデルの Deep Learning(20)

ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf by Ginpei Kobayashi
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdfChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
ChatGPTの仕組みの解説と実務でのLLMの適用の紹介_latest.pdf
Ginpei Kobayashi124 views
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem by Deep Learning JP
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
Deep Learning JP1.2K views
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太 by Preferred Networks
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
Preferred Networks4.4K views
ディープラーニング最近の発展とビジネス応用への課題 by Kenta Oono
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono18.3K views
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin... by Deep Learning JP
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
[DL輪読会]Imagination-Augmented Agents for Deep Reinforcement Learning / Learnin...
Deep Learning JP3.7K views
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization by Deep Learning JP
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
【DL輪読会】Prompting Decision Transformer for Few-Shot Policy Generalization
Deep Learning JP386 views
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平 by Preferred Networks
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Preferred Networks7.4K views
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners by Deep Learning JP
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
Deep Learning JP261 views
人工知能10 サポートベクトルマシン by Hirotaka Hachiya
人工知能10 サポートベクトルマシン人工知能10 サポートベクトルマシン
人工知能10 サポートベクトルマシン
Hirotaka Hachiya757 views
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling by Deep Learning JP
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
Deep Learning JP2.9K views
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会) by Yoshitaka Ushiku
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Self-Critical Sequence Training for Image Captioning (関東CV勉強会 CVPR 2017 読み会)
Yoshitaka Ushiku4.9K views
(道具としての)データサイエンティストのつかい方 by Shohei Hido
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
Shohei Hido8.3K views
1028 TECH & BRIDGE MEETING by 健司 亀本
1028 TECH & BRIDGE MEETING1028 TECH & BRIDGE MEETING
1028 TECH & BRIDGE MEETING
健司 亀本524 views
Big data harvardbusiessreview20121112 by Dennis Sugahara
Big data harvardbusiessreview20121112Big data harvardbusiessreview20121112
Big data harvardbusiessreview20121112
Dennis Sugahara993 views
Generative Deep Learning #01 by 逸人 米田
Generative Deep Learning #01Generative Deep Learning #01
Generative Deep Learning #01
逸人 米田51 views
Data Science Summit 2012 レポート by nagix
Data Science Summit 2012 レポートData Science Summit 2012 レポート
Data Science Summit 2012 レポート
nagix3.1K views
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性 by BrainPad Inc.
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc. 8.9K views
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム by Preferred Networks
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォームJubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Jubatus: 分散協調をキーとした大規模リアルタイム機械学習プラットフォーム
Preferred Networks9.7K views
ソーシャルメディア活用のワークショップ ver1.5 by naoto kyo
ソーシャルメディア活用のワークショップ ver1.5ソーシャルメディア活用のワークショップ ver1.5
ソーシャルメディア活用のワークショップ ver1.5
naoto kyo5.7K views
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition by Toru Tamaki
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
文献紹介:Multi-dataset Training of Transformers for Robust Action Recognition
Toru Tamaki70 views

More from Seiya Tokui

Chainer/CuPy v5 and Future (Japanese) by
Chainer/CuPy v5 and Future (Japanese)Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)Seiya Tokui
974 views22 slides
Chainer v3 by
Chainer v3Chainer v3
Chainer v3Seiya Tokui
5.7K views16 slides
Chainer v2 and future dev plan by
Chainer v2 and future dev planChainer v2 and future dev plan
Chainer v2 and future dev planSeiya Tokui
4.3K views19 slides
Chainer v2 alpha by
Chainer v2 alphaChainer v2 alpha
Chainer v2 alphaSeiya Tokui
13.1K views15 slides
Learning stochastic neural networks with Chainer by
Learning stochastic neural networks with ChainerLearning stochastic neural networks with Chainer
Learning stochastic neural networks with ChainerSeiya Tokui
7.2K views30 slides
深層学習フレームワーク Chainer の開発と今後の展開 by
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
26.9K views62 slides

More from Seiya Tokui(20)

Chainer/CuPy v5 and Future (Japanese) by Seiya Tokui
Chainer/CuPy v5 and Future (Japanese)Chainer/CuPy v5 and Future (Japanese)
Chainer/CuPy v5 and Future (Japanese)
Seiya Tokui974 views
Chainer v2 and future dev plan by Seiya Tokui
Chainer v2 and future dev planChainer v2 and future dev plan
Chainer v2 and future dev plan
Seiya Tokui4.3K views
Chainer v2 alpha by Seiya Tokui
Chainer v2 alphaChainer v2 alpha
Chainer v2 alpha
Seiya Tokui13.1K views
Learning stochastic neural networks with Chainer by Seiya Tokui
Learning stochastic neural networks with ChainerLearning stochastic neural networks with Chainer
Learning stochastic neural networks with Chainer
Seiya Tokui7.2K views
深層学習フレームワーク Chainer の開発と今後の展開 by Seiya Tokui
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
Seiya Tokui26.9K views
論文紹介 Pixel Recurrent Neural Networks by Seiya Tokui
論文紹介 Pixel Recurrent Neural Networks論文紹介 Pixel Recurrent Neural Networks
論文紹介 Pixel Recurrent Neural Networks
Seiya Tokui22.2K views
Introduction to Chainer by Seiya Tokui
Introduction to ChainerIntroduction to Chainer
Introduction to Chainer
Seiya Tokui4.3K views
Chainer Update v1.8.0 -> v1.10.0+ by Seiya Tokui
Chainer Update v1.8.0 -> v1.10.0+Chainer Update v1.8.0 -> v1.10.0+
Chainer Update v1.8.0 -> v1.10.0+
Seiya Tokui52.3K views
Differences of Deep Learning Frameworks by Seiya Tokui
Differences of Deep Learning FrameworksDifferences of Deep Learning Frameworks
Differences of Deep Learning Frameworks
Seiya Tokui5.3K views
Overview of Chainer and Its Features by Seiya Tokui
Overview of Chainer and Its FeaturesOverview of Chainer and Its Features
Overview of Chainer and Its Features
Seiya Tokui4.6K views
Chainer Development Plan 2015/12 by Seiya Tokui
Chainer Development Plan 2015/12Chainer Development Plan 2015/12
Chainer Development Plan 2015/12
Seiya Tokui91K views
Towards Chainer v1.5 by Seiya Tokui
Towards Chainer v1.5Towards Chainer v1.5
Towards Chainer v1.5
Seiya Tokui88K views
Deep Learningの基礎と応用 by Seiya Tokui
Deep Learningの基礎と応用Deep Learningの基礎と応用
Deep Learningの基礎と応用
Seiya Tokui34.4K views
Chainerの使い方と自然言語処理への応用 by Seiya Tokui
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と自然言語処理への応用
Seiya Tokui53.2K views
論文紹介 Compressing Neural Networks with the Hashing Trick by Seiya Tokui
論文紹介 Compressing Neural Networks with the Hashing Trick論文紹介 Compressing Neural Networks with the Hashing Trick
論文紹介 Compressing Neural Networks with the Hashing Trick
Seiya Tokui6.3K views
深層学習フレームワークChainerの紹介とFPGAへの期待 by Seiya Tokui
深層学習フレームワークChainerの紹介とFPGAへの期待深層学習フレームワークChainerの紹介とFPGAへの期待
深層学習フレームワークChainerの紹介とFPGAへの期待
Seiya Tokui17.8K views
Introduction to Chainer: A Flexible Framework for Deep Learning by Seiya Tokui
Introduction to Chainer: A Flexible Framework for Deep LearningIntroduction to Chainer: A Flexible Framework for Deep Learning
Introduction to Chainer: A Flexible Framework for Deep Learning
Seiya Tokui50.8K views
Recurrent Neural Networks by Seiya Tokui
Recurrent Neural NetworksRecurrent Neural Networks
Recurrent Neural Networks
Seiya Tokui46.9K views
Deep learning実装の基礎と実践 by Seiya Tokui
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
Seiya Tokui105.1K views

Recently uploaded

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)NTT DATA Technology & Innovation
29 views38 slides
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...NTT DATA Technology & Innovation
151 views42 slides
定例会スライド_キャチs 公開用.pdf by
定例会スライド_キャチs 公開用.pdf定例会スライド_キャチs 公開用.pdf
定例会スライド_キャチs 公開用.pdfKeio Robotics Association
132 views64 slides
Windows 11 information that can be used at the development site by
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development siteAtomu Hidaka
90 views41 slides
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PC Cluster Consortium
45 views12 slides

Recently uploaded(12)

速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料) by NTT DATA Technology & Innovation
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
速習! PostgreSQL専用HAソフトウェア: Patroni(PostgreSQL Conference Japan 2023 発表資料)
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20... by NTT DATA Technology & Innovation
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
今、改めて考えるPostgreSQLプラットフォーム - マルチクラウドとポータビリティ -(PostgreSQL Conference Japan 20...
Windows 11 information that can be used at the development site by Atomu Hidaka
Windows 11 information that can be used at the development siteWindows 11 information that can be used at the development site
Windows 11 information that can be used at the development site
Atomu Hidaka90 views
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」 by PC Cluster Consortium
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
PCCC23:富士通株式会社 テーマ1「次世代高性能・省電力プロセッサ『FUJITSU-MONAKA』」
SNMPセキュリティ超入門 by mkoda
SNMPセキュリティ超入門SNMPセキュリティ超入門
SNMPセキュリティ超入門
mkoda453 views
The Things Stack説明資料 by The Things Industries by CRI Japan, Inc.
The Things Stack説明資料 by The Things IndustriesThe Things Stack説明資料 by The Things Industries
The Things Stack説明資料 by The Things Industries
CRI Japan, Inc.76 views
光コラボは契約してはいけない by Takuya Matsunaga
光コラボは契約してはいけない光コラボは契約してはいけない
光コラボは契約してはいけない
Takuya Matsunaga25 views
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」 by PC Cluster Consortium
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
PCCC23:東京大学情報基盤センター 「Society5.0の実現を目指す『計算・データ・学習』の融合による革新的スーパーコンピューティング」
SSH応用編_20231129.pdf by icebreaker4
SSH応用編_20231129.pdfSSH応用編_20231129.pdf
SSH応用編_20231129.pdf
icebreaker4380 views

生成モデルの Deep Learning

  • 1. 生成モデルの Deep Learning PFI セミナー 得居 誠也 Preferred Networks, Inc. 2016/02/25
  • 2. 自己紹介  得居 誠也 (Seiya Tokui)  beam2d (Twitter, GitHub)  略歴 – PFIアルバイト(2010.10)→PFI(2012.04)→PFN(2014.10) – 東大情報理工数理 (2010.04-2012.03):近傍探索の機械学習 – 4 月から社会人博士課程に入る予定  主な仕事 – Chainer – 深層学習まわりをやっています 2
  • 3. 生成モデル  訓練データを生成する確率分布 を推定したい  主な目的 – 新しいデータを生成したい ← 今日はこちら – 半教師あり学習につかいたい – 事前学習につかいたい(最近は下火) 3
  • 4. データの生成器  目標:自然なデータを生成したい – 画像:写真、絵 (今日はおもに画像生成の話をします) – 自然言語:文章、会話文  モチベーション – 創作活動の補助 – 人に対するインターフェイスの提供(とくに自然文生成) – データ作成コストの削減(「シミュレータ」としての使用) 4
  • 5. 問題設定  サンプリング可能なモデル (generator)  この を訓練データから学習して、 がデータの生成分布 に合うよ うにしたい  難しいポイント – はサンプリングできる形になっていないといけない。 このとき、普通は密度 の値は計算できない。 – 訓練データは一般に有限個しかない。 の推定には自由度がある。 – 多くの応用で、サンプリングは低コストな方が望ましい。 表現力の高いモデル は、サンプリングの計算コストが高くなりがち。 例:MCMC vs. 伝承サンプリング  今日は主に伝承サンプリングで済む手法のみを紹介 5
  • 8. Helmholtz Machine [Dayan+, ’95]  Generator:潜在変数 から伝承サンプリングで を生成  逆向きの推論をする推論モデルを一緒に学習する 推論モデル 生成モデル
  • 9. Helmholtz Machine の目的関数:変分下界 不等号の両辺の差は で、 を最大化すればこの差は最小 化される 9 (イェンセンの不等式)
  • 10. 変分下界最大化 1:Wake-Sleep [Hinton+, ’95] についてのこの量の最大化は、 を最小化するのと等価。 これを最小化する代わりに、分布をひっくり返した を最小 化する。 これは について を最大化するのと等価。 10 Wake phase はデータセット からサンプリング (real data) Sleep phase はモデルから サンプリング (fantasy)
  • 11. 変分下界最大化 2:Reweighted Wake-Sleep [Bornschein+, ‘15] を により正しく近づけたい。 これを使って勾配を近似。 11 Wake phase はデータセット からサンプリング Sleep phase は Wake-Sleep と同じ
  • 12. 変分下界最大化 3:変分 AutoEncoder [Kingma+, ‘14][Rezende+, ‘14] 変分下界を違う形に変形 12 訓練データ 復元 ❷ 近づける:復元誤差 ❶ 近づける:正則化 ❶ ❷
  • 13. 各手法のいいところ・わるいところ  Wake-Sleep, Reweighted Wake-Sleep – 潜在変数 が多層になっていても・離散変数でも学習できる – 勾配は不偏推定でないので、学習がうまくいくかは問題による (Reweighted WS に関してはサンプル数 を大きくすれば正しい勾配に近づく)  変分 AutoEncoder – 潜在変数 がガウシアンの場合、復元誤差の に関する勾配が低バリアンスで推定で きる(Reparameterization Trick)  という変数変換により、 に関する勾配を直 接 に逆伝播できる – が高次元ガウシアンの場合に、多くの次元が正則化で「潰れて」しまうことが多い ( が に縮退してしまう)  どちらの手法も、伝承サンプリングで現れる条件付き分布の密度とその勾配が計 算できないといけない 13
  • 14. 条件付き尤度に勾配が計算可能なベルヌーイ分布やガウス分布を使う場合の限界  データが低次元多様体に密集してい るという仮説がある  この仮説が正しい場合、多様体に沿 うずれと直交するずれは区別して評 価できないといけない  がベルヌーイやガウスな ど単純な分布だと、これらを区別で きない  例:画像の場合、平行移動は多様体 に沿う(ユークリッド距離では大き な)ずれ、ガウスぼかしは多様体に 直交する(ユークリッド距離では小 さな)ずれ  → ぼけた画像を生成しやすくなる 14 K. Gregor, I. Danihelka, A. Graves, D. Wierstra. DRAW: A Recurrent Neural Network For Image Generation. ICML 2015.
  • 15. Helmholtz Machine のまとめ  Helmoholtz Machine は、生成モデルと推論モデルを一緒に学習する枠組み  変分下界を最大化するように各モデルを学習する  Wake-Sleep では、推論モデルで実データから推論した潜在変数に生成モデル をマッチさせ (wake phase)、生成モデルがつくった仮想データに推論モデル をマッチさせる (sleep phase)  Wake-Sleep は推論モデルの学習におけるバイアスが大きいが、Reweighted Wake-Sleep はモンテカルロ近似によってこれを改善する  変分 AutoEncoder はガウス潜在変数をつかった場合に勾配を低バリアンスで 推定でき、効率的に学習できる 15
  • 17. 尤度関数を陽にモデル化せずにデータを生成したい  いままでは、 (の勾配)が計算できないと学習できなかった  そのためには としてベルヌーイ分布やガウス分布など、単純な分布を 使う必要がある – 平均値や標準偏差をニューラルネットなど複雑なモデルで推定することはできる – つまり、条件付けの部分のモデル化は自由 – しかし、最終的に予測できる分布は計算可能な単純なものでないといけなかった  分布の形状自体をニューラルネットで推定できないか? – 自体をニューラルネットで推定しようとすると、正規化が困難という問題 が出てくる(分配関数が計算できない) – 正規化されていない量をつかって分布をマッチングできないか 17
  • 18. Discriminator による密度比推定  「どれくらい真のデータっぽいか」をニューラルネットで測る  確率変数 を用意して、 の条件付き分布を次のように定める  簡単のため とする(つまり と のどち らからサンプリングするかは等確率に決める)  このとき、 と の密度比は、ベイズの定理より  つまり、データが と のどちらから来たかを予測する識別モデル を学習できれば、密度比が推定できる 18 Discriminator
  • 19. Discriminator によるダイバージェンス推定  Generative Adversarial Nets では Discriminator を用いて Jensen-Shannon ダイバージェンスを推定する。 とおいて、  この JS ダイバージェンスを最小化すれば、生成モデルを真の分布にマッチさせ ることができる 19 Discriminator の目的関数そのもの
  • 20. GAN: Discriminator と Generator を交互に更新 [Goodfellow+, ‘14]  生成モデルを と定義 ( は任意の分布)  識別モデルを とおく  GAN: さきほどの min-max 問題を、これらを交互に更新して解く 20
  • 21. GAN: Tips  Discriminator を のような式でモデル化する場合、 その対数は ただし  Discriminator はチャンスレートよりよい識別をする。このとき より の方が に関する勾配が大きくて、学習が進 みやすい。そこで実際には という問題を代わりに解くようにすると学習しやすい (というかそうしないと学習が進まない) 21
  • 22. ぼやけない画像生成: Deep Convolutional GAN [Radford+, ’16] 22  LSUN bedroom データセットに対し、Generator に Deconv Net、 Discriminator に Conv Net を使って GAN を学習した例  Pooling を使わない (strided conv)、BatchNormalization を使うなどの工夫
  • 23. GAN の問題点:最適化が難しい、定量的な指標がない  Discriminator の学習が足りないと、Generator が正しい方向に導かれない  一方、Discriminator の学習が進み過ぎると、 の に関する勾配が小さ くなってしまい、Generator の学習が進まなくなる  単一の目的関数を最適化する問題になっていないので、Discriminator と Generator の各目的関数の値をみても、学習がうまくいっているのかわからな い(学習曲線が描けない) – Discriminator が圧勝するのは見てわかるので、その場合学習がうまくいかなさそう と推測できる – そうでない場合、うまく進んでいるのかどうかロス値だけではわからない – Parzen 窓による密度推定などで定量評価するのが一般的だが、この方法は GAN と あまり相性が良くない(VAE のようにガウス分布をつかったモデルの方が有利になっ てしまう) 23
  • 24. Adversarial AutoEncoder [Makhzani+, ‘16 (arXiv)]  GAN は 以外の確率変数をマッ チングするのにも使える  Adversarial AutoEncoder — AutoEncoder の を所望の分 布 にマッチさせるのに使 う — が単純な標準ガウス分布 であっても、KL ダイバージェ ンスによるマッチングに比べ て分布がきれいに合う 24
  • 25. Generative Adversarial Nets まとめ  GAN は条件付き尤度 やその勾配が計算できなくても学習できる生成モ デル  識別モデルによる JS ダイバージェンス推定にもとづいて、Generator と Discriminator の間の min-max 最適化を行う  Generator と Discriminator を交互に更新して学習する  Deconv Net / Conv Net と組み合わせることで、ぼけないキレイな画像が生成 できる – まだうまく生成できないデータセットはたくさんある(特にバリエーションが多く解 像度の高い画像)  一方、GAN の最適化は難しい 25
  • 27. 複雑なデータを少しずつ生成する  複雑なデータ分布を学習したい – たくさんの層が必要 – でもパラメータ数は抑えたい – つまり、同じパラメータを複数回使いたい → ConvNet, Recurrent Net  層を増やしたときに、途中状態に何かしらの構造を入れないと学習が難しい – 一番単純で意味がありそうなのは、データと同じ構造を持った変数を入れること – たとえば、各ステップでの出力の総和が結果になるような Recurrent Net – → データを少しずつ生成する
  • 28. 複雑なデータを少しずつ生成する  「キャンバス」に出力を足しこんでいく  現在のキャンバスの状態を Recurrent Net に再入力する  「キャンバス」が大きい場合、どちらも Attention を入れることでネットワー クの複雑度を下げられる – 一度にキャンバスの一部にだけ書き込む – 一度にキャンバスの一部だけを読み込む 28 Recurrent Net Canvas
  • 29. 構造を持ったデータに対する Attention  長さや縦横などの構造を持ったデータに ついて、一部だけを読みだす・書き込む  Hard Attention – 中心座標とサイズを指定して、そこから正 確に矩形を切り抜く/その矩形に足し込む – Attention のサイズだけに依存した計算量 だが、微分できない  Soft Attention – 矩形に加えて「ぼかし幅」を指定して、周 辺の要素との重み付き和を読みだす/重み 付きで足し込む – Hard Attention を 1-hot な action とみ なして、softmax を使うことが多い – 微分できるが、周辺要素も計算に絡む (softmaxの場合、全体を見る必要)29
  • 30. Soft attention: DRAW [Gregor+, ‘15]  Soft Attention による reader / writer を変分 AutoEncoder と組み合わせる 30 (追試例)
  • 31. Hard attention: Recurrent Attention Model [Mnih+, ‘14]  最近の attention + Recurrent Net のはしり  データ生成ではなく、分類問題に使っていた  Hard attention は微分できないので、単純な誤差逆伝播では attention の当て 方を学習できない  Attention の当て方を , 目的関数を と書く  Attention を確率的に決める: ( は attention を出力するのに使う パラメータ)  すると、目的関数の に関する勾配は 31
  • 32. 微分できない確率変数の入ったモデルの最適化:尤度比法  このように、期待値を取る分布に関する勾配を対数勾配の期待値で近似する方 法を尤度比法 (Likelihood Ratio; LR) という  強化学習においては REINFORCE と呼ばれる  REINFORCE – 行動にたいする環境の状態変化の微分がわからないときに、報酬の方策にたいする勾 配を尤度比法とおなじように求める手法 (policy gradient) – Hard attention が行動に、その結果得られる入力が状態に、最終的な生成データか ら得られる目的関数が報酬(コスト)に対応する 32
  • 33. 尤度比法は勾配推定の分散が大きい  例:単純な 0/1 値変数(ベルヌーイ分布の平均 で指定する) 33  確率 で青い線の勾配が、確率 で赤い線の勾配が選ばれる  (青赤の線の絶対的な値には意味 がなく、勾配だけを見る)  選ばれる線によって、勾配の符号 が逆であることに注目  特に が小さいとき、ほぼ確実に 正しくない符号の勾配を推定して しまう  同様の事象は、 reparameterization trick が可能 なガウス分布でも観察できる
  • 34. 勾配推定の分散を下げる:Control Variate(ベースライン)  尤度比法において勾配推定を安定させる手法  期待値が解析的に求まる変数 (ベースライン)をつかって のように変形( )して、サンプリングされる勾配の分散を下げる – たとえば、報酬の期待値を推定してそれをつかう、というのがよくやられる – ほかに期待値を action として使える環境で線形近似でベースラインを求める手法も 出てきている (MuProp)  Control Variate を使っても、分散はある程度のこる  サンプリングに使う分布が単純な場合(基本的にそう)、Reparameterization Trick より確実に分散が大きい – ただ、Reparameterization Trick は微分可能な変数変換がないと使えないので、 hard attention にはつかえない 34
  • 35. データ生成は意思決定のくりかえし [Bachman+, ‘15]  “Data Generation as Sequential Decision Making”  モデル中の中間変数を その分布パラメータを出力する action 分布パラメータ (action) をもとにサンプリングを行う環境 とみなすと、マルコフ決定過程における報酬最大化問題になる  この場合、学習したいのは action を予測する方策 (policy)  Helmholtz Machine のように変分ベイズにもとづく手法は、policy に対して 「データを知っている」推論モデルの予測に policy を近づける – これは、強化学習における Guided Policy Search と等価 35
  • 36. 生成モデルと意思決定のまとめ  複雑なデータ分布を生成するには、少しずつデータを生成するのが有効と考え られている  その際、attention など、何かしらの action によってデータを読み書きする  Soft attention は微分でき、全体を誤差逆伝播法で学習できるが、計算コスト が高い  Hard attention は微分できないので、学習に尤度比法などを用いるが、勾配推 定の分散が大きく学習が遅い  尤度比法は REINFORCE とも呼ばれ、Policy Gradient 法と関連が深い  さらにデータ生成の確率モデルはマルコフ決定過程としても定式化でき、変分 ベイズ法は Guided Policy Search と対応づけられる 36
  • 37. まとめ  生成モデルの Deep Learning について、とくに画像生成の文脈での研究を紹介  Helmholtz Machine は問題がキレイだが、尤度をモデル化する必要があって画 像など低次元多様体を意識するべきデータとは相性が悪い  Generative Adversarial Nets はそれを解決するが、学習・評価が難しい  一方で、微分できないモデルの研究も進んでいて、とくに強化学習との融合が 進んでいる  Recurrent Net を組み込んだモデルは盛んに研究されていますが、今回は省略  言語モデル系の話も省略しました 37
  • 38. Reference P. Bachman, D. Precup. Data Generation as Sequential Decision Making. NIPS, 2015. J. Bornschein, Y. Bengio. Reweighted Wake-Sleep. ICLR, 2015. P. Dayan, G. E. Hinton, R. M. Neal, R. S. Zemel. The Helmholtz Machine. Neural Computation 7, 889-904, 1995. I. J. Goodfellow, J. P.-Abadie, M. Mirza, B. Xu, D. W.-Farley, S. Ozair, A. Courville, Y. Bengio. Generative Adversarial Nets. NIPS, 2014. K. Gregor, I. Danihelka, A. Graves, D. Wierstra. DRAW: A Recurrent Neural Networks For Image Generation. ICML, 2015. G. E. Hinton, P. Dayan, B. J. Frey, R. M. Neal. The wake-sleep algorithm for unsupervised neural networks. Science, vol. 268, pp. 1158-1161, 1995. D. P. Kingma, M. Welling. Auto-Encoding Variational Bayes. ICLR, 2014. A. Makhzani, J. Shlens, N. Jaitly, I. Goodfellow. Adversarial Autoencoders. ArXiv:1511.05644, 2015. V. Mnih, N. Hees, A. Graves, K. Kavukcuoglu. Recurrent Models of Visual Attention. NIPS, 2014. A. Radford, L. Metz, S. Chintala. Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. ICLR, 2016. D. J. Rezende, S. Mohamed, D. Wierstra. Stochastic Backpropagation and Approximate Inference in Deep Generative Models. ICML, 2014. 38