Home
Explore
Submit Search
Upload
Login
Signup
Advertisement
ICLR2020読み会 (neural-tangents)
Report
RyuichiKanoh
Follow
Jun. 13, 2020
•
0 likes
3 likes
×
Be the first to like this
Show More
•
1,874 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Check these out next
実装レベルで学ぶVQVAE
ぱんいち すみもと
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
Triplet Loss 徹底解説
tancoro
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
Active Learning 入門
Shuyo Nakatani
深層学習の数理
Taiji Suzuki
1
of
27
Top clipped slide
ICLR2020読み会 (neural-tangents)
Jun. 13, 2020
•
0 likes
3 likes
×
Be the first to like this
Show More
•
1,874 views
views
×
Total views
0
On Slideshare
0
From embeds
0
Number of embeds
0
Download Now
Download to read offline
Report
Science
https://exawizards.connpass.com/event/176947/
RyuichiKanoh
Follow
Advertisement
Advertisement
Advertisement
Recommended
Disentanglement Survey:Can You Explain How Much Are Generative models Disenta...
Hideki Tsunashima
6.6K views
•
79 slides
Generating Diverse High-Fidelity Images with VQ-VAE-2
harmonylab
13.4K views
•
21 slides
[DL輪読会]GQNと関連研究,世界モデルとの関係について
Deep Learning JP
8.6K views
•
58 slides
深層生成モデルと世界モデル(2020/11/20版)
Masahiro Suzuki
6.6K views
•
62 slides
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
3.3K views
•
48 slides
【DL輪読会】Transformers are Sample Efficient World Models
Deep Learning JP
596 views
•
21 slides
More Related Content
Slideshows for you
(20)
実装レベルで学ぶVQVAE
ぱんいち すみもと
•
11.9K views
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
•
19.1K views
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
•
3K views
[DL輪読会]相互情報量最大化による表現学習
Deep Learning JP
•
7.1K views
Triplet Loss 徹底解説
tancoro
•
10.9K views
【DL輪読会】Scaling Laws for Neural Language Models
Deep Learning JP
•
3K views
Active Learning 入門
Shuyo Nakatani
•
51K views
深層学習の数理
Taiji Suzuki
•
78.3K views
【DL輪読会】Contrastive Learning as Goal-Conditioned Reinforcement Learning
Deep Learning JP
•
327 views
Generative Models(メタサーベイ )
cvpaper. challenge
•
7.3K views
DQNからRainbowまで 〜深層強化学習の最新動向〜
Jun Okumura
•
85.3K views
グラフニューラルネットワーク入門
ryosuke-kojima
•
46.8K views
強化学習アルゴリズムPPOの解説と実験
克海 納谷
•
2K views
強化学習エージェントの内発的動機付けによる探索とその応用(第4回 統計・機械学習若手シンポジウム 招待公演)
Shota Imai
•
1.7K views
backbone としての timm 入門
Takuji Tahara
•
5.9K views
Optimizer入門&最新動向
Motokawa Tetsuya
•
22K views
[DL輪読会] Spectral Norm Regularization for Improving the Generalizability of De...
Deep Learning JP
•
8.9K views
[DL輪読会]Learning to Simulate Complex Physics with Graph Networks
Deep Learning JP
•
1.1K views
SSII2019企画: 点群深層学習の研究動向
SSII
•
7.9K views
【DL輪読会】Efficiently Modeling Long Sequences with Structured State Spaces
Deep Learning JP
•
3.8K views
Similar to ICLR2020読み会 (neural-tangents)
(20)
Getting Started with Deep Learning using Scala
Taisuke Oe
•
2.5K views
MySQLで学ぶ機械学習ことはじめ.pdf
Machiko Ikoma
•
8 views
Deep Learning技術の最近の動向とPreferred Networksの取り組み
Kenta Oono
•
28.1K views
[AI05] 目指せ、最先端 AI 技術の実活用!Deep Learning フレームワーク 「Microsoft Cognitive Toolkit 」...
de:code 2017
•
2K views
Using Deep Learning for Recommendation
Eduardo Gonzalez
•
1.1K views
【CVPR 2020 メタサーベイ】Efficient Training and Inference Methods for Networks
cvpaper. challenge
•
338 views
経済学のための実践的データ分析 5.特許データの分析
Yasushi Hara
•
1.2K views
[DL輪読会]Measuring abstract reasoning in neural networks
Deep Learning JP
•
1.2K views
ディープラーニング最近の発展とビジネス応用への課題
Kenta Oono
•
18.3K views
2018年01月27日 Keras/TesorFlowによるディープラーニング事始め
aitc_jp
•
916 views
DLフレームワークChainerの紹介と分散深層強化学習によるロボット制御
Ryosuke Okuta
•
17.4K views
Outrageously Large Neural Networks:The Sparsely-Gated Mixture-of-Experts Laye...
KCS Keio Computer Society
•
1.3K views
No-Ops で大量データ処理基盤
Google Cloud Platform - Japan
•
2.9K views
No-Ops で大量データ処理基盤を簡単に実現する
Kiyoshi Fukuda
•
4.8K views
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
•
935 views
エヌビディアが加速するディープラーニング ~進化するニューラルネットワークとその開発方法について~
NVIDIA Japan
•
3.9K views
20180729 Preferred Networksの機械学習クラスタを支える技術
Preferred Networks
•
32.8K views
DAシンポジウム2019招待講演「深層学習モデルの高速なTraining/InferenceのためのHW/SW技術」 金子紘也hare
Preferred Networks
•
2.1K views
研究を加速するChainerファミリー
Deep Learning Lab(ディープラーニング・ラボ)
•
8K views
オープンソースのビッグデータ・IoT向け スケールアウト型データベースGridDBとPython連携 〜GridDBとPythonと私〜
griddb
•
443 views
Advertisement
Recently uploaded
(20)
在哪里可以做《林肯大学文凭证书|毕业证》
1232hdjk
•
2 views
①【魁北克大学毕业证文凭学位证书|工艺完美复刻】
love445ds
•
2 views
在哪里可以做《麦考瑞大学文凭证书|毕业证》
kjds1245
•
2 views
本科/硕士《加拿大温尼伯大学毕业证成绩单》
1523dsa
•
3 views
留学生案例《利兹大学学位毕业证书和学士文凭》
36dsahj
•
2 views
web3 x 科学
Hiro Hamada
•
19 views
学分不够购买《马努卡理工学院毕业证成绩单办理案例》
12kjlas
•
6 views
☀️《Sunderland毕业证仿真》
DAS54SA
•
2 views
在哪里可以做《帝国理工学院文凭证书|毕业证》
1232hdjk
•
2 views
Promotion of Migration from Urban to Local Areas in Mongolia
Kunio Minato
•
46 views
在哪里可以做《怀俄明大学文凭证书|毕业证》
lobd15
•
2 views
留学生案例《卡内基梅隆大学学位毕业证书和学士文凭》
15sdasd
•
2 views
☀️【杜克大学毕业证成绩单留学生首选】
25kihn123
•
2 views
留学生案例《新学院学位毕业证书和学士文凭》
uijn12a
•
2 views
☀️【帝国理工学院毕业证成绩单留学生首选】
25mjhd12
•
3 views
留信网认证可查【麻省大学波士顿分校文凭证书毕业证购买】
hh123hh1
•
2 views
留信网认证可查【奥克兰商学院文凭证书毕业证购买】
ihh14ds
•
2 views
国外学历【萨德伯里大学研究生文凭毕业证留学生首选】
ewq15a
•
2 views
☀️【威得恩大学毕业证成绩单留学生首选】
25mjhd12
•
2 views
☀️【圣地亚哥大学毕业证成绩单留学生首选】
25kihn123
•
2 views
ICLR2020読み会 (neural-tangents)
Neural Tangents: Fast and
Easy Infinite Neural Networks in Python Ryuichi Kanoh (Mobility Technologies*DeNAより出向) Twitter ICLR2020オンライン読み会 無限の幅を持つニューラルネットワークを実装する話
Introduction 2
Over-parameterization 近年のニューラルネットワークは、(パラメータ数)>>(学習データ数) • CIFAR10: 5万枚の訓練画像 •
ResNet152: 約6000万個のパラメータ • 正則化やData Augmentationなしでも、ある程度うまくいく 疑問 (パラメータ数) >> (学習データ数)の学習が、なぜうまくいくのか? 3
経験的に得られている事実 局所解にはまらずに学習は大域収束する パラメータ数が増え続けても汎化する 論文リンク (ICLR2020) 4
(興味を持ってもらうための) 関連実験紹介 [1] 学習データを増やすほど性能が劣化するレンジが存在 • 二重降下の山の位置がデータ数に依存することに起因 •
あなたもこの罠にはまっているかも? 論文リンク (ICLR2020) 5
(興味を持ってもらうための) 関連実験紹介 [2] アンサンブルに適切なパラメータ数は、二重効果の山を少し超えたところ • シンプルな定式化ではこの効果は現れず、よくわかっていない
論文リンク (ICML2020) 論文リンク 増やしすぎると劣化 6
課題提起: 無限への興味 無限にパラメータを増やすと、何が起こるか気になりませんか? • 有限の議論が無限に拡張できるか(逆も然り)は理論研究にとって重要 • 単純に、機械学習モデルとして強力なものになりうる ? 7
無限幅ネットワークに対するアプローチ Neural Tangent Kernel
[定式化] パラメータ(w)空間での学習の定式化 *勾配法 (w: パラメータ, η: 学習率, L: 誤差関数) 式変形 η→0 *誤差関数は二乗誤差とする 関数(y)空間での学習の定式化 Neural Tangent Kernel (NTK) 8
無限幅ネットワークに対するアプローチ Neural Tangent Kernel
[不変性] 隠れ層の幅が広いと、ひとつひとつの重みの変化が微小でも推論結果は大きく変化する • 実験的/理論的に、幅が広いと重みと は変化しなくなることが示されてきた 論文リンク (NeurIPS 2019) (証明が気になる方はこちら) 幅と共にNTKの変化が小さく 9
無限幅ネットワークに対するアプローチ Neural Tangent Kernel
[解の獲得] が時間依存しないとすると、上式は単純な微分方程式となり、解を解析的に得られる NTK 幅が無限の場合は時間依存しない 10
NTKの活用にあたっての障壁 の計算方法は、モデルの構成ごとに変わる • 例えば、L層の(全結合層+活性化)のモデルは、以下のように定式化できる • これらをパラメータで微分し、積をとることでNTKは計算できる f:
pre-activation g: post-activation W: NNの重み σ: 活性化関数 cσ: 規格化定数 dh: h層目の幅 11
NTKの活用にあたっての障壁 の計算方法は、モデルの構成ごとに変わる • 例えば、L層の(全結合層+活性化)のモデルは、以下のように定式化できる • これらをパラメータで微分し、積をとることでNTKは計算できる f:
pre-activation g: post-activation W: NNの重み σ: 活性化関数 cσ: 規格化定数 dh: h層目の幅 • 畳み込み層が入ったら? • Pooling層が入ったら? • グラフニューラルネットワークは? • 活性化関数が変わったら? • Skip Connectionを導入したら? • … • 初見での計算は厳しいのでキャッチアップが必要 • 具体的な計算が気になる方はこちら • Dense (NeurIPS 2018) • CNN, Pooling (NeurIPS 2019) • GNN (NeurIPS 2019) • などなど 12
NTKの活用にあたっての障壁 の計算方法は、モデルの構成ごとに変わる • 例えば、L層の(全結合層+活性化)のモデルは、以下のように定式化できる • これらをパラメータで微分し、積をとることでNTKは計算できる f:
pre-activation g: post-activation W: NNの重み σ: 活性化関数 cσ: 規格化定数 dh: h層目の幅 • 畳み込み層が入ったら? • Pooling層が入ったら? • グラフニューラルネットワークは? • 活性化関数が変わったら? • Skip Connectionを導入したら? • … • 初見での計算は厳しいのでキャッチアップが必要 • 具体的な計算が気になる方はこちら • Dense (NeurIPS 2018) • CNN, Pooling (NeurIPS 2019) • GNN (NeurIPS 2019) • などなど 13 参入障壁が高い! 計算ミスや実装ミスが怖い… 使われる数学も難しい…
ここまでのまとめ 無限の幅を持つモデルを調べることは面白そう • 有限の議論が無限まで拡張できるかどうか(逆も然り)は、理論的に事柄を示す際に重要な観点 • 単純に、機械学習モデルとして強力なものになりうる NTKなど、無限幅のモデルを扱う理論も整備されてきている •
それらを用いれば、理論解析と数値実験を交えながら議論が展開できそう • 中心極限定理や大数の法則が使えるので、かえって有限幅より議論しやすいこともある モデルを変えるたびに複雑な定式化を行ってNTKを実装するのは大変 • 先行研究がいくつも存在しているが、実装が各論文でバラバラで読み解くのや横展開が大変 • CUDA, numpy, pytorch… • NTKの計算は重いので、hardware-friendlyな形での実装を考える必要もある 14
How to implement infinite
neural network 15
neural-tangents neural-tangents (ICLR2020)というライブラリを使用すると簡単。 (pipで入る) •
JAXというGoogleのライブラリをラップしている • JAXは、numpyに自動微分とJITがくっついたようなもの。GPUやTPUでも動く • numpy-likeな記法で、低レベルな部分も自分で実装しやすいのが特徴らしい 16
実装例 (NTKの獲得) JAXの中のstaxというモジュールをラップする形で使用されることが多い • モデルさえ定義すれば、モデル構造ごとに変わる面倒な設計は、全部ライブラリが内包してくれる 17 無限の幅を持つネットワークのカーネル関数 (Denseで定義している512というパラメータはこの関数に影響しない) 対応するNTKが格納された配列
実装例 (NTKを使用した推論) カーネル関数とデータを渡せば、推論結果を得ることができる 18
ドキュメント類 初見でも、きちんと情報やハンズオンが整備されているので、使いやすい ドキュメント • https://neural-tangents.readthedocs.io/en/latest/# Gitリポジトリ • https://github.com/google/neural-tangents Colab
Notebook • https://colab.research.google.com/github/google/neural- tangents/blob/master/notebooks/neural_tangents_cookbook.ipynb 19
Experiments 20
有限の幅を持つモデルとの比較 Wide-ResNetなど幅の広いモデルの挙動は、かなり近い振る舞いが模擬できている • tが大きくなるとズレ始めることにも注意 21 論文リンク (NeurIPS
2019)
機械学習モデルとしての性能 (小スケール) UCIなどの小さなデータセット(N~5,000)では、既存のモデルを上回る性能が出ている • 小さなデータを扱うKaggleコンペティションなどで活躍する未来もあり得るかも? 22 論文リンク (ICLR2020)
機械学習モデルとしての性能 (中スケール) CIFAR10を分類させてみると、深いモデルでは有限幅のモデルの方が性能が良い • この性能差が意味するところは何なのか?NTKの変化が重要? (論文リンク) •
深さに対しての依存性も異なりそう • ギャップを埋めていければ、理論と実践の壁は薄れていき、進化の方向性のヒントを得られるかもしれない 23 論文リンク (NeurIPS 2019)
処理時間 24 ICLR2020プレゼン資料より引用 ImageNet規模の大スケールの対象は厳しい • 計算の高速化を考えることにも、大いに価値がある
並列処理性能 ほぼ並列処理数に対して線形に処理時間が減っていっていく 25
Summary 26
まとめ Over-parameterizationについて考えるのは面白い • 汎化性能、最適化の性質についてなど、不思議なことがたくさん 極限である無限幅のモデルを扱う手法が幾つも出てきている • これらの活用は理論、実践共に今まさに盛り上がっているところ •
一方、必要な手法は多岐にわたり、理解や実装が大変 neural-tangentsを使用すると、簡単に無限幅のモデルの実験ができる • NTKは有限幅モデルでも扱うことはできるので、有限幅モデルを研究するためのツールにもなる • NTKを利用して二重降下を説明する研究例 27
Advertisement