0
NeurIPS2021
論文読み会
- Parameter Prediction for
Unseen Deep Architectures -
発表者:
Keita Shimmei (眞明圭太)
Data Scientist, BCG GAMMA
2022年1月25日
1
眞明 圭太
Keita Shimmei
@KeitaShimmei
Data Scientist, BCG Gamma
経歴
q 2021年∼現在
o Data Scientist @BCG, DigitalBCG Japan, GAMMA (東京)
q 2015年∼2021年
o Data Scientist @世界銀行 (Washington D.C.)
o Project Researcher @IBM東京基礎研究所 (東京)
o 慶應義塾大学大学院 医学研究科 修士: 公衆衛生学専攻
o 慶應義塾大学大学院 商学研究科 修士: 計量経済学専攻
趣味
自己紹介
2
同じ画像データセットを用いて、異なるアー
キテクチャのニューラルネットワーク (NN)
を学習する状況
• (例) ImageNetを用いて最適なモデル
(アーキテクチャ/パラメータ)探索のために
n百個のモデルを学習
Ø それぞれ独立に学習、重みを最適化
Ø 膨大な時間が必要
アーキテクチャのトポロジー (レイヤー同士の繋がり方/
オペレータ同士の関係性)から、そのアーキテクチャの
重みを予測できないか?
背景
o 異なるアーキテクチャの学習過程をメタ的に学習する
手法Graph Hypernetworks (GHN-2)を提案
Ø 未知のアーキテクチャの形から重みを予測可能
o 100万個のアーキテクチャのデータセット
(DEEPNETS-1M)を作成
リサーチクエスチョン
本論文の貢献
論文サマリー
Knyazev, Boris, et al. "Parameter Prediction for Unseen Deep Architectures."
Advances in Neural Information Processing Systems 34 (2021).
`
ImageNet
・・・
形の異なる
アーキテクチャ
学習
イントロ
3
① Graph Neural Network (GNN)
③ Hypernetworks
② Meta-Learning
Graph Hypernetworks-1
(GHN-1)
• グラフのノード間の関係性を学習するフレームワーク
• 入力としてグラフを受け取り、各レイヤーにおいて隣
接頂点間で特徴量の情報をやり取りし学習
(Message passing)
• 特に化学分野で発展
• 重みの圧縮/解凍の手法の1つ
• 大規模ネットワークgの重みを小規模ネットワー
クf (Hypernetwork)から予測/生成する
• ターゲットとなるネットワークgのレイヤーの情
報を入力として学習し、重みを出力する
• Google BrainのHa (2016)が提案
• 学習の仕方を学習するNN手法
• 例: MAML (ICML17)
1. 複数の学習タスクとタスク共通の
ネットワークを用意
2. ランダム抽出されたタスクで勾配
を計算し、タスク共通ネットワー
クの重みを更新
本研究の位置づけ
Graph Hypernetworks-2
(GHN-2)
• アーキテクチャから重み予測を試みる初の論文
• NNアーキテクチャのオペレータをグラフの頂点
として見なしたGNNを用いる
• 本研究の肝となるモデルはこの既存手法を模倣
• Zhang (2019)がICLRで提案
• 本論文の提案手法
• 3つの技術を組合せ、既存手法GHN-1を改良
• 特に、meta-learningを用いて大量のアーキテ
クチャを学習することが可能に
イントロ
4
Graph Hypernetwork-2
5
① 入出力は?
Ø グラフハイパーネットワーク HDはアーキテクチャを入力し、その重みを出力する
• 入力: アーキテクチャをグラフ化したもの (Computational graph)
• HD: 中身はグラフニューラルネット
• 出力: グラフをdecodeして得る重み!
𝑤!
② どんなグラフなの?
Ø グラフのノード(頂点)はアーキテクチャのオペレーター (Conv, Dense, BNなど)
• 頂点となるオペレータ同士がアーキテクチャ内で結合されていればグラフにエッジ(辺)が存在
• オペレーターの同士の関係性が、HDの中で学習される
提案手法(GHN-2)のキーポイント ① ②
提案手法
6
③ 学習の方法は?
Ø HDの重みは実データのlossからBackpropagateして更新
1) HDから重み!
𝑤!を出力し、入力のアーキテクチャに重みを付与
2) 実際の画像データをアーキテクチャに入力し、損失関数/勾配を計算
3) BackpropagateでHDの重みθを更新
④ 入力のアーキテクチャai はどこからくるの?
Ø HDの学習に必要をアーキテクチャセットは生成器F から生成
• 生成器Fを設計と評価用アーキテクチャセットの構築も本論文の貢献 (次ページ)
提案手法(GHN-2)のキーポイント ③ ④
提案手法
7
学習/評価用アーキテクチャのデータセット(DEEPNETS-1M)
アーキテクチャ生成器
• 15種類のオペレーションを用意: Conv, BN, Sumなど
• アーキテクチャサイズの上限を定め、ランダムなオペレーションの組み合わせで生成可能
分布内アーキテクチャ (In-Distribution)
• Training/Validation/Testing用アーキテクチャをこの生成器から1,000,000/500/500個生成
分布外アーキテクチャ
(Out-Of-Distribution)
• In-distributionだけでは、overfittingを起こす
可能性 (類似するアーキテクチャが存在し得る)
• 別途用意した生成器から5種類 (Wide, Deepな
ど)のアーキテクチャを生成
• Testing用アーキテクチャとして利用
1
2 3
2
3
1
提案手法
データセットは公開されており、
将来研究でのベースライン比較も可能
8
実験と結果
9
Question Answer
アーキテクチャのトポロジー (オペレー
タ同士の関係性)から、そのアーキテク
チャの重みを予測できるのか?
できた!
ランダムな重み初期値で学習したモデル精度 < GHN-2で予測した重みで学習
したモデル精度
純粋に画像データを学習したネット
ワークと比較したときの精度は?
提案手法GHN-2の完敗。画像データを学習したモデルの方が精度が高かった。
SGDで5エポックだけ学習したモデル精度と同等。
実験と結果 o 評価データ CIFAR-10 & ImageNet
o 評価アーキテクチャ: DEEPNETS-1M
結果
10
o 100万個のアーキテクチャのデータセットDEEPNETS-1Mを作成した
o Graph Hypernetwork-2を提案し、アーキテクチャの形から重みを予測できた
o ランダムなモデルに比べると精度は高いが、普通に画像データを学習したモデルよりは 遥かに精
度が低かった
まとめ
o 学習されたモデルは同じドメインのデータセットでの利用に限定される
Ø 画像データで学習したGHN-2は音声認識には使えない
o 実用的なベネフィットは現時点ではまだ小さい
限界点
結果
感想
o 煩雑なアプローチの割に用途が限られるので、少し本末転倒感があった。
o リサーチクエスチョン自体は非常に面白く、NN周りの高度なテクニックを組合せている手法も楽しめた
11
DigitalBCG GAMMA - 募集要項
勤務地
選考プロセス 書類選考、テクニカルテスト、複数回の⾯接
東京・京都・⼤阪オフィス
データサイエンティスト
ソフトウェアエンジニア/ データエンジニア
詳細はDigitalBCG Japanウェブサイト
もしくは DigitalBCGJPN_REC@bcg.comへお問合せ下さい
もしくはいつでも気軽にお声がけください︕
職種

NeurIPS2021論文読み会 (parameter prediction for unseen deep architecture)

  • 1.
    0 NeurIPS2021 論文読み会 - Parameter Predictionfor Unseen Deep Architectures - 発表者: Keita Shimmei (眞明圭太) Data Scientist, BCG GAMMA 2022年1月25日
  • 2.
    1 眞明 圭太 Keita Shimmei @KeitaShimmei DataScientist, BCG Gamma 経歴 q 2021年∼現在 o Data Scientist @BCG, DigitalBCG Japan, GAMMA (東京) q 2015年∼2021年 o Data Scientist @世界銀行 (Washington D.C.) o Project Researcher @IBM東京基礎研究所 (東京) o 慶應義塾大学大学院 医学研究科 修士: 公衆衛生学専攻 o 慶應義塾大学大学院 商学研究科 修士: 計量経済学専攻 趣味 自己紹介
  • 3.
    2 同じ画像データセットを用いて、異なるアー キテクチャのニューラルネットワーク (NN) を学習する状況 • (例)ImageNetを用いて最適なモデル (アーキテクチャ/パラメータ)探索のために n百個のモデルを学習 Ø それぞれ独立に学習、重みを最適化 Ø 膨大な時間が必要 アーキテクチャのトポロジー (レイヤー同士の繋がり方/ オペレータ同士の関係性)から、そのアーキテクチャの 重みを予測できないか? 背景 o 異なるアーキテクチャの学習過程をメタ的に学習する 手法Graph Hypernetworks (GHN-2)を提案 Ø 未知のアーキテクチャの形から重みを予測可能 o 100万個のアーキテクチャのデータセット (DEEPNETS-1M)を作成 リサーチクエスチョン 本論文の貢献 論文サマリー Knyazev, Boris, et al. "Parameter Prediction for Unseen Deep Architectures." Advances in Neural Information Processing Systems 34 (2021). ` ImageNet ・・・ 形の異なる アーキテクチャ 学習 イントロ
  • 4.
    3 ① Graph NeuralNetwork (GNN) ③ Hypernetworks ② Meta-Learning Graph Hypernetworks-1 (GHN-1) • グラフのノード間の関係性を学習するフレームワーク • 入力としてグラフを受け取り、各レイヤーにおいて隣 接頂点間で特徴量の情報をやり取りし学習 (Message passing) • 特に化学分野で発展 • 重みの圧縮/解凍の手法の1つ • 大規模ネットワークgの重みを小規模ネットワー クf (Hypernetwork)から予測/生成する • ターゲットとなるネットワークgのレイヤーの情 報を入力として学習し、重みを出力する • Google BrainのHa (2016)が提案 • 学習の仕方を学習するNN手法 • 例: MAML (ICML17) 1. 複数の学習タスクとタスク共通の ネットワークを用意 2. ランダム抽出されたタスクで勾配 を計算し、タスク共通ネットワー クの重みを更新 本研究の位置づけ Graph Hypernetworks-2 (GHN-2) • アーキテクチャから重み予測を試みる初の論文 • NNアーキテクチャのオペレータをグラフの頂点 として見なしたGNNを用いる • 本研究の肝となるモデルはこの既存手法を模倣 • Zhang (2019)がICLRで提案 • 本論文の提案手法 • 3つの技術を組合せ、既存手法GHN-1を改良 • 特に、meta-learningを用いて大量のアーキテ クチャを学習することが可能に イントロ
  • 5.
  • 6.
    5 ① 入出力は? Ø グラフハイパーネットワークHDはアーキテクチャを入力し、その重みを出力する • 入力: アーキテクチャをグラフ化したもの (Computational graph) • HD: 中身はグラフニューラルネット • 出力: グラフをdecodeして得る重み! 𝑤! ② どんなグラフなの? Ø グラフのノード(頂点)はアーキテクチャのオペレーター (Conv, Dense, BNなど) • 頂点となるオペレータ同士がアーキテクチャ内で結合されていればグラフにエッジ(辺)が存在 • オペレーターの同士の関係性が、HDの中で学習される 提案手法(GHN-2)のキーポイント ① ② 提案手法
  • 7.
    6 ③ 学習の方法は? Ø HDの重みは実データのlossからBackpropagateして更新 1)HDから重み! 𝑤!を出力し、入力のアーキテクチャに重みを付与 2) 実際の画像データをアーキテクチャに入力し、損失関数/勾配を計算 3) BackpropagateでHDの重みθを更新 ④ 入力のアーキテクチャai はどこからくるの? Ø HDの学習に必要をアーキテクチャセットは生成器F から生成 • 生成器Fを設計と評価用アーキテクチャセットの構築も本論文の貢献 (次ページ) 提案手法(GHN-2)のキーポイント ③ ④ 提案手法
  • 8.
    7 学習/評価用アーキテクチャのデータセット(DEEPNETS-1M) アーキテクチャ生成器 • 15種類のオペレーションを用意: Conv,BN, Sumなど • アーキテクチャサイズの上限を定め、ランダムなオペレーションの組み合わせで生成可能 分布内アーキテクチャ (In-Distribution) • Training/Validation/Testing用アーキテクチャをこの生成器から1,000,000/500/500個生成 分布外アーキテクチャ (Out-Of-Distribution) • In-distributionだけでは、overfittingを起こす 可能性 (類似するアーキテクチャが存在し得る) • 別途用意した生成器から5種類 (Wide, Deepな ど)のアーキテクチャを生成 • Testing用アーキテクチャとして利用 1 2 3 2 3 1 提案手法 データセットは公開されており、 将来研究でのベースライン比較も可能
  • 9.
  • 10.
    9 Question Answer アーキテクチャのトポロジー (オペレー タ同士の関係性)から、そのアーキテク チャの重みを予測できるのか? できた! ランダムな重み初期値で学習したモデル精度< GHN-2で予測した重みで学習 したモデル精度 純粋に画像データを学習したネット ワークと比較したときの精度は? 提案手法GHN-2の完敗。画像データを学習したモデルの方が精度が高かった。 SGDで5エポックだけ学習したモデル精度と同等。 実験と結果 o 評価データ CIFAR-10 & ImageNet o 評価アーキテクチャ: DEEPNETS-1M 結果
  • 11.
    10 o 100万個のアーキテクチャのデータセットDEEPNETS-1Mを作成した o GraphHypernetwork-2を提案し、アーキテクチャの形から重みを予測できた o ランダムなモデルに比べると精度は高いが、普通に画像データを学習したモデルよりは 遥かに精 度が低かった まとめ o 学習されたモデルは同じドメインのデータセットでの利用に限定される Ø 画像データで学習したGHN-2は音声認識には使えない o 実用的なベネフィットは現時点ではまだ小さい 限界点 結果 感想 o 煩雑なアプローチの割に用途が限られるので、少し本末転倒感があった。 o リサーチクエスチョン自体は非常に面白く、NN周りの高度なテクニックを組合せている手法も楽しめた
  • 12.
    11 DigitalBCG GAMMA -募集要項 勤務地 選考プロセス 書類選考、テクニカルテスト、複数回の⾯接 東京・京都・⼤阪オフィス データサイエンティスト ソフトウェアエンジニア/ データエンジニア 詳細はDigitalBCG Japanウェブサイト もしくは DigitalBCGJPN_REC@bcg.comへお問合せ下さい もしくはいつでも気軽にお声がけください︕ 職種