https://www.slideshare.net/k1ito/icmlfed2021
連合学習・不均一性
ICML 2021
Katsuya Ito
2021-06-27 @ ICLR / ICML 2021 読み会 BY パンハウス
https://www.slideshare.net/k1ito/icmlfed2021
Table of Contents
(1)連合学習とは
FedAvgについて簡単に解説
(2)Heterogeneityとは
ICML 2021の論文2本紹介
https://www.slideshare.net/k1ito/icmlfed2021
自己紹介
https://www.slideshare.net/k1ito/icmlfed2021
想定する聴衆
メイン
・連合学習について興味がある人
向けの入門的な発表です
目標
・連合学習の概要・長所短所について理解
・連合学習の大きなOpen Problemである「不均一性」に対する解決法を理解
https://www.slideshare.net/k1ito/icmlfed2021
連合学習(Federated Learning)とは
サーバとクライアントが協同して学習
・サーバ   :計算能力・記憶能力がある
・クライアント:情報収集能力がある・計算能力はない
例:
携帯デバイスなどで機械学習アルゴリズムを学習+推論する場合など
https://www.slideshare.net/k1ito/icmlfed2021
Federated Learningのイメージ
https://www.slideshare.net/k1ito/icmlfed2021
https://panhouse.blog/
https://www.slideshare.net/k1ito/icmlfed2021
https://panhouse.blog/
https://www.slideshare.net/k1ito/icmlfed2021
https://scrapbox.io/k1ito/
https://www.slideshare.net/k1ito/icmlfed2021
連合学習(Federated Learning)の特徴
● 推論だけでなく、各エッジの学習結果をサーバーに報告
○ 転移学習などとの違い。
○ 学習まで行える
● 重みの差分のみを各エッジのクライアントが送信する
○ ふつうの(中央集権型)機械学習との違い。
○ データは送信しないので、プライバシー /機密保護的に強い
○ データの通信量も少なくできる
● 選ばれたエッジクライアントのみ学習させる、
○ 分散機械学習との違い。
○ 全部のエッジを学習させるのではない
○ 計算量・通信量が少なくなる
https://www.slideshare.net/k1ito/icmlfed2021
普通のFederated Learning(FedAvg)
McMahan et al 2017のFedAvgがベースラインとして用いられる。
https://www.slideshare.net/k1ito/icmlfed2021
連合学習における不均一性(Heterogeneity)
各デバイスにおいて収集されるデータはとても偏っている
・スマホの顔認証・指紋認証で自分の顔以外登録しないですよね
・日本語入力では機械学習用語おおめになりますよね
https://www.slideshare.net/k1ito/icmlfed2021
論文まとめ
Exploiting Shared Representations for Personalized Federated Learning (UTexas/UPenn)
・表現を抽出する部分と表現から分類する部分にわけて連合学習
Heterogeneity for the Win: One-Shot Federated Clustering (CMU)
・不均一な場合を逆手に取って、全デバイスで
K-meansをして、クラスタ中心をあつめる
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(1)FedRep (表現学習+連合学習)
キーポイント:
・「表現抽出部分」と「分類部分(Head)」に分離する
・「表現抽出部分」は連合学習する。「Head」は各自学習のみ。
https://www.slideshare.net/k1ito/icmlfed2021
FedRepの例え話:マイクロマネジメントしない
上司(中央サーバ)と部下(エッジの実行係)
Heterogeneity:現場ごとの差が大きい・最後は現場に任せた方が良い
普通の連合学習(FedAvg)
上司の仕事全部を部下がコピーしようとする・部下の仕事全部に上司が口出し
FedRep
上司:わかりやすく・タスクの重要なところを抽出するところに注力
部下:現場でいっぱい学習する・上司の意見に対して自分で解釈する
https://www.slideshare.net/k1ito/icmlfed2021
FedRepと普通のFedAvgの違い
普通の連合学習(FedAvg)の問題設定
提案手法(FedRep)の問題設定
全体
共通
個々の
head
Loss
関数
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(1)FedRep (表現学習+連合学習)
アルゴリズム:
1. まず選ばれたクライアントのheadをアップデートする
2. 全体で共通の表現学習部分をアップデートする
3. 表現学習部分の差分を中央サーバに投げる
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(1)FedRep (表現学習+連合学習)
←(1)ローカルのHeadのアップデート
←(3)グローバルの表現学習部分のアップデート
←(2)ローカルの表現学習部分のアップデート
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(1)良い表現の抽出
沢山のクライアント(n台)の助けを借りることによって良い表現の抽出
(1) GD-GD : 全体を1回ローカルアップデート・1回グローバルアップデート
(2) 10GD-GD :全体10回ローカルアップデート・1回グローバルアップデート
(3) FedRep:Head・抽出部分を分けてアップデートする
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(1)local epochの大事さ
Localでアップデート(E回)すればするほど良いモデルになる
←ローカルでのアップデート回数 E
を大きくすればFedRepは安定する
←ローカルでのアップデート回数 E
を大きくしてもFedAvgはよくならない
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(1)local epochの大事さ
Localでアップデート(E回)すればするほど良いモデルになる
←特にFedRepが一番強くなる
←全体的にfine-tuneの回数に比例して
 モデルは良くなる
←LG-FedAvgはHeadがグローバル
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(2)新しいデータに強い
表現を抽出する機構のみ連合学習するので、Headを効率的にFine-tuneできる
→FedAvgはfine-tuneしづらい・普通のfine-tuneは収束が遅い
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(3)普通のタスクでも強い
Heterogeneity・Homogeneity両方のタスクでFedAvgをアウトパフォーム
→Hetero(各エッジでS=2クラスしか得られない)の場合FedAvgは弱い
https://www.slideshare.net/k1ito/icmlfed2021
FedRepのメリット(3)普通のタスクでも強い
Heterogeneity・Homogeneity両方のタスクでFedAvgをアウトパフォーム
→Homo(各エッジでS=5クラス得られる)の場合FedAvgよりも少し強い
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2) k-FED
K-means × 連合学習は強い
全部のデバイスで学習が回せて、その結果を回収できるような設定
(K-meansを全デバイスで回す)
ではHeterogeneityがむしろメリットになる。
←
沢山のデータを集めることができるから
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)k-FED
Heterogeneityの定義:
k個の(真の)クラスターがあるようなクラスタリング問題を考える。
各クライアントからmaxでk’個のクラスタのデータしか得られないとする。
k’≦√kのときHeterogeneiosな連合学習の設定であるという。
例:MNISTのとき:3クラスのデータしかえられない。
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)k-FEDのアルゴリズム
アルゴリズム
・全デバイスからクラスタ中心を決める
・最も離れているものから順番にMに加える
・Mを初期値にしてLloyd法でクラスタリング
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)k-FEDのアルゴリズム
アルゴリズム
・全デバイスからクラスタ中心を決める
・最も離れているものから順番にMに加える
・Mを初期値にしてLloyd法でクラスタリング
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)の特徴:One-shot
コミュニケーション量
・各デバイスでK-meansをする・それらを統合した結果を送信する
全部が出揃うのを待つ必要はない・出入り自由
・各デバイスでK-meansをした結果を順次上げるだけなので全部を待つ必要ない
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)の特徴
Heteroな方が強くなる
ランダムな設定と
ヘテロな設定
との
相対スコア
maxのクラス数
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)の特徴
1回のコミュニケーションでナイーブなK-meansと同じ値に収束する
https://www.slideshare.net/k1ito/icmlfed2021
提案手法(2)の特徴
デバイスが多い場合・不均一な場合、両方においてアウトパフォーム
https://www.slideshare.net/k1ito/icmlfed2021
論文まとめ
Exploiting Shared Representations for Personalized Federated Learning (UTexas/UPenn)
・表現を抽出する部分と表現から分類する部分にわけて連合学習
Heterogeneity for the Win: One-Shot Federated Clustering (CMU)
・不均一な場合を逆手に取って、全デバイスで
K-meansをして、クラスタ中心をあつめる

ICML2021の連合学習の論文