ICML2021の連合学習の論文

https://www.slideshare.net/k1ito/icmlfed2021
連合学習・不均一性
ICML 2021
Katsuya Ito
2021-06-27 @ ICLR / ICML 2021 読み会 BY パンハウス

Table of Contents
(1)連合学習とは
FedAvgについて簡単に解説
(2)Heterogeneityとは
ICML 2021の論文２本紹介

自己紹介

想定する聴衆
メイン
・連合学習について興味がある人
向けの入門的な発表です
目標
・連合学習の概要・長所短所について理解
・連合学習の大きなOpen Problemである「不均一性」に対する解決法を理解

連合学習(Federated Learning)とは
サーバとクライアントが協同して学習
・サーバ　　：計算能力・記憶能力がある
・クライアント：情報収集能力がある・計算能力はない
例：
携帯デバイスなどで機械学習アルゴリズムを学習＋推論する場合など

Federated Learningのイメージ

https://panhouse.blog/

https://scrapbox.io/k1ito/

連合学習(Federated Learning)の特徴
● 推論だけでなく、各エッジの学習結果をサーバーに報告
○ 転移学習などとの違い。
○ 学習まで行える
● 重みの差分のみを各エッジのクライアントが送信する
○ ふつうの(中央集権型)機械学習との違い。
○ データは送信しないので、プライバシー /機密保護的に強い
○ データの通信量も少なくできる
● 選ばれたエッジクライアントのみ学習させる、
○ 分散機械学習との違い。
○ 全部のエッジを学習させるのではない
○ 計算量・通信量が少なくなる

普通のFederated Learning（FedAvg)
McMahan et al 2017のFedAvgがベースラインとして用いられる。

連合学習における不均一性（Heterogeneity）
各デバイスにおいて収集されるデータはとても偏っている
・スマホの顔認証・指紋認証で自分の顔以外登録しないですよね
・日本語入力では機械学習用語おおめになりますよね

論文まとめ
Exploiting Shared Representations for Personalized Federated Learning (UTexas/UPenn)
・表現を抽出する部分と表現から分類する部分にわけて連合学習
Heterogeneity for the Win: One-Shot Federated Clustering (CMU)
・不均一な場合を逆手に取って、全デバイスで
K-meansをして、クラスタ中心をあつめる

提案手法（１）FedRep (表現学習＋連合学習）
キーポイント：
・「表現抽出部分」と「分類部分（Head)」に分離する
・「表現抽出部分」は連合学習する。「Head」は各自学習のみ。

FedRepの例え話：マイクロマネジメントしない
上司（中央サーバ）と部下（エッジの実行係）
Heterogeneity：現場ごとの差が大きい・最後は現場に任せた方が良い
普通の連合学習(FedAvg)
上司の仕事全部を部下がコピーしようとする・部下の仕事全部に上司が口出し
FedRep
上司：わかりやすく・タスクの重要なところを抽出するところに注力
部下：現場でいっぱい学習する・上司の意見に対して自分で解釈する

FedRepと普通のFedAvgの違い
普通の連合学習（FedAvg）の問題設定
提案手法（FedRep）の問題設定
全体
共通
個々の
head
Loss
関数

アルゴリズム：
1. まず選ばれたクライアントのheadをアップデートする
2. 全体で共通の表現学習部分をアップデートする
3. 表現学習部分の差分を中央サーバに投げる

←（１）ローカルのHeadのアップデート
←（３）グローバルの表現学習部分のアップデート
←（２）ローカルの表現学習部分のアップデート

FedRepのメリット（１）良い表現の抽出
沢山のクライアント（n台）の助けを借りることによって良い表現の抽出
(1) GD-GD : 全体を１回ローカルアップデート・１回グローバルアップデート
(2) 10GD-GD ：全体１０回ローカルアップデート・１回グローバルアップデート
(3) FedRep：Head・抽出部分を分けてアップデートする

FedRepのメリット（１）local epochの大事さ
Localでアップデート(E回)すればするほど良いモデルになる
←ローカルでのアップデート回数 E
を大きくすればFedRepは安定する
←ローカルでのアップデート回数 E
を大きくしてもFedAvgはよくならない

FedRepのメリット（１）local epochの大事さ
Localでアップデート(E回)すればするほど良いモデルになる
←特にFedRepが一番強くなる
←全体的にﬁne-tuneの回数に比例して
　モデルは良くなる
←LG-FedAvgはHeadがグローバル

FedRepのメリット（２）新しいデータに強い
表現を抽出する機構のみ連合学習するので、Headを効率的にFine-tuneできる
→FedAvgはﬁne-tuneしづらい・普通のﬁne-tuneは収束が遅い

FedRepのメリット（３）普通のタスクでも強い
Heterogeneity・Homogeneity両方のタスクでFedAvgをアウトパフォーム
→Hetero（各エッジでS=2クラスしか得られない）の場合FedAvgは弱い

FedRepのメリット（３）普通のタスクでも強い
Heterogeneity・Homogeneity両方のタスクでFedAvgをアウトパフォーム
→Homo（各エッジでS=5クラス得られる）の場合FedAvgよりも少し強い

提案手法（２） k-FED
K-means × 連合学習は強い
全部のデバイスで学習が回せて、その結果を回収できるような設定
（K-meansを全デバイスで回す）
ではHeterogeneityがむしろメリットになる。
←
沢山のデータを集めることができるから

提案手法（２）k-FED
Heterogeneityの定義：
k個の(真の)クラスターがあるようなクラスタリング問題を考える。
各クライアントからmaxでk’個のクラスタのデータしか得られないとする。
k’≦√kのときHeterogeneiosな連合学習の設定であるという。
例：MNISTのとき：3クラスのデータしかえられない。

提案手法（２）k-FEDのアルゴリズム
アルゴリズム
・全デバイスからクラスタ中心を決める
・最も離れているものから順番にMに加える
・Mを初期値にしてLloyd法でクラスタリング

提案手法（２）の特徴:One-shot
コミュニケーション量
・各デバイスでK-meansをする・それらを統合した結果を送信する
全部が出揃うのを待つ必要はない・出入り自由
・各デバイスでK-meansをした結果を順次上げるだけなので全部を待つ必要ない

提案手法（２）の特徴
Heteroな方が強くなる
ランダムな設定と
ヘテロな設定
との
相対スコア
maxのクラス数

１回のコミュニケーションでナイーブなK-meansと同じ値に収束する

デバイスが多い場合・不均一な場合、両方においてアウトパフォーム

ICML2021の連合学習の論文

More Related Content

What's hot

More from Katsuya Ito

ICML2021の連合学習の論文