Foundation of Machine Leaning section8

Foundation of Machine Leaning
second edition
section 8
2020/5/19,2020/5/22
1

はじめに
オンライン学習とは
➢1個のサンプルを処理するたびに重みを更新する学習法
➢バッチ学習と比較して高速
➢大規模なデータに対して効率的に学習可能
➢データの分布を仮定する必要なし
2
オンライン学習の流れ
𝑤0
更新
𝑤1
更新
𝑤2
更新
𝑤3
更新
𝑤4
(𝑥2, 𝑦2)(𝑥1, 𝑦1) (𝑥4, 𝑦4)(𝑥3, 𝑦3)
𝑥1, 𝑦1 𝑥2, 𝑦2
𝑥3, 𝑦3 𝑥4, 𝑦4 作成
𝑤バッチ学習の流れ

8.1 Introduction
イントロダクション
3
PAC learningや確率モデルと異なる点
1. 訓練とテストのフェーズが混在
2. 一般化の概念が存在しない
➢ データの分析を仮定しないため
➢ アルゴリズムのパフォーマンスは誤りモデル
とregretの概念を使用して測定
➢ 保証の導出は最悪（or敵対的）の場合を想定

4
8.1 Introduction
オンライン学習における損失関数
オンライン学習は𝑇個のラウンドで行われる
1. インスタンス𝑥𝑡 ∈ 𝒳から予測 ෝ𝑦𝑡 ∈ 𝒴を出力
2. ラベル𝑦𝑡 ∈ 𝒴を受け取り
損失関数𝐿: 𝒴 × 𝒴 → ℝ+による損失𝐿( ෝ𝑦𝑡, 𝑦𝑡)を算出
目的：累積損失σ 𝑡=1
𝑇
𝐿( ෝ𝑦𝑡, 𝑦𝑡) の最小化
ラウンド𝑡におけるアルゴリズムの振る舞い

5
8.2 Prediction with expert advice
expertのアドバイスによる予測
expertつきオンライン学習
1. インスタンス𝑥𝑡 ∈ 𝒳と𝑁個のexpertからの
アドバイス𝑦𝑡,𝑖 ∈ 𝒴, 𝑖 ∈ [𝑁]を受け取る
2. アドバイスに基づいて予測 ෝ𝑦𝑡を生成，
正解ラベルを受け取り損失を算出
ラウンド𝑡におけるアルゴリズムの振る舞い

6
8.2 Prediction with expert advice
regret
Tラウンド後の累積損失と後知恵のbest expertを比較
External regret
expertつきオンライン学習の目的
⇒regret 𝑅 𝑇(external regret)の最小化

7
8.2.1 Mistake bounds and Halving algorithm
誤り数の上限（1）
以降はmistake bound modelについて議論
⇒特定のコンセプトを学習するまでに何回間違えるか
⚫ Halving algorithm
⚫ Weighted majority algorithm
⚫ Randomized weighted majority algorithm
⚫ Exponential weighted average algorithm
各アルゴリズムについて誤り数の上限𝑀を導出

8
誤り数の上限（2）
⇒少なくとも1つのexpertは一度も間違えない設定
Maximum number of mistake
realizable case
𝒞:コンセプトクラス
任意の固定したコンセプト𝑐について，
学習アルゴリズムの最大の誤り数を以下に定義

9
Halving algorithm
Halving algorithm
適切な誤りの範囲を保証できるシンプルなアルゴリズム
多数決で予測
誤った予測
誤ったexpertを無効化

10
Halving algorithmの疑似コード
HALVING ℋ
1. ℋ1 ← ℋ
2. For 𝑡 ← 1 to 𝑇 do
3. RECEIVE 𝑥𝑡
4. ෝyt ← MAJORITYVOTE(ℋ𝑡, 𝑥𝑡)
5. RECEIVE 𝑦𝑡
6. if (ෝyt ≠ yt) then
7. ℋ𝑡+1 ← 𝑐 ∈ ℋ𝑡: 𝑐 𝑥𝑡 = 𝑦𝑡
8. else ℋ𝑡+1 ← ℋ𝑡
9. return ℋ 𝑇+1
#多数決で予測
#入力
#正解ラベル
#予測に失敗
#あっている
仮説のみ残す

11
Halving algorithmの誤り数の上限（1）
Th. 8.1
多数決より，予測に失敗したとき，
少なくとも半分以上のexpertが無効化
log2 |ℋ| 回の誤りが発生すると，有効な仮説は
1つだけ残り，realizable caseであるため，残った仮説は
ターゲットコンセプトと一致
誤り数の上限

12
Halving algorithmの誤り数の上限（2）
Th. 8.2
➢ 𝑑 = VCdim ℋ とすると，𝑑個のshatter可能な点の
集合が存在，高さ𝑑の誤りの完全二分木を形成可能
➢ 各ラウンドで𝑑個の誤りが保証されるように
ラベルを選択可能
∴ 誤りの下限はVCdim(ℋ)
𝑜𝑝𝑡(ℋ)を最適な仮説の誤り数として以下が成立
の証明：

13
8.2.2 Weighted majority algorithm
WM algorithm
non-realizable case
Weighted majority(WM) algorithm
すべてのexpertの重みを1で初期化
間違えたexpert
重みの多数決で予測
重みを小さくする

1. for 𝑖 ← 1 to 𝑁 do
2. 𝑤1,𝑖 ← 1
3. for 𝑡 ← 1 to 𝑇 do
4. RECEIVE(𝑥𝑡)
5. if σ𝑖:𝑦 𝑡,𝑖=1 𝑤𝑡,𝑖 ≥ σ𝑖:𝑦 𝑡,𝑖=0 𝑤𝑡,𝑖 then
6. ො𝑦𝑡 ← 1
7. else ො𝑦𝑡 ← 0
8. RECEIVE(𝑦𝑡)
9. if (ො𝑦𝑡 ≠ 𝑦𝑡) then
11. if (𝑦𝑡,𝑖 ≠ 𝑦𝑡) then
12. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖
13. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖
14. return w 𝑇+1
14
WM algorithmの疑似コード
#重みによる多数決で予測
#すべてのexpertに均一な重み
#予測に失敗
#間違えたexpertの
重みを小さくする

15
WM algorithmによる誤りの上限
Th. 8.3
Tラウンド後のWMアルゴリズムの誤り数の上限を示す
※ここでの“最良”は後知恵によるもの
仮定 𝛽 ∈ (0,1) を固定
結論以下の不等式が成り立つ
𝑚 𝑇:Tラウンド後のWM
アルゴリズムによる誤り数
𝑚 𝑇
∗
:Tラウンド後の
“最良”のexpertによる誤り数

16
Theorem 8.3の証明（１）
以下のポテンシャル関数を定義
𝑊𝑡 = ෍
𝑖=1
𝑁
𝑤𝑡,𝑖
𝑤𝑡,𝑖:𝑡ラウンドでのexpert 𝑖 の重み
𝑊𝑡:𝑡ラウンドでの重みの合計
アルゴリズムがラウンド𝑡で予測に失敗した場合，
以下が成立
上記の関数の上限と下限からTh.8.3を証明

17
Theorem 8.3の証明（２）
𝑊1 = 𝑁，および𝑚T = 𝑇ラウンド後の誤り数より，
重みは非負値であるので以下は明らか
𝑊𝑇 ≥ 𝑤 𝑇,𝑖 = 𝛽 𝑚 𝑇,𝑖
𝑚 𝑇,𝑖: 𝑖番目のexpertによる
𝑇ラウンド後の誤り数

18
Theorem 8.3の証明（３）
両辺のlog をとる
移項
𝑊𝑇の上限と下限より，

19
Theorem 8.3の証明（４）
定理8.3はWMアルゴリズムによる以下の境界を保証
Nによってのみ変化
データとラベルについての仮定を必要としない

20
8.2.3 Randomized weighted majority algorithm
決定的アルゴリズムの欠点（１）
すべてのシーケンスでregret 𝑅 𝑇 = 𝑜(𝑇)を満たせない
※ 𝑓 𝑥 = 3𝑥2 + 4𝑥 − 5のとき，𝑓 𝑥 = 𝑂(𝑥2)
𝑓 𝑥 = 𝑜(𝑥3) と表せる
𝑜(𝑥3)はxが十分大きいところで𝑥3よりはるかに小さいことを示す
WMアルゴリズムは…
決定的アルゴリズム𝒜と𝑡について，
𝒜が0を予測⇒𝑦𝑡 = 1
𝒜が1を予測⇒𝑦𝑡 = 0
すべてでエラー
累積誤差𝑚 𝑇 = 𝑇となる

21
決定的アルゴリズムの欠点（２）
例）𝑁 = 2
⇒Best expertの誤り数は最大で𝑚 𝑇
∗
≤
𝑇
2
である
∴
0-1損失の場合，ランダム化アルゴリズムを検討
片方のexpertが常に0，もう片方が常に1と予測
𝑅 𝑇 = 𝑜(𝑇)が一般に達成できないことを表す

22
オンライン学習のランダム化シナリオ
➢ 各ラウンド𝑡で，オンラインアルゴリズム𝒜は
確率𝑝𝑡によって選択し，損失ベクトル l 𝑡を受け取る
➢ 損失ベクトルの𝑖番目の成分𝑙 𝑡,𝑖はアクション𝑖に関する損失であり，
ラウンド𝑡における期待損失𝐿 𝑡 = σ𝑖=1
𝑁
𝑝𝑡,𝑖 𝑙 𝑡,𝑖
➢ 𝑇ラウンド後のアルゴリズムの損失の合計ℒ 𝑇 = σ 𝑡=1
𝑇
𝐿 𝑡
➢ アクション𝑖に関する損失の合計ℒ 𝑇,𝑖 = σ 𝑡=1
𝑇
𝑙 𝑡,𝑖
➢ 全アクションの中で最小の損失ℒ 𝑇
min
= min
i∈𝒜
ℒ 𝑇,𝑖
➢ 𝑁アクションの集合𝒜 = {1, … , 𝑁}が利用可能

23
𝑇ラウンド後のアルゴリズムのregret 𝑅 𝑇は以下のように表す
RWMアルゴリズム
以下を仮定
➢ 0-1損失
➢ すべての𝑡 ∈ 𝑇，𝑖 ∈ 𝒜
アルゴリズムの損失最良のアクションの損失
Randomized weighted majority algorithm
ランダムに重み付けし，多数決によって予測

24
2. 𝑤1,𝑖 ← 1
3. 𝑝1,𝑖 ← 1/𝑁
5. RECEIVE( l 𝑡 )
7. if (𝑙 𝑡,𝑖 = 1) then
8. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖
9. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖
10. 𝑊𝑡+1 ← σ𝑖=1
𝑁
𝑤𝑡+1,𝑖
12. 𝑝𝑡+1,𝑖← 𝑤𝑡+1,𝑖/𝑊𝑡+1
13. return w 𝑇+1
RWMの疑似コード
#すべてのexpertの重みの割合
#確率𝑝から損失を与えるexpert
をランダムに選択
#選択された𝑖番目のexpert
#重みを更新
#重みの合計を計算
#重みの割合を更新

25
RWMアルゴリズムによる保証
Th. 8.4
Th 8.4は任意のシーケンスのRWMによる損失の上限
仮定 𝛽 ∈ [1/2,1) を固定
結論
任意の𝑇 ≥ 1
特に，𝛽 = max{1/2 , 1 − (log𝑁)/𝑇} の時

26
Th 8.4の証明（１）
Th 8.3の証明と同様に𝑊𝑡を用いる
𝑊𝑡+1
± σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖 の追加
𝑊𝑡 = σ𝑖:𝑙 𝑡,𝑖=0 𝑤𝑡,𝑖 + σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖
𝑝𝑡,𝑖 = 𝑤𝑡,𝑖/Wt
𝐿 𝑡 = σ𝑖=1
𝑁
𝑝𝑡,𝑖 𝑙 𝑡,𝑖

27
Th 8.4の証明（２）
𝑊1 = 𝑁より
𝑊𝑇+1 = 𝑁 ෑ
𝑡=1
𝑇
(1 − 1 − 𝛽 𝐿 𝑡)
𝑊𝑇+1 ≥ max
𝑖∈ 𝑁
𝑤 𝑇+1,𝑖 = 𝛽ℒ 𝑇
𝑚𝑖𝑛
より
両辺logをとる
𝑥 < 1で
log 1 − 𝑥 ≤ −𝑥

28
Th 8.4の証明（３）
ℒ 𝑇 = σ 𝑡=1
𝑇
𝐿 𝑡
移項，両辺×
1
1−𝛽
±1の追加
𝑥 ∈ [0,1/2]で
− log 1 − 𝑥 ≤ 𝑥 + 𝑥2

29
Th 8.4の証明（４）
損失の上限が最小になるときの𝛽を求める
ℒ 𝑇
𝑚𝑖𝑛
≤ 𝑇より前ページの式を変形
上記の式の右辺を𝛽について微分し，0となる𝛽を求める
log 𝑁
1 − 𝛽 2
− 𝑇 = 0 ⟹ 𝛽 = 1 − (log 𝑁)/𝑇 (≥ 1/2のとき)
1 − log 𝑁/𝑇 < 1/2のときは𝛽 = 1/2で最適値となる

30
Th 8.4の証明（５）
𝛽 = 1 − (log 𝑁)/𝑇を代入
※ラウンド数𝑇をパラメータとして受け取ることを想定
次節で小さい間隔で増加させていくdoubling trickを説明

31
Th8.5
Nを定数とすると，𝑅 𝑇 = 𝑂 𝑇
また，平均regret or ラウンド毎regretは𝑂(1/ 𝑇)に減少
Th. 8.5
仮定
結論
𝑁 = 2
以下を満たす損失の確率的シーケンスが存在
𝔼 𝑅 𝑇 ≥ 𝑇/8
上記のことが適切であることを以下の定理で示す

32
Th 8.5の証明（１）
任意の𝑡 ∈ [𝑇]について，損失ベクトルl 𝑡は等しい確率で
l01 = 0,1 T
, l10 = 1,0 T
をとる
ランダム化されたアルゴリズム𝒜の期待損失𝔼[ℒ 𝑇]は
以下のように変形できる
𝑝𝑡:ラウンド𝑡で𝒜によって選択された確率

33
Th 8.5の証明（２）
定義より
よって，𝒜の期待損失𝔼[𝑅 𝑇]は
ℒ 𝑇,1 + ℒ 𝑇,2 = 𝑇
±ℒ 𝑇,1を追加

34
𝜎𝑡は {−1,1}の値をとるRademacher変数を示す
ℒ 𝑇,1 = ෍
𝑡=1
𝑇
1 + 𝜎𝑡
2
= 𝑇/2 +
1
2
෍
𝑡=1
𝑇
𝜎𝑡
⇒ℒ 𝑇,1を以下のように表せる
式に代入

35
Khintchine-Kahaneの不等式
𝑥𝑡 = 1/2として上記の式を変形した不等式を適用
𝜎𝑖 ∈ {−1,1}:独立な一様確率変数

8.2.4 Exponential weighted average algorithm
EWAアルゴリズム
36
• exponential weighted average algorithm
指数関数を用いて重みを更新
損失関数は第一引数において凸であり，[0, 1]の値を取る
より良好なregretの境界を保証する決定論的アルゴリズム

2. 𝑤1,𝑖 ← 1
4. RECEIVE(𝑥𝑡)
5. ො𝑦𝑡 ←
σ 𝑖=1
𝑁
𝑤 𝑡,𝑖 𝑦 𝑡,𝑖
σ 𝑖=1
𝑁
𝑤 𝑡,𝑖
6. RECEIVE 𝑦𝑡
8. 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖 𝑒−𝜂𝐿( ෞ𝑦 𝑡,𝑖,𝑦𝑡)
9. return w 𝑇+1
37
EWAアルゴリズムの擬似コード
#各expertの予測値の加重平均で予測
#重みは必ず更新
損失関数

EWAアルゴリズムのregret境界
38
Th. 8.6
任意の𝜂 > 0と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について，
𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす
特に，𝜂 =
𝑇
2
log 𝑁 について，regretは以下を満たす
仮定 𝐿は第一引数において凸であり，値[0,1]を取る
結論

Theorem 8.6 の証明（1）
39
以下のポテンシャル関数を定義
2つの連続するポテンシャル関数の差は以下となる

Hoeffding’s lemma
40
Lの第一引数の凸性
総和を取ると上界

の下界も導出
41
和と最大値の大小関係
−𝑥の最大値=𝑥の最小値

の上界と下界より
42
※ラウンド数𝑇をパラメータとして受け取っていることが前提

doubling trick
潜在関数分析ではラウンド数𝑇をパラメータとして
受け取っていることが前提
43
Doubling trick を使用
ラウンド数 𝑇 ≥ 2 𝑛
− 1 を長さ 2 𝑘
ごとに区切り，
各区間ごとに𝜂 𝑘 =
8 log 𝑁
2 𝑘 を選択する
Doubling trick

doubling trickによるEWAのregret境界
44
Th. 8.7
任意のT > 1と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について，
𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす
仮定
結論
𝐿は第一引数において凸であり，値[0,1]を取ると仮定

Theorem 8.7の証明（1）
𝑛 = ⌊log 𝑇 + 1 ⌋なる𝑘 ∈ [0, 𝑛]について，
𝑇 ≥ 1, 𝒯𝑘 = [2 𝑘
, 2 𝑘+1
− 1]とし，
𝐿 𝒯𝑘
を区間𝒯𝑘における損失とする
45
Th.8.6 第二式より，任意の𝑘 ∈ {0, … , 𝑛}について以下が成立
→𝑇ラウンド後のアルゴリズムの損失の総和は

Theorem 8.7の証明（2）
は以下のように表現できる
46
に代入
⇒

8.3 Linear classification
オンライン学習による線形分類
オンライン学習により線形分類を行うアルゴリズムの
例として，以下の著名な二つが存在
⚫Perceptronアルゴリズム
⚫Winnowアルゴリズム
この節では，以上の二つのアルゴリズムについて紹介
47

8.3.1 Linear classification
Perceptronアルゴリズムの擬似コード
1. w1 ← w0 # 重みベクトルを初期化一般にw0 = 0
2. for 𝑡 ← 1 to 𝑇 do #ラウンド𝑇まで繰り返し
3. RECEIVE(x 𝑡) #𝑡番目の入力ベクトルx 𝑡を取得
4. ෝyt ← sgn w 𝑡 ⋅ x 𝑡 #重みと入力の内積の符号より予測
5. RECEIVE(𝑦𝑡) #𝑡番目の正解ラベル𝑦𝑡を取得
6. if ෝ𝑦𝑡 ≠ 𝑦𝑡 then #予測に失敗したとき重みを更新
7. w 𝑡+1 ← w 𝑡 + 𝑦𝑡x 𝑡 #より一般的には，𝜂𝑦𝑡x 𝑡, 𝜂 > 0
8. else w 𝑡+1 ← w 𝑡 #予測に成功した場合，重みはそのまま
9. return w 𝑇+1
48
PERCEPTRON(w0)

Perceptronアルゴリズムの流れ
49
入力ベクトルx 𝑡を取得
重みベクトルw 𝑡を用いて予測
予測に失敗したら，x 𝑡に対する予測が当たる
ようになる方向に，重みベクトルを更新
𝑇回繰り返し
初期値の重みベクトルw0を取得しw1に代入（一般にw0 = 0）

Perceptronによる更新（1）
50
𝑦𝑡w 𝑡 ⋅ x 𝑡<0の時，w 𝑡による𝑡番目のサンプルの予測に失敗
更新されたw 𝑡+1による予測を以下のように表現可能
𝑦𝑡w 𝑡+1x 𝑡 = 𝑦𝑡 w 𝑡 + 𝜂𝑦𝑡x 𝑡 ⋅ x 𝑡 = 𝑦𝑡w 𝑡 ⋅ x 𝑡 + 𝜂 x 𝑡
2
𝜂 𝑥𝑡
2
> 0のため，𝑦𝑡w 𝑡+1 ⋅ x 𝑡 > 𝑦𝑡w 𝑡 ⋅ x 𝑡
w 𝑡+1 = w 𝑡 + 𝜂𝑦𝑡x 𝑡による更新で，𝑡番目のサンプル
に対する予測を改善

Perceptronアルゴリズムは以下の関数𝐹(w)を最小化する
重みベクトルwを求める
51
𝑓 x : xの正解ラベル
෡𝒟:サンプル(x1, … , x 𝑇)に基づく分布
෨𝐹 w, x = max(0, −𝑓 x w ⋅ x )
任意の𝑡 ∈ [𝑇]でw ↦ −𝑦𝑡(w ⋅ x 𝑡)は凸なため，関数𝐹は凸
Perceptronアルゴリズムは，stochastic subgradient descent
（確率的劣勾配降下法?）の関数𝐹への適用と同一

stochastic subgradient descent（確率的劣勾配法?）
1つのサンプル誤差を小さくするように勾配を降下
関数𝐹に確率的劣勾配法を適用した結果が下式
wt ⋅ x 𝑡 = 0の時，0 = −𝑦𝑡(wt ⋅ x 𝑡)により微分不可のため，
劣勾配を[−𝑦𝑡x 𝑡, 0]より任意のものを選択（今回は−𝑦𝑡x 𝑡 ）
52

෨𝐹 w, x = max(0, −𝑓 x w ⋅ x )のため，
𝑦𝑡 w ⋅ x 𝑡 < 0のとき
∇ 𝑤
෨𝐹 w, x 𝑡 = −𝑦𝑡x 𝑡
𝑦𝑡 w ⋅ x 𝑡 > 0のとき
∇ 𝑤
෨𝐹 w, x 𝑡 = 0
よって下式のように表現可能
Perceptronアルゴリズムは，この式と同様に重みを更新
関数𝐹を最小化する重みベクトルを求める
53

Th.8.8は，サンプルがマージン𝜌 > 0で線形分離可能な時の，
𝜌によるPercptronアルゴリズムの重み更新数（ミス数）の上限
54
Th. 8.8
サンプルは超平面v ∈ ℝ 𝑁
で線形分離可能
x1, … , x 𝑇 ∈ ℝ 𝑁
: 長さ𝑇の入力の配列
𝑟: 全ての𝑡 ∈ [𝑇]に対して， x 𝑡 ≤ 𝑟を満たす𝑟
𝜌: 0 < 𝜌 ≤
𝑦𝑡 v⋅x 𝑡
‖v‖
を満たす，超平面とのマージン
𝒯: 𝑇ラウンドまでの，予測に失敗した部分集合
𝑀: 𝑇ラウンドまでの，予測に失敗した数（𝑀 = 𝒯 ）
仮定:
結論:
𝑀 ≤ 𝑟2
/𝜌2
Perceptronの誤り上限（線形分離可能時）

55
（Cauchy-Schwarzの不等式より）
（w 𝑡+1の定義より）
（w0 = 0より）
（ w 𝑡 + 𝑦𝑡x 𝑡
2を展開）
（w0 = 0より）
（w 𝑡+1の定義より）
（2𝑦𝑡w 𝑡 ⋅ x 𝑡 ≤ 0より）
𝑀𝜌 ≤ 𝑀𝑟2より，𝑀 ≤ 𝑟2
/𝜌2
Th 8.8の証明

𝑇ラウンド後の重みw 𝑇は，更新時のx 𝑡の線形結合となる
56
w 𝑇 = σ 𝑡∈𝒥 𝜂𝑦𝑡x 𝑡
重み更新時のx 𝑡はSVMで言うところのサポートベクター
Th.8.8より，Perceptronアルゴリズムの予測の誤り数𝑀の
上限は，入力の次元数𝑁に関係なく𝜌と𝑟のみに依存
場合によっては𝑀 = 𝑟2
/𝜌2
（exercise 8.3を参照）
Perceptronについて備考（1）

Th.8.8では仮定してないが，通常はサンプル𝑆のサイズ𝑚 < T
57
𝑚個の全てのサンプルに対して複数回処理
サンプル𝑆が線形分離可能な場合，有限回数の更新を経て，
アルゴリズムは必ず収束する ※𝜌が小さい場合収束は遅い
サンプル𝑆が線形分離不可な場合，アルゴリズムは収束せず
※通常はサンプル全体を何周かしたら終了させる
➢
➢
➢
Perceptronについて備考（2）

58
Th.8.9は，線形分離可能なサンプルを，アルゴリズムが
収束するまで学習したときの汎化誤差の期待値上限を設定
Th. 8.9
サンプルは線形分離可能
𝑆: サイズ𝑚 + 1のサンプル
𝑟𝑆: 𝑆の𝑡番目の入力をx 𝑡とした時，全ての𝑡 ∈ [𝑚]に
対して， x 𝑡 ≤ 𝑟を満たす𝑟のうち，最も小さいもの
𝜌 𝑆: 𝑆を線形分離する，最も大きいマージン
𝑀(𝑆): 𝑆を学習するまでの，重み更新数
ℎ 𝑆: 𝑆を学習した仮説
仮定:
結論:
Perceptronの汎化誤差の期待値上限

ℎ 𝑠−{x}がxの予測に失敗→xはℎ 𝑆のサポートベクターのため，
leave-one-outエラー（P.85）は以下のように制限可能
෠𝑅(𝒜) 𝐿𝑂𝑂 =
1
𝑚+1
σ𝑖
𝑚+1
1ℎ 𝑆−{x 𝑖} x 𝑖 ≠𝑦 𝑖
≤
𝑀 𝑆
𝑚+1
Lemma. 5.3（P.86），Theorem. 8.8より以下の等式を導出
よって以下の等式が成立
59
Lemma. 5.3
Th 8.9の証明

Th.8.10は，Th.8.9に切片無しのSVMを適用
60
Th. 8.10
ℎ 𝑆: 𝑆をSVM（切片無し）で学習した仮説
𝑁𝑆𝑉(𝑆): ℎ 𝑆のサポートベクターの数
他はTh.8.9と同様
仮定:
結論:
ここだけSVM

61
Th.5.4（P.86）により下式が成立
下式を示せれば証明終了
Th 8.10の証明（1）

𝑆 = (x1, … , x 𝑚+1)，𝑆′ = (x1, … , x 𝑚)として，ℎ 𝑆′がx 𝑚+1の
予測に失敗するケースを考える．
任意の𝑞 ∈ [𝑚 + 1]で，定義域がℝ 𝑞
の関数𝐺 𝑞を以下に定義
𝐺 𝑞 𝑎 = ෍
𝑖=1
𝑞
𝑎𝑖 −
1
2
෍
𝑖,𝑗=1
𝑞
𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗(x𝑖 ⋅ x𝑗)
この時，𝐺 𝑚+1は𝑆，𝐺 𝑚は𝑆′に関するSVMの双対問題の捕問題
62
Th 8.10の証明（2）

63
𝛼 ∈ ℝ 𝑚+1
を，下式のようにSVMの双対問題の解とする
𝛼 = argmax 𝑎≥0 𝐺 𝑚+1(𝑎)
𝛼′
∈ ℝ 𝑚+1
を，下式のように定義
𝛼1
′
, … , 𝛼 𝑚
′ 𝑇
= argmax 𝑎≥0 𝐺 𝑚 𝑎 , 𝛼′ 𝑚+1 = 0
e 𝑚+1を(𝑚 + 1)次元目が1である単位ベクトルとして，
𝛼と𝛼′の特性より以下の不等式がそれぞれ成立
max
𝛽≥0
𝐺 𝑚+1(𝛼′
+ 𝛽e 𝑚+1) ≤ 𝐺 𝑚+1(𝛼)
𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1 = 𝐺 𝑚+1 𝛼1, … , 𝛼 𝑚, 0 𝑇
≤ 𝐺 𝑚(𝛼′)
Th 8.10の証明（3）

𝐴 = 𝐺 𝑚+1 𝛼 − 𝐺 𝑚(𝛼′)とすると，以下の不等式が成立
64
max
𝛽≥0
𝐺 𝑚+1(𝛼′
+ 𝛽e 𝑚+1) − 𝐺 𝑚 𝛼′
≤ 𝐴
≤ 𝐺 𝑚+1 𝛼 − 𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1
𝑆をSVMで学習して得た重みベクトルwを以下に記述
w = ෍
𝑖=1
𝑚+1
𝑦𝑖 𝛼𝑖x𝑖
ℎ 𝑆′はx 𝑚+1を誤分類→ x 𝑚+1はℎ 𝑆のサポートベクターのため，
𝑦 𝑚+1w ⋅ x 𝑚+1 = 1が成立
Th 8.10の証明（4）

65
w = σ𝑖
𝑚+1
𝑦𝑖 𝛼𝑖x𝑖より
𝑦 𝑚+1w ⋅ x 𝑚+1 = 1より
Th 8.10の証明（5）

66
w′ = σ𝑖
𝑚
𝑦𝑖 𝛼′𝑖x𝑖とする
𝛼′
+ 𝛽e 𝑚+1 𝑚+1 = 𝛽より以下の等式が成立
前ページの𝛼 𝑚+1を𝛽に置き換えたのとほぼ同様
Th 8.10の証明（6）

67
以下の様に不等式の左辺を𝛽で微分し，最大となる𝛽を代入
𝛽 1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1 −
1
2
𝛽2
x 𝑚+1
2
≤ 𝐴 ≤
1
2
𝛼 𝑚+1
2
x 𝑚+1
2
これまでの式展開より，以下の不等式が成立
𝛽 =
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
x 𝑚+1
2
𝛽 1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1 −
1
2
𝛽2
x 𝑚+1
2
=
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
2
2 x 𝑚+1
2
𝑦 𝑚+1w′
⋅ x 𝑚+1 < 0より，下式が成立
𝐴 ≥
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
2
2 x 𝑚+1
2
≥
1
2 x 𝑚+1
2
Th 8.10の証明（7）

𝐴の上限と下限を比較することで，以下の不等式が成立
68
1
2 x 𝑚+1
2
≤
1
2
𝛼 𝑚+1
2
x 𝑚+1
2
（𝑟𝑆
2
の定義より）
ℎ 𝑆−{x 𝑖}がx𝑖を誤分類してしまう𝑖の集合を𝒥とすると，
以下の不等式が成立
Th 8.10の証明（8）

教科書85ページ，式(5.19)より，σ𝑖=1
𝑚+1
𝑎𝑖 = 1/𝜌 𝑆
2
であるため，以下の不等式が成立
69
෠𝑅(𝒜) 𝐿𝑂𝑂 = 𝒯 / 𝑚 + 1 のため，Lemma.5.3を用いて下式が成立
上記の不等式が成立したことにより，以下の不等式が成立
Th 8.10の証明（9）

➢Theorem.8.9とTheorem.8.10は非常に類似
➢どちらが有効とは言い切れない
➢𝑟𝑆は全てのx 𝑡では無く，サポートベクターのみを対象
にしてものに書き換え可能
Perceptronアルゴリズムより，SVMの方がいい保証を
得られるらしい→SVMの物の方が散らばりが少ない？
➢ここでの保証は分散を考慮した確率的なものでは無く，
分散を考慮しない期待値のため，多少弱い
70
備考

次に紹介する二つの定理は非線形分離可能なケースに
おける，Percptronアルゴリズムの誤り数の上限を設定
71
Th. 8.11
サンプルがマージン𝜌で非線形分離可能
𝑇: ラウンド数， v: 任意の重みベクトル
l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 −
𝑦𝑡 v⋅x 𝑡
𝜌
)
仮定:
結論:
Perceptronの誤り数上限

72
（1 −
𝑦𝑡 v⋅x 𝑡
𝜌
≤ 𝑙 𝑡，𝑀 = |𝒯|より）
（l 𝜌の定義より）
（theorem 8.8
v⋅σ 𝑡∈𝒯 𝑦𝑡x 𝑡
v 2
≤ 𝑀𝑟2より）
𝑎 = 𝑀とすると，以下の不等式が成立
𝑎2
− 𝑎
𝑟 v 2
𝜌
− l 𝜌 1
≤ 0
Th 8.11の証明（1）

前頁の不等式に解の公式を適用すると，下式が成立
𝑎 = 𝑚 ≤
1
2
(
𝑟 v 2
𝜌
+
𝑟2 v 2
2
𝜌2 + 4 l 𝜌 1
)
73
v 2 ≤ 1， 𝑎 + 𝑏 ≤ 𝑎 + 𝑏より，以下の不等式が成立
Th 8.11の証明（2）

Th. 8.11と同じ仮定のもと，𝑀をl 𝜌のL1ノルムではなく，
L2ノルムで制限
74
Th. 8.12
サンプルがマージン𝜌で非線形分離可能
𝑇: ラウンド数， v: 任意の重みベクトル
l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 −
𝑦𝑡 v⋅x 𝑡
𝜌
)
仮定:
結論:
Th 8.12

Cauchy-Schwarzの不等式より，以下の不等式が成立
75
l 𝜌 1
≤ 𝑀 l 𝜌 2
v 2 ≤ 1の時，上記の不等式，Th. 8.11の証明の途中式より，
以下の不等式が成立
𝑀 ≤ 𝑙 𝜌 2
+
𝑟2
𝜌
より，以下の不等式が成立
Th 8.12の証明

Th. 8.11およびTh. 8.12は，Th. 8.8の定理を線形分離不可能
なサンプルに対しても適用可能に一般化したもの
76
サンプルが線形分離可能な場合，マージン𝜌でサンプルを
線形分離するvが選択できるため， l 𝜌 = 0 𝑡∈𝒯
𝑀 ≤ r2
/𝜌2
Th. 8.8と同様
Th 8.11，Th 8.12について備考

PerceptronアルゴリズムはSVMのように，重みベクトル
による高次元空間における線形分離を一般化可能
77
PerceptronアルゴリズムはSVMのように，双対問題を
適用可能
Perceptronへの双対問題の適用

78
#𝛼を0で初期化
#予測（少なくとも𝑠 ≥ 𝑡の時，𝛼 𝑠 = 0）
#x 𝑡の予測に失敗したら𝛼 𝑡に1を代入
#x 𝑡の予測に成功したら𝛼 𝑡は0のまま
予測に失敗したときにwをw + 𝑦𝑡x 𝑡で更新する，
デフォルトのPerceptronアルゴリズムと全く同様
Dual Perceptron

79
Dual Perceptronにカーネル法を適用可能
Kernel Perceptronは色々
なアプリケーションで
使われているらしい
ここ
Kernel Perceptron

8.3.2 Winnow algorithm
Winnowアルゴリズム
• Perceptronアルゴリズム
• Winnowアルゴリズム
80
加算的
乗算的
疎な重みベクトルを定義できる時に有効
Perceptronアルゴリズム同様に
ラウンドごとに重みを調整
密なベクトル: (0.23, 0.56, 0.19, 0.33, 0.12)
疎なベクトル: (0, 0, 0, 0.33, 0)

Winnowアルゴリズムの疑似こーど
• あ
81
#初期値は1/𝑁
#正規化のための𝑍𝑡の計算
#重みの更新
Perceptronとの違い
#学習時のパラメータ𝜂 > 0
#重みベクトル𝑤𝑡の総和は1
𝑤𝑡 1 = 1

ちなみに
• Weighted Majorityと似てる
• 𝛽 = 𝑒−2𝜂
とした場合と類似
• 乗算的な面ではAdaBoostとも類似
82

Winnowアルゴリズムの更新回数
Winnowアルゴリズムの更新回数の上限は以下で定義
83
Th 8.13
𝐱1, … , 𝐱 𝑇 ∈ ℝ 𝑁: サンプルの入力ベクトル
𝑟∞ > 0, 𝑡 ∈ 𝑇 , 𝐱 𝑡 ∞ ≤ 𝑟∞: 入力のノルム上限
∃𝐯 ∈ ℝ 𝑁, 𝑣 ≥ 0, 𝜌∞ > 0: マージン𝜌∞ ≤
𝑦 𝑡(𝐯⋅𝐱 𝑡)
𝐯 1
でサンプルを
線形分離する重みベクトル
𝜂 =
𝜌∞
𝑟∞
2 ∶ 重み更新の大きさを決めるためのパラメータ
𝑀: サンプルを学習するまでの更新回数（予測誤り数）
𝑀 ≤ 2 Τ𝑟∞
2
𝜌∞
2
log 𝑁
結論:
仮定:

Th 8.13の証明（１）
84
ポテンシャル関数Φ 𝑡を，正規化された重み𝑣𝑖/ 𝐯 1を
使って，以下の用に定義
𝒯 ⊆ [𝑇]: updateが行われた回
𝒯 = 𝑀: updateの回数
として，
任意の t ∈ 𝒥でΦ 𝑡+1 − Φ 𝑡を次ページのように制限可能

Th 8.13の証明（２）
85
（疑似コード7,9行目より）
（logの中身展開，
𝑍𝑡の項を前に）
（疑似コード7行目，
𝜌∞ ≤
𝑦 𝑡(𝐯⋅𝐱t)
𝐯 1
より）

Th 8.13の証明（２）
86
σ𝑖=1
𝑁
𝑤𝑡,𝑖 = 1なので期待値として扱える
引いて足す
外にだすHoeffdingの不等式
≤ 0

ちなみに下限は
87
相対エントロピーは非負なのでΦ 𝑇+1 ≥ 0, よって
上限・下限の組み合わせ
𝜂 =
𝜌∞
𝑟∞
2 とするとTh 8.13になる

PerceptronとWinnowの比較（1）
• Perceptron
• Winnow
88
𝑟2
/𝜌2
で制限
2
𝑟∞
2
𝜌∞
2 log𝑁で制限
𝑟: ⋅ 𝑝 入力ベクトル𝐱 𝑡
1/𝜌: ⋅ 𝑞 重みベクトル𝐯
Perceptron 𝑝 = 𝑞 = 2
Winnow 𝑝 = ∞, 𝑞 = 1
※
1
𝑝
+
1
𝑞
= 1
𝑎 > 𝑏の時， ⋅ 𝑎 ≤ ⋅ 𝑏のため，𝑟 ≥ 𝑟∞，1/𝜌 ≤ 1/𝜌∞
Percptron Winnow
(𝑐, 𝑑) ∞ ≤ (𝑐, 𝑑) 2 ≤ (𝑐, 𝑑) 1
max 𝑐, 𝑑 ≤ 𝑐2 + 𝑑2 ≤ 𝑐 + 𝑑
※

89
重みベクトルが疎: Winnowが優秀
重みベクトルが密: Perceptronが優秀
重みベクトルvが疎であるほど， v 1と v 2の差は減少
例えば，vがone-hotである時の𝑀を以下の用に算出可能
v ∈ ℝ 𝑁
: one-hotな単位ベクトル（重みベクトル）
x 𝑡 ∈ −1, +1 𝑁
: 入力ベクトル
𝑟2
/𝜌2
= 𝑁
2
/12
= 𝑁
2(𝑟∞
2
/𝜌∞
2
)𝑙𝑜𝑔𝑁 = 2(12
/12
)𝑙𝑜𝑔𝑁 = 2𝑙𝑜𝑔𝑁
仮定:
仮定:
PerceptronとWinnowの比較（2）

8.4 On-line to batch conversion
バッチ処理への応用
• Perceptronアルゴリズム
• Winnowアルゴリズムなど
90
汎化性能について未考慮
regretの定義
記号定義
定義
各ラウンドの誤差の合計各ラウンドで取りうる最小誤差の合計

平均汎化誤差の上限
91
平均汎化誤差の上限は以下で定義可能
平均汎化誤差上限
0 > 𝛿で，確率1 − 𝛿において
平均汎化誤差平均誤差なにか

東の不等式
関数𝑉1, … , 𝑉𝑖は𝑋1, … , 𝑋𝑖でMartingale Sequence Difference(MSD)
となるとき以下の不等式が成立（𝑠. 𝑡. 𝑖 > 0）
92
(𝑠. 𝑡. 𝑐 ≥ 0, 𝑡 > 0)
MSD:

Lemma 8.14の証明
93
とすると
𝑉𝑡は −𝑀, +𝑀 をとり，𝑡 ∈ 𝑇
東の不等式によって
MSD: を満たす

平均汎化誤差の上限定理
更新に依存しない形に変更
94

平均汎化誤差上限の証明（１）
以下が1 − 𝛿/2で成り立つ
95
∵
∵損失関数𝐿(ℎ(𝑥), 𝑦)は第一引数ℎ(𝑥)によって凸
よって𝐿
1
𝑇
σ 𝑡=1
𝑇
ℎ 𝑡 𝑥 , 𝑦 ≤
1
𝑇
σ 𝑡=1
𝑇
𝐿(ℎ 𝑡 𝑥 , 𝑦)

平均汎化誤差上限の証明（２）
続き
96
∵
1
𝑇
෍
𝑡=1
𝑇
𝑅(ℎ∗) = 𝑅(ℎ∗)
,
∵𝑅 ℎ∗ ≤ inf
ℎ∈ℋ
𝑅 ℎ + 𝜖

平均汎化誤差上限について
97
この定理は様々なregret最小化アルゴリズムに適用可能
特にExponential Weighted Averageにて
損失𝐿が𝑀 = 1で制限，ラウンド数𝑇が既知
𝛿 > 0で1 − 𝛿の確率でEWAの平均汎化誤差上限
（Th 8.6）

98
Regret最小化アルゴリズムの存在
⇒Von Neumannの定理の簡単な証明に使用可能
∆ 𝑚 :任意の𝑚 ≥ 1について𝑚次元の確率分布集合
∆ 𝑚= {𝐩 ∈ ℝ 𝑚: 𝐩 ≥ 0 ∧ ||𝐩||1 = 1}
Th 8.16 Von Neumann’s minimax theorem
仮定
結論
𝑚, 𝑛 ≥ 1
以下の式が成り立つ
M:zero-sum game を定義するloss matrix
8.5 Game-theoretic connection
ゲーム理論への応用

99
Th 8.16の証明（１）
maxq pT
Mq ≥ maxq minp pT
Mq
pT
Mq ≥ minp pT
Mq
両辺の𝑞について最大値をとる
右辺のpについて最小値をとる
minpmaxq pT
Mq ≥ maxq minp pT
Mq
以下が成り立つ
両側の不等式から等式を証明方法
≥を証明
⇒
⇒

100
Th 8.16の証明（２）
≤を証明
➢ 各ラウンド𝑡でアルゴリズム𝒜がp 𝑡を返し，
損失Mq 𝑡を求めるオンライン学習設定を考える
➢ q 𝑡はargmaxq∈∆ 𝑚
p 𝑡
T
Mqとなる最適な敵対的方法で選択
➢ 𝒜はregret最小化アルゴリズム，つまりRT/T→0
➢ 𝑅 𝑇 = σ 𝑡=1
𝑇
p 𝑡
T
Mq 𝑡 − min
p∈∆ 𝑚
σ 𝑡=1
𝑇
pT
Mq 𝑡
以下を想定

101
Th 8.16の証明（３）
右辺を変形
以下が成り立つ

102
以下の式が成り立つ
Th 8.16の証明（４）
lim
𝑇→+∞
𝑅 𝑇
𝑇
= 0
minpmaxq pT
Mq ≤ maxq minp pT
Mq
両側からの不等式の証明により
minpmaxq pT
Mq = maxq minp pT
Mq

Foundation of Machine Leaning section8

Recommended

Recommended

More Related Content

What's hot

What's hot (6)

Similar to Foundation of Machine Leaning section8

Similar to Foundation of Machine Leaning section8 (20)

More from YukiK2

More from YukiK2 (6)

Recently uploaded

Recently uploaded (9)

Foundation of Machine Leaning section8