SlideShare a Scribd company logo
1 of 102
Download to read offline
Foundation of Machine Leaning
second edition
section 8
2020/5/19,2020/5/22
1
はじめに
オンライン学習とは
➢1個のサンプルを処理するたびに重みを更新する学習法
➢バッチ学習と比較して高速
➢大規模なデータに対して効率的に学習可能
➢データの分布を仮定する必要なし
2
オンライン学習の流れ
𝑤0
更新
𝑤1
更新
𝑤2
更新
𝑤3
更新
𝑤4
(𝑥2, 𝑦2)(𝑥1, 𝑦1) (𝑥4, 𝑦4)(𝑥3, 𝑦3)
𝑥1, 𝑦1 𝑥2, 𝑦2
𝑥3, 𝑦3 𝑥4, 𝑦4 作成
𝑤バッチ学習の流れ
8.1 Introduction
イントロダクション
3
PAC learningや確率モデルと異なる点
1. 訓練とテストのフェーズが混在
2. 一般化の概念が存在しない
➢ データの分析を仮定しないため
➢ アルゴリズムのパフォーマンスは誤りモデル
とregretの概念を使用して測定
➢ 保証の導出は最悪(or敵対的)の場合を想定
4
8.1 Introduction
オンライン学習における損失関数
オンライン学習は𝑇個のラウンドで行われる
1. インスタンス𝑥𝑡 ∈ 𝒳から予測 ෝ𝑦𝑡 ∈ 𝒴を出力
2. ラベル𝑦𝑡 ∈ 𝒴を受け取り
損失関数𝐿: 𝒴 × 𝒴 → ℝ+による損失𝐿( ෝ𝑦𝑡, 𝑦𝑡)を算出
目的:累積損失σ 𝑡=1
𝑇
𝐿( ෝ𝑦𝑡, 𝑦𝑡) の最小化
ラウンド𝑡におけるアルゴリズムの振る舞い
5
8.2 Prediction with expert advice
expertのアドバイスによる予測
expertつきオンライン学習
1. インスタンス𝑥𝑡 ∈ 𝒳と𝑁個のexpertからの
アドバイス𝑦𝑡,𝑖 ∈ 𝒴, 𝑖 ∈ [𝑁]を受け取る
2. アドバイスに基づいて予測 ෝ𝑦𝑡を生成,
正解ラベルを受け取り損失を算出
ラウンド𝑡におけるアルゴリズムの振る舞い
6
8.2 Prediction with expert advice
regret
Tラウンド後の累積損失と後知恵のbest expertを比較
External regret
expertつきオンライン学習の目的
⇒regret 𝑅 𝑇(external regret)の最小化
7
8.2.1 Mistake bounds and Halving algorithm
誤り数の上限(1)
以降はmistake bound modelについて議論
⇒特定のコンセプトを学習するまでに何回間違えるか
⚫ Halving algorithm
⚫ Weighted majority algorithm
⚫ Randomized weighted majority algorithm
⚫ Exponential weighted average algorithm
各アルゴリズムについて誤り数の上限𝑀を導出
8
8.2.1 Mistake bounds and Halving algorithm
誤り数の上限(2)
⇒少なくとも1つのexpertは一度も間違えない設定
Maximum number of mistake
realizable case
𝒞:コンセプトクラス
任意の固定したコンセプト𝑐について,
学習アルゴリズムの最大の誤り数を以下に定義
9
8.2.1 Mistake bounds and Halving algorithm
Halving algorithm
Halving algorithm
適切な誤りの範囲を保証できるシンプルなアルゴリズム
多数決で予測
誤った予測
誤ったexpertを無効化
10
8.2.1 Mistake bounds and Halving algorithm
Halving algorithmの疑似コード
HALVING ℋ
1. ℋ1 ← ℋ
2. For 𝑡 ← 1 to 𝑇 do
3. RECEIVE 𝑥𝑡
4. ෝyt ← MAJORITYVOTE(ℋ𝑡, 𝑥𝑡)
5. RECEIVE 𝑦𝑡
6. if (ෝyt ≠ yt) then
7. ℋ𝑡+1 ← 𝑐 ∈ ℋ𝑡: 𝑐 𝑥𝑡 = 𝑦𝑡
8. else ℋ𝑡+1 ← ℋ𝑡
9. return ℋ 𝑇+1
#多数決で予測
#入力
#正解ラベル
#予測に失敗
#あっている
仮説のみ残す
11
8.2.1 Mistake bounds and Halving algorithm
Halving algorithmの誤り数の上限(1)
Th. 8.1
多数決より,予測に失敗したとき,
少なくとも半分以上のexpertが無効化
log2 |ℋ| 回の誤りが発生すると,有効な仮説は
1つだけ残り,realizable caseであるため,残った仮説は
ターゲットコンセプトと一致
誤り数の上限
12
8.2.1 Mistake bounds and Halving algorithm
Halving algorithmの誤り数の上限(2)
Th. 8.2
➢ 𝑑 = VCdim ℋ とすると,𝑑個のshatter可能な点の
集合が存在,高さ𝑑の誤りの完全二分木を形成可能
➢ 各ラウンドで𝑑個の誤りが保証されるように
ラベルを選択可能
∴ 誤りの下限はVCdim(ℋ)
𝑜𝑝𝑡(ℋ)を最適な仮説の誤り数として以下が成立
の証明:
13
8.2.2 Weighted majority algorithm
WM algorithm
non-realizable case
Weighted majority(WM) algorithm
すべてのexpertの重みを1で初期化
間違えたexpert
重みの多数決で予測
重みを小さくする
1. for 𝑖 ← 1 to 𝑁 do
2. 𝑤1,𝑖 ← 1
3. for 𝑡 ← 1 to 𝑇 do
4. RECEIVE(𝑥𝑡)
5. if σ𝑖:𝑦 𝑡,𝑖=1 𝑤𝑡,𝑖 ≥ σ𝑖:𝑦 𝑡,𝑖=0 𝑤𝑡,𝑖 then
6. ො𝑦𝑡 ← 1
7. else ො𝑦𝑡 ← 0
8. RECEIVE(𝑦𝑡)
9. if (ො𝑦𝑡 ≠ 𝑦𝑡) then
10. for 𝑖 ← 1 to 𝑁 do
11. if (𝑦𝑡,𝑖 ≠ 𝑦𝑡) then
12. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖
13. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖
14. return w 𝑇+1
14
8.2.2 Weighted majority algorithm
WM algorithmの疑似コード
#重みによる多数決で予測
#すべてのexpertに均一な重み
#予測に失敗
#間違えたexpertの
重みを小さくする
15
8.2.2 Weighted majority algorithm
WM algorithmによる誤りの上限
Th. 8.3
Tラウンド後のWMアルゴリズムの誤り数の上限を示す
※ここでの“最良”は後知恵によるもの
仮定 𝛽 ∈ (0,1) を固定
結論 以下の不等式が成り立つ
𝑚 𝑇:Tラウンド後のWM
アルゴリズムによる誤り数
𝑚 𝑇
∗
:Tラウンド後の
“最良”のexpertによる誤り数
16
8.2.2 Weighted majority algorithm
Theorem 8.3の証明(1)
以下のポテンシャル関数を定義
𝑊𝑡 = ෍
𝑖=1
𝑁
𝑤𝑡,𝑖
𝑤𝑡,𝑖:𝑡ラウンドでのexpert 𝑖 の重み
𝑊𝑡:𝑡ラウンドでの重みの合計
アルゴリズムがラウンド𝑡で予測に失敗した場合,
以下が成立
上記の関数の上限と下限からTh.8.3を証明
17
8.2.2 Weighted majority algorithm
Theorem 8.3の証明(2)
𝑊1 = 𝑁,および𝑚T = 𝑇ラウンド後の誤り数 より,
重みは非負値であるので以下は明らか
𝑊𝑇 ≥ 𝑤 𝑇,𝑖 = 𝛽 𝑚 𝑇,𝑖
𝑚 𝑇,𝑖: 𝑖番目のexpertによる
𝑇ラウンド後の誤り数
18
8.2.2 Weighted majority algorithm
Theorem 8.3の証明(3)
両辺のlog をとる
移項
𝑊𝑇の上限と下限より,
19
8.2.2 Weighted majority algorithm
Theorem 8.3の証明(4)
定理8.3はWMアルゴリズムによる以下の境界を保証
Nによってのみ変化
データとラベルについての仮定を必要としない
20
8.2.3 Randomized weighted majority algorithm
決定的アルゴリズムの欠点(1)
すべてのシーケンスでregret 𝑅 𝑇 = 𝑜(𝑇)を満たせない
※ 𝑓 𝑥 = 3𝑥2 + 4𝑥 − 5のとき,𝑓 𝑥 = 𝑂(𝑥2)
𝑓 𝑥 = 𝑜(𝑥3) と表せる
𝑜(𝑥3)はxが十分大きいところで𝑥3よりはるかに小さいことを示す
WMアルゴリズムは…
決定的アルゴリズム𝒜と𝑡について,
𝒜が0を予測⇒𝑦𝑡 = 1
𝒜が1を予測⇒𝑦𝑡 = 0
すべてでエラー
累積誤差𝑚 𝑇 = 𝑇となる
21
8.2.3 Randomized weighted majority algorithm
決定的アルゴリズムの欠点(2)
例)𝑁 = 2
⇒Best expertの誤り数は最大で𝑚 𝑇
∗
≤
𝑇
2
である
∴
0-1損失の場合,ランダム化アルゴリズムを検討
片方のexpertが常に0,もう片方が常に1と予測
𝑅 𝑇 = 𝑜(𝑇)が一般に達成できないことを表す
22
8.2.3 Randomized weighted majority algorithm
オンライン学習のランダム化シナリオ
➢ 各ラウンド𝑡で,オンラインアルゴリズム𝒜は
確率𝑝𝑡によって選択し,損失ベクトル l 𝑡を受け取る
➢ 損失ベクトルの𝑖番目の成分𝑙 𝑡,𝑖はアクション𝑖に関する損失であり,
ラウンド𝑡における期待損失𝐿 𝑡 = σ𝑖=1
𝑁
𝑝𝑡,𝑖 𝑙 𝑡,𝑖
➢ 𝑇ラウンド後のアルゴリズムの損失の合計ℒ 𝑇 = σ 𝑡=1
𝑇
𝐿 𝑡
➢ アクション𝑖に関する損失の合計ℒ 𝑇,𝑖 = σ 𝑡=1
𝑇
𝑙 𝑡,𝑖
➢ 全アクションの中で最小の損失ℒ 𝑇
min
= min
i∈𝒜
ℒ 𝑇,𝑖
➢ 𝑁アクションの集合𝒜 = {1, … , 𝑁}が利用可能
23
𝑇ラウンド後のアルゴリズムのregret 𝑅 𝑇は以下のように表す
8.2.3 Randomized weighted majority algorithm
RWMアルゴリズム
以下を仮定
➢ 0-1損失
➢ すべての𝑡 ∈ 𝑇,𝑖 ∈ 𝒜
アルゴリズムの損失 最良のアクションの損失
Randomized weighted majority algorithm
ランダムに重み付けし,多数決によって予測
24
1. for 𝑖 ← 1 to 𝑁 do
2. 𝑤1,𝑖 ← 1
3. 𝑝1,𝑖 ← 1/𝑁
4. for 𝑡 ← 1 to 𝑇 do
5. RECEIVE( l 𝑡 )
6. for 𝑖 ← 1 to 𝑁 do
7. if (𝑙 𝑡,𝑖 = 1) then
8. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖
9. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖
10. 𝑊𝑡+1 ← σ𝑖=1
𝑁
𝑤𝑡+1,𝑖
11. for 𝑖 ← 1 to 𝑁 do
12. 𝑝𝑡+1,𝑖← 𝑤𝑡+1,𝑖/𝑊𝑡+1
13. return w 𝑇+1
8.2.3 Randomized weighted majority algorithm
RWMの疑似コード
#すべてのexpertに均一な重み
#すべてのexpertの重みの割合
#確率𝑝から損失を与えるexpert
をランダムに選択
#選択された𝑖番目のexpert
#重みを更新
#重みの合計を計算
#重みの割合を更新
25
8.2.3 Randomized weighted majority algorithm
RWMアルゴリズムによる保証
Th. 8.4
Th 8.4は任意のシーケンスのRWMによる損失の上限
仮定 𝛽 ∈ [1/2,1) を固定
結論
任意の𝑇 ≥ 1
特に,𝛽 = max{1/2 , 1 − (log𝑁)/𝑇} の時
26
8.2.3 Randomized weighted majority algorithm
Th 8.4の証明(1)
Th 8.3の証明と同様に𝑊𝑡を用いる
𝑊𝑡+1
± σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖 の追加
𝑊𝑡 = σ𝑖:𝑙 𝑡,𝑖=0 𝑤𝑡,𝑖 + σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖
𝑝𝑡,𝑖 = 𝑤𝑡,𝑖/Wt
𝐿 𝑡 = σ𝑖=1
𝑁
𝑝𝑡,𝑖 𝑙 𝑡,𝑖
27
8.2.3 Randomized weighted majority algorithm
Th 8.4の証明(2)
𝑊1 = 𝑁より
𝑊𝑇+1 = 𝑁 ෑ
𝑡=1
𝑇
(1 − 1 − 𝛽 𝐿 𝑡)
𝑊𝑇+1 ≥ max
𝑖∈ 𝑁
𝑤 𝑇+1,𝑖 = 𝛽ℒ 𝑇
𝑚𝑖𝑛
より
両辺logをとる
𝑥 < 1で
log 1 − 𝑥 ≤ −𝑥
28
8.2.3 Randomized weighted majority algorithm
Th 8.4の証明(3)
ℒ 𝑇 = σ 𝑡=1
𝑇
𝐿 𝑡
移項,両辺×
1
1−𝛽
±1の追加
𝑥 ∈ [0,1/2]で
− log 1 − 𝑥 ≤ 𝑥 + 𝑥2
29
8.2.3 Randomized weighted majority algorithm
Th 8.4の証明(4)
損失の上限が最小になるときの𝛽を求める
ℒ 𝑇
𝑚𝑖𝑛
≤ 𝑇より前ページの式を変形
上記の式の右辺を𝛽について微分し,0となる𝛽を求める
log 𝑁
1 − 𝛽 2
− 𝑇 = 0 ⟹ 𝛽 = 1 − (log 𝑁)/𝑇 (≥ 1/2のとき)
1 − log 𝑁/𝑇 < 1/2のときは𝛽 = 1/2で最適値となる
30
8.2.3 Randomized weighted majority algorithm
Th 8.4の証明(5)
𝛽 = 1 − (log 𝑁)/𝑇を代入
※ラウンド数𝑇をパラメータとして受け取ることを想定
次節で小さい間隔で増加させていくdoubling trickを説明
31
8.2.3 Randomized weighted majority algorithm
Th8.5
Nを定数とすると,𝑅 𝑇 = 𝑂 𝑇
また,平均regret or ラウンド毎regretは𝑂(1/ 𝑇)に減少
Th. 8.5
仮定
結論
𝑁 = 2
以下を満たす損失の確率的シーケンスが存在
𝔼 𝑅 𝑇 ≥ 𝑇/8
上記のことが適切であることを以下の定理で示す
32
8.2.3 Randomized weighted majority algorithm
Th 8.5の証明(1)
任意の𝑡 ∈ [𝑇]について,損失ベクトルl 𝑡は等しい確率で
l01 = 0,1 T
, l10 = 1,0 T
をとる
ランダム化されたアルゴリズム𝒜の期待損失𝔼[ℒ 𝑇]は
以下のように変形できる
𝑝𝑡:ラウンド𝑡で𝒜によって選択された確率
33
8.2.3 Randomized weighted majority algorithm
Th 8.5の証明(2)
定義より
よって,𝒜の期待損失𝔼[𝑅 𝑇]は
ℒ 𝑇,1 + ℒ 𝑇,2 = 𝑇
±ℒ 𝑇,1を追加
34
8.2.3 Randomized weighted majority algorithm
Th 8.5の証明(3)
𝜎𝑡は {−1,1}の値をとるRademacher変数を示す
ℒ 𝑇,1 = ෍
𝑡=1
𝑇
1 + 𝜎𝑡
2
= 𝑇/2 +
1
2
෍
𝑡=1
𝑇
𝜎𝑡
⇒ℒ 𝑇,1を以下のように表せる
式に代入
35
8.2.3 Randomized weighted majority algorithm
Th 8.5の証明(3)
Khintchine-Kahaneの不等式
𝑥𝑡 = 1/2として上記の式を変形した不等式を適用
𝜎𝑖 ∈ {−1,1}:独立な一様確率変数
8.2.4 Exponential weighted average algorithm
EWAアルゴリズム
36
• exponential weighted average algorithm
指数関数を用いて重みを更新
損失関数は第一引数において凸であり,[0, 1]の値を取る
より良好なregretの境界を保証する決定論的アルゴリズム
1. for 𝑖 ← 1 to 𝑁 do
2. 𝑤1,𝑖 ← 1
3. for 𝑡 ← 1 to 𝑇 do
4. RECEIVE(𝑥𝑡)
5. ො𝑦𝑡 ←
σ 𝑖=1
𝑁
𝑤 𝑡,𝑖 𝑦 𝑡,𝑖
σ 𝑖=1
𝑁
𝑤 𝑡,𝑖
6. RECEIVE 𝑦𝑡
7. for 𝑖 ← 1 to 𝑁 do
8. 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖 𝑒−𝜂𝐿( ෞ𝑦 𝑡,𝑖,𝑦𝑡)
9. return w 𝑇+1
37
8.2.4 Exponential weighted average algorithm
EWAアルゴリズムの擬似コード
#各expertの予測値の加重平均で予測
#すべてのexpertに均一な重み
#重みは必ず更新
損失関数
8.2.4 Exponential weighted average algorithm
EWAアルゴリズムのregret境界
38
Th. 8.6
任意の𝜂 > 0と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について,
𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす
特に,𝜂 =
𝑇
2
log 𝑁 について,regretは以下を満たす
仮定 𝐿は第一引数において凸であり,値[0,1]を取る
結論
8.2.4 Exponential weighted average algorithm
Theorem 8.6 の証明(1)
39
以下のポテンシャル関数を定義
2つの連続するポテンシャル関数の差は以下となる
8.2.4 Exponential weighted average algorithm
Theorem 8.6 の証明(2)
Hoeffding’s lemma
40
Lの第一引数の凸性
総和を取ると 上界
8.2.4 Exponential weighted average algorithm
Theorem 8.6 の証明(3)
の下界も導出
41
和と最大値の大小関係
−𝑥の最大値=𝑥の最小値
8.2.4 Exponential weighted average algorithm
Theorem 8.6 の証明(4)
の上界と下界より
42
※ラウンド数𝑇をパラメータとして受け取っていることが前提
8.2.4 Exponential weighted average algorithm
doubling trick
潜在関数分析ではラウンド数𝑇をパラメータとして
受け取っていることが前提
43
Doubling trick を使用
ラウンド数 𝑇 ≥ 2 𝑛
− 1 を長さ 2 𝑘
ごとに区切り,
各区間ごとに𝜂 𝑘 =
8 log 𝑁
2 𝑘 を選択する
Doubling trick
8.2.4 Exponential weighted average algorithm
doubling trickによるEWAのregret境界
44
Th. 8.7
任意のT > 1と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について,
𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす
仮定
結論
𝐿は第一引数において凸であり,値[0,1]を取ると仮定
8.2.4 Exponential weighted average algorithm
Theorem 8.7の証明(1)
𝑛 = ⌊log 𝑇 + 1 ⌋なる𝑘 ∈ [0, 𝑛]について,
𝑇 ≥ 1, 𝒯𝑘 = [2 𝑘
, 2 𝑘+1
− 1]とし,
𝐿 𝒯𝑘
を区間𝒯𝑘における損失とする
45
Th.8.6 第二式より,任意の𝑘 ∈ {0, … , 𝑛}について以下が成立
→𝑇ラウンド後のアルゴリズムの損失の総和は
8.2.4 Exponential weighted average algorithm
Theorem 8.7の証明(2)
は以下のように表現できる
46
に代入
⇒
8.3 Linear classification
オンライン学習による線形分類
オンライン学習により線形分類を行うアルゴリズムの
例として,以下の著名な二つが存在
⚫Perceptronアルゴリズム
⚫Winnowアルゴリズム
この節では,以上の二つのアルゴリズムについて紹介
47
8.3.1 Linear classification
Perceptronアルゴリズムの擬似コード
1. w1 ← w0 # 重みベクトルを初期化 一般にw0 = 0
2. for 𝑡 ← 1 to 𝑇 do #ラウンド𝑇まで繰り返し
3. RECEIVE(x 𝑡) #𝑡番目の入力ベクトルx 𝑡を取得
4. ෝyt ← sgn w 𝑡 ⋅ x 𝑡 #重みと入力の内積の符号より予測
5. RECEIVE(𝑦𝑡) #𝑡番目の正解ラベル𝑦𝑡を取得
6. if ෝ𝑦𝑡 ≠ 𝑦𝑡 then #予測に失敗したとき重みを更新
7. w 𝑡+1 ← w 𝑡 + 𝑦𝑡x 𝑡 #より一般的には,𝜂𝑦𝑡x 𝑡, 𝜂 > 0
8. else w 𝑡+1 ← w 𝑡 #予測に成功した場合,重みはそのまま
9. return w 𝑇+1
48
PERCEPTRON(w0)
8.3.1 Linear classification
Perceptronアルゴリズムの流れ
49
入力ベクトルx 𝑡を取得
重みベクトルw 𝑡を用いて予測
予測に失敗したら,x 𝑡に対する予測が当たる
ようになる方向に,重みベクトルを更新
𝑇回繰り返し
初期値の重みベクトルw0を取得しw1に代入 (一般にw0 = 0)
8.3.1 Linear classification
Perceptronによる更新(1)
50
𝑦𝑡w 𝑡 ⋅ x 𝑡<0の時,w 𝑡による𝑡番目のサンプルの予測に失敗
更新されたw 𝑡+1による予測を以下のように表現可能
𝑦𝑡w 𝑡+1x 𝑡 = 𝑦𝑡 w 𝑡 + 𝜂𝑦𝑡x 𝑡 ⋅ x 𝑡 = 𝑦𝑡w 𝑡 ⋅ x 𝑡 + 𝜂 x 𝑡
2
𝜂 𝑥𝑡
2
> 0のため,𝑦𝑡w 𝑡+1 ⋅ x 𝑡 > 𝑦𝑡w 𝑡 ⋅ x 𝑡
w 𝑡+1 = w 𝑡 + 𝜂𝑦𝑡x 𝑡による更新で,𝑡番目のサンプル
に対する予測を改善
Perceptronアルゴリズムは以下の関数𝐹(w)を最小化する
重みベクトルwを求める
51
𝑓 x : xの正解ラベル
෡𝒟:サンプル(x1, … , x 𝑇)に基づく分布
෨𝐹 w, x = max(0, −𝑓 x w ⋅ x )
任意の𝑡 ∈ [𝑇]でw ↦ −𝑦𝑡(w ⋅ x 𝑡)は凸なため,関数𝐹は凸
Perceptronアルゴリズムは,stochastic subgradient descent
(確率的劣勾配降下法?)の関数𝐹への適用と同一
8.3.1 Linear classification
Perceptronによる更新(2)
stochastic subgradient descent(確率的劣勾配法?)
1つのサンプル誤差を小さくするように勾配を降下
関数𝐹に確率的劣勾配法を適用した結果が下式
wt ⋅ x 𝑡 = 0の時,0 = −𝑦𝑡(wt ⋅ x 𝑡)により微分不可のため,
劣勾配を[−𝑦𝑡x 𝑡, 0]より任意のものを選択(今回は−𝑦𝑡x 𝑡 )
52
8.3.1 Linear classification
Perceptronによる更新(3)
෨𝐹 w, x = max(0, −𝑓 x w ⋅ x )のため,
𝑦𝑡 w ⋅ x 𝑡 < 0のとき
∇ 𝑤
෨𝐹 w, x 𝑡 = −𝑦𝑡x 𝑡
𝑦𝑡 w ⋅ x 𝑡 > 0のとき
∇ 𝑤
෨𝐹 w, x 𝑡 = 0
よって下式のように表現可能
Perceptronアルゴリズムは,この式と同様に重みを更新
関数𝐹を最小化する重みベクトルを求める
53
8.3.1 Linear classification
Perceptronによる更新(4)
Th.8.8は,サンプルがマージン𝜌 > 0で線形分離可能な時の,
𝜌によるPercptronアルゴリズムの重み更新数(ミス数)の上限
54
Th. 8.8
サンプルは超平面v ∈ ℝ 𝑁
で線形分離可能
x1, … , x 𝑇 ∈ ℝ 𝑁
: 長さ𝑇の入力の配列
𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟
𝜌: 0 < 𝜌 ≤
𝑦𝑡 v⋅x 𝑡
‖v‖
を満たす,超平面とのマージン
𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合
𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 )
仮定:
結論:
𝑀 ≤ 𝑟2
/𝜌2
8.3.1 Linear classification
Perceptronの誤り上限(線形分離可能時)
55
(Cauchy-Schwarzの不等式より)
(w 𝑡+1の定義より)
(w0 = 0より)
( w 𝑡 + 𝑦𝑡x 𝑡
2を展開)
(w0 = 0より)
(w 𝑡+1の定義より)
(2𝑦𝑡w 𝑡 ⋅ x 𝑡 ≤ 0より)
𝑀𝜌 ≤ 𝑀𝑟2より,𝑀 ≤ 𝑟2
/𝜌2
8.3.1 Linear classification
Th 8.8の証明
𝑇ラウンド後の重みw 𝑇は,更新時のx 𝑡の線形結合となる
56
w 𝑇 = σ 𝑡∈𝒥 𝜂𝑦𝑡x 𝑡
重み更新時のx 𝑡はSVMで言うところのサポートベクター
Th.8.8より,Perceptronアルゴリズムの予測の誤り数𝑀の
上限は,入力の次元数𝑁に関係なく𝜌と𝑟のみに依存
場合によっては𝑀 = 𝑟2
/𝜌2
(exercise 8.3を参照)
8.3.1 Linear classification
Perceptronについて備考(1)
Th.8.8では仮定してないが,通常はサンプル𝑆のサイズ𝑚 < T
57
𝑚個の全てのサンプルに対して複数回処理
サンプル𝑆が線形分離可能な場合,有限回数の更新を経て,
アルゴリズムは必ず収束する ※𝜌が小さい場合収束は遅い
サンプル𝑆が線形分離不可な場合,アルゴリズムは収束せず
※通常はサンプル全体を何周かしたら終了させる
➢
➢
➢
8.3.1 Linear classification
Perceptronについて備考(2)
58
Th.8.9は,線形分離可能なサンプルを,アルゴリズムが
収束するまで学習したときの汎化誤差の期待値上限を設定
Th. 8.9
サンプルは線形分離可能
𝑆: サイズ𝑚 + 1のサンプル
𝑟𝑆: 𝑆の𝑡番目の入力をx 𝑡とした時,全ての𝑡 ∈ [𝑚]に
対して, x 𝑡 ≤ 𝑟を満たす𝑟のうち,最も小さいもの
𝜌 𝑆: 𝑆を線形分離する,最も大きいマージン
𝑀(𝑆): 𝑆を学習するまでの,重み更新数
ℎ 𝑆: 𝑆を学習した仮説
仮定:
結論:
8.3.1 Linear classification
Perceptronの汎化誤差の期待値上限
ℎ 𝑠−{x}がxの予測に失敗→xはℎ 𝑆のサポートベクターのため,
leave-one-outエラー(P.85)は以下のように制限可能
෠𝑅(𝒜) 𝐿𝑂𝑂 =
1
𝑚+1
σ𝑖
𝑚+1
1ℎ 𝑆−{x 𝑖} x 𝑖 ≠𝑦 𝑖
≤
𝑀 𝑆
𝑚+1
Lemma. 5.3(P.86),Theorem. 8.8より以下の等式を導出
よって以下の等式が成立
59
Lemma. 5.3
8.3.1 Linear classification
Th 8.9の証明
Th.8.10は,Th.8.9に切片無しのSVMを適用
60
Th. 8.10
ℎ 𝑆: 𝑆をSVM(切片無し)で学習した仮説
𝑁𝑆𝑉(𝑆): ℎ 𝑆のサポートベクターの数
他はTh.8.9と同様
仮定:
結論:
8.3.1 Linear classification
ここだけSVM
61
Th.5.4(P.86)により下式が成立
下式を示せれば証明終了
8.3.1 Linear classification
Th 8.10の証明(1)
𝑆 = (x1, … , x 𝑚+1),𝑆′ = (x1, … , x 𝑚)として,ℎ 𝑆′がx 𝑚+1の
予測に失敗するケースを考える.
任意の𝑞 ∈ [𝑚 + 1]で,定義域がℝ 𝑞
の関数𝐺 𝑞を以下に定義
𝐺 𝑞 𝑎 = ෍
𝑖=1
𝑞
𝑎𝑖 −
1
2
෍
𝑖,𝑗=1
𝑞
𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗(x𝑖 ⋅ x𝑗)
この時,𝐺 𝑚+1は𝑆,𝐺 𝑚は𝑆′に関するSVMの双対問題の捕問題
62
8.3.1 Linear classification
Th 8.10の証明(2)
63
𝛼 ∈ ℝ 𝑚+1
を,下式のようにSVMの双対問題の解とする
𝛼 = argmax 𝑎≥0 𝐺 𝑚+1(𝑎)
𝛼′
∈ ℝ 𝑚+1
を,下式のように定義
𝛼1
′
, … , 𝛼 𝑚
′ 𝑇
= argmax 𝑎≥0 𝐺 𝑚 𝑎 , 𝛼′ 𝑚+1 = 0
e 𝑚+1を(𝑚 + 1)次元目が1である単位ベクトルとして,
𝛼と𝛼′の特性より以下の不等式がそれぞれ成立
max
𝛽≥0
𝐺 𝑚+1(𝛼′
+ 𝛽e 𝑚+1) ≤ 𝐺 𝑚+1(𝛼)
𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1 = 𝐺 𝑚+1 𝛼1, … , 𝛼 𝑚, 0 𝑇
≤ 𝐺 𝑚(𝛼′)
8.3.1 Linear classification
Th 8.10の証明(3)
𝐴 = 𝐺 𝑚+1 𝛼 − 𝐺 𝑚(𝛼′)とすると,以下の不等式が成立
64
max
𝛽≥0
𝐺 𝑚+1(𝛼′
+ 𝛽e 𝑚+1) − 𝐺 𝑚 𝛼′
≤ 𝐴
≤ 𝐺 𝑚+1 𝛼 − 𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1
𝑆をSVMで学習して得た重みベクトルwを以下に記述
w = ෍
𝑖=1
𝑚+1
𝑦𝑖 𝛼𝑖x𝑖
ℎ 𝑆′はx 𝑚+1を誤分類→ x 𝑚+1はℎ 𝑆のサポートベクターのため,
𝑦 𝑚+1w ⋅ x 𝑚+1 = 1が成立
8.3.1 Linear classification
Th 8.10の証明(4)
65
w = σ𝑖
𝑚+1
𝑦𝑖 𝛼𝑖x𝑖より
𝑦 𝑚+1w ⋅ x 𝑚+1 = 1より
8.3.1 Linear classification
Th 8.10の証明(5)
66
w′ = σ𝑖
𝑚
𝑦𝑖 𝛼′𝑖x𝑖とする
𝛼′
+ 𝛽e 𝑚+1 𝑚+1 = 𝛽より以下の等式が成立
前ページの𝛼 𝑚+1を𝛽に置き換えたのとほぼ同様
8.3.1 Linear classification
Th 8.10の証明(6)
67
以下の様に不等式の左辺を𝛽で微分し,最大となる𝛽を代入
𝛽 1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1 −
1
2
𝛽2
x 𝑚+1
2
≤ 𝐴 ≤
1
2
𝛼 𝑚+1
2
x 𝑚+1
2
これまでの式展開より,以下の不等式が成立
𝛽 =
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
x 𝑚+1
2
𝛽 1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1 −
1
2
𝛽2
x 𝑚+1
2
=
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
2
2 x 𝑚+1
2
𝑦 𝑚+1w′
⋅ x 𝑚+1 < 0より,下式が成立
𝐴 ≥
1 − 𝑦 𝑚+1w′
⋅ x 𝑚+1
2
2 x 𝑚+1
2
≥
1
2 x 𝑚+1
2
8.3.1 Linear classification
Th 8.10の証明(7)
𝐴の上限と下限を比較することで,以下の不等式が成立
68
1
2 x 𝑚+1
2
≤
1
2
𝛼 𝑚+1
2
x 𝑚+1
2
(𝑟𝑆
2
の定義より)
ℎ 𝑆−{x 𝑖}がx𝑖を誤分類してしまう𝑖の集合を𝒥とすると,
以下の不等式が成立
8.3.1 Linear classification
Th 8.10の証明(8)
教科書85ページ,式(5.19)より,σ𝑖=1
𝑚+1
𝑎𝑖 = 1/𝜌 𝑆
2
であるため,以下の不等式が成立
69
෠𝑅(𝒜) 𝐿𝑂𝑂 = 𝒯 / 𝑚 + 1 のため,Lemma.5.3を用いて下式が成立
上記の不等式が成立したことにより,以下の不等式が成立
8.3.1 Linear classification
Th 8.10の証明(9)
➢Theorem.8.9とTheorem.8.10は非常に類似
➢どちらが有効とは言い切れない
➢𝑟𝑆は全てのx 𝑡では無く,サポートベクターのみを対象
にしてものに書き換え可能
Perceptronアルゴリズムより,SVMの方がいい保証を
得られるらしい→SVMの物の方が散らばりが少ない?
➢ここでの保証は分散を考慮した確率的なものでは無く,
分散を考慮しない期待値のため,多少弱い
70
8.3.1 Linear classification
備考
次に紹介する二つの定理は非線形分離可能なケースに
おける,Percptronアルゴリズムの誤り数の上限を設定
71
Th. 8.11
サンプルがマージン𝜌で非線形分離可能
𝑇: ラウンド数, v: 任意の重みベクトル
𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟
𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合
𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 )
l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 −
𝑦𝑡 v⋅x 𝑡
𝜌
)
仮定:
結論:
8.3.1 Linear classification
Perceptronの誤り数上限
72
(1 −
𝑦𝑡 v⋅x 𝑡
𝜌
≤ 𝑙 𝑡,𝑀 = |𝒯|より)
(l 𝜌の定義より)
(theorem 8.8
v⋅σ 𝑡∈𝒯 𝑦𝑡x 𝑡
v 2
≤ 𝑀𝑟2より)
𝑎 = 𝑀とすると,以下の不等式が成立
𝑎2
− 𝑎
𝑟 v 2
𝜌
− l 𝜌 1
≤ 0
8.3.1 Linear classification
Th 8.11の証明(1)
前頁の不等式に解の公式を適用すると,下式が成立
𝑎 = 𝑚 ≤
1
2
(
𝑟 v 2
𝜌
+
𝑟2 v 2
2
𝜌2 + 4 l 𝜌 1
)
73
v 2 ≤ 1, 𝑎 + 𝑏 ≤ 𝑎 + 𝑏より,以下の不等式が成立
8.3.1 Linear classification
Th 8.11の証明(2)
Th. 8.11と同じ仮定のもと,𝑀をl 𝜌のL1ノルムではなく,
L2ノルムで制限
74
Th. 8.12
サンプルがマージン𝜌で非線形分離可能
𝑇: ラウンド数, v: 任意の重みベクトル
𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟
𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合
𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 )
l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 −
𝑦𝑡 v⋅x 𝑡
𝜌
)
仮定:
結論:
8.3.1 Linear classification
Th 8.12
Cauchy-Schwarzの不等式より,以下の不等式が成立
75
l 𝜌 1
≤ 𝑀 l 𝜌 2
v 2 ≤ 1の時,上記の不等式,Th. 8.11の証明の途中式より,
以下の不等式が成立
𝑀 ≤ 𝑙 𝜌 2
+
𝑟2
𝜌
より,以下の不等式が成立
8.3.1 Linear classification
Th 8.12の証明
Th. 8.11およびTh. 8.12は,Th. 8.8の定理を線形分離不可能
なサンプルに対しても適用可能に一般化したもの
76
サンプルが線形分離可能な場合,マージン𝜌でサンプルを
線形分離するvが選択できるため, l 𝜌 = 0 𝑡∈𝒯
𝑀 ≤ r2
/𝜌2
Th. 8.8と同様
8.3.1 Linear classification
Th 8.11,Th 8.12について備考
PerceptronアルゴリズムはSVMのように,重みベクトル
による高次元空間における線形分離を一般化可能
77
PerceptronアルゴリズムはSVMのように,双対問題を
適用可能
8.3.1 Linear classification
Perceptronへの双対問題の適用
78
#𝛼を0で初期化
#予測(少なくとも𝑠 ≥ 𝑡の時,𝛼 𝑠 = 0)
#x 𝑡の予測に失敗したら𝛼 𝑡に1を代入
#x 𝑡の予測に成功したら𝛼 𝑡は0のまま
予測に失敗したときにwをw + 𝑦𝑡x 𝑡で更新する,
デフォルトのPerceptronアルゴリズムと全く同様
8.3.1 Linear classification
Dual Perceptron
79
Dual Perceptronにカーネル法を適用可能
Kernel Perceptronは色々
なアプリケーションで
使われているらしい
ここ
8.3.1 Linear classification
Kernel Perceptron
8.3.2 Winnow algorithm
Winnowアルゴリズム
• Perceptronアルゴリズム
• Winnowアルゴリズム
80
加算的
乗算的
疎な重みベクトルを定義できる時に有効
Perceptronアルゴリズム同様に
ラウンドごとに重みを調整
密なベクトル: (0.23, 0.56, 0.19, 0.33, 0.12)
疎なベクトル: (0, 0, 0, 0.33, 0)
8.3.2 Winnow algorithm
Winnowアルゴリズムの疑似こーど
• あ
81
#初期値は1/𝑁
#正規化のための𝑍𝑡の計算
#重みの更新
Perceptronとの違い
#学習時のパラメータ𝜂 > 0
#重みベクトル𝑤𝑡の総和は1
𝑤𝑡 1 = 1
ちなみに
• Weighted Majorityと似てる
• 𝛽 = 𝑒−2𝜂
とした場合と類似
• 乗算的な面ではAdaBoostとも類似
82
8.3.2 Winnow algorithm
Winnowアルゴリズムの更新回数
Winnowアルゴリズムの更新回数の上限は以下で定義
83
Th 8.13
𝐱1, … , 𝐱 𝑇 ∈ ℝ 𝑁: サンプルの入力ベクトル
𝑟∞ > 0, 𝑡 ∈ 𝑇 , 𝐱 𝑡 ∞ ≤ 𝑟∞: 入力のノルム上限
∃𝐯 ∈ ℝ 𝑁, 𝑣 ≥ 0, 𝜌∞ > 0: マージン𝜌∞ ≤
𝑦 𝑡(𝐯⋅𝐱 𝑡)
𝐯 1
でサンプルを
線形分離する重みベクトル
𝜂 =
𝜌∞
𝑟∞
2 ∶ 重み更新の大きさを決めるためのパラメータ
𝑀: サンプルを学習するまでの更新回数(予測誤り数)
𝑀 ≤ 2 Τ𝑟∞
2
𝜌∞
2
log 𝑁
結論:
仮定:
8.3.2 Winnow algorithm
Th 8.13の証明(1)
84
ポテンシャル関数Φ 𝑡を,正規化された重み𝑣𝑖/ 𝐯 1を
使って,以下の用に定義
𝒯 ⊆ [𝑇]: updateが行われた回
𝒯 = 𝑀: updateの回数
として,
任意の t ∈ 𝒥でΦ 𝑡+1 − Φ 𝑡を次ページのように制限可能
8.3.2 Winnow algorithm
Th 8.13の証明(2)
85
(疑似コード7,9行目より)
(logの中身展開,
𝑍𝑡の項を前に)
(疑似コード7行目,
𝜌∞ ≤
𝑦 𝑡(𝐯⋅𝐱t)
𝐯 1
より)
8.3.2 Winnow algorithm
Th 8.13の証明(2)
86
σ𝑖=1
𝑁
𝑤𝑡,𝑖 = 1なので期待値として扱える
引いて足す
外にだすHoeffdingの不等式
≤ 0
8.3.2 Winnow algorithm
ちなみに下限は
87
相対エントロピーは非負なのでΦ 𝑇+1 ≥ 0, よって
上限・下限の組み合わせ
𝜂 =
𝜌∞
𝑟∞
2 とするとTh 8.13になる
8.3.2 Winnow algorithm
PerceptronとWinnowの比較(1)
• Perceptron
• Winnow
88
𝑟2
/𝜌2
で制限
2
𝑟∞
2
𝜌∞
2 log𝑁で制限
𝑟: ⋅ 𝑝 入力ベクトル𝐱 𝑡
1/𝜌: ⋅ 𝑞 重みベクトル𝐯
Perceptron 𝑝 = 𝑞 = 2
Winnow 𝑝 = ∞, 𝑞 = 1
※
1
𝑝
+
1
𝑞
= 1
𝑎 > 𝑏の時, ⋅ 𝑎 ≤ ⋅ 𝑏のため,𝑟 ≥ 𝑟∞,1/𝜌 ≤ 1/𝜌∞
Percptron Winnow
(𝑐, 𝑑) ∞ ≤ (𝑐, 𝑑) 2 ≤ (𝑐, 𝑑) 1
max 𝑐, 𝑑 ≤ 𝑐2 + 𝑑2 ≤ 𝑐 + 𝑑
※
89
重みベクトルが疎: Winnowが優秀
重みベクトルが密: Perceptronが優秀
重みベクトルvが疎であるほど, v 1と v 2の差は減少
例えば,vがone-hotである時の𝑀を以下の用に算出可能
v ∈ ℝ 𝑁
: one-hotな単位ベクトル(重みベクトル)
x 𝑡 ∈ −1, +1 𝑁
: 入力ベクトル
𝑟2
/𝜌2
= 𝑁
2
/12
= 𝑁
2(𝑟∞
2
/𝜌∞
2
)𝑙𝑜𝑔𝑁 = 2(12
/12
)𝑙𝑜𝑔𝑁 = 2𝑙𝑜𝑔𝑁
仮定:
仮定:
8.3.2 Winnow algorithm
PerceptronとWinnowの比較(2)
8.4 On-line to batch conversion
バッチ処理への応用
• Perceptronアルゴリズム
• Winnowアルゴリズムなど
90
汎化性能について未考慮
regretの定義
記号定義
定義
各ラウンドの誤差の合計 各ラウンドで取りうる最小誤差の合計
8.4 On-line to batch conversion
平均汎化誤差の上限
91
平均汎化誤差の上限は以下で定義可能
平均汎化誤差上限
0 > 𝛿で,確率1 − 𝛿において
平均汎化誤差 平均誤差 なにか
8.4 On-line to batch conversion
東の不等式
関数𝑉1, … , 𝑉𝑖は𝑋1, … , 𝑋𝑖でMartingale Sequence Difference(MSD)
となるとき以下の不等式が成立(𝑠. 𝑡. 𝑖 > 0)
92
(𝑠. 𝑡. 𝑐 ≥ 0, 𝑡 > 0)
MSD:
Lemma 8.14の証明
93
とすると
𝑉𝑡は −𝑀, +𝑀 をとり,𝑡 ∈ 𝑇
東の不等式によって
MSD: を満たす
8.4 On-line to batch conversion
平均汎化誤差の上限定理
更新に依存しない形に変更
94
8.4 On-line to batch conversion
平均汎化誤差上限の証明(1)
以下が1 − 𝛿/2で成り立つ
95
∵
∵損失関数𝐿(ℎ(𝑥), 𝑦)は第一引数ℎ(𝑥)によって凸
よって𝐿
1
𝑇
σ 𝑡=1
𝑇
ℎ 𝑡 𝑥 , 𝑦 ≤
1
𝑇
σ 𝑡=1
𝑇
𝐿(ℎ 𝑡 𝑥 , 𝑦)
8.4 On-line to batch conversion
平均汎化誤差上限の証明(2)
続き
96
∵
1
𝑇
෍
𝑡=1
𝑇
𝑅(ℎ∗) = 𝑅(ℎ∗)
,
∵𝑅 ℎ∗ ≤ inf
ℎ∈ℋ
𝑅 ℎ + 𝜖
8.4 On-line to batch conversion
平均汎化誤差上限について
97
この定理は様々なregret最小化アルゴリズムに適用可能
特にExponential Weighted Averageにて
損失𝐿が𝑀 = 1で制限,ラウンド数𝑇が既知
𝛿 > 0で1 − 𝛿の確率でEWAの平均汎化誤差上限
(Th 8.6)
98
Regret最小化アルゴリズムの存在
⇒Von Neumannの定理の簡単な証明に使用可能
∆ 𝑚 :任意の𝑚 ≥ 1について𝑚次元の確率分布集合
∆ 𝑚= {𝐩 ∈ ℝ 𝑚: 𝐩 ≥ 0 ∧ ||𝐩||1 = 1}
Th 8.16 Von Neumann’s minimax theorem
仮定
結論
𝑚, 𝑛 ≥ 1
以下の式が成り立つ
M:zero-sum game を定義するloss matrix
8.5 Game-theoretic connection
ゲーム理論への応用
99
8.5 Game-theoretic connection
Th 8.16の証明(1)
maxq pT
Mq ≥ maxq minp pT
Mq
pT
Mq ≥ minp pT
Mq
両辺の𝑞について最大値をとる
右辺のpについて最小値をとる
minpmaxq pT
Mq ≥ maxq minp pT
Mq
以下が成り立つ
両側の不等式から等式を証明方法
≥を証明
⇒
⇒
100
8.5 Game-theoretic connection
Th 8.16の証明(2)
≤を証明
➢ 各ラウンド𝑡でアルゴリズム𝒜がp 𝑡を返し,
損失Mq 𝑡を求めるオンライン学習設定を考える
➢ q 𝑡はargmaxq∈∆ 𝑚
p 𝑡
T
Mqとなる最適な敵対的方法で選択
➢ 𝒜はregret最小化アルゴリズム,つまりRT/T→0
➢ 𝑅 𝑇 = σ 𝑡=1
𝑇
p 𝑡
T
Mq 𝑡 − min
p∈∆ 𝑚
σ 𝑡=1
𝑇
pT
Mq 𝑡
以下を想定
101
8.5 Game-theoretic connection
Th 8.16の証明(3)
右辺を変形
以下が成り立つ
102
以下の式が成り立つ
8.5 Game-theoretic connection
Th 8.16の証明(4)
lim
𝑇→+∞
𝑅 𝑇
𝑇
= 0
minpmaxq pT
Mq ≤ maxq minp pT
Mq
両側からの不等式の証明により
minpmaxq pT
Mq = maxq minp pT
Mq

More Related Content

What's hot

続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章Roy Ray
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析Shu Tanaka
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionShintaro Takemura
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1hirokazutanaka
 

What's hot (6)

続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章続・わかりやすいパターン認識第5章
続・わかりやすいパターン認識第5章
 
量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析量子アニーリングを用いたクラスタ分析
量子アニーリングを用いたクラスタ分析
 
双対性
双対性双対性
双対性
 
PRML 4.1 Discriminant Function
PRML 4.1 Discriminant FunctionPRML 4.1 Discriminant Function
PRML 4.1 Discriminant Function
 
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
東京都市大学 データ解析入門 10 ニューラルネットワークと深層学習 1
 
1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題1次式とノルムで構成された最適化問題とその双対問題
1次式とノルムで構成された最適化問題とその双対問題
 

Similar to Foundation of Machine Leaning section8

これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slidesharewada, kazumi
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)Kenta Ishii
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習Masayuki Tanaka
 
Back propagation
Back propagationBack propagation
Back propagationT2C_
 
波動方程式
波動方程式波動方程式
波動方程式yu sa
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-Koichiro Gibo
 
Async design with Unity3D
Async design with Unity3DAsync design with Unity3D
Async design with Unity3DKouji Hosoda
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎Hirotaka Hachiya
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoderMikio Shiga
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定Hiroshi Nakagawa
 
『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章ayato shimada
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙Satoshi Hara
 
Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Kenji Otsuka
 
エンジニア目線で見る TLA+ と PlusCal - TAKAMI Torao
エンジニア目線で見る TLA+ と PlusCal - TAKAMI Toraoエンジニア目線で見る TLA+ と PlusCal - TAKAMI Torao
エンジニア目線で見る TLA+ と PlusCal - TAKAMI ToraoTorao Takami
 

Similar to Foundation of Machine Leaning section8 (20)

これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare自然科学の統計学2.2 slideshare
自然科学の統計学2.2 slideshare
 
レポート1
レポート1レポート1
レポート1
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
確率解析計算
確率解析計算確率解析計算
確率解析計算
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習RBMを応用した事前学習とDNN学習
RBMを応用した事前学習とDNN学習
 
Back propagation
Back propagationBack propagation
Back propagation
 
波動方程式
波動方程式波動方程式
波動方程式
 
prml_titech_9.0-9.2
prml_titech_9.0-9.2prml_titech_9.0-9.2
prml_titech_9.0-9.2
 
ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-ロジスティック回帰分析の入門 -予測モデル構築-
ロジスティック回帰分析の入門 -予測モデル構築-
 
Async design with Unity3D
Async design with Unity3DAsync design with Unity3D
Async design with Unity3D
 
AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎AI2018 8 ニューラルネットワークの基礎
AI2018 8 ニューラルネットワークの基礎
 
Variational autoencoder
Variational autoencoderVariational autoencoder
Variational autoencoder
 
クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定クラシックな機械学習の入門  9. モデル推定
クラシックな機械学習の入門  9. モデル推定
 
『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章『劣モジュラ最適化と機械学習』 4章
『劣モジュラ最適化と機械学習』 4章
 
機械学習モデルの列挙
機械学習モデルの列挙機械学習モデルの列挙
機械学習モデルの列挙
 
Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎Algorithm 速いアルゴリズムを書くための基礎
Algorithm 速いアルゴリズムを書くための基礎
 
エンジニア目線で見る TLA+ と PlusCal - TAKAMI Torao
エンジニア目線で見る TLA+ と PlusCal - TAKAMI Toraoエンジニア目線で見る TLA+ と PlusCal - TAKAMI Torao
エンジニア目線で見る TLA+ と PlusCal - TAKAMI Torao
 

More from YukiK2

Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介YukiK2
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介YukiK2
 
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介YukiK2
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介YukiK2
 
Foundation of Machine Learning section9.3
Foundation of Machine Learning section9.3Foundation of Machine Learning section9.3
Foundation of Machine Learning section9.3YukiK2
 
Foundation of Machine Leaning section4
Foundation of Machine Leaning section4Foundation of Machine Leaning section4
Foundation of Machine Leaning section4YukiK2
 

More from YukiK2 (6)

Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介Feature Generationg Networks for Zero-Shot Learning 論文紹介
Feature Generationg Networks for Zero-Shot Learning 論文紹介
 
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
Stacked Semantic Guided-Attention Model for Fine-Grained Zero-Shot Learning 論文紹介
 
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介
Semantic Projection Network for Zero- and Few-Label Semantic Segmentation 紹介
 
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
Rethinking Knowledge Graph Propagation for Zero-Shot Learinig 論文紹介
 
Foundation of Machine Learning section9.3
Foundation of Machine Learning section9.3Foundation of Machine Learning section9.3
Foundation of Machine Learning section9.3
 
Foundation of Machine Leaning section4
Foundation of Machine Leaning section4Foundation of Machine Leaning section4
Foundation of Machine Leaning section4
 

Recently uploaded

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NTT DATA Technology & Innovation
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)Hiroshi Tomioka
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 

Recently uploaded (9)

AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 

Foundation of Machine Leaning section8

  • 1. Foundation of Machine Leaning second edition section 8 2020/5/19,2020/5/22 1
  • 3. 8.1 Introduction イントロダクション 3 PAC learningや確率モデルと異なる点 1. 訓練とテストのフェーズが混在 2. 一般化の概念が存在しない ➢ データの分析を仮定しないため ➢ アルゴリズムのパフォーマンスは誤りモデル とregretの概念を使用して測定 ➢ 保証の導出は最悪(or敵対的)の場合を想定
  • 4. 4 8.1 Introduction オンライン学習における損失関数 オンライン学習は𝑇個のラウンドで行われる 1. インスタンス𝑥𝑡 ∈ 𝒳から予測 ෝ𝑦𝑡 ∈ 𝒴を出力 2. ラベル𝑦𝑡 ∈ 𝒴を受け取り 損失関数𝐿: 𝒴 × 𝒴 → ℝ+による損失𝐿( ෝ𝑦𝑡, 𝑦𝑡)を算出 目的:累積損失σ 𝑡=1 𝑇 𝐿( ෝ𝑦𝑡, 𝑦𝑡) の最小化 ラウンド𝑡におけるアルゴリズムの振る舞い
  • 5. 5 8.2 Prediction with expert advice expertのアドバイスによる予測 expertつきオンライン学習 1. インスタンス𝑥𝑡 ∈ 𝒳と𝑁個のexpertからの アドバイス𝑦𝑡,𝑖 ∈ 𝒴, 𝑖 ∈ [𝑁]を受け取る 2. アドバイスに基づいて予測 ෝ𝑦𝑡を生成, 正解ラベルを受け取り損失を算出 ラウンド𝑡におけるアルゴリズムの振る舞い
  • 6. 6 8.2 Prediction with expert advice regret Tラウンド後の累積損失と後知恵のbest expertを比較 External regret expertつきオンライン学習の目的 ⇒regret 𝑅 𝑇(external regret)の最小化
  • 7. 7 8.2.1 Mistake bounds and Halving algorithm 誤り数の上限(1) 以降はmistake bound modelについて議論 ⇒特定のコンセプトを学習するまでに何回間違えるか ⚫ Halving algorithm ⚫ Weighted majority algorithm ⚫ Randomized weighted majority algorithm ⚫ Exponential weighted average algorithm 各アルゴリズムについて誤り数の上限𝑀を導出
  • 8. 8 8.2.1 Mistake bounds and Halving algorithm 誤り数の上限(2) ⇒少なくとも1つのexpertは一度も間違えない設定 Maximum number of mistake realizable case 𝒞:コンセプトクラス 任意の固定したコンセプト𝑐について, 学習アルゴリズムの最大の誤り数を以下に定義
  • 9. 9 8.2.1 Mistake bounds and Halving algorithm Halving algorithm Halving algorithm 適切な誤りの範囲を保証できるシンプルなアルゴリズム 多数決で予測 誤った予測 誤ったexpertを無効化
  • 10. 10 8.2.1 Mistake bounds and Halving algorithm Halving algorithmの疑似コード HALVING ℋ 1. ℋ1 ← ℋ 2. For 𝑡 ← 1 to 𝑇 do 3. RECEIVE 𝑥𝑡 4. ෝyt ← MAJORITYVOTE(ℋ𝑡, 𝑥𝑡) 5. RECEIVE 𝑦𝑡 6. if (ෝyt ≠ yt) then 7. ℋ𝑡+1 ← 𝑐 ∈ ℋ𝑡: 𝑐 𝑥𝑡 = 𝑦𝑡 8. else ℋ𝑡+1 ← ℋ𝑡 9. return ℋ 𝑇+1 #多数決で予測 #入力 #正解ラベル #予測に失敗 #あっている 仮説のみ残す
  • 11. 11 8.2.1 Mistake bounds and Halving algorithm Halving algorithmの誤り数の上限(1) Th. 8.1 多数決より,予測に失敗したとき, 少なくとも半分以上のexpertが無効化 log2 |ℋ| 回の誤りが発生すると,有効な仮説は 1つだけ残り,realizable caseであるため,残った仮説は ターゲットコンセプトと一致 誤り数の上限
  • 12. 12 8.2.1 Mistake bounds and Halving algorithm Halving algorithmの誤り数の上限(2) Th. 8.2 ➢ 𝑑 = VCdim ℋ とすると,𝑑個のshatter可能な点の 集合が存在,高さ𝑑の誤りの完全二分木を形成可能 ➢ 各ラウンドで𝑑個の誤りが保証されるように ラベルを選択可能 ∴ 誤りの下限はVCdim(ℋ) 𝑜𝑝𝑡(ℋ)を最適な仮説の誤り数として以下が成立 の証明:
  • 13. 13 8.2.2 Weighted majority algorithm WM algorithm non-realizable case Weighted majority(WM) algorithm すべてのexpertの重みを1で初期化 間違えたexpert 重みの多数決で予測 重みを小さくする
  • 14. 1. for 𝑖 ← 1 to 𝑁 do 2. 𝑤1,𝑖 ← 1 3. for 𝑡 ← 1 to 𝑇 do 4. RECEIVE(𝑥𝑡) 5. if σ𝑖:𝑦 𝑡,𝑖=1 𝑤𝑡,𝑖 ≥ σ𝑖:𝑦 𝑡,𝑖=0 𝑤𝑡,𝑖 then 6. ො𝑦𝑡 ← 1 7. else ො𝑦𝑡 ← 0 8. RECEIVE(𝑦𝑡) 9. if (ො𝑦𝑡 ≠ 𝑦𝑡) then 10. for 𝑖 ← 1 to 𝑁 do 11. if (𝑦𝑡,𝑖 ≠ 𝑦𝑡) then 12. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖 13. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖 14. return w 𝑇+1 14 8.2.2 Weighted majority algorithm WM algorithmの疑似コード #重みによる多数決で予測 #すべてのexpertに均一な重み #予測に失敗 #間違えたexpertの 重みを小さくする
  • 15. 15 8.2.2 Weighted majority algorithm WM algorithmによる誤りの上限 Th. 8.3 Tラウンド後のWMアルゴリズムの誤り数の上限を示す ※ここでの“最良”は後知恵によるもの 仮定 𝛽 ∈ (0,1) を固定 結論 以下の不等式が成り立つ 𝑚 𝑇:Tラウンド後のWM アルゴリズムによる誤り数 𝑚 𝑇 ∗ :Tラウンド後の “最良”のexpertによる誤り数
  • 16. 16 8.2.2 Weighted majority algorithm Theorem 8.3の証明(1) 以下のポテンシャル関数を定義 𝑊𝑡 = ෍ 𝑖=1 𝑁 𝑤𝑡,𝑖 𝑤𝑡,𝑖:𝑡ラウンドでのexpert 𝑖 の重み 𝑊𝑡:𝑡ラウンドでの重みの合計 アルゴリズムがラウンド𝑡で予測に失敗した場合, 以下が成立 上記の関数の上限と下限からTh.8.3を証明
  • 17. 17 8.2.2 Weighted majority algorithm Theorem 8.3の証明(2) 𝑊1 = 𝑁,および𝑚T = 𝑇ラウンド後の誤り数 より, 重みは非負値であるので以下は明らか 𝑊𝑇 ≥ 𝑤 𝑇,𝑖 = 𝛽 𝑚 𝑇,𝑖 𝑚 𝑇,𝑖: 𝑖番目のexpertによる 𝑇ラウンド後の誤り数
  • 18. 18 8.2.2 Weighted majority algorithm Theorem 8.3の証明(3) 両辺のlog をとる 移項 𝑊𝑇の上限と下限より,
  • 19. 19 8.2.2 Weighted majority algorithm Theorem 8.3の証明(4) 定理8.3はWMアルゴリズムによる以下の境界を保証 Nによってのみ変化 データとラベルについての仮定を必要としない
  • 20. 20 8.2.3 Randomized weighted majority algorithm 決定的アルゴリズムの欠点(1) すべてのシーケンスでregret 𝑅 𝑇 = 𝑜(𝑇)を満たせない ※ 𝑓 𝑥 = 3𝑥2 + 4𝑥 − 5のとき,𝑓 𝑥 = 𝑂(𝑥2) 𝑓 𝑥 = 𝑜(𝑥3) と表せる 𝑜(𝑥3)はxが十分大きいところで𝑥3よりはるかに小さいことを示す WMアルゴリズムは… 決定的アルゴリズム𝒜と𝑡について, 𝒜が0を予測⇒𝑦𝑡 = 1 𝒜が1を予測⇒𝑦𝑡 = 0 すべてでエラー 累積誤差𝑚 𝑇 = 𝑇となる
  • 21. 21 8.2.3 Randomized weighted majority algorithm 決定的アルゴリズムの欠点(2) 例)𝑁 = 2 ⇒Best expertの誤り数は最大で𝑚 𝑇 ∗ ≤ 𝑇 2 である ∴ 0-1損失の場合,ランダム化アルゴリズムを検討 片方のexpertが常に0,もう片方が常に1と予測 𝑅 𝑇 = 𝑜(𝑇)が一般に達成できないことを表す
  • 22. 22 8.2.3 Randomized weighted majority algorithm オンライン学習のランダム化シナリオ ➢ 各ラウンド𝑡で,オンラインアルゴリズム𝒜は 確率𝑝𝑡によって選択し,損失ベクトル l 𝑡を受け取る ➢ 損失ベクトルの𝑖番目の成分𝑙 𝑡,𝑖はアクション𝑖に関する損失であり, ラウンド𝑡における期待損失𝐿 𝑡 = σ𝑖=1 𝑁 𝑝𝑡,𝑖 𝑙 𝑡,𝑖 ➢ 𝑇ラウンド後のアルゴリズムの損失の合計ℒ 𝑇 = σ 𝑡=1 𝑇 𝐿 𝑡 ➢ アクション𝑖に関する損失の合計ℒ 𝑇,𝑖 = σ 𝑡=1 𝑇 𝑙 𝑡,𝑖 ➢ 全アクションの中で最小の損失ℒ 𝑇 min = min i∈𝒜 ℒ 𝑇,𝑖 ➢ 𝑁アクションの集合𝒜 = {1, … , 𝑁}が利用可能
  • 23. 23 𝑇ラウンド後のアルゴリズムのregret 𝑅 𝑇は以下のように表す 8.2.3 Randomized weighted majority algorithm RWMアルゴリズム 以下を仮定 ➢ 0-1損失 ➢ すべての𝑡 ∈ 𝑇,𝑖 ∈ 𝒜 アルゴリズムの損失 最良のアクションの損失 Randomized weighted majority algorithm ランダムに重み付けし,多数決によって予測
  • 24. 24 1. for 𝑖 ← 1 to 𝑁 do 2. 𝑤1,𝑖 ← 1 3. 𝑝1,𝑖 ← 1/𝑁 4. for 𝑡 ← 1 to 𝑇 do 5. RECEIVE( l 𝑡 ) 6. for 𝑖 ← 1 to 𝑁 do 7. if (𝑙 𝑡,𝑖 = 1) then 8. 𝑤𝑡+1,𝑖 ← 𝛽𝑤𝑡,𝑖 9. else 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖 10. 𝑊𝑡+1 ← σ𝑖=1 𝑁 𝑤𝑡+1,𝑖 11. for 𝑖 ← 1 to 𝑁 do 12. 𝑝𝑡+1,𝑖← 𝑤𝑡+1,𝑖/𝑊𝑡+1 13. return w 𝑇+1 8.2.3 Randomized weighted majority algorithm RWMの疑似コード #すべてのexpertに均一な重み #すべてのexpertの重みの割合 #確率𝑝から損失を与えるexpert をランダムに選択 #選択された𝑖番目のexpert #重みを更新 #重みの合計を計算 #重みの割合を更新
  • 25. 25 8.2.3 Randomized weighted majority algorithm RWMアルゴリズムによる保証 Th. 8.4 Th 8.4は任意のシーケンスのRWMによる損失の上限 仮定 𝛽 ∈ [1/2,1) を固定 結論 任意の𝑇 ≥ 1 特に,𝛽 = max{1/2 , 1 − (log𝑁)/𝑇} の時
  • 26. 26 8.2.3 Randomized weighted majority algorithm Th 8.4の証明(1) Th 8.3の証明と同様に𝑊𝑡を用いる 𝑊𝑡+1 ± σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖 の追加 𝑊𝑡 = σ𝑖:𝑙 𝑡,𝑖=0 𝑤𝑡,𝑖 + σ𝑖:𝑙 𝑡,𝑖=1 𝑤𝑡,𝑖 𝑝𝑡,𝑖 = 𝑤𝑡,𝑖/Wt 𝐿 𝑡 = σ𝑖=1 𝑁 𝑝𝑡,𝑖 𝑙 𝑡,𝑖
  • 27. 27 8.2.3 Randomized weighted majority algorithm Th 8.4の証明(2) 𝑊1 = 𝑁より 𝑊𝑇+1 = 𝑁 ෑ 𝑡=1 𝑇 (1 − 1 − 𝛽 𝐿 𝑡) 𝑊𝑇+1 ≥ max 𝑖∈ 𝑁 𝑤 𝑇+1,𝑖 = 𝛽ℒ 𝑇 𝑚𝑖𝑛 より 両辺logをとる 𝑥 < 1で log 1 − 𝑥 ≤ −𝑥
  • 28. 28 8.2.3 Randomized weighted majority algorithm Th 8.4の証明(3) ℒ 𝑇 = σ 𝑡=1 𝑇 𝐿 𝑡 移項,両辺× 1 1−𝛽 ±1の追加 𝑥 ∈ [0,1/2]で − log 1 − 𝑥 ≤ 𝑥 + 𝑥2
  • 29. 29 8.2.3 Randomized weighted majority algorithm Th 8.4の証明(4) 損失の上限が最小になるときの𝛽を求める ℒ 𝑇 𝑚𝑖𝑛 ≤ 𝑇より前ページの式を変形 上記の式の右辺を𝛽について微分し,0となる𝛽を求める log 𝑁 1 − 𝛽 2 − 𝑇 = 0 ⟹ 𝛽 = 1 − (log 𝑁)/𝑇 (≥ 1/2のとき) 1 − log 𝑁/𝑇 < 1/2のときは𝛽 = 1/2で最適値となる
  • 30. 30 8.2.3 Randomized weighted majority algorithm Th 8.4の証明(5) 𝛽 = 1 − (log 𝑁)/𝑇を代入 ※ラウンド数𝑇をパラメータとして受け取ることを想定 次節で小さい間隔で増加させていくdoubling trickを説明
  • 31. 31 8.2.3 Randomized weighted majority algorithm Th8.5 Nを定数とすると,𝑅 𝑇 = 𝑂 𝑇 また,平均regret or ラウンド毎regretは𝑂(1/ 𝑇)に減少 Th. 8.5 仮定 結論 𝑁 = 2 以下を満たす損失の確率的シーケンスが存在 𝔼 𝑅 𝑇 ≥ 𝑇/8 上記のことが適切であることを以下の定理で示す
  • 32. 32 8.2.3 Randomized weighted majority algorithm Th 8.5の証明(1) 任意の𝑡 ∈ [𝑇]について,損失ベクトルl 𝑡は等しい確率で l01 = 0,1 T , l10 = 1,0 T をとる ランダム化されたアルゴリズム𝒜の期待損失𝔼[ℒ 𝑇]は 以下のように変形できる 𝑝𝑡:ラウンド𝑡で𝒜によって選択された確率
  • 33. 33 8.2.3 Randomized weighted majority algorithm Th 8.5の証明(2) 定義より よって,𝒜の期待損失𝔼[𝑅 𝑇]は ℒ 𝑇,1 + ℒ 𝑇,2 = 𝑇 ±ℒ 𝑇,1を追加
  • 34. 34 8.2.3 Randomized weighted majority algorithm Th 8.5の証明(3) 𝜎𝑡は {−1,1}の値をとるRademacher変数を示す ℒ 𝑇,1 = ෍ 𝑡=1 𝑇 1 + 𝜎𝑡 2 = 𝑇/2 + 1 2 ෍ 𝑡=1 𝑇 𝜎𝑡 ⇒ℒ 𝑇,1を以下のように表せる 式に代入
  • 35. 35 8.2.3 Randomized weighted majority algorithm Th 8.5の証明(3) Khintchine-Kahaneの不等式 𝑥𝑡 = 1/2として上記の式を変形した不等式を適用 𝜎𝑖 ∈ {−1,1}:独立な一様確率変数
  • 36. 8.2.4 Exponential weighted average algorithm EWAアルゴリズム 36 • exponential weighted average algorithm 指数関数を用いて重みを更新 損失関数は第一引数において凸であり,[0, 1]の値を取る より良好なregretの境界を保証する決定論的アルゴリズム
  • 37. 1. for 𝑖 ← 1 to 𝑁 do 2. 𝑤1,𝑖 ← 1 3. for 𝑡 ← 1 to 𝑇 do 4. RECEIVE(𝑥𝑡) 5. ො𝑦𝑡 ← σ 𝑖=1 𝑁 𝑤 𝑡,𝑖 𝑦 𝑡,𝑖 σ 𝑖=1 𝑁 𝑤 𝑡,𝑖 6. RECEIVE 𝑦𝑡 7. for 𝑖 ← 1 to 𝑁 do 8. 𝑤𝑡+1,𝑖 ← 𝑤𝑡,𝑖 𝑒−𝜂𝐿( ෞ𝑦 𝑡,𝑖,𝑦𝑡) 9. return w 𝑇+1 37 8.2.4 Exponential weighted average algorithm EWAアルゴリズムの擬似コード #各expertの予測値の加重平均で予測 #すべてのexpertに均一な重み #重みは必ず更新 損失関数
  • 38. 8.2.4 Exponential weighted average algorithm EWAアルゴリズムのregret境界 38 Th. 8.6 任意の𝜂 > 0と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について, 𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす 特に,𝜂 = 𝑇 2 log 𝑁 について,regretは以下を満たす 仮定 𝐿は第一引数において凸であり,値[0,1]を取る 結論
  • 39. 8.2.4 Exponential weighted average algorithm Theorem 8.6 の証明(1) 39 以下のポテンシャル関数を定義 2つの連続するポテンシャル関数の差は以下となる
  • 40. 8.2.4 Exponential weighted average algorithm Theorem 8.6 の証明(2) Hoeffding’s lemma 40 Lの第一引数の凸性 総和を取ると 上界
  • 41. 8.2.4 Exponential weighted average algorithm Theorem 8.6 の証明(3) の下界も導出 41 和と最大値の大小関係 −𝑥の最大値=𝑥の最小値
  • 42. 8.2.4 Exponential weighted average algorithm Theorem 8.6 の証明(4) の上界と下界より 42 ※ラウンド数𝑇をパラメータとして受け取っていることが前提
  • 43. 8.2.4 Exponential weighted average algorithm doubling trick 潜在関数分析ではラウンド数𝑇をパラメータとして 受け取っていることが前提 43 Doubling trick を使用 ラウンド数 𝑇 ≥ 2 𝑛 − 1 を長さ 2 𝑘 ごとに区切り, 各区間ごとに𝜂 𝑘 = 8 log 𝑁 2 𝑘 を選択する Doubling trick
  • 44. 8.2.4 Exponential weighted average algorithm doubling trickによるEWAのregret境界 44 Th. 8.7 任意のT > 1と任意の配列𝑦1, … , 𝑦 𝑇 ∈ 𝒴について, 𝑇ラウンド後のEWAアルゴリズムのregretは以下を満たす 仮定 結論 𝐿は第一引数において凸であり,値[0,1]を取ると仮定
  • 45. 8.2.4 Exponential weighted average algorithm Theorem 8.7の証明(1) 𝑛 = ⌊log 𝑇 + 1 ⌋なる𝑘 ∈ [0, 𝑛]について, 𝑇 ≥ 1, 𝒯𝑘 = [2 𝑘 , 2 𝑘+1 − 1]とし, 𝐿 𝒯𝑘 を区間𝒯𝑘における損失とする 45 Th.8.6 第二式より,任意の𝑘 ∈ {0, … , 𝑛}について以下が成立 →𝑇ラウンド後のアルゴリズムの損失の総和は
  • 46. 8.2.4 Exponential weighted average algorithm Theorem 8.7の証明(2) は以下のように表現できる 46 に代入 ⇒
  • 48. 8.3.1 Linear classification Perceptronアルゴリズムの擬似コード 1. w1 ← w0 # 重みベクトルを初期化 一般にw0 = 0 2. for 𝑡 ← 1 to 𝑇 do #ラウンド𝑇まで繰り返し 3. RECEIVE(x 𝑡) #𝑡番目の入力ベクトルx 𝑡を取得 4. ෝyt ← sgn w 𝑡 ⋅ x 𝑡 #重みと入力の内積の符号より予測 5. RECEIVE(𝑦𝑡) #𝑡番目の正解ラベル𝑦𝑡を取得 6. if ෝ𝑦𝑡 ≠ 𝑦𝑡 then #予測に失敗したとき重みを更新 7. w 𝑡+1 ← w 𝑡 + 𝑦𝑡x 𝑡 #より一般的には,𝜂𝑦𝑡x 𝑡, 𝜂 > 0 8. else w 𝑡+1 ← w 𝑡 #予測に成功した場合,重みはそのまま 9. return w 𝑇+1 48 PERCEPTRON(w0)
  • 49. 8.3.1 Linear classification Perceptronアルゴリズムの流れ 49 入力ベクトルx 𝑡を取得 重みベクトルw 𝑡を用いて予測 予測に失敗したら,x 𝑡に対する予測が当たる ようになる方向に,重みベクトルを更新 𝑇回繰り返し 初期値の重みベクトルw0を取得しw1に代入 (一般にw0 = 0)
  • 50. 8.3.1 Linear classification Perceptronによる更新(1) 50 𝑦𝑡w 𝑡 ⋅ x 𝑡<0の時,w 𝑡による𝑡番目のサンプルの予測に失敗 更新されたw 𝑡+1による予測を以下のように表現可能 𝑦𝑡w 𝑡+1x 𝑡 = 𝑦𝑡 w 𝑡 + 𝜂𝑦𝑡x 𝑡 ⋅ x 𝑡 = 𝑦𝑡w 𝑡 ⋅ x 𝑡 + 𝜂 x 𝑡 2 𝜂 𝑥𝑡 2 > 0のため,𝑦𝑡w 𝑡+1 ⋅ x 𝑡 > 𝑦𝑡w 𝑡 ⋅ x 𝑡 w 𝑡+1 = w 𝑡 + 𝜂𝑦𝑡x 𝑡による更新で,𝑡番目のサンプル に対する予測を改善
  • 51. Perceptronアルゴリズムは以下の関数𝐹(w)を最小化する 重みベクトルwを求める 51 𝑓 x : xの正解ラベル ෡𝒟:サンプル(x1, … , x 𝑇)に基づく分布 ෨𝐹 w, x = max(0, −𝑓 x w ⋅ x ) 任意の𝑡 ∈ [𝑇]でw ↦ −𝑦𝑡(w ⋅ x 𝑡)は凸なため,関数𝐹は凸 Perceptronアルゴリズムは,stochastic subgradient descent (確率的劣勾配降下法?)の関数𝐹への適用と同一 8.3.1 Linear classification Perceptronによる更新(2)
  • 52. stochastic subgradient descent(確率的劣勾配法?) 1つのサンプル誤差を小さくするように勾配を降下 関数𝐹に確率的劣勾配法を適用した結果が下式 wt ⋅ x 𝑡 = 0の時,0 = −𝑦𝑡(wt ⋅ x 𝑡)により微分不可のため, 劣勾配を[−𝑦𝑡x 𝑡, 0]より任意のものを選択(今回は−𝑦𝑡x 𝑡 ) 52 8.3.1 Linear classification Perceptronによる更新(3)
  • 53. ෨𝐹 w, x = max(0, −𝑓 x w ⋅ x )のため, 𝑦𝑡 w ⋅ x 𝑡 < 0のとき ∇ 𝑤 ෨𝐹 w, x 𝑡 = −𝑦𝑡x 𝑡 𝑦𝑡 w ⋅ x 𝑡 > 0のとき ∇ 𝑤 ෨𝐹 w, x 𝑡 = 0 よって下式のように表現可能 Perceptronアルゴリズムは,この式と同様に重みを更新 関数𝐹を最小化する重みベクトルを求める 53 8.3.1 Linear classification Perceptronによる更新(4)
  • 54. Th.8.8は,サンプルがマージン𝜌 > 0で線形分離可能な時の, 𝜌によるPercptronアルゴリズムの重み更新数(ミス数)の上限 54 Th. 8.8 サンプルは超平面v ∈ ℝ 𝑁 で線形分離可能 x1, … , x 𝑇 ∈ ℝ 𝑁 : 長さ𝑇の入力の配列 𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟 𝜌: 0 < 𝜌 ≤ 𝑦𝑡 v⋅x 𝑡 ‖v‖ を満たす,超平面とのマージン 𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合 𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 ) 仮定: 結論: 𝑀 ≤ 𝑟2 /𝜌2 8.3.1 Linear classification Perceptronの誤り上限(線形分離可能時)
  • 55. 55 (Cauchy-Schwarzの不等式より) (w 𝑡+1の定義より) (w0 = 0より) ( w 𝑡 + 𝑦𝑡x 𝑡 2を展開) (w0 = 0より) (w 𝑡+1の定義より) (2𝑦𝑡w 𝑡 ⋅ x 𝑡 ≤ 0より) 𝑀𝜌 ≤ 𝑀𝑟2より,𝑀 ≤ 𝑟2 /𝜌2 8.3.1 Linear classification Th 8.8の証明
  • 56. 𝑇ラウンド後の重みw 𝑇は,更新時のx 𝑡の線形結合となる 56 w 𝑇 = σ 𝑡∈𝒥 𝜂𝑦𝑡x 𝑡 重み更新時のx 𝑡はSVMで言うところのサポートベクター Th.8.8より,Perceptronアルゴリズムの予測の誤り数𝑀の 上限は,入力の次元数𝑁に関係なく𝜌と𝑟のみに依存 場合によっては𝑀 = 𝑟2 /𝜌2 (exercise 8.3を参照) 8.3.1 Linear classification Perceptronについて備考(1)
  • 57. Th.8.8では仮定してないが,通常はサンプル𝑆のサイズ𝑚 < T 57 𝑚個の全てのサンプルに対して複数回処理 サンプル𝑆が線形分離可能な場合,有限回数の更新を経て, アルゴリズムは必ず収束する ※𝜌が小さい場合収束は遅い サンプル𝑆が線形分離不可な場合,アルゴリズムは収束せず ※通常はサンプル全体を何周かしたら終了させる ➢ ➢ ➢ 8.3.1 Linear classification Perceptronについて備考(2)
  • 58. 58 Th.8.9は,線形分離可能なサンプルを,アルゴリズムが 収束するまで学習したときの汎化誤差の期待値上限を設定 Th. 8.9 サンプルは線形分離可能 𝑆: サイズ𝑚 + 1のサンプル 𝑟𝑆: 𝑆の𝑡番目の入力をx 𝑡とした時,全ての𝑡 ∈ [𝑚]に 対して, x 𝑡 ≤ 𝑟を満たす𝑟のうち,最も小さいもの 𝜌 𝑆: 𝑆を線形分離する,最も大きいマージン 𝑀(𝑆): 𝑆を学習するまでの,重み更新数 ℎ 𝑆: 𝑆を学習した仮説 仮定: 結論: 8.3.1 Linear classification Perceptronの汎化誤差の期待値上限
  • 59. ℎ 𝑠−{x}がxの予測に失敗→xはℎ 𝑆のサポートベクターのため, leave-one-outエラー(P.85)は以下のように制限可能 ෠𝑅(𝒜) 𝐿𝑂𝑂 = 1 𝑚+1 σ𝑖 𝑚+1 1ℎ 𝑆−{x 𝑖} x 𝑖 ≠𝑦 𝑖 ≤ 𝑀 𝑆 𝑚+1 Lemma. 5.3(P.86),Theorem. 8.8より以下の等式を導出 よって以下の等式が成立 59 Lemma. 5.3 8.3.1 Linear classification Th 8.9の証明
  • 60. Th.8.10は,Th.8.9に切片無しのSVMを適用 60 Th. 8.10 ℎ 𝑆: 𝑆をSVM(切片無し)で学習した仮説 𝑁𝑆𝑉(𝑆): ℎ 𝑆のサポートベクターの数 他はTh.8.9と同様 仮定: 結論: 8.3.1 Linear classification ここだけSVM
  • 62. 𝑆 = (x1, … , x 𝑚+1),𝑆′ = (x1, … , x 𝑚)として,ℎ 𝑆′がx 𝑚+1の 予測に失敗するケースを考える. 任意の𝑞 ∈ [𝑚 + 1]で,定義域がℝ 𝑞 の関数𝐺 𝑞を以下に定義 𝐺 𝑞 𝑎 = ෍ 𝑖=1 𝑞 𝑎𝑖 − 1 2 ෍ 𝑖,𝑗=1 𝑞 𝑎𝑖 𝑎𝑗 𝑦𝑖 𝑦𝑗(x𝑖 ⋅ x𝑗) この時,𝐺 𝑚+1は𝑆,𝐺 𝑚は𝑆′に関するSVMの双対問題の捕問題 62 8.3.1 Linear classification Th 8.10の証明(2)
  • 63. 63 𝛼 ∈ ℝ 𝑚+1 を,下式のようにSVMの双対問題の解とする 𝛼 = argmax 𝑎≥0 𝐺 𝑚+1(𝑎) 𝛼′ ∈ ℝ 𝑚+1 を,下式のように定義 𝛼1 ′ , … , 𝛼 𝑚 ′ 𝑇 = argmax 𝑎≥0 𝐺 𝑚 𝑎 , 𝛼′ 𝑚+1 = 0 e 𝑚+1を(𝑚 + 1)次元目が1である単位ベクトルとして, 𝛼と𝛼′の特性より以下の不等式がそれぞれ成立 max 𝛽≥0 𝐺 𝑚+1(𝛼′ + 𝛽e 𝑚+1) ≤ 𝐺 𝑚+1(𝛼) 𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1 = 𝐺 𝑚+1 𝛼1, … , 𝛼 𝑚, 0 𝑇 ≤ 𝐺 𝑚(𝛼′) 8.3.1 Linear classification Th 8.10の証明(3)
  • 64. 𝐴 = 𝐺 𝑚+1 𝛼 − 𝐺 𝑚(𝛼′)とすると,以下の不等式が成立 64 max 𝛽≥0 𝐺 𝑚+1(𝛼′ + 𝛽e 𝑚+1) − 𝐺 𝑚 𝛼′ ≤ 𝐴 ≤ 𝐺 𝑚+1 𝛼 − 𝐺 𝑚+1 𝛼 − 𝛼 𝑚+1e 𝑚+1 𝑆をSVMで学習して得た重みベクトルwを以下に記述 w = ෍ 𝑖=1 𝑚+1 𝑦𝑖 𝛼𝑖x𝑖 ℎ 𝑆′はx 𝑚+1を誤分類→ x 𝑚+1はℎ 𝑆のサポートベクターのため, 𝑦 𝑚+1w ⋅ x 𝑚+1 = 1が成立 8.3.1 Linear classification Th 8.10の証明(4)
  • 65. 65 w = σ𝑖 𝑚+1 𝑦𝑖 𝛼𝑖x𝑖より 𝑦 𝑚+1w ⋅ x 𝑚+1 = 1より 8.3.1 Linear classification Th 8.10の証明(5)
  • 66. 66 w′ = σ𝑖 𝑚 𝑦𝑖 𝛼′𝑖x𝑖とする 𝛼′ + 𝛽e 𝑚+1 𝑚+1 = 𝛽より以下の等式が成立 前ページの𝛼 𝑚+1を𝛽に置き換えたのとほぼ同様 8.3.1 Linear classification Th 8.10の証明(6)
  • 67. 67 以下の様に不等式の左辺を𝛽で微分し,最大となる𝛽を代入 𝛽 1 − 𝑦 𝑚+1w′ ⋅ x 𝑚+1 − 1 2 𝛽2 x 𝑚+1 2 ≤ 𝐴 ≤ 1 2 𝛼 𝑚+1 2 x 𝑚+1 2 これまでの式展開より,以下の不等式が成立 𝛽 = 1 − 𝑦 𝑚+1w′ ⋅ x 𝑚+1 x 𝑚+1 2 𝛽 1 − 𝑦 𝑚+1w′ ⋅ x 𝑚+1 − 1 2 𝛽2 x 𝑚+1 2 = 1 − 𝑦 𝑚+1w′ ⋅ x 𝑚+1 2 2 x 𝑚+1 2 𝑦 𝑚+1w′ ⋅ x 𝑚+1 < 0より,下式が成立 𝐴 ≥ 1 − 𝑦 𝑚+1w′ ⋅ x 𝑚+1 2 2 x 𝑚+1 2 ≥ 1 2 x 𝑚+1 2 8.3.1 Linear classification Th 8.10の証明(7)
  • 68. 𝐴の上限と下限を比較することで,以下の不等式が成立 68 1 2 x 𝑚+1 2 ≤ 1 2 𝛼 𝑚+1 2 x 𝑚+1 2 (𝑟𝑆 2 の定義より) ℎ 𝑆−{x 𝑖}がx𝑖を誤分類してしまう𝑖の集合を𝒥とすると, 以下の不等式が成立 8.3.1 Linear classification Th 8.10の証明(8)
  • 69. 教科書85ページ,式(5.19)より,σ𝑖=1 𝑚+1 𝑎𝑖 = 1/𝜌 𝑆 2 であるため,以下の不等式が成立 69 ෠𝑅(𝒜) 𝐿𝑂𝑂 = 𝒯 / 𝑚 + 1 のため,Lemma.5.3を用いて下式が成立 上記の不等式が成立したことにより,以下の不等式が成立 8.3.1 Linear classification Th 8.10の証明(9)
  • 71. 次に紹介する二つの定理は非線形分離可能なケースに おける,Percptronアルゴリズムの誤り数の上限を設定 71 Th. 8.11 サンプルがマージン𝜌で非線形分離可能 𝑇: ラウンド数, v: 任意の重みベクトル 𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟 𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合 𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 ) l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 − 𝑦𝑡 v⋅x 𝑡 𝜌 ) 仮定: 結論: 8.3.1 Linear classification Perceptronの誤り数上限
  • 72. 72 (1 − 𝑦𝑡 v⋅x 𝑡 𝜌 ≤ 𝑙 𝑡,𝑀 = |𝒯|より) (l 𝜌の定義より) (theorem 8.8 v⋅σ 𝑡∈𝒯 𝑦𝑡x 𝑡 v 2 ≤ 𝑀𝑟2より) 𝑎 = 𝑀とすると,以下の不等式が成立 𝑎2 − 𝑎 𝑟 v 2 𝜌 − l 𝜌 1 ≤ 0 8.3.1 Linear classification Th 8.11の証明(1)
  • 73. 前頁の不等式に解の公式を適用すると,下式が成立 𝑎 = 𝑚 ≤ 1 2 ( 𝑟 v 2 𝜌 + 𝑟2 v 2 2 𝜌2 + 4 l 𝜌 1 ) 73 v 2 ≤ 1, 𝑎 + 𝑏 ≤ 𝑎 + 𝑏より,以下の不等式が成立 8.3.1 Linear classification Th 8.11の証明(2)
  • 74. Th. 8.11と同じ仮定のもと,𝑀をl 𝜌のL1ノルムではなく, L2ノルムで制限 74 Th. 8.12 サンプルがマージン𝜌で非線形分離可能 𝑇: ラウンド数, v: 任意の重みベクトル 𝑟: 全ての𝑡 ∈ [𝑇]に対して, x 𝑡 ≤ 𝑟を満たす𝑟 𝒯: 𝑇ラウンドまでの,予測に失敗した部分集合 𝑀: 𝑇ラウンドまでの,予測に失敗した数(𝑀 = 𝒯 ) l 𝜌 = 𝑙 𝑡 𝑡∈𝒯 𝑤𝑖𝑡ℎ 𝑙 𝑡 = max(0,1 − 𝑦𝑡 v⋅x 𝑡 𝜌 ) 仮定: 結論: 8.3.1 Linear classification Th 8.12
  • 75. Cauchy-Schwarzの不等式より,以下の不等式が成立 75 l 𝜌 1 ≤ 𝑀 l 𝜌 2 v 2 ≤ 1の時,上記の不等式,Th. 8.11の証明の途中式より, 以下の不等式が成立 𝑀 ≤ 𝑙 𝜌 2 + 𝑟2 𝜌 より,以下の不等式が成立 8.3.1 Linear classification Th 8.12の証明
  • 76. Th. 8.11およびTh. 8.12は,Th. 8.8の定理を線形分離不可能 なサンプルに対しても適用可能に一般化したもの 76 サンプルが線形分離可能な場合,マージン𝜌でサンプルを 線形分離するvが選択できるため, l 𝜌 = 0 𝑡∈𝒯 𝑀 ≤ r2 /𝜌2 Th. 8.8と同様 8.3.1 Linear classification Th 8.11,Th 8.12について備考
  • 78. 78 #𝛼を0で初期化 #予測(少なくとも𝑠 ≥ 𝑡の時,𝛼 𝑠 = 0) #x 𝑡の予測に失敗したら𝛼 𝑡に1を代入 #x 𝑡の予測に成功したら𝛼 𝑡は0のまま 予測に失敗したときにwをw + 𝑦𝑡x 𝑡で更新する, デフォルトのPerceptronアルゴリズムと全く同様 8.3.1 Linear classification Dual Perceptron
  • 80. 8.3.2 Winnow algorithm Winnowアルゴリズム • Perceptronアルゴリズム • Winnowアルゴリズム 80 加算的 乗算的 疎な重みベクトルを定義できる時に有効 Perceptronアルゴリズム同様に ラウンドごとに重みを調整 密なベクトル: (0.23, 0.56, 0.19, 0.33, 0.12) 疎なベクトル: (0, 0, 0, 0.33, 0)
  • 81. 8.3.2 Winnow algorithm Winnowアルゴリズムの疑似こーど • あ 81 #初期値は1/𝑁 #正規化のための𝑍𝑡の計算 #重みの更新 Perceptronとの違い #学習時のパラメータ𝜂 > 0 #重みベクトル𝑤𝑡の総和は1 𝑤𝑡 1 = 1
  • 82. ちなみに • Weighted Majorityと似てる • 𝛽 = 𝑒−2𝜂 とした場合と類似 • 乗算的な面ではAdaBoostとも類似 82
  • 83. 8.3.2 Winnow algorithm Winnowアルゴリズムの更新回数 Winnowアルゴリズムの更新回数の上限は以下で定義 83 Th 8.13 𝐱1, … , 𝐱 𝑇 ∈ ℝ 𝑁: サンプルの入力ベクトル 𝑟∞ > 0, 𝑡 ∈ 𝑇 , 𝐱 𝑡 ∞ ≤ 𝑟∞: 入力のノルム上限 ∃𝐯 ∈ ℝ 𝑁, 𝑣 ≥ 0, 𝜌∞ > 0: マージン𝜌∞ ≤ 𝑦 𝑡(𝐯⋅𝐱 𝑡) 𝐯 1 でサンプルを 線形分離する重みベクトル 𝜂 = 𝜌∞ 𝑟∞ 2 ∶ 重み更新の大きさを決めるためのパラメータ 𝑀: サンプルを学習するまでの更新回数(予測誤り数) 𝑀 ≤ 2 Τ𝑟∞ 2 𝜌∞ 2 log 𝑁 結論: 仮定:
  • 84. 8.3.2 Winnow algorithm Th 8.13の証明(1) 84 ポテンシャル関数Φ 𝑡を,正規化された重み𝑣𝑖/ 𝐯 1を 使って,以下の用に定義 𝒯 ⊆ [𝑇]: updateが行われた回 𝒯 = 𝑀: updateの回数 として, 任意の t ∈ 𝒥でΦ 𝑡+1 − Φ 𝑡を次ページのように制限可能
  • 85. 8.3.2 Winnow algorithm Th 8.13の証明(2) 85 (疑似コード7,9行目より) (logの中身展開, 𝑍𝑡の項を前に) (疑似コード7行目, 𝜌∞ ≤ 𝑦 𝑡(𝐯⋅𝐱t) 𝐯 1 より)
  • 86. 8.3.2 Winnow algorithm Th 8.13の証明(2) 86 σ𝑖=1 𝑁 𝑤𝑡,𝑖 = 1なので期待値として扱える 引いて足す 外にだすHoeffdingの不等式 ≤ 0
  • 87. 8.3.2 Winnow algorithm ちなみに下限は 87 相対エントロピーは非負なのでΦ 𝑇+1 ≥ 0, よって 上限・下限の組み合わせ 𝜂 = 𝜌∞ 𝑟∞ 2 とするとTh 8.13になる
  • 88. 8.3.2 Winnow algorithm PerceptronとWinnowの比較(1) • Perceptron • Winnow 88 𝑟2 /𝜌2 で制限 2 𝑟∞ 2 𝜌∞ 2 log𝑁で制限 𝑟: ⋅ 𝑝 入力ベクトル𝐱 𝑡 1/𝜌: ⋅ 𝑞 重みベクトル𝐯 Perceptron 𝑝 = 𝑞 = 2 Winnow 𝑝 = ∞, 𝑞 = 1 ※ 1 𝑝 + 1 𝑞 = 1 𝑎 > 𝑏の時, ⋅ 𝑎 ≤ ⋅ 𝑏のため,𝑟 ≥ 𝑟∞,1/𝜌 ≤ 1/𝜌∞ Percptron Winnow (𝑐, 𝑑) ∞ ≤ (𝑐, 𝑑) 2 ≤ (𝑐, 𝑑) 1 max 𝑐, 𝑑 ≤ 𝑐2 + 𝑑2 ≤ 𝑐 + 𝑑 ※
  • 89. 89 重みベクトルが疎: Winnowが優秀 重みベクトルが密: Perceptronが優秀 重みベクトルvが疎であるほど, v 1と v 2の差は減少 例えば,vがone-hotである時の𝑀を以下の用に算出可能 v ∈ ℝ 𝑁 : one-hotな単位ベクトル(重みベクトル) x 𝑡 ∈ −1, +1 𝑁 : 入力ベクトル 𝑟2 /𝜌2 = 𝑁 2 /12 = 𝑁 2(𝑟∞ 2 /𝜌∞ 2 )𝑙𝑜𝑔𝑁 = 2(12 /12 )𝑙𝑜𝑔𝑁 = 2𝑙𝑜𝑔𝑁 仮定: 仮定: 8.3.2 Winnow algorithm PerceptronとWinnowの比較(2)
  • 90. 8.4 On-line to batch conversion バッチ処理への応用 • Perceptronアルゴリズム • Winnowアルゴリズムなど 90 汎化性能について未考慮 regretの定義 記号定義 定義 各ラウンドの誤差の合計 各ラウンドで取りうる最小誤差の合計
  • 91. 8.4 On-line to batch conversion 平均汎化誤差の上限 91 平均汎化誤差の上限は以下で定義可能 平均汎化誤差上限 0 > 𝛿で,確率1 − 𝛿において 平均汎化誤差 平均誤差 なにか
  • 92. 8.4 On-line to batch conversion 東の不等式 関数𝑉1, … , 𝑉𝑖は𝑋1, … , 𝑋𝑖でMartingale Sequence Difference(MSD) となるとき以下の不等式が成立(𝑠. 𝑡. 𝑖 > 0) 92 (𝑠. 𝑡. 𝑐 ≥ 0, 𝑡 > 0) MSD:
  • 93. Lemma 8.14の証明 93 とすると 𝑉𝑡は −𝑀, +𝑀 をとり,𝑡 ∈ 𝑇 東の不等式によって MSD: を満たす
  • 94. 8.4 On-line to batch conversion 平均汎化誤差の上限定理 更新に依存しない形に変更 94
  • 95. 8.4 On-line to batch conversion 平均汎化誤差上限の証明(1) 以下が1 − 𝛿/2で成り立つ 95 ∵ ∵損失関数𝐿(ℎ(𝑥), 𝑦)は第一引数ℎ(𝑥)によって凸 よって𝐿 1 𝑇 σ 𝑡=1 𝑇 ℎ 𝑡 𝑥 , 𝑦 ≤ 1 𝑇 σ 𝑡=1 𝑇 𝐿(ℎ 𝑡 𝑥 , 𝑦)
  • 96. 8.4 On-line to batch conversion 平均汎化誤差上限の証明(2) 続き 96 ∵ 1 𝑇 ෍ 𝑡=1 𝑇 𝑅(ℎ∗) = 𝑅(ℎ∗) , ∵𝑅 ℎ∗ ≤ inf ℎ∈ℋ 𝑅 ℎ + 𝜖
  • 97. 8.4 On-line to batch conversion 平均汎化誤差上限について 97 この定理は様々なregret最小化アルゴリズムに適用可能 特にExponential Weighted Averageにて 損失𝐿が𝑀 = 1で制限,ラウンド数𝑇が既知 𝛿 > 0で1 − 𝛿の確率でEWAの平均汎化誤差上限 (Th 8.6)
  • 98. 98 Regret最小化アルゴリズムの存在 ⇒Von Neumannの定理の簡単な証明に使用可能 ∆ 𝑚 :任意の𝑚 ≥ 1について𝑚次元の確率分布集合 ∆ 𝑚= {𝐩 ∈ ℝ 𝑚: 𝐩 ≥ 0 ∧ ||𝐩||1 = 1} Th 8.16 Von Neumann’s minimax theorem 仮定 結論 𝑚, 𝑛 ≥ 1 以下の式が成り立つ M:zero-sum game を定義するloss matrix 8.5 Game-theoretic connection ゲーム理論への応用
  • 99. 99 8.5 Game-theoretic connection Th 8.16の証明(1) maxq pT Mq ≥ maxq minp pT Mq pT Mq ≥ minp pT Mq 両辺の𝑞について最大値をとる 右辺のpについて最小値をとる minpmaxq pT Mq ≥ maxq minp pT Mq 以下が成り立つ 両側の不等式から等式を証明方法 ≥を証明 ⇒ ⇒
  • 100. 100 8.5 Game-theoretic connection Th 8.16の証明(2) ≤を証明 ➢ 各ラウンド𝑡でアルゴリズム𝒜がp 𝑡を返し, 損失Mq 𝑡を求めるオンライン学習設定を考える ➢ q 𝑡はargmaxq∈∆ 𝑚 p 𝑡 T Mqとなる最適な敵対的方法で選択 ➢ 𝒜はregret最小化アルゴリズム,つまりRT/T→0 ➢ 𝑅 𝑇 = σ 𝑡=1 𝑇 p 𝑡 T Mq 𝑡 − min p∈∆ 𝑚 σ 𝑡=1 𝑇 pT Mq 𝑡 以下を想定
  • 101. 101 8.5 Game-theoretic connection Th 8.16の証明(3) 右辺を変形 以下が成り立つ
  • 102. 102 以下の式が成り立つ 8.5 Game-theoretic connection Th 8.16の証明(4) lim 𝑇→+∞ 𝑅 𝑇 𝑇 = 0 minpmaxq pT Mq ≤ maxq minp pT Mq 両側からの不等式の証明により minpmaxq pT Mq = maxq minp pT Mq