References
• (Settles 2009) Active Learning Literature Survey
– よくまとまったサーベイ。本資料での用語は主にこちらに準拠
• (Schein+ 2007) Active Learning for Logistic Regression
– LR に AL を適用する場合のサーベイとして使える
• (Olsson 2009) A Literature Survey of Active Machine Learning in the
Context of Natural Language Processing
– こちらもしっかりしたサーベイ
• (Guo+ 2007) Optimistic Active Learning using Mutual Information
– Expected Error Reduction AL の手法の1つ MM+M を提案
• (Tong+ 2000) Support Vector Machine Active Learning with Application to
Text Classification
– 本資料では参照してないが SVM で AL するなら
ぷちまとめ
• Uncertainly sampling よりばらつきが小さい
– でも random すら大幅に性能向上。ほぼアンサンブル
の恩恵か
– 分布の平均に対する margin sampling が最高性能……
– もう少し複雑な問題の方が効果が見込めるかも
• Vote Entropy は確率モデルでなくてもOK
– 今回は試してないが SVM, Random Forest, ...
• Average KL Divergence が random より悪い
– バグ? 本質的な問題?(NB と LR の予測分布が似
てるわけない、みたいな)
3. Density-Weighted Methods
• Uncertainly Sampling も QBC も、各データ点ごとの評
価しか行わない
– しかし学習して効果があるかは分布にもよるはず
• 下図の例:各点を赤か青に分類する問題で、次の
query は A と B のどちらにするべきか
– B の方が近い点(おそらく同じカテゴリ)が多いので、これ
を学習すれば正解率に貢献するだろうが、分離平面に近い
A が選ばれやすい
A
B
Information Density (Settles+ 2008)
• 𝜙 𝐴 𝑥 : 手法 A におけるデータ x の評価関数
– argmax
𝑥
𝜙 𝐴(𝑥) または argmin
𝑥
𝜙 𝐴(𝑥) となる x を選ぶ
• 評価に類似度を加味した係数を掛ける
argm𝑎𝑥
𝑥
𝜙 𝐴(𝑥) ×
1
𝑈
sim 𝑥, 𝑥 𝑢
𝑈
𝑢=1
𝛽
– ただし U は pool サイズ、xu は pool 内の u 番目の点
• 「似ているデータ」が多いほど選ばれやすい
• 実験の設定は同様
• Uncertainly Sampling の3手法
に Information Density を組
み合わせる
• 類似度は余弦類似度を用い
る(正規化済みなので内積
を取るだけ)
• β=1 とする