ワーカーの類似性を考慮した
クラウドソーシングデータからの学習
梶野 洸1, 坪井 祐太2, 鹿島 久嗣1
1: 東京大学大学院情報理工学系研究科
2: IBM東京基礎研究所
6/5/2013 1人工知能学会全国大会
“Clustering Crowds” to appear in AAAI-13
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 2
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 3
クラウドソーシング
• クラウドソーシング
不特定多数の人に仕事を依頼する仕組み
人の知恵が必要な仕事を短時間・大量・安価に処理可能
ワーカー(の能力)が未知⇒得られる成果物の品質は未知
6/5/2013 人工知能学会全国大会 4
不特定多数のワーカーに仕事を依頼できるが成果物の品質は未知
ワーカー依頼者
2. 成果物を返す
1. 仕事を依頼
3. 代金を支払
ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
6/5/2013 人工知能学会全国大会 5
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優 劣 真のラベル
(観測されない)
1 1 1 1
1
1
0 0
1 0 1
0
ラベル付けタスクの例
• 画像が鳥なら1、それ以外に0とラベルを付けるタスク
– 教師あり学習の教師データを低コストで作成可能
– 得られる教師データの品質は不明
6/5/2013 人工知能学会全国大会 6
ワーカーの能力に依存して得られるラベルの品質が異なる
難
易
優 劣 真のラベル
(観測されない)
1 1 1 1
1
1
0 0
1 0 1
0
なんとかしたい!
本研究で扱う問題
• 入力
– 特徴ベクトル : xi ∈RD (i=1,…,I)
– ワーカー : j ∈{1,2,…,J}
– クラウドラベル: yij ∈{0,1}
• 出力
– データ識別平面の法線ベクトル w0∈RD
(w0
Txi>0 ⇔yi=1)
• アプローチ:
1. 真の識別器とクラウドラベルの関係をモデル化
2. モデルの推定を通じて真の識別器を得る
6/5/2013 人工知能学会全国大会 7
クラウドソーシングで得たデータから識別器を推定する
鳥 or 非鳥
w0
真の識別器
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 8
既存手法(1):潜在ラベル法
• 潜在ラベル法[Raykar+,2010]
– 各ワーカー=正答率でモデル化
– EMアルゴリズムで w0, αj, βj (正答率)を推定
6/5/2013 人工知能学会全国大会 9
真のラベルを介して真の識別器をモデル化する
yixi w0
yi1
yi2
yi3
特徴
ベクトル
真の識別器
(ロジスティック回帰) 真のラベル
クラウドラベル
αj = p(yij=1 | yi=1)
βj = p(yij=0 | yi=0)
既知
未知
N(w0 | 0, η-1I)
事前分布
既存手法(2): 識別器統合法
• 識別器統合法[梶野+,12]
– ワーカー j =パラメタ wj の識別器
– wj = w0 + ガウスノイズ
6/5/2013 人工知能学会全国大会 10
識別器でモデル化されたワーカーを統合して真の識別器を推定
各ワーカーのモデル
w0 yi2
yi1
真の識別器
クラウド
ラベル
w1
w2
w3 yi3
N(w0 | 0, η-1I)
j=2
j=3
j=1
事前分布
既知
未知
• 識別器統合法
– w0, W={wj}J
j=1に関して事後確率最大化
– 凸最適化問題となる
既存手法(2): 識別器統合法
6/5/2013 人工知能学会全国大会 11
パラメタ推定は凸最適化問題となる
真の識別器: w0
各ワーカー: wj
min
w0, W
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(通常のロジスティック損失)(J人分)
既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
• 識別器統合法
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
6/5/2013 人工知能学会全国大会 12
いずれの手法も学習が安定しない場合が存在する
既存手法まとめ
• 潜在ラベル法
– 各ワーカーのパラメタ数=2
– 長所: 1人あたりのデータ数はあまり要らない
– 短所: 局所解に陥りやすい
• 識別器統合法
– 各ワーカーのパラメタ数=D (次元)
– 長所: 大域的最適解が保証されている
– 短所: 1人あたりのデータ数が少ないと学習が不安定
6/5/2013 人工知能学会全国大会 13
いずれの手法も学習が安定しない場合が存在する
この問題を
解決します
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 14
提案手法: アイデア
• Welinderら(2010)によるワーカーの解析
“ワーカーは似た能力を持つワーカー群に分類できる”
– この事前知識を活用 ⇒ データ数の問題の改善
– 識別器統合法を拡張してワーカーの類似度を考慮
(Welinder et al., The multidimensional wisdom of crowds, NIPS 2010 より引用)
6/5/2013 人工知能学会全国大会 15
ワーカーの類似性に注目するとクラスタリングができる
下記論文
Figure 6 がここに!!!
提案手法: 定式化
• クラスタ化識別器統合法
– 似たワーカーのパラメタをくっつける正則化を導入
– μを大きくすると似たワーカーのパラメタが等しくなる
→実質的に有効なパラメタ数を削減
6/5/2013 人工知能学会全国大会 16
類似したワーカーを自動で探し出しパラメタを共有させる
wj = wkにする効果
事前分布モデル間の
関係
クラウドラベルに
適応する損失項
(cf. 従来手法では )
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 17
人工データを用いた数値実験
• 潜在ラベルモデルに従うデータ(J=I=10, 二種類のワーカー)
L) 次元 D=2 : 識別器統合法 = クラスタ化識別器統合法
R) 次元D=10 : 識別器統合法 < クラスタ化識別器統合法
6/5/2013 人工知能学会全国大会 18
データ数に対して次元が高い場合の性能を改善
劣ったワーカーの割合 劣ったワーカーの割合
類似性◯
類似性×
実データを用いた数値実験
• 実データを用いた比較
– NER タスク(各単語が固有表現かどうかを判別)
– 次元D=161,901, データ数 I=17,747, ワーカー数 J=42
6/5/2013 人工知能学会全国大会 19
クラスタ化識別器統合法が最も高い性能を示した
適合率 再現率 F値
クラスタ化
識別器統合法 0.647 0.716 0.680
識別器統合法 0.637 0.721 0.677
潜在ラベル法 0.625 0.732 0.675
単純学習法 0.680 0.670 0.675
多数決法 0.686 0.651 0.668
既存手法2
既存手法1
提案手法
実データを用いた数値実験
• μを変化させると階層的クラスタリングと同効果が得られる
• 正解なしで異常なワーカーを検出可能
6/5/2013 人工知能学会全国大会 20
クラスタリング結果から異常なワーカーを検出
Precision: 0.454
Recall: 0.857
クラスタ化の強さ→
概要
• クラウドソーシングとその問題
クラウドソーシングでは成果物の品質が問題となる
• 既存手法
品質不明の教師データから学習を行う
• 提案手法概要
ワーカーの類似性に注目して学習を行う
• 実験結果
人工データ、実データで安定した学習が実現された
• まとめ
6/5/2013 人工知能学会全国大会 21
まとめ
• 問題設定
– 品質不明の冗長な教師データからの学習
• 既存手法(識別器統合法)の問題点
– パラメタ数が多くなりがち
– 1人あたりのデータが少ないと学習が不安定になる
• 提案手法(クラスタ化識別器統合法)
– 似たワーカーをくっつけ、有効なパラメタ数を削減
• 実験結果
– 1人あたりのデータが少ない場合でも安定して学習可能
– ワーカーのクラスタリング手法としても有用
6/5/2013 人工知能学会全国大会 22
ワーカーの類似度を考慮することでより安定した学習を実現
6/5/2013 人工知能学会全国大会 23

20130605-JSAI2013