SlideShare a Scribd company logo
1 of 35
2022/03/02
根岸寛太,伊藤寛祥,松原正樹,森嶋厚行
1
結果品質と労働負荷分散を両立したタスク割当て手法
DEIM Forum 2021 E41-4
発表内容
2
【背景】過去実績のみでタスクを割当てると仕事を引き受けられる
ワーカが少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当て
により,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>ある程度可能なケースもあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
発表内容
3
【背景】過去実績のみでタスクを割当てると仕事を引き受けられる
ワーカが少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当て
により,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>ある程度可能なケースもあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
研究背景(1/2)
労働市場のプラットフォーム化が進んでいる
例: Amazon Mechanical Turk, Crowd Works
4
プラットフォーム
働き手
(ワーカ)
仕事
(タスク)
割当て
依頼者
(リクエスタ)
発注
研究背景:過去実績によるワーカ選択の問題点
-
過去実績によるタスク割り当ては労働負荷を集中させる
★:正解率, 評価
5
★★★★★
★☆☆☆☆ ★★★☆☆
ワーカ
タスク
・労働負荷が集中
・就労機会の制限
発表内容
6
【背景】クラウドソーシングのタスク割り当てをワーカの単純な
過去実績だけでやると仕事を引き受けられる人が少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当てに
より,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>予備的実験 => ある程度可能なケース
もあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
仮説
7
【仮説】タスク難易度とワーカ能力を考慮したタスク割当てにより,
結果品質を維持しながら労働負荷分散を小さくできる
タスク難易度
ワーカ能力
【RQ1】この仮説は正しいか?
【RQ2】タスクの難易度がわからない場合, 難易度推定により
結果品質と労働負荷分散の両立はどこまで可能か?
提案手法
8
(2) 割当て用タスクの難易度推定
タスク難易度
(1) 項目反応理論(IRT)による
ワーカ能力推定
RQ1: ワーカの回答結果
を利用する
RQ2: AIモデルの回答結果
を利用する
ワーカ
テスト用タスク
割当て用タスク
✕
(3) タスク割当てを実行
能力と難易度に基づく割当て
ワーカ能力
✕
タスク
仮説検証のためのフレームワーク
9
(2) 割当て用タスクの難易度推定
タスク難易度
(1) 項目反応理論(IRT)による
ワーカ能力推定
RQ1: ワーカの回答結果
を利用する
RQ2: AIモデルの回答結果
を利用する
ワーカ
テスト用タスク
割当て用タスク
✕
(3) タスク割当てを実行
能力と難易度に基づく割当て
ワーカ能力
✕
タスク
項目反応理論によるパラメータ推定
10
項目反応理論 (Item Response Theory)
・テストによる学習評価のモデル
・ワーカ能力,タスク困難度を1次元の尺度で推定可能
タスク難易度b
〇 〇 ✕
✕ ✕ 〇
✕ 〇 〇
ワーカ能力θ
P(correct) > threshold(%)
結果品質を保証
仮説検証のためのフレームワーク
11
(2) 割当て用タスクの難易度推定
タスク難易度
(1) 項目反応理論(IRT)による
ワーカ能力推定
RQ1: ワーカの回答結果
を利用する
RQ2: AIモデルの回答結果
を利用する
ワーカ
テスト用タスク
割当て用タスク
✕
(3) タスク割当てを実行
能力と難易度に基づく割当て
ワーカ能力
✕
タスク
割当て用タスクの困難度推定
12
RQ1: 「タスク難易度とワーカ能力を考慮したタスク割当てにより,結果品質を
維持しながら労働負荷を分散できるか? 」
RQ2: 「タスクの難易度がわからない場合, 難易度を推定し結果品質を維持
しながら労働負荷を分散できるか? 」
✕
✕
出力
・回答
・確信度
…
タスク難易度
タスク難易度
・ワーカのタスクへの回答が得られる:
IRTで難易度推定
・ワーカのタスク回答が得られない:
AIモデルの出力から難易度推定
仮説検証のためのフレームワーク
13
(2) 割当て用タスクの難易度推定
タスク難易度
(1) 項目反応理論(IRT)による
ワーカ能力推定
RQ1: ワーカの回答結果
を利用する
RQ2: AIモデルの回答結果
を利用する
ワーカ
テスト用タスク
割当て用タスク
✕
(3) タスク割当てを実行
能力と難易度に基づく割当て
ワーカ能力
✕
タスク
タスク割当てアルゴリズム
14
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
タスク割当てアルゴリズム
15
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
タスク割当てアルゴリズム
16
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
タスク割当てアルゴリズム
17
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
タスク割当てアルゴリズム
18
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
タスク割当てアルゴリズム
19
割当ての戦略
(1) 難易度の低いタスクから先に割当てる
(2) 能力の低いワーカを優先する
ワーカ能力
タスク難易度
提案手法
20
(2) 割当て用タスクの難易度推定
タスク難易度
(1) 項目反応理論(IRT)による
ワーカ能力推定
RQ1: ワーカの回答結果
を利用する
RQ2: AIモデルの回答結果
を利用する
ワーカ
テスト用タスク
割当て用タスク
✕
(3) タスク割当てを実行
能力と難易度に基づく割当て
ワーカ能力
✕
タスク
実験手続き: データ収集
21
・ニュース記事テキストの分類タスクを設計
- AIワーカの回答正誤を判定するタスク
- news-aggregator-dataset[1]
・Amazon Mechanical Turkで
タスクを依頼, 回答を集める
- 100タスク,ワーカ100人 Answer
fed official says weak data
caused by weather should not
slow taper
分類テキストの例:
実験手続き: タスク割当てシミュレーション
22
〇 〇 ✕
✕ ✕ 〇
✕ 〇 〇
(3)割当て結果の評価
・正解率
・労働負荷の分散
ワーカのタスク回答結果を使って割当てシミュレーション
・0.5, 0.51, … , 0.8 の正解率thresholdについて割当て
(1)入力:
ワーカのタスク回答
(2)割当ての実行
ワーカ20人, タスク40件
thresholdを更新
実験条件: ベースライン手法
23
名称 割当て方式 特徴
top
テストの平均正解率上位5人にのみ
割当てる
タスクの正解率: 高い
労働負荷分散: 大きい
random
ランダムにワーカを選択する タスクの正解率: 低い
労働負荷分散: 小さい
ours
能力と難易度に基づき,ワーカ間で
タスクを分担させる割当て
タスクの正解率: どれほど高いか?
労働負荷分散: どれほど小さいか?
比較ポイント: 提案手法は
(1) タスク割当て結果の正解率(Accuracy)を高く維持できるか?
(2) ワーカ間の労働負荷分散(Variance)を小さく抑えられるか?
提案手法と2つのベースライン手法を比較する
発表内容
24
【背景】過去実績のみでタスクを割当てると仕事を引き受けられる
ワーカが少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当て
により,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>ある程度可能なケースもあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
実験結果(RQ1):
25
提案手法はtop割当てよりもタスク数
(労働負荷)分散を小さくできる
提案手法はrandom・top 割当て
以上の正解率を維持できる
タスク難易度とワーカ能力を考慮したタスク割当てにより,
結果品質を維持しながら労働負荷を分散できるか?
考察(RQ1):
26
正しいタスク難易度とワーカ能力による割当てでは品質を維持しな
がらより多くの人がタスクに従事可能
能力の低いワーカに簡単な
タスクを割当て可能
RQ1: ポジティブな結果が得られた
能力の高いワーカに難しい
タスクを割当て可能
タスク難易度とワーカ能力を考慮したタスク割当てにより,
結果品質を維持しながら労働負荷を分散できるか?
発表内容
27
【背景】過去実績のみでタスクを割当てると仕事を引き受けられる
ワーカが少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当て
により,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>ある程度可能なケースもあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
実験結果(RQ2):
28
提案手法は上位ワーカのみへの割当て
よりも労働負荷(タスク数)分散を小さくで
きる
提案手法はランダム割当て
よりも高品質の結果を維持できる
タスクの難易度がわからない場合, 難易度を推定し結果品質
を維持しながら労働負荷を分散できるか?
考察(RQ2):
29
提案手法ではワーカとタスクのミスマッチが起こる
難しいタスクを能力の低い
ワーカに割当てている
=> 品質の低下
簡単なタスクを能力の高い
いワーカに割当てている
=> 労働負荷の集中
RQ2: AIモデルの回答による
タスク難易度の推定精度に課題がある
タスクの難易度がわからない場合, 難易度を推定し結果品質
を維持しながら労働負荷を分散できるか?
発表内容
30
【背景】過去実績のみでタスクを割当てると仕事を引き受けられる
ワーカが少なくなる
【仮説】タスク難易度とワーカ能力を考慮したタスク割り当て
により,結果品質を維持しながら多くの人々が仕事に従事できる
【RQ1】この仮説は正しいか? => IRTを利用した割当て実験を
行い検証 => ポジティブな結果
【RQ2】タスクの難易度がわからない場合に推定をして,同様の
結果はどこまで可能か?=>ある程度可能なケースもあった
【関連研究】混同行列やドメインを考慮した割当てとは相補的な
関係にある
関連研究
31
・iCrowd: An adaptive framework for crowdsourcing [1]
目的: 結果品質と割当て効率の向上
手法: ワーカがタスクに正答できる確率を推定した上で割当てる,
→ 本研究では正解率とタスクの分担を両立を目的とする
・Hashimoto[2]
目的: 正解率とタスクの分担を両立
手法: ワーカ能力, タスクに必要な能力が与えられた状態で割当て
→ 本研究ではワーカ能力,タスク難易度を推定した上で
正解率とタスクの分担を両立させる手法を提案する
まとめ
1. タスクの特徴量を利用して難易度を推定するモデルの構築
2. 多次元のスキルを評価した割当て
3. 割当てタスク数以外の要素を考慮した労働負荷分散手法
- 労働時間, 報酬など
32
目的:タスクの結果品質を維持しつつワーカ間でタスクを
分担させる
提案手法:タスクの難易度を推定しワーカのスキルに
応じて割当てる
実験: 品質を維持しながらワーカ間でタスクを分担
できたがタスクの難易度推定に課題が見られた
今後の課題
33
参照文献
34
1) Baker Frank B., Kim Seock-Ho. Item response theory: Parameter estimation techniques. ,
CRC Press, 2004
2) Cheng Peng, Lian Xiang, Chen Lei, Han Jinsong, Zhao Jizhong. Task assignment on multi-
skill oriented spatial crowdsourcing. IEEE Tran.KDE. 2016, vol. 28, no. 8, p. 2201-2215.
3) Dawid Alexander Philip, Skene Allan M. Maximum likelihood estimation of observer error-
rates using the EM algorithm. Journal of the Royal Statistical Society: Series C (Applied
Statistics). 1979, vol. 28, no. 1, p. 20-28.
4) ICrowd: An Adaptive Crowdsourcing Framework, Ju FanGuoliang LiBeng Chin OoiKian-lee
TanJianhua Feng. 2015, p. 1015-1030.
5) An empirical study of the naive Bayes classifier, Irina and others Rish. 2001, p. 41-46.
6) 森嶋 厚行, 喜連川 優. クラウドソーシングが不可能を可能にする : 小さな力を集めて大きな力に変える
科学と方法. 共立出版, 2020
7) 鹿島 久嗣, 小山 聡, 馬場 雪乃. ヒューマンコンピュテーションとクラウドソーシング = Human
computation and crowdsourcing. , 講談社, 2016
(補足スライド2)ワーカ未回答タスクの難易度推定
35
タスクの難易度はAIモデルの回答に依存すると仮定
(1) テストタスク結果から各タスクの
困難度をIRTで求める
(2) 各カテゴリごとにタスクの平均困難度を
計算する
(3) AIモデルによる回答(分類先カテゴリ)を
参照する
(4) そのカテゴリの平均困難度を
そのタスクの難易度とする

More Related Content

What's hot

OpenFOAMのinterfoamによる誤差
OpenFOAMのinterfoamによる誤差OpenFOAMのinterfoamによる誤差
OpenFOAMのinterfoamによる誤差takuyayamamoto1800
 
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...Insight Technology, Inc.
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech RecognitionYosukeKashiwagi1
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)Shirou Maruyama
 
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース 【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース Juniper Networks (日本)
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence LearningDeep Learning JP
 
Ansible specでテストをする話
Ansible specでテストをする話Ansible specでテストをする話
Ansible specでテストをする話KeijiUehata1
 
OpenFOAMにおける相変化解析
OpenFOAMにおける相変化解析OpenFOAMにおける相変化解析
OpenFOAMにおける相変化解析takuyayamamoto1800
 
Full Page Writes in PostgreSQL PGCONFEU 2022
Full Page Writes in PostgreSQL PGCONFEU 2022Full Page Writes in PostgreSQL PGCONFEU 2022
Full Page Writes in PostgreSQL PGCONFEU 2022Grant McAlister
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)NTT DATA Technology & Innovation
 
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱構成情報データベースをGitで管理したいネットワーク運用者の憂鬱
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱Yuya Rin
 
大規模グラフデータ処理
大規模グラフデータ処理大規模グラフデータ処理
大規模グラフデータ処理maruyama097
 
Parquetはカラムナなのか?
Parquetはカラムナなのか?Parquetはカラムナなのか?
Parquetはカラムナなのか?Yohei Azekatsu
 
OpenFOAMによる気液2相流解析の基礎と設定例
OpenFOAMによる気液2相流解析の基礎と設定例OpenFOAMによる気液2相流解析の基礎と設定例
OpenFOAMによる気液2相流解析の基礎と設定例takuyayamamoto1800
 
JVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニングJVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニング佑哉 廣岡
 
An investigation about interFoam performance
An investigation about interFoam performanceAn investigation about interFoam performance
An investigation about interFoam performance守淑 田村
 
Boundary Conditions in OpenFOAM
Boundary Conditions in OpenFOAMBoundary Conditions in OpenFOAM
Boundary Conditions in OpenFOAMFumiya Nozaki
 

What's hot (20)

OpenFOAMのinterfoamによる誤差
OpenFOAMのinterfoamによる誤差OpenFOAMのinterfoamによる誤差
OpenFOAMのinterfoamによる誤差
 
perfを使ったPostgreSQLの解析(後編)
perfを使ったPostgreSQLの解析(後編)perfを使ったPostgreSQLの解析(後編)
perfを使ったPostgreSQLの解析(後編)
 
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
[db tech showcase Tokyo 2016] C32: 世界一速いPostgreSQLを目指せ!インメモリカラムナの実現 by 富士通株式会...
 
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition論文紹介  wav2vec: Unsupervised Pre-training for Speech Recognition
論文紹介 wav2vec: Unsupervised Pre-training for Speech Recognition
 
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
文法圧縮入門:超高速テキスト処理のためのデータ圧縮(NLP2014チュートリアル)
 
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース 【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース
【EX/QFX】JUNOS ハンズオントレーニング資料 EX/QFX シリーズ サービス ゲートウェイ コース
 
[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning[DL輪読会]Convolutional Sequence to Sequence Learning
[DL輪読会]Convolutional Sequence to Sequence Learning
 
Ansible specでテストをする話
Ansible specでテストをする話Ansible specでテストをする話
Ansible specでテストをする話
 
OpenFOAMにおける相変化解析
OpenFOAMにおける相変化解析OpenFOAMにおける相変化解析
OpenFOAMにおける相変化解析
 
Full Page Writes in PostgreSQL PGCONFEU 2022
Full Page Writes in PostgreSQL PGCONFEU 2022Full Page Writes in PostgreSQL PGCONFEU 2022
Full Page Writes in PostgreSQL PGCONFEU 2022
 
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
PostgreSQLモニタリング機能の現状とこれから(Open Developers Conference 2020 Online 発表資料)
 
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱構成情報データベースをGitで管理したいネットワーク運用者の憂鬱
構成情報データベースをGitで管理したいネットワーク運用者の憂鬱
 
大規模グラフデータ処理
大規模グラフデータ処理大規模グラフデータ処理
大規模グラフデータ処理
 
Parquetはカラムナなのか?
Parquetはカラムナなのか?Parquetはカラムナなのか?
Parquetはカラムナなのか?
 
OpenFOAMによる気液2相流解析の基礎と設定例
OpenFOAMによる気液2相流解析の基礎と設定例OpenFOAMによる気液2相流解析の基礎と設定例
OpenFOAMによる気液2相流解析の基礎と設定例
 
JVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニングJVMのGCアルゴリズムとチューニング
JVMのGCアルゴリズムとチューニング
 
Virtual Chassis for Cloud Builders
Virtual Chassis for Cloud BuildersVirtual Chassis for Cloud Builders
Virtual Chassis for Cloud Builders
 
An investigation about interFoam performance
An investigation about interFoam performanceAn investigation about interFoam performance
An investigation about interFoam performance
 
interFoamの検証
interFoamの検証interFoamの検証
interFoamの検証
 
Boundary Conditions in OpenFOAM
Boundary Conditions in OpenFOAMBoundary Conditions in OpenFOAM
Boundary Conditions in OpenFOAM
 

Similar to DEIM2022_根岸寛太.pptx

強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫Masahiro Yasumoto
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...Deep Learning JP
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement LearningDeep Learning JP
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twittersleepy_yoshi
 
Deep reinforcement learning for imbalanced classification
Deep reinforcement learning for imbalanced classification Deep reinforcement learning for imbalanced classification
Deep reinforcement learning for imbalanced classification Ogushi Masaya
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法Hiroshi Igaki
 

Similar to DEIM2022_根岸寛太.pptx (8)

egawa m
egawa megawa m
egawa m
 
強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫強化学習の実適用に向けた課題と工夫
強化学習の実適用に向けた課題と工夫
 
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
[DL輪読会] Towards an Automatic Turing Test: Learning to Evaluate Dialogue Respo...
 
[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning[DL輪読会]Meta Reinforcement Learning
[DL輪読会]Meta Reinforcement Learning
 
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on TwitterKDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
KDD2014勉強会: Large-Scale High-Precision Topic Modeling on Twitter
 
Deep reinforcement learning for imbalanced classification
Deep reinforcement learning for imbalanced classification Deep reinforcement learning for imbalanced classification
Deep reinforcement learning for imbalanced classification
 
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
rePiT2015_アジャイルソフトウェア開発教育のためのチケットシステムを用いたプロジェクト定量評価手法
 

DEIM2022_根岸寛太.pptx

Editor's Notes

  1. 結果の品質とワーカの能力多様性を両立したタスク割り当て手法の研究という題目で 筑波大学の根岸が研究を発表します。 背景1 背景2 仮説 リサーチクエスチョン RQ1の検証 RQ 仕上げ: 配色, 細かな配置
  2. 本発表の内容です。 全体: この発表内容をもとに再構成 背景:白書・調査のデータ引用 ~ significancyをアピール リサーチクエスチョンを説明 ・関連研究: ほかの手法との関係を明らかにする RQ1に対し,全IRTの結果でアンサー RQ2に対し,提案手法で応える. 提案手法説明: もう少し説明追加(考察の散布図を参考に)
  3. はじめに研究背景を説明します.
  4. 本研究はプラットフォーム上の労働市場におけるワーカへのタスク割り当てに関する研究です [相互関係] 本研究の背景の一つは労働市場のプラットフォーム化が進んでいるということです プラットフォームの例としては Uber, AMT, crowd worksなどが挙げられます。 プラットフォーム労働市場ではリクエスターが仕事・タスクを発注し, プラットフォームを介してワーカーにタスクが割り当てられます。 本研究ではこのようなプラットフォームにおける, ワーカーに対するより良いタスクの割り当てを目指す研究に取り組みます。 [サジェスチョン] 能力分布を考慮することで品質を維持しつつ多くの人で分担できる. 多様な能力を持つ. しかし, 仕事が一部のワーカに集中するとワーカ一人あたりの負担が大きくなることや, 仕事のないワーカが増えることなどの問題が発生する. 人々に対する仕事の割当てには工夫が必要である. 結果の品質を優先すると平均的に能力の高いワーカ, つまり多くの能力を高い水準で持つワーカに多数の仕事を割当てることになりやすい. また, 単純に多くのワーカーに仕事を割り振ると結果の精度が下がってしまいます. []一般的なクラウドソーシングプラットフォームにおける, ☆で依頼先が決められてしまうなどの状況, スキルは
  5. プラットフォームにおいて,リクエスタが高品質の結果を得るために高いタスク結果を得るためにワーカの過去実績が用いられることがあります. しかし,過去実績による割当ては実際のタスクの難易度やワーカの能力を評価しないため,実績の高い少数のワーカに多くのタスクを割り当てることになります. 結果として実績が高いワーカに負担が集中し,実績に低いワーカの就労機会が制限されてしまいます. 過去実績によるタスク割り当ては労働負荷を集中させる [相互関係] ・リクエスタ: 実績の高いワーカにタスクを依頼 ・実績のあるワーカ: たくさんのタスクに従事 ・実績のないワーカ:タスク割り当てなし [サジェスチョン] 能力分布を考慮することで品質を維持しつつ多くの人で分担できる. 多様な能力を持つ. しかし, 仕事が一部のワーカに集中するとワーカ一人あたりの負担が大きくなることや, 仕事のないワーカが増えることなどの問題が発生する. 人々に対する仕事の割当てには工夫が必要である. 結果の品質を優先すると平均的に能力の高いワーカ, つまり多くの能力を高い水準で持つワーカに多数の仕事を割当てることになりやすい. また, 単純に多くのワーカーに仕事を割り振ると結果の精度が下がってしまいます. []一般的なクラウドソーシングプラットフォームにおける, ☆で依頼先が決められてしまうなどの状況, スキルは
  6. つぎに本研究の仮説について説明します.
  7. 本研究の仮説はタスク難易度とワーカ能力を考慮したタスク割当てにより結果品質を維持しながら労働負荷を分散できるのではないか,ということです. (そのようなアルゴリズムが存在するか?) この仮説を検証するため,次に二つのRQを立てます. RQ1はこの仮説は正しいか?ということで, RQ2はタスクの難易度がわからない場合, 結果品質と労働負荷分散の両立はどこまで可能か?ということです.
  8. 能力と難易度推定によってタスク割り当てる手法により仮説を検証します. 提案手法では,ワーカのスキルとタスクの難易度をテスト理論の一つである項目反応理論・IRTで算出した結果をもとにワーカーとタスクをマッチングさせます(①).
  9. 初めにタスクをワーカのテスト用タスクと,割り当て用のタスクに分割したうえで IRTを使って,ワーカが取り組んだテストタスクの結果からワーカ能力を推定します.
  10. 項目反応理論によるパラメータ推定 [順序] (0) はじめに,ワーカのタスクへの回答結果が与えられます. (1) タスクの難易度Θ,ワーカ能力bを推定します. (2) ワーカ能力thetaとのタスク難易度bからに正解する確率を計算します. (3) 正解確率がスレッショルド以上のワーカにタスクを割り当てることで, タスクの結果品質を保証することができます. コメント: b = thetaのとき50%の確率で正答可能 このように,項目反応理論によって能力と難易度に応じた割り当てを実行します. [相互関係] タスク: 正答確率がスレッショルド以上のワーカに割り当てられる ・正答確率を計算することで結果の正解率をスレッショルド以上に維持することができます. 図: P, thresholdの関係がわかるように割り当ての図を改善 ・各タスクについて各ワーカの正解確率を計算
  11. 次に,割り当て用タスクの難易度を推定します.2つのRQごとにことなる難易度推定手法を用います.
  12. 割り当て用タスクの難易度推定について説明します. RQ1:「タスク難易度とワーカ能力を考慮したタスク割当てにより,結果品質を維持しながら労働負荷を分散できるか? 」 を検証するときには 割り当て用タスクをワーカに回答させたうえでIRTによって難易度を推定します. RQ2:「タスクの難易度がわからない場合に推定して,結果品質を維持 しながら労働負荷を分散できるか? 」 を検証する際には 割り当て用タスクをAIモデルに回答させ,その出力を利用して難易度を利用します.
  13. 最後に,タスク割り当てを実行します.
  14. 提案手法では品質しながら,各ワーカのタスク数の偏りが小さくなるように割当てます. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  15. 品質しながら割当てタスク数の分散を最小化させて割当てます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  16. 品質しながら割当てタスク数の分散を最小化させて割当てます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  17. 品質しながら割当てタスク数の分散を最小化させて割当てます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  18. 品質しながら割当てタスク数の分散を最小化させて割当てます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  19. 品質しながら割当てタスク数の分散を最小化させて割当てます. 割当ての制約条件: スレッショルド以上の品質を返すワーカを選ぶ 労働負荷を分散させる コメント:能力の低いワーカを優先する. 難易度が低いタスクから順に割り当てます. (1)難易度が低いタスクは多くのワーカに割当て可能ですが,能力の低いワーカを優先します. (2) 次のタスクも同様に,割当先ワーカのうち能力の低いワーカを優先します. (3) 割当先のワーカが一人しかいない場合はそのワーカに割り当てます. (4) この割当てアルゴリズムにより,結果品質を保証しながら,できるだけタスク割り当てを分散させることができます. [順序] 具体的には: 各タスクの推定難易度とワーカ能力から割り当てタスクの各ワーカの正解確率を計算します. 正解確率がthreshold以上のワーカから一人を選んで割当てます. 各ワーカに割り当てられるタスク数の分散が最小化されるような割当てを見つけます. そのために能力の低いワーカを優先して割り当てます.
  20. このような方法により,ワーカ能力とタスク難易度を推定したうえで割り当てを実行します.
  21. 実験手続きについて説明します. 実験に用いるタスクは ニュース記事タイトルの分類タスクで ワーカがAIモデルの回答の正誤を答えるというシチュエーションを想定します. はじめにテキストをAIモデルに分類させ,ワーカはその回答の正誤を判定します. タスクの回答データは - Amazon Mechanical Turkでクラウドソーシング実験を実施し - タスク100件の回答をワーカ100人から収集します [順序] ・ニュース記事の分類タスクを設計 Aiモデルの回答を判定するタスク ・AMTでタスクを依頼, 回答を集める ワーカ100人,100タスク
  22. ・収集したワーカの回答結果を用いて割当てシミュレーションを実行します. シミュレーションではテストタスクを60件とし,残り40件のタスクとワーカ20人に割り当てを実行します. ・割当て結果について正解率と割り当てタスク数の分散を計算し,割当て結果を評価します. その後,正解率のthresholdを更新して次の割当てを実行します.
  23. 実験では提案手法と2つのバースラインを比較します. 比較のポイントは: 提案手法は (1) タスク割当て結果の正解率(Accuracy)を高く維持できるか? (2) ワーカ間の労働負荷分散(タスク数のVariance)を小さく抑えられるか? 1つめのベースラインtopはテストタスクの平均正解率上位5人にのみ割当てる手法で,タスクの正解率は高いものの労働負荷分散が大きくなる手法です. 2つめのベースラインrandomはランダムにワーカを選択する手法で, タスクの正解率が低い代わりに労働負荷分散を小さくできる手法です. そして,提案手法(ours)は能力と難易度に基づき,ワーカ間でタスクを分担させる割当てで, タスクの正解率をどれほど高く, 労働負荷分散をどれだけ小さくできるかを検証します.
  24. 次にRQ1の検証結果を説明します.
  25. RQ1の検証で用いた手法では高品質のタスク結果,また小さい労働負荷分散を維持できます. 提案手法の割当て結果の品質はthresholdがとともに高くなり,random, topよりも高くなっています. また労働負荷分散はtop割当てよりも大幅に小さくできています.
  26. RQ1の実験結果について考察します. 横軸が割当てられたタスクの難易度と,縦軸が割当先ワーカの実際のスキルをあらわしています. 能力の低いワーカに簡単なタスク, 能力の高いワーカに難しいタスクをを割当てことができています. したがって,RQ1: 正しいワーカ能力・タスク難易度に基づく割当てでは品質を維持しながらワーカ間でタスクを分担可能 にはポジティブな結果が得られたと言えます.
  27. 次にRQ2の検証結果を説明します.
  28. RQ2の検証で用いた手法はある程度高品質の結果,労働負荷分散を維持できます. 結果品質はrandom割当てより高く,労働負荷分散をtop割当てよりも小さく抑えることができます. (赤) 提案手法の割当て (青) 上位N人にのみ割当て(N=5) (緑) ランダムな割当て
  29. RQ2の検証結果について考察します. RQ2では割当てタスクの難易度をAIモデルの回答から推定しましたが,用いた手法では提案手法ではワーカとタスクのミスマッチが起こります. 以下の散布図より,簡単なタスクを能力の高いいワーカに割当てていることで労働負荷の集中が起き,難しいタスクを能力の低いワーカに割当てていることで正解率の低下が引き起こされていると考えられます. したがって,RQ2:「」にたいしては,タスク難易度の推定精度に課題があるということができます.
  30. 本発表の要点です。 現在の研究内容について, その背景, 目的, 提案手法, そして評価実験の結果と考察について説明します. 全体: この発表内容をもとに再構成 背景:白書・調査のデータ引用 ~ significancyをアピール リサーチクエスチョンを説明 ・関連研究: ほかの手法との関係を明らかにする RQ1に対し,全IRTの結果でアンサー RQ2に対し,提案手法で応える. 提案手法説明: もう少し説明追加(考察の散布図を参考に)
  31. 関連研究です. 関連研究として結果品質と割当て効率の向上を目的に ワーカがタスクに正答できる確率を推定した上で割当てる手法があります. 本研究では正解率とタスクの分担を両立を目的とすし,ワーカの能力を用いた割当てを実行します. また,正解率とタスクの分担を両立を目的にワーカ能力, タスクに必要な能力が与えられた状態で割当てる手法があります. 本研究では正解率とタスクの分担を両立を目的に  ワーカ能力,タスク難易度を推定した上で割当てる手法を提案します.
  32. 本発表のまとめと今後の課題です。 今後の課題として 1. タスクの特徴量を利用して難易度を推定するモデルの構築 2. 多次元のスキルを評価した割当て 3. 割当てタスク数以外の要素を考慮した労働負荷分散手法 の提案を検討しています. 
  33. 本発表のまとめです。 以上で発表を終わります。
  34. 本発表のまとめです。 以上で発表を終わります。
  35. 本発表のまとめです。 以上で発表を終わります。