Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
HK
Uploaded by
Hiroshi Kajino
1,089 views
20130605-JSAI2013
Oral presentation at JSAI 2013
Read more
2
Save
Share
Embed
Embed presentation
1
/ 23
2
/ 23
3
/ 23
4
/ 23
5
/ 23
6
/ 23
7
/ 23
8
/ 23
9
/ 23
10
/ 23
11
/ 23
12
/ 23
13
/ 23
14
/ 23
15
/ 23
16
/ 23
17
/ 23
18
/ 23
19
/ 23
20
/ 23
21
/ 23
22
/ 23
23
/ 23
More Related Content
PDF
20130304-DEIM2013
by
Hiroshi Kajino
PDF
プライバシ保護クラウドソーシング
by
Hiroshi Kajino
PPTX
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
by
Daiyu Hatakeyama
PDF
(道具としての)データサイエンティストのつかい方
by
Shohei Hido
PDF
Understanding Blackbox Predictions via Influence Functions
by
harmonylab
PPTX
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
by
harmonylab
PDF
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
by
harmonylab
PPTX
Variational Template Machine for Data-to-Text Generation
by
harmonylab
20130304-DEIM2013
by
Hiroshi Kajino
プライバシ保護クラウドソーシング
by
Hiroshi Kajino
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
by
Daiyu Hatakeyama
(道具としての)データサイエンティストのつかい方
by
Shohei Hido
Understanding Blackbox Predictions via Influence Functions
by
harmonylab
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
by
harmonylab
Trainable Calibration Measures for Neural Networks from Kernel Mean Embeddings
by
harmonylab
Variational Template Machine for Data-to-Text Generation
by
harmonylab
What's hot
PPTX
参加型センシングの多次元データに対するプライバシー保護データマイニング
by
Shunsuke Aoki
PPTX
Feature engineering for predictive modeling using reinforcement learning
by
harmonylab
PPTX
Xgboost for share
by
Shota Yasui
PPTX
データアカデミー・エッセンス(東京)2
by
Hiroyuki Ichikawa
PDF
いまさら聞けない機械学習の評価指標
by
圭輔 大曽根
PDF
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
by
Takashi J OZAKI
参加型センシングの多次元データに対するプライバシー保護データマイニング
by
Shunsuke Aoki
Feature engineering for predictive modeling using reinforcement learning
by
harmonylab
Xgboost for share
by
Shota Yasui
データアカデミー・エッセンス(東京)2
by
Hiroyuki Ichikawa
いまさら聞けない機械学習の評価指標
by
圭輔 大曽根
「データサイエンティスト・ブーム」後の企業におけるデータ分析者像を探る
by
Takashi J OZAKI
Similar to 20130605-JSAI2013
PDF
SOINN-AM
by
SOINN Inc.
PDF
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
by
SSII
PPTX
DEIM2022_根岸寛太.pptx
by
KantaNegishi1
PPTX
Generalized Long-Tailed Classification解説
by
Plot Hong
PPTX
Image net classification with Deep Convolutional Neural Networks
by
Shingo Horiuchi
PDF
人工知能はどんな夢を見るか?
by
Taichi Kiwaki
PDF
自然言語処理におけるクラウドソーシングの活用 (2017/06/15 みちのく情報伝達学セミナー)
by
Naoki Otani
PDF
人工知能技術のエンタープライズシステムへの適用
by
Miki Yutani
PDF
Introduction to ensemble methods for beginners
by
Shinsaku Kono
PDF
ICRA2020 Open Survey
by
robotpaperchallenge
PDF
深層学習入門
by
Danushka Bollegala
PDF
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
by
ARISE analytics
PDF
SSA-SOINN
by
SOINN Inc.
PPTX
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
PDF
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
by
Preferred Networks
PDF
ロボットによる一般問題解決
by
SOINN Inc.
PPTX
2021 09 29_dl_hirata
by
harmonylab
PPTX
Learning in a small world
by
Shingo Horiuchi
PDF
NGK2022S
by
陽平 山口
PDF
SIAI2020
by
陽平 山口
SOINN-AM
by
SOINN Inc.
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
by
SSII
DEIM2022_根岸寛太.pptx
by
KantaNegishi1
Generalized Long-Tailed Classification解説
by
Plot Hong
Image net classification with Deep Convolutional Neural Networks
by
Shingo Horiuchi
人工知能はどんな夢を見るか?
by
Taichi Kiwaki
自然言語処理におけるクラウドソーシングの活用 (2017/06/15 みちのく情報伝達学セミナー)
by
Naoki Otani
人工知能技術のエンタープライズシステムへの適用
by
Miki Yutani
Introduction to ensemble methods for beginners
by
Shinsaku Kono
ICRA2020 Open Survey
by
robotpaperchallenge
深層学習入門
by
Danushka Bollegala
Hierarchical Metadata-Aware Document Categorization under Weak Supervision (...
by
ARISE analytics
SSA-SOINN
by
SOINN Inc.
Semi supervised, weakly-supervised, unsupervised, and active learning
by
Yusuke Uchida
東大大学院 電子情報学特論講義資料「深層学習概論と理論解析の課題」大野健太
by
Preferred Networks
ロボットによる一般問題解決
by
SOINN Inc.
2021 09 29_dl_hirata
by
harmonylab
Learning in a small world
by
Shingo Horiuchi
NGK2022S
by
陽平 山口
SIAI2020
by
陽平 山口
More from Hiroshi Kajino
PDF
Graph generation using a graph grammar
by
Hiroshi Kajino
PPTX
化学構造式のためのハイパーグラフ文法(JSAI2018)
by
Hiroshi Kajino
PDF
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
by
Hiroshi Kajino
PDF
Active Learning for Multi-relational Data Construction
by
Hiroshi Kajino
PDF
能動学習による多関係データセットの構築
by
Hiroshi Kajino
PDF
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
by
Hiroshi Kajino
PDF
Preserving Worker Privacy in Crowdsourcing
by
Hiroshi Kajino
PDF
20130716 aaai13-short
by
Hiroshi Kajino
Graph generation using a graph grammar
by
Hiroshi Kajino
化学構造式のためのハイパーグラフ文法(JSAI2018)
by
Hiroshi Kajino
能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)
by
Hiroshi Kajino
Active Learning for Multi-relational Data Construction
by
Hiroshi Kajino
能動学習による多関係データセットの構築
by
Hiroshi Kajino
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
by
Hiroshi Kajino
Preserving Worker Privacy in Crowdsourcing
by
Hiroshi Kajino
20130716 aaai13-short
by
Hiroshi Kajino
20130605-JSAI2013
1.
ワーカーの類似性を考慮した クラウドソーシングデータからの学習 梶野 洸1, 坪井
祐太2, 鹿島 久嗣1 1: 東京大学大学院情報理工学系研究科 2: IBM東京基礎研究所 6/5/2013 1人工知能学会全国大会 “Clustering Crowds” to appear in AAAI-13
2.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 2
3.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 3
4.
クラウドソーシング • クラウドソーシング 不特定多数の人に仕事を依頼する仕組み 人の知恵が必要な仕事を短時間・大量・安価に処理可能 ワーカー(の能力)が未知⇒得られる成果物の品質は未知 6/5/2013 人工知能学会全国大会
4 不特定多数のワーカーに仕事を依頼できるが成果物の品質は未知 ワーカー依頼者 2. 成果物を返す 1. 仕事を依頼 3. 代金を支払
5.
ラベル付けタスクの例 • 画像が鳥なら1、それ以外に0とラベルを付けるタスク – 教師あり学習の教師データを低コストで作成可能 –
得られる教師データの品質は不明 6/5/2013 人工知能学会全国大会 5 ワーカーの能力に依存して得られるラベルの品質が異なる 難 易 優 劣 真のラベル (観測されない) 1 1 1 1 1 1 0 0 1 0 1 0
6.
ラベル付けタスクの例 • 画像が鳥なら1、それ以外に0とラベルを付けるタスク – 教師あり学習の教師データを低コストで作成可能 –
得られる教師データの品質は不明 6/5/2013 人工知能学会全国大会 6 ワーカーの能力に依存して得られるラベルの品質が異なる 難 易 優 劣 真のラベル (観測されない) 1 1 1 1 1 1 0 0 1 0 1 0 なんとかしたい!
7.
本研究で扱う問題 • 入力 – 特徴ベクトル
: xi ∈RD (i=1,…,I) – ワーカー : j ∈{1,2,…,J} – クラウドラベル: yij ∈{0,1} • 出力 – データ識別平面の法線ベクトル w0∈RD (w0 Txi>0 ⇔yi=1) • アプローチ: 1. 真の識別器とクラウドラベルの関係をモデル化 2. モデルの推定を通じて真の識別器を得る 6/5/2013 人工知能学会全国大会 7 クラウドソーシングで得たデータから識別器を推定する 鳥 or 非鳥 w0 真の識別器
8.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 8
9.
既存手法(1):潜在ラベル法 • 潜在ラベル法[Raykar+,2010] – 各ワーカー=正答率でモデル化 –
EMアルゴリズムで w0, αj, βj (正答率)を推定 6/5/2013 人工知能学会全国大会 9 真のラベルを介して真の識別器をモデル化する yixi w0 yi1 yi2 yi3 特徴 ベクトル 真の識別器 (ロジスティック回帰) 真のラベル クラウドラベル αj = p(yij=1 | yi=1) βj = p(yij=0 | yi=0) 既知 未知 N(w0 | 0, η-1I) 事前分布
10.
既存手法(2): 識別器統合法 • 識別器統合法[梶野+,12] –
ワーカー j =パラメタ wj の識別器 – wj = w0 + ガウスノイズ 6/5/2013 人工知能学会全国大会 10 識別器でモデル化されたワーカーを統合して真の識別器を推定 各ワーカーのモデル w0 yi2 yi1 真の識別器 クラウド ラベル w1 w2 w3 yi3 N(w0 | 0, η-1I) j=2 j=3 j=1 事前分布 既知 未知
11.
• 識別器統合法 – w0,
W={wj}J j=1に関して事後確率最大化 – 凸最適化問題となる 既存手法(2): 識別器統合法 6/5/2013 人工知能学会全国大会 11 パラメタ推定は凸最適化問題となる 真の識別器: w0 各ワーカー: wj min w0, W 事前分布モデル間の 関係 クラウドラベルに 適応する損失項 (通常のロジスティック損失)(J人分)
12.
既存手法まとめ • 潜在ラベル法 – 各ワーカーのパラメタ数=2 –
長所: 1人あたりのデータ数はあまり要らない – 短所: 局所解に陥りやすい • 識別器統合法 – 各ワーカーのパラメタ数=D (次元) – 長所: 大域的最適解が保証されている – 短所: 1人あたりのデータ数が少ないと学習が不安定 6/5/2013 人工知能学会全国大会 12 いずれの手法も学習が安定しない場合が存在する
13.
既存手法まとめ • 潜在ラベル法 – 各ワーカーのパラメタ数=2 –
長所: 1人あたりのデータ数はあまり要らない – 短所: 局所解に陥りやすい • 識別器統合法 – 各ワーカーのパラメタ数=D (次元) – 長所: 大域的最適解が保証されている – 短所: 1人あたりのデータ数が少ないと学習が不安定 6/5/2013 人工知能学会全国大会 13 いずれの手法も学習が安定しない場合が存在する この問題を 解決します
14.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 14
15.
提案手法: アイデア • Welinderら(2010)によるワーカーの解析 “ワーカーは似た能力を持つワーカー群に分類できる” –
この事前知識を活用 ⇒ データ数の問題の改善 – 識別器統合法を拡張してワーカーの類似度を考慮 (Welinder et al., The multidimensional wisdom of crowds, NIPS 2010 より引用) 6/5/2013 人工知能学会全国大会 15 ワーカーの類似性に注目するとクラスタリングができる 下記論文 Figure 6 がここに!!!
16.
提案手法: 定式化 • クラスタ化識別器統合法 –
似たワーカーのパラメタをくっつける正則化を導入 – μを大きくすると似たワーカーのパラメタが等しくなる →実質的に有効なパラメタ数を削減 6/5/2013 人工知能学会全国大会 16 類似したワーカーを自動で探し出しパラメタを共有させる wj = wkにする効果 事前分布モデル間の 関係 クラウドラベルに 適応する損失項 (cf. 従来手法では )
17.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 17
18.
人工データを用いた数値実験 • 潜在ラベルモデルに従うデータ(J=I=10, 二種類のワーカー) L)
次元 D=2 : 識別器統合法 = クラスタ化識別器統合法 R) 次元D=10 : 識別器統合法 < クラスタ化識別器統合法 6/5/2013 人工知能学会全国大会 18 データ数に対して次元が高い場合の性能を改善 劣ったワーカーの割合 劣ったワーカーの割合 類似性◯ 類似性×
19.
実データを用いた数値実験 • 実データを用いた比較 – NER
タスク(各単語が固有表現かどうかを判別) – 次元D=161,901, データ数 I=17,747, ワーカー数 J=42 6/5/2013 人工知能学会全国大会 19 クラスタ化識別器統合法が最も高い性能を示した 適合率 再現率 F値 クラスタ化 識別器統合法 0.647 0.716 0.680 識別器統合法 0.637 0.721 0.677 潜在ラベル法 0.625 0.732 0.675 単純学習法 0.680 0.670 0.675 多数決法 0.686 0.651 0.668 既存手法2 既存手法1 提案手法
20.
実データを用いた数値実験 • μを変化させると階層的クラスタリングと同効果が得られる • 正解なしで異常なワーカーを検出可能 6/5/2013
人工知能学会全国大会 20 クラスタリング結果から異常なワーカーを検出 Precision: 0.454 Recall: 0.857 クラスタ化の強さ→
21.
概要 • クラウドソーシングとその問題 クラウドソーシングでは成果物の品質が問題となる • 既存手法 品質不明の教師データから学習を行う •
提案手法概要 ワーカーの類似性に注目して学習を行う • 実験結果 人工データ、実データで安定した学習が実現された • まとめ 6/5/2013 人工知能学会全国大会 21
22.
まとめ • 問題設定 – 品質不明の冗長な教師データからの学習 •
既存手法(識別器統合法)の問題点 – パラメタ数が多くなりがち – 1人あたりのデータが少ないと学習が不安定になる • 提案手法(クラスタ化識別器統合法) – 似たワーカーをくっつけ、有効なパラメタ数を削減 • 実験結果 – 1人あたりのデータが少ない場合でも安定して学習可能 – ワーカーのクラスタリング手法としても有用 6/5/2013 人工知能学会全国大会 22 ワーカーの類似度を考慮することでより安定した学習を実現
23.
6/5/2013 人工知能学会全国大会 23