SlideShare a Scribd company logo
1 of 75
Download to read offline
機械学習のアノテーションにおけるデータ収集
~精度向上のための仕組み・倫理や社会性バイアス~
2021.6.11
藤本 敬介(ABEJA)
Copyright © ABEJA, Inc. All rights reserved
自己紹介
2
名前:
所属:
役割:
研究分野:
藤本 敬介
ABEJA, Labs
Researcher
機械学習
コンピュータビジョン
音声
自然言語処理
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
3
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
4
Copyright © ABEJA, Inc. All rights reserved
機械学習とアノテーション
教師あり学習
5
教師なし学習
Dog / Cat
Copyright © ABEJA, Inc. All rights reserved
機械学習とアノテーション
• 教師あり学習では、人手で学習データに予め正解の情報を与えておく
• この作業を「アノテーション」と呼ぶ
6
Dog
Cat
画像認識タスクでの例:
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:画像認識
7
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:物体検出
8
Copyright © ABEJA, Inc. All rights reserved
アノテーションの例:セグメンテーション
9
Copyright © ABEJA, Inc. All rights reserved
アノテーションの手段について
• 自身で実施
• クラウドソーシング
• アノテーションサービスの利用
10
Copyright © ABEJA, Inc. All rights reserved
クラウドソーシング
• WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事
を依頼できる
• Amazon Mechanical Turk (MTurk)などが有名
• Deep Learningの多くの研究においてMTurkを利用してのデータセット作り
が行われている
• 研究で利用するような様々なタスクが依頼できる
11
Copyright © ABEJA, Inc. All rights reserved
アノテーションサービス
• 各社で展開されているアノテーションのサービス
• アノテーションの作業者を自動で確保してくれる
• タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い
12
AI Platform Data Labeling Service Amazon SageMaker Ground Truth
Copyright © ABEJA, Inc. All rights reserved
機械学習におけるデータの大切さ
機械学習モデルは、学習に用いたデータにより挙動が決まる
機械学習の手法と同様に、データの量・質が大切
13
機械学習モデル = 「手法」 x 「データ」
Copyright © ABEJA, Inc. All rights reserved
良いデータ・悪いデータで学習した場合の比較
• クリーンなデータに対する大量のアノテーションが精度に寄与
14
顔認証における研究の例
過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、
これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成
一般物体認識のロバスト性の例
ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし
なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆
Copyright © ABEJA, Inc. All rights reserved
データ量が不十分であった場合の実験
15
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
• CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき
の精度の比較
CIFAR10 CIFAR100
Copyright © ABEJA, Inc. All rights reserved
正解ラベルにノイズが入っていた場合での実験
16
• CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた
ときの精度の比較
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
CIFAR10 CIFAR100
Copyright © ABEJA, Inc. All rights reserved
質の悪いデータをなくすための方針
• データ収集の際のデータの質の向上
• データの質に対してロバストな技術の適用
• アノテーション補助技術やサービスの利用
17
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
18
Copyright © ABEJA, Inc. All rights reserved
アノテーションにおける課題
• 大きな人的コスト
• 質や精度の担保
• ワーカーマネージメント
• ツール作成やデータ管理
19
Copyright © ABEJA, Inc. All rights reserved
データセットやアノテーションに関する関連研究
20
アノテーションの補助
データセットの作成 モデルの高精度化
Object Detection
Semantic Segmentation
Apparent Age Estimation Using Ensemble
of Deep Learning Models
Regularized Estimation of Annotator Confusion
Copyright © ABEJA, Inc. All rights reserved
論文紹介: ObjectNet: A large-scale bias-controlled dataset for
pushing the limits of object recognition models (NIPS2019)
• ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ
る物体の回転や背景、視点のランダム性をコントロール
• 無作為なデータセットではなく、バリエーションの種類をコントロールする
ことで、認識する上で望ましいデータとなる
21
Copyright © ABEJA, Inc. All rights reserved
論文紹介:We don’t need no bounding-boxes: Training object
class detectors using only human verification (CVPR 2016)
• 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき
るフレームワークの提案
• BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を
出せるようにしていく
22
• 回答の際に、BBに対して、
Yes/Part/Container/Mixed/Miss
ed Verificationといった複数の
カテゴリに分けることで、効
率的な学習が可能
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Training object class detectors with click
supervision (CVPR 2017)
• 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出
を行えるようにするための方針
• その情報からBBの高さや幅を機械学習モデルを用いて予測し、 アノテータ
ーの作業時間を9〜18倍改善
23
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Extreme clicking for efficient object
annotation (CVPR 2017)
• BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで
アノテーションを行うExtreme Clickingという手法の提案
• 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ
ンを実現
24
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Large-scale interactive object segmentation
with human annotators (CVPR 2019)
• モデルが出力したセグメンテーション結果を、マウスクリックによりインタ
ラクティブに修正していく
• 250万枚もの大量のセグメンテーションのアノテーションデータを作成、
COCOデータにおいて既存より3倍速いアノテーションを実現
25
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Crowdsourcing Annotations for Visual Object
Detection (AAAI 2012)
• クラウドソーシングで複数人に重複してタ
スクを割り当てるのは高コスト
• この研究ではタスクを3つのマイクロタス
クに分割する(Draw / Quality Verification /
Coverage Verification)ことを提案
• 不特定多数のいるクラウドソーシングにお
いてマイクロタスクの有用性を示した
26
https://tech-blog.abeja.asia/entry/annotation-survery
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Modeling Human Annotation Errors to Design Bias-
Aware Systems for Social Stream Processing (ASONAM 2019)
• アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し
てしまう
• ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動
学習を提案
• アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来
るようになる
27
Copyright © ABEJA, Inc. All rights reserved
アノテーションにおける精度の課題
• 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし
て、それを効率化する事を目的としている
• 実際は人手によるアノテーションの精度自体の担保が難しい
• アノテーター毎のスキルのバラツキ
• アノテーションをする基準の曖昧さ
• そもそもアノテーションが困難な問題設定
28
Copyright © ABEJA, Inc. All rights reserved 29
Copyright © ABEJA, Inc. All rights reserved
アノテーションの精度の重要性
• アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、
テストデータに適合しているだけになる
• アノテーションが正しく行われる必要がある中で、その精度を高めることが
課題
30
Copyright © ABEJA, Inc. All rights reserved
アノテーションに関する商用サービスの利用
• 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう
サービス
• 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要
• ABEJA社内でのアノテーション作業の工夫点を紹介
31
Copyright © ABEJA, Inc. All rights reserved
アノテーションの作業フロー
• 品質を上げるため、下記のような様々な取り組みを行っている
32
教師データの作成・準備 トライアル アノテーション実施 最終確認・納品
• アノテーションの要
件定義
• アノテーションマニ
ュアル
• 作成・アップロード
• データのアップロー
ド
• トライアル結果の
確認
• アノテーターから
の質疑回答
• アノテーション
• 随時、質疑への回答
• 結果の確認
• アノテーション結果
の納品
Copyright © ABEJA, Inc. All rights reserved
アノテーション体制の構築
• アノテーション専任のPMのアサイン
• 大量のアノテーション人員の確保
• 結果レビュー体制の構築
33
Copyright © ABEJA, Inc. All rights reserved
アノテーションのセキュリティ
• 運用面
• セキュリティセンターでの作業の実施
• システム面
• データセンタのセキュリティ
• 通信の保護
• データの保護
• 認証・認可
34
Copyright © ABEJA, Inc. All rights reserved
アノテーションに関する詳細な要件定義
• 通常、アノテーターによって、ラベルのブレが発生しやすい
• アノテーション開始前にマニュアルを作成し、均一の水準になるようにする
35
Copyright © ABEJA, Inc. All rights reserved
アノテーション結果のレビュー制度
• アノテーションの課題
• アノテーターによっては定義を理解していない場合がある
• 雑なアノテーションがされる場合がある
• アノテーション結果を人手で確認するフローを入れる
36
• レビュアーは結果を確認して差し戻し/完了を選択
• 差し戻す場合はコメントを入れることにより以降のア
ノテーションの品質向上に寄与
Copyright © ABEJA, Inc. All rights reserved
重複アノテーションによるバラツキの抑制
• アノテーターをアサインする際に一つのデータに対して、複数回のアノテー
ションを行うケースもある
• 重複してアノテーションすることで、アノテーター間のバラツキを抑制
37
利用例:
• Apparent Age Estimation Using Ensemble of
Deep Learning Models
• 顔画像からの年齢推定において、複数のアノテ
ーションを利用して、バラツキを低減
Copyright © ABEJA, Inc. All rights reserved
本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
38
Copyright © ABEJA, Inc. All rights reserved
社会性・バイアスについて
• 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある
• 性別や人種の違いによって望ましくない結果を出力
• 自動運転や医療のシステムにおいて事故を起こしてしまう
• 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ
アスが含まれると問題が発生してしまう
39
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:Microsoft’s Tay
40
• Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった
• 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と
考えられている
https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:
Google Photosが黒人をゴリラと誤認識
41
https://twitter.com/jackyalcine/status/615329515909156865
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:
Amazonの履歴書チェックAIの女性差別問題
• Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当
に差別していることが発覚し、開発中止。
• 学習に使用した過去の履歴書データは
男性のものが多く、テクノロジー企業には
男性が多いというバイアスを反映して
しまっていた。
42
https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-
secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
Copyright © ABEJA, Inc. All rights reserved
バイアスが問題になった例:Gender Shades
• 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま
う。
学習に使用されたデータセットに
含まれる性別・人種の分布に偏りが
あるせいだと考えられる。
43
http://gendershades.org/overview.html
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• 教師あり学習のロジック
1. 解決したい具体的なタスクを定義し、データを集める
2. データにアノテーションをする
3. モデルを設計する
4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化
44
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• 機械学習は、生まれたばかりの赤ちゃん(=モデル)に、ひたすら限定的な
情報(データ+アノテーション)だけを提示し続けて学ばせるようなもの
• モデルにとっては得られる情報が全てであり、データに含まれない一般常識
(例えば、善悪・差別など)は学習されない
45
Copyright © ABEJA, Inc. All rights reserved
バイアスが発生する要因
• ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る
46
Copyright © ABEJA, Inc. All rights reserved
各プロセスにおけるバイアス
• データに関するバイアス
• 学習に用いるために収集したデータに内在するバイアス
• 収集したデータにアノテーションする際に発生するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
47
Copyright © ABEJA, Inc. All rights reserved
各プロセスにおけるバイアス
• データに関するバイアス
• 学習に用いるために収集したデータに内在するバイアス
• 収集したデータにアノテーションする際に発生するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
48
Copyright © ABEJA, Inc. All rights reserved
データ収集に起因するバイアス
• データ収集・アノテーション時に発生するバイアス、学習・評価に影響する
49
Copyright © ABEJA, Inc. All rights reserved
顔画像処理におけるデータ選択バイアス
• 研究で使われているデータセットは西洋人(最近では中国人も)が多い
• データセットにあまり含まれない人種の精度は低くなる
50
Copyright © ABEJA, Inc. All rights reserved
顔画像処理におけるデータ選択バイアス
• 年齢推定だと、20-40歳に分布が集中
• 子供や高齢者に対する推定精度が低くなりがち
51
Copyright © ABEJA, Inc. All rights reserved
CVPR2019 Workshop: Bias Estimation in Face Analysis
(BEFA)
バイアス問題は、学会でも注目されている
52
Goal
• 顔認識や顔属性推定におけるバイアス
を特定する最新手法の評価
• バイアスを考慮した、もしくはバイアス
に依存しないモデルづくりの促進
• 顔の解析におけるバイアスについての
分野横断的な議論
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスの難しさ
• データセットの作られやすい対象の方が優先されやすいため、マジョリティ
が優先されやすい構造となる
• マイノリティデータをどのように集めて学習に使えるようにするか
• 多様なマイノリティの存在を気づくこと自体が難しい
• 社会的背景によりマイノリティとなっているデータはそもそも収集するこ
とが難しいことがある、プライバシー保護の観点との衝突
53
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
54
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
55
Copyright © ABEJA, Inc. All rights reserved
データセットのバイアスについて
• 学習に用いるために収集したデータに内在するバイアス
• データ収集の都合で発生することが多い
• 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ
うに無害なものまで多様にあり得る
• 収集したデータにアノテーションする際に発生するバイアス
• アノテーターの判断基準のバラツキ
• 悪意あるアノテーターの作成したデータ
56
Copyright © ABEJA, Inc. All rights reserved
データセットのバイアスへの対策について
• データのバイアスを検出するロジックを利用する
• バイアスを無くす学習手法を利用する
• バイアスなどを社会学的に体系化し、可能な限りデータを整理する
57
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Representation Learning with Statistical
Independence to Mitigate Bias (WACV2021)
• データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ
セットから公平な学習を行おうとするアプローチ
• タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる
ように、敵対的学習に基づいてモデルを学習
58
Copyright © ABEJA, Inc. All rights reserved
論文紹介: Learning From Noisy Labels By Regularized
Estimation of Annotator Confusion (CVPR 2019)
• アノテーターの特性を学習することでノイジーなラベルから真の分布を見出
すアプローチ
• 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と
して推定
59
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Are We Modeling the Task or the Annotator? An
Investigation of Annotator Bias in Natural Language
Understanding Datasets (ACL2019)
• 文章理解タスクにおけるアノテーターによるバイアスを調査
• 特に質の高い少数のアノテーターに大量の文を生成させると、データの多
様性の問題が起きやすい
• アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、
アノテーターのバイアスが学習されることを示唆する
• テストセットのアノテーターはトレーニングセットのアノテーターとは別に
するべきであるという提案がされている
60
Copyright © ABEJA, Inc. All rights reserved
論文紹介:REVISE: A Tool for Measuring and Mitigating
Bias in Visual Datasets (ECCV2020)
• データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化
• オブジェクト、ジェンダー、ジオグラフィー
• バイアスを軽減するためのステップを提案し、ユーザーを支援
61
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Towards Fairer Datasets: Filtering and Balancing the
Distribution of the People Subtree in the ImageNet Hierarchy
• ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある
ことを調査
• アノテーションの方針を設計し直し、バイアスを取り除く試みを行った
62
一番上段がオリジナルのデータ、
以下は、それぞれ性別・肌・年齢に関して
のバランスを取ったデータ
Copyright © ABEJA, Inc. All rights reserved
LaMDAにおける倫理性
• Google社による対話システム(Google I/O 2021で発表)
• AI原則に反した誤用を避けるように注意をして提供している
63
https://www.tensorflow.org/responsible_ai
Copyright © ABEJA, Inc. All rights reserved
オープンソースにおける対策
Tensorflow
• 責任ある機械学習モデルを作
るための様々な仕組みを内包
• 公平性、プライバシー、解
釈可能性、セキュリティ
64
Pytorch
• 公平性を導入するライブラリ
• 人工統計的均衡性などに基づい
て公正なモデルを構築
Copyright © ABEJA, Inc. All rights reserved
論文紹介:Toward a better trade-off between performance and
fairness with kernel-based distribution matching (2019)
• 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ
ナルティを与える
• カーネルベースのアプローチにより、性能と精度のトレードオフを改善
65
Maximum Mean Discrepancy
・・・カーネル空間における平均の差
Copyright © ABEJA, Inc. All rights reserved
データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
66
Copyright © ABEJA, Inc. All rights reserved
モデルの推論根拠の理解・解析について
• データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな
い場合になったとして、その理由の理解や説明が求められることもある
• これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ
ったり、人間が期待する推論プロセスを踏んでいないこともある
67
Copyright © ABEJA, Inc. All rights reserved
解釈可能なDNNに付いての研究
DNNの推論プロセスを可視化し、解釈することを目指す研究
68
Copyright © ABEJA, Inc. All rights reserved
DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
69
Copyright © ABEJA, Inc. All rights reserved
DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
70
Copyright © ABEJA, Inc. All rights reserved
推論根拠の提示
• 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる
71
Copyright © ABEJA, Inc. All rights reserved
ImageNetで学習されたモデルはテクスチャーを見る
• ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー
をもとに推論しがちであることが明らかになった。
72
Copyright © ABEJA, Inc. All rights reserved
バイアスに関する展望
• 機械学習を実用化するためには、これまで述べたようなデータのバイアスに
気をつける必要がある
• 挙動を制御できないため、予期せぬ結果になることもしばしばある
• 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ
ながら、正しくデータを作成する必要がある
• 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切
• 顔認識をする場合などは利用の許諾なども必要
73
Copyright © ABEJA, Inc. All rights reserved
まとめ
• アノテーションの重要性、技術、バイアスについて述べた
• アノテーションの速度・精度を向上させるための技術は多数存在する
• タスクの難易度に応じ、適切に技術を選定する
• 大量でクリーンなデータを用意することは重要であるが、今後、その上で更
に公平・構成なデータとなるように気をつける必要ある
74
Copyright © ABEJA, Inc. All rights reserved 75

More Related Content

What's hot

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? Deep Learning JP
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs Deep Learning JP
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話Yusuke Uchida
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language ModelsDeep Learning JP
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )cvpaper. challenge
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformercvpaper. challenge
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説tancoro
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争Yosuke Shinya
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成Yoshitaka Ushiku
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep LearningSeiya Tokui
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)Satoshi Hara
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925小川 雄太郎
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Yosuke Shinya
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...Deep Learning JP
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)RyuichiKanoh
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習Deep Learning JP
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係についてDeep Learning JP
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptxARISE analytics
 

What's hot (20)

【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks? 【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
【DL輪読会】How Much Can CLIP Benefit Vision-and-Language Tasks?
 
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs 【DL輪読会】Perceiver io  a general architecture for structured inputs & outputs
【DL輪読会】Perceiver io a general architecture for structured inputs & outputs
 
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
You Only Look One-level Featureの解説と見せかけた物体検出のよもやま話
 
【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models【DL輪読会】Scaling Laws for Neural Language Models
【DL輪読会】Scaling Laws for Neural Language Models
 
Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )Vision and Language(メタサーベイ )
Vision and Language(メタサーベイ )
 
【メタサーベイ】Video Transformer
 【メタサーベイ】Video Transformer 【メタサーベイ】Video Transformer
【メタサーベイ】Video Transformer
 
Triplet Loss 徹底解説
Triplet Loss 徹底解説Triplet Loss 徹底解説
Triplet Loss 徹底解説
 
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
 
画像キャプションの自動生成
画像キャプションの自動生成画像キャプションの自動生成
画像キャプションの自動生成
 
生成モデルの Deep Learning
生成モデルの Deep Learning生成モデルの Deep Learning
生成モデルの Deep Learning
 
CVPR 2018 速報
CVPR 2018 速報CVPR 2018 速報
CVPR 2018 速報
 
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
 
最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925最近のディープラーニングのトレンド紹介_20200925
最近のディープラーニングのトレンド紹介_20200925
 
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
SSII2021 [OS2-02] 深層学習におけるデータ拡張の原理と最新動向
 
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
Active Convolution, Deformable Convolution ―形状・スケールを学習可能なConvolution―
 
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
[DL輪読会]BERT: Pre-training of Deep Bidirectional Transformers for Language Und...
 
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
勾配ブースティングの基礎と最新の動向 (MIRU2020 Tutorial)
 
[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習[DL輪読会]相互情報量最大化による表現学習
[DL輪読会]相互情報量最大化による表現学習
 
[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について[DL輪読会]GQNと関連研究,世界モデルとの関係について
[DL輪読会]GQNと関連研究,世界モデルとの関係について
 
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
【論文読み会】BEiT_BERT Pre-Training of Image Transformers.pptx
 

Similar to SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎Preferred Networks
 
外部キー制約を考慮した特徴量削減手法
外部キー制約を考慮した特徴量削減手法外部キー制約を考慮した特徴量削減手法
外部キー制約を考慮した特徴量削減手法NTT Software Innovation Center
 
REBOKを社内展開する際の障壁
REBOKを社内展開する際の障壁REBOKを社内展開する際の障壁
REBOKを社内展開する際の障壁mkoszk
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」Shuji Morisaki
 
電子部品ビジネスの差別化に向けて(2004)
電子部品ビジネスの差別化に向けて(2004)電子部品ビジネスの差別化に向けて(2004)
電子部品ビジネスの差別化に向けて(2004)Tsuyoshi Horigome
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2gree_tech
 
iOSアプリの自動テストをはじめよう
iOSアプリの自動テストをはじめようiOSアプリの自動テストをはじめよう
iOSアプリの自動テストをはじめようToshiyuki Hirata
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルRecruit Technologies
 
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋Ayumu Aizawa
 
アジャイルソフトウェア開発における テスティングの課題およびその解決アプローチ
アジャイルソフトウェア開発におけるテスティングの課題およびその解決アプローチアジャイルソフトウェア開発におけるテスティングの課題およびその解決アプローチ
アジャイルソフトウェア開発における テスティングの課題およびその解決アプローチTetsuya Kouno
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてShuji Morisaki
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97圭輔 大曽根
 
ソフトウェア開発の現場風景
ソフトウェア開発の現場風景ソフトウェア開発の現場風景
ソフトウェア開発の現場風景Koichi ITO
 
ベイジアンネットワークモデリング勉強会20140206
ベイジアンネットワークモデリング勉強会20140206ベイジアンネットワークモデリング勉強会20140206
ベイジアンネットワークモデリング勉強会20140206Yoshihide Nishio
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめ
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめJenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめ
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめatsushi_tmx
 
「品質ダッシュボード」と「データによる意思決定」
「品質ダッシュボード」と「データによる意思決定」「品質ダッシュボード」と「データによる意思決定」
「品質ダッシュボード」と「データによる意思決定」Kohei Tomita
 

Similar to SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜 (20)

明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」  佐野正太郎
明治大学講演資料「機械学習と自動ハイパーパラメタ最適化」 佐野正太郎
 
ヒトの機械学習
ヒトの機械学習ヒトの機械学習
ヒトの機械学習
 
外部キー制約を考慮した特徴量削減手法
外部キー制約を考慮した特徴量削減手法外部キー制約を考慮した特徴量削減手法
外部キー制約を考慮した特徴量削減手法
 
REBOKを社内展開する際の障壁
REBOKを社内展開する際の障壁REBOKを社内展開する際の障壁
REBOKを社内展開する際の障壁
 
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
XP祭り関西2011 森崎 修司「プラクティスが有効にはたらく前提は明らかになっていますか?」
 
電子部品ビジネスの差別化に向けて(2004)
電子部品ビジネスの差別化に向けて(2004)電子部品ビジネスの差別化に向けて(2004)
電子部品ビジネスの差別化に向けて(2004)
 
DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2DataEngConf NYC’18 セッションサマリー #2
DataEngConf NYC’18 セッションサマリー #2
 
iOSアプリの自動テストをはじめよう
iOSアプリの自動テストをはじめようiOSアプリの自動テストをはじめよう
iOSアプリの自動テストをはじめよう
 
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアルリクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
リクルートテクノロジーズが語る 企業における、「AI/ディープラーニング」活用のリアル
 
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋
Ruby コミュニティの文化に学ぶエンタープライズシステム開発の処方箋
 
Oracle設計
Oracle設計Oracle設計
Oracle設計
 
アジャイルソフトウェア開発における テスティングの課題およびその解決アプローチ
アジャイルソフトウェア開発におけるテスティングの課題およびその解決アプローチアジャイルソフトウェア開発におけるテスティングの課題およびその解決アプローチ
アジャイルソフトウェア開発における テスティングの課題およびその解決アプローチ
 
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけてAgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
AgileTourOsaka2011 関係者に理解してもらえるアジャイル開発にむけて
 
論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97論文紹介@ Gunosyデータマイニング研究会 #97
論文紹介@ Gunosyデータマイニング研究会 #97
 
ソフトウェア開発の現場風景
ソフトウェア開発の現場風景ソフトウェア開発の現場風景
ソフトウェア開発の現場風景
 
ベイジアンネットワークモデリング勉強会20140206
ベイジアンネットワークモデリング勉強会20140206ベイジアンネットワークモデリング勉強会20140206
ベイジアンネットワークモデリング勉強会20140206
 
[Biz reach qa meetup] qa team_build
[Biz reach qa meetup] qa team_build[Biz reach qa meetup] qa team_build
[Biz reach qa meetup] qa team_build
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめ
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめJenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめ
Jenkins ユーザ・カンファレンス 2012 東京 S406-4/マルチステージ型継続的インテグレーションのすすめ
 
「品質ダッシュボード」と「データによる意思決定」
「品質ダッシュボード」と「データによる意思決定」「品質ダッシュボード」と「データによる意思決定」
「品質ダッシュボード」と「データによる意思決定」
 

More from SSII

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII
 

More from SSII (20)

SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
 
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜​
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
SSII2022 [TS2] 自律移動ロボットのためのロボットビジョン〜 オープンソースの自動運転ソフトAutowareを解説 〜
 
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習SSII2022 [OS3-04] Human-in-the-Loop 機械学習
SSII2022 [OS3-04] Human-in-the-Loop 機械学習
 
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けてSSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
SSII2022 [OS3-03] スケーラブルなロボット学習システムに向けて
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
SSII2022 [OS3-01] 深層学習のための効率的なデータ収集と活用
 
SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線SSII2022 [OS2-01] イメージング最前線
SSII2022 [OS2-01] イメージング最前線
 
SSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディングSSII2022 [OS1-01] AI時代のチームビルディング
SSII2022 [OS1-01] AI時代のチームビルディング
 
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
SSII2021 [SS2] Deepfake Generation and Detection – An Overview (ディープフェイクの生成と検出)
 
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
SSII2021 [SS1] Transformer x Computer Visionの 実活用可能性と展望 〜 TransformerのCompute...
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
SSII2021 [TS1] Visual SLAM ~カメラ幾何の基礎から最近の技術動向まで~
 
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
SSII2021 [OS3-03] 画像と点群を用いた、森林という広域空間のゾーニングと施業管理
 
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
SSII2021 [OS3-02] BIM/CIMにおいて安価に点群を取得する目的とその利活用
 
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
SSII2021 [OS3-01] 設備や環境の高品質計測点群取得と自動モデル化技術
 
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
SSII2021 [OS3] 広域環境の3D計測と認識 ~ 人が活動する場のセンシングとモデル化 ~(オーガナイザーによる冒頭の導入)
 
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
SSII2021 [OS2-03] 自己教師あり学習における対照学習の基礎と応用
 
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメントSSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
SSII2021 [OS1-03] エネルギーの情報化:需要家主体の分散協調型電力マネージメント
 

Recently uploaded

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (8)

論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

SSII2021 [TS3] 機械学習のアノテーションにおける データ収集​ 〜 精度向上のための仕組み・倫理や社会性バイアス 〜

  • 2. Copyright © ABEJA, Inc. All rights reserved 自己紹介 2 名前: 所属: 役割: 研究分野: 藤本 敬介 ABEJA, Labs Researcher 機械学習 コンピュータビジョン 音声 自然言語処理
  • 3. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 3
  • 4. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 4
  • 5. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション 教師あり学習 5 教師なし学習 Dog / Cat
  • 6. Copyright © ABEJA, Inc. All rights reserved 機械学習とアノテーション • 教師あり学習では、人手で学習データに予め正解の情報を与えておく • この作業を「アノテーション」と呼ぶ 6 Dog Cat 画像認識タスクでの例:
  • 7. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:画像認識 7
  • 8. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:物体検出 8
  • 9. Copyright © ABEJA, Inc. All rights reserved アノテーションの例:セグメンテーション 9
  • 10. Copyright © ABEJA, Inc. All rights reserved アノテーションの手段について • 自身で実施 • クラウドソーシング • アノテーションサービスの利用 10
  • 11. Copyright © ABEJA, Inc. All rights reserved クラウドソーシング • WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事 を依頼できる • Amazon Mechanical Turk (MTurk)などが有名 • Deep Learningの多くの研究においてMTurkを利用してのデータセット作り が行われている • 研究で利用するような様々なタスクが依頼できる 11
  • 12. Copyright © ABEJA, Inc. All rights reserved アノテーションサービス • 各社で展開されているアノテーションのサービス • アノテーションの作業者を自動で確保してくれる • タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い 12 AI Platform Data Labeling Service Amazon SageMaker Ground Truth
  • 13. Copyright © ABEJA, Inc. All rights reserved 機械学習におけるデータの大切さ 機械学習モデルは、学習に用いたデータにより挙動が決まる 機械学習の手法と同様に、データの量・質が大切 13 機械学習モデル = 「手法」 x 「データ」
  • 14. Copyright © ABEJA, Inc. All rights reserved 良いデータ・悪いデータで学習した場合の比較 • クリーンなデータに対する大量のアノテーションが精度に寄与 14 顔認証における研究の例 過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、 これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成 一般物体認識のロバスト性の例 ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆
  • 15. Copyright © ABEJA, Inc. All rights reserved データ量が不十分であった場合の実験 15 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 0 10 20 30 40 50 60 70 80 90 100 5000 10000 15000 20000 25000 30000 35000 40000 45000 50000 • CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき の精度の比較 CIFAR10 CIFAR100
  • 16. Copyright © ABEJA, Inc. All rights reserved 正解ラベルにノイズが入っていた場合での実験 16 • CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた ときの精度の比較 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 0 10 20 30 40 50 60 70 80 90 100 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 CIFAR10 CIFAR100
  • 17. Copyright © ABEJA, Inc. All rights reserved 質の悪いデータをなくすための方針 • データ収集の際のデータの質の向上 • データの質に対してロバストな技術の適用 • アノテーション補助技術やサービスの利用 17
  • 18. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 18
  • 19. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける課題 • 大きな人的コスト • 質や精度の担保 • ワーカーマネージメント • ツール作成やデータ管理 19
  • 20. Copyright © ABEJA, Inc. All rights reserved データセットやアノテーションに関する関連研究 20 アノテーションの補助 データセットの作成 モデルの高精度化 Object Detection Semantic Segmentation Apparent Age Estimation Using Ensemble of Deep Learning Models Regularized Estimation of Annotator Confusion
  • 21. Copyright © ABEJA, Inc. All rights reserved 論文紹介: ObjectNet: A large-scale bias-controlled dataset for pushing the limits of object recognition models (NIPS2019) • ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ る物体の回転や背景、視点のランダム性をコントロール • 無作為なデータセットではなく、バリエーションの種類をコントロールする ことで、認識する上で望ましいデータとなる 21
  • 22. Copyright © ABEJA, Inc. All rights reserved 論文紹介:We don’t need no bounding-boxes: Training object class detectors using only human verification (CVPR 2016) • 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき るフレームワークの提案 • BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を 出せるようにしていく 22 • 回答の際に、BBに対して、 Yes/Part/Container/Mixed/Miss ed Verificationといった複数の カテゴリに分けることで、効 率的な学習が可能
  • 23. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Training object class detectors with click supervision (CVPR 2017) • 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出 を行えるようにするための方針 • その情報からBBの高さや幅を機械学習モデルを用いて予測し、 アノテータ ーの作業時間を9〜18倍改善 23
  • 24. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Extreme clicking for efficient object annotation (CVPR 2017) • BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで アノテーションを行うExtreme Clickingという手法の提案 • 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ ンを実現 24
  • 25. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Large-scale interactive object segmentation with human annotators (CVPR 2019) • モデルが出力したセグメンテーション結果を、マウスクリックによりインタ ラクティブに修正していく • 250万枚もの大量のセグメンテーションのアノテーションデータを作成、 COCOデータにおいて既存より3倍速いアノテーションを実現 25
  • 26. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Crowdsourcing Annotations for Visual Object Detection (AAAI 2012) • クラウドソーシングで複数人に重複してタ スクを割り当てるのは高コスト • この研究ではタスクを3つのマイクロタス クに分割する(Draw / Quality Verification / Coverage Verification)ことを提案 • 不特定多数のいるクラウドソーシングにお いてマイクロタスクの有用性を示した 26 https://tech-blog.abeja.asia/entry/annotation-survery
  • 27. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Modeling Human Annotation Errors to Design Bias- Aware Systems for Social Stream Processing (ASONAM 2019) • アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し てしまう • ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動 学習を提案 • アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来 るようになる 27
  • 28. Copyright © ABEJA, Inc. All rights reserved アノテーションにおける精度の課題 • 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし て、それを効率化する事を目的としている • 実際は人手によるアノテーションの精度自体の担保が難しい • アノテーター毎のスキルのバラツキ • アノテーションをする基準の曖昧さ • そもそもアノテーションが困難な問題設定 28
  • 29. Copyright © ABEJA, Inc. All rights reserved 29
  • 30. Copyright © ABEJA, Inc. All rights reserved アノテーションの精度の重要性 • アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、 テストデータに適合しているだけになる • アノテーションが正しく行われる必要がある中で、その精度を高めることが 課題 30
  • 31. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する商用サービスの利用 • 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう サービス • 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要 • ABEJA社内でのアノテーション作業の工夫点を紹介 31
  • 32. Copyright © ABEJA, Inc. All rights reserved アノテーションの作業フロー • 品質を上げるため、下記のような様々な取り組みを行っている 32 教師データの作成・準備 トライアル アノテーション実施 最終確認・納品 • アノテーションの要 件定義 • アノテーションマニ ュアル • 作成・アップロード • データのアップロー ド • トライアル結果の 確認 • アノテーターから の質疑回答 • アノテーション • 随時、質疑への回答 • 結果の確認 • アノテーション結果 の納品
  • 33. Copyright © ABEJA, Inc. All rights reserved アノテーション体制の構築 • アノテーション専任のPMのアサイン • 大量のアノテーション人員の確保 • 結果レビュー体制の構築 33
  • 34. Copyright © ABEJA, Inc. All rights reserved アノテーションのセキュリティ • 運用面 • セキュリティセンターでの作業の実施 • システム面 • データセンタのセキュリティ • 通信の保護 • データの保護 • 認証・認可 34
  • 35. Copyright © ABEJA, Inc. All rights reserved アノテーションに関する詳細な要件定義 • 通常、アノテーターによって、ラベルのブレが発生しやすい • アノテーション開始前にマニュアルを作成し、均一の水準になるようにする 35
  • 36. Copyright © ABEJA, Inc. All rights reserved アノテーション結果のレビュー制度 • アノテーションの課題 • アノテーターによっては定義を理解していない場合がある • 雑なアノテーションがされる場合がある • アノテーション結果を人手で確認するフローを入れる 36 • レビュアーは結果を確認して差し戻し/完了を選択 • 差し戻す場合はコメントを入れることにより以降のア ノテーションの品質向上に寄与
  • 37. Copyright © ABEJA, Inc. All rights reserved 重複アノテーションによるバラツキの抑制 • アノテーターをアサインする際に一つのデータに対して、複数回のアノテー ションを行うケースもある • 重複してアノテーションすることで、アノテーター間のバラツキを抑制 37 利用例: • Apparent Age Estimation Using Ensemble of Deep Learning Models • 顔画像からの年齢推定において、複数のアノテ ーションを利用して、バラツキを低減
  • 38. Copyright © ABEJA, Inc. All rights reserved 本日のテーマ • アノテーションとは何か • アノテーションの技術やサービス • アノテーションの社会性・バイアス 38
  • 39. Copyright © ABEJA, Inc. All rights reserved 社会性・バイアスについて • 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある • 性別や人種の違いによって望ましくない結果を出力 • 自動運転や医療のシステムにおいて事故を起こしてしまう • 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ アスが含まれると問題が発生してしまう 39
  • 40. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Microsoft’s Tay 40 • Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった • 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と 考えられている https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/
  • 41. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Google Photosが黒人をゴリラと誤認識 41 https://twitter.com/jackyalcine/status/615329515909156865
  • 42. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例: Amazonの履歴書チェックAIの女性差別問題 • Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当 に差別していることが発覚し、開発中止。 • 学習に使用した過去の履歴書データは 男性のものが多く、テクノロジー企業には 男性が多いというバイアスを反映して しまっていた。 42 https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps- secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G
  • 43. Copyright © ABEJA, Inc. All rights reserved バイアスが問題になった例:Gender Shades • 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま う。 学習に使用されたデータセットに 含まれる性別・人種の分布に偏りが あるせいだと考えられる。 43 http://gendershades.org/overview.html
  • 44. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 教師あり学習のロジック 1. 解決したい具体的なタスクを定義し、データを集める 2. データにアノテーションをする 3. モデルを設計する 4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化 44
  • 45. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • 機械学習は、生まれたばかりの赤ちゃん(=モデル)に、ひたすら限定的な 情報(データ+アノテーション)だけを提示し続けて学ばせるようなもの • モデルにとっては得られる情報が全てであり、データに含まれない一般常識 (例えば、善悪・差別など)は学習されない 45
  • 46. Copyright © ABEJA, Inc. All rights reserved バイアスが発生する要因 • ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る 46
  • 47. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 47
  • 48. Copyright © ABEJA, Inc. All rights reserved 各プロセスにおけるバイアス • データに関するバイアス • 学習に用いるために収集したデータに内在するバイアス • 収集したデータにアノテーションする際に発生するバイアス • ロジックに関するバイアス • 学習モデルや手法に想定されるバイアス 48
  • 49. Copyright © ABEJA, Inc. All rights reserved データ収集に起因するバイアス • データ収集・アノテーション時に発生するバイアス、学習・評価に影響する 49
  • 50. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 研究で使われているデータセットは西洋人(最近では中国人も)が多い • データセットにあまり含まれない人種の精度は低くなる 50
  • 51. Copyright © ABEJA, Inc. All rights reserved 顔画像処理におけるデータ選択バイアス • 年齢推定だと、20-40歳に分布が集中 • 子供や高齢者に対する推定精度が低くなりがち 51
  • 52. Copyright © ABEJA, Inc. All rights reserved CVPR2019 Workshop: Bias Estimation in Face Analysis (BEFA) バイアス問題は、学会でも注目されている 52 Goal • 顔認識や顔属性推定におけるバイアス を特定する最新手法の評価 • バイアスを考慮した、もしくはバイアス に依存しないモデルづくりの促進 • 顔の解析におけるバイアスについての 分野横断的な議論
  • 53. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスの難しさ • データセットの作られやすい対象の方が優先されやすいため、マジョリティ が優先されやすい構造となる • マイノリティデータをどのように集めて学習に使えるようにするか • 多様なマイノリティの存在を気づくこと自体が難しい • 社会的背景によりマイノリティとなっているデータはそもそも収集するこ とが難しいことがある、プライバシー保護の観点との衝突 53
  • 54. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 54
  • 55. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 55
  • 56. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスについて • 学習に用いるために収集したデータに内在するバイアス • データ収集の都合で発生することが多い • 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ うに無害なものまで多様にあり得る • 収集したデータにアノテーションする際に発生するバイアス • アノテーターの判断基準のバラツキ • 悪意あるアノテーターの作成したデータ 56
  • 57. Copyright © ABEJA, Inc. All rights reserved データセットのバイアスへの対策について • データのバイアスを検出するロジックを利用する • バイアスを無くす学習手法を利用する • バイアスなどを社会学的に体系化し、可能な限りデータを整理する 57
  • 58. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Representation Learning with Statistical Independence to Mitigate Bias (WACV2021) • データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ セットから公平な学習を行おうとするアプローチ • タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる ように、敵対的学習に基づいてモデルを学習 58
  • 59. Copyright © ABEJA, Inc. All rights reserved 論文紹介: Learning From Noisy Labels By Regularized Estimation of Annotator Confusion (CVPR 2019) • アノテーターの特性を学習することでノイジーなラベルから真の分布を見出 すアプローチ • 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と して推定 59
  • 60. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Are We Modeling the Task or the Annotator? An Investigation of Annotator Bias in Natural Language Understanding Datasets (ACL2019) • 文章理解タスクにおけるアノテーターによるバイアスを調査 • 特に質の高い少数のアノテーターに大量の文を生成させると、データの多 様性の問題が起きやすい • アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、 アノテーターのバイアスが学習されることを示唆する • テストセットのアノテーターはトレーニングセットのアノテーターとは別に するべきであるという提案がされている 60
  • 61. Copyright © ABEJA, Inc. All rights reserved 論文紹介:REVISE: A Tool for Measuring and Mitigating Bias in Visual Datasets (ECCV2020) • データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化 • オブジェクト、ジェンダー、ジオグラフィー • バイアスを軽減するためのステップを提案し、ユーザーを支援 61
  • 62. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Towards Fairer Datasets: Filtering and Balancing the Distribution of the People Subtree in the ImageNet Hierarchy • ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある ことを調査 • アノテーションの方針を設計し直し、バイアスを取り除く試みを行った 62 一番上段がオリジナルのデータ、 以下は、それぞれ性別・肌・年齢に関して のバランスを取ったデータ
  • 63. Copyright © ABEJA, Inc. All rights reserved LaMDAにおける倫理性 • Google社による対話システム(Google I/O 2021で発表) • AI原則に反した誤用を避けるように注意をして提供している 63 https://www.tensorflow.org/responsible_ai
  • 64. Copyright © ABEJA, Inc. All rights reserved オープンソースにおける対策 Tensorflow • 責任ある機械学習モデルを作 るための様々な仕組みを内包 • 公平性、プライバシー、解 釈可能性、セキュリティ 64 Pytorch • 公平性を導入するライブラリ • 人工統計的均衡性などに基づい て公正なモデルを構築
  • 65. Copyright © ABEJA, Inc. All rights reserved 論文紹介:Toward a better trade-off between performance and fairness with kernel-based distribution matching (2019) • 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ ナルティを与える • カーネルベースのアプローチにより、性能と精度のトレードオフを改善 65 Maximum Mean Discrepancy ・・・カーネル空間における平均の差
  • 66. Copyright © ABEJA, Inc. All rights reserved データ選択バイアスへの対策 • 世の中に存在するバイアスやマイノリティの存在を認識・理解 • データセットに対するバイアスを理解して改善 • モデルの推論根拠を理解・解析 66
  • 67. Copyright © ABEJA, Inc. All rights reserved モデルの推論根拠の理解・解析について • データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな い場合になったとして、その理由の理解や説明が求められることもある • これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ ったり、人間が期待する推論プロセスを踏んでいないこともある 67
  • 68. Copyright © ABEJA, Inc. All rights reserved 解釈可能なDNNに付いての研究 DNNの推論プロセスを可視化し、解釈することを目指す研究 68
  • 69. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 69
  • 70. Copyright © ABEJA, Inc. All rights reserved DNNにおける解釈可能性問題の難しさ • 精度と解釈可能性のトレードオフ • 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明 可能性を放棄することで精度向上を達成している面があり、解釈可能性は 原理的に部分的にしか実現されない • 解釈できたつもりの問題 • 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。 より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ とが発覚するケースがある。 70
  • 71. Copyright © ABEJA, Inc. All rights reserved 推論根拠の提示 • 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる 71
  • 72. Copyright © ABEJA, Inc. All rights reserved ImageNetで学習されたモデルはテクスチャーを見る • ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー をもとに推論しがちであることが明らかになった。 72
  • 73. Copyright © ABEJA, Inc. All rights reserved バイアスに関する展望 • 機械学習を実用化するためには、これまで述べたようなデータのバイアスに 気をつける必要がある • 挙動を制御できないため、予期せぬ結果になることもしばしばある • 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ ながら、正しくデータを作成する必要がある • 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切 • 顔認識をする場合などは利用の許諾なども必要 73
  • 74. Copyright © ABEJA, Inc. All rights reserved まとめ • アノテーションの重要性、技術、バイアスについて述べた • アノテーションの速度・精度を向上させるための技術は多数存在する • タスクの難易度に応じ、適切に技術を選定する • 大量でクリーンなデータを用意することは重要であるが、今後、その上で更 に公平・構成なデータとなるように気をつける必要ある 74
  • 75. Copyright © ABEJA, Inc. All rights reserved 75