SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜

機械学習のアノテーションにおけるデータ収集
～精度向上のための仕組み・倫理や社会性バイアス～
2021.6.11
藤本敬介（ABEJA）

Copyright © ABEJA, Inc. All rights reserved
自己紹介
2
名前：
所属：
役割：
研究分野：
藤本敬介
ABEJA, Labs
Researcher
機械学習
コンピュータビジョン
音声
自然言語処理

本日のテーマ
• アノテーションとは何か
• アノテーションの技術やサービス
• アノテーションの社会性・バイアス
3

本日のテーマ
4

機械学習とアノテーション
教師あり学習
5
教師なし学習
Dog / Cat

機械学習とアノテーション
• 教師あり学習では、人手で学習データに予め正解の情報を与えておく
• この作業を「アノテーション」と呼ぶ
6
Dog
Cat
画像認識タスクでの例：

アノテーションの例：画像認識
7

アノテーションの例：物体検出
8

アノテーションの例：セグメンテーション
9

アノテーションの手段について
• 自身で実施
• クラウドソーシング
• アノテーションサービスの利用
10

クラウドソーシング
• WebインタフェースやAPIを通じて、様々な人々にアノテーション等の仕事
を依頼できる
• Amazon Mechanical Turk (MTurk)などが有名
• Deep Learningの多くの研究においてMTurkを利用してのデータセット作り
が行われている
• 研究で利用するような様々なタスクが依頼できる
11

アノテーションサービス
• 各社で展開されているアノテーションのサービス
• アノテーションの作業者を自動で確保してくれる
• タスクの種類は決まっていることが多いが、マネージドでサポートが手厚い
12
AI Platform Data Labeling Service Amazon SageMaker Ground Truth

機械学習におけるデータの大切さ
機械学習モデルは、学習に用いたデータにより挙動が決まる
機械学習の手法と同様に、データの量・質が大切
13
機械学習モデル = 「手法」 x 「データ」

良いデータ・悪いデータで学習した場合の比較
• クリーンなデータに対する大量のアノテーションが精度に寄与
14
顔認証における研究の例
過去によく学習に使われていたMS-Celeb-1Mによるモデルの精度は99.1%であったのに対し、
これをVGGFace2という大規模かつクリーンな学習データにする事で、99.7%を達成
一般物体認識のロバスト性の例
ImageNetを利用して学習したモデルについて、同じ物体に対し背景や角度を変えてテストし
なおしたら、精度が40%以上落ちるという報告があり、データのバイアスの影響を示唆

データ量が不十分であった場合の実験
15
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
0
10
20
30
40
50
60
70
80
90
100
5000 10000 15000 20000 25000 30000 35000 40000 45000 50000
• CIFAR10/100に対して、学習データ数を5000から50000まで変化させたとき
の精度の比較
CIFAR10 CIFAR100

正解ラベルにノイズが入っていた場合での実験
16
• CIFAR10/100に対して、ノイズラベルの割合を0%から95%まで変化させた
ときの精度の比較
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
0
10
20
30
40
50
60
70
80
90
100
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9
CIFAR10 CIFAR100

質の悪いデータをなくすための方針
• データ収集の際のデータの質の向上
• データの質に対してロバストな技術の適用
• アノテーション補助技術やサービスの利用
17

本日のテーマ
18

アノテーションにおける課題
• 大きな人的コスト
• 質や精度の担保
• ワーカーマネージメント
• ツール作成やデータ管理
19

データセットやアノテーションに関する関連研究
20
アノテーションの補助
データセットの作成モデルの高精度化
Object Detection
Semantic Segmentation
Apparent Age Estimation Using Ensemble
of Deep Learning Models
Regularized Estimation of Annotator Confusion

論文紹介： ObjectNet: A large-scale bias-controlled dataset for
pushing the limits of object recognition models (NIPS2019)
• ObjectNetにおけるデータ自体の質を上げる取り組みでは、ImageNetにおけ
る物体の回転や背景、視点のランダム性をコントロール
• 無作為なデータセットではなく、バリエーションの種類をコントロールする
ことで、認識する上で望ましいデータとなる
21

論文紹介：We don’t need no bounding-boxes: Training object
class detectors using only human verification (CVPR 2016)
• 機械が出してきたBBにアノテーターが回答するだけでアノテーションでき
るフレームワークの提案
• BBに対する回答結果を元に検出ロジックの再学習を行い、より良い候補を
出せるようにしていく
22
• 回答の際に、BBに対して、
Yes/Part/Container/Mixed/Miss
ed Verificationといった複数の
カテゴリに分けることで、効
率的な学習が可能

論文紹介：Training object class detectors with click
supervision (CVPR 2017)
• 物体の中心点(center-click annotation)をクリックするだけ、特定の物体検出
を行えるようにするための方針
• その情報からBBの高さや幅を機械学習モデルを用いて予測し、アノテータ
ーの作業時間を9〜18倍改善
23

論文紹介：Extreme clicking for efficient object
annotation (CVPR 2017)
• BBを直接描画するのではなく、物体の上下左右の4点をクリックするだけで
アノテーションを行うExtreme Clickingという手法の提案
• 従来のBBと同程度のクオリティを維持しつつ、5倍の速さでのアノテーショ
ンを実現
24

論文紹介：Large-scale interactive object segmentation
with human annotators (CVPR 2019)
• モデルが出力したセグメンテーション結果を、マウスクリックによりインタ
ラクティブに修正していく
• 250万枚もの大量のセグメンテーションのアノテーションデータを作成、
COCOデータにおいて既存より3倍速いアノテーションを実現
25

論文紹介：Crowdsourcing Annotations for Visual Object
Detection (AAAI 2012)
• クラウドソーシングで複数人に重複してタ
スクを割り当てるのは高コスト
• この研究ではタスクを3つのマイクロタス
クに分割する(Draw / Quality Verification /
Coverage Verification)ことを提案
• 不特定多数のいるクラウドソーシングにお
いてマイクロタスクの有用性を示した
26
https://tech-blog.abeja.asia/entry/annotation-survery

論文紹介：Modeling Human Annotation Errors to Design Bias-
Aware Systems for Social Stream Processing (ASONAM 2019)
• アノテーションの際に、人間の認知的バイアスや認知的負荷が結果に影響し
てしまう
• ヒューマンエラーを忘却モデルを用いて定式化、それを軽減するための能動
学習を提案
• アノテーション数を減らせるとともに、バイアスの影響を減らすことも出来
るようになる
27

アノテーションにおける精度の課題
• 多くの支援系の研究は、人手によるアノテーションの精度が十分なものとし
て、それを効率化する事を目的としている
• 実際は人手によるアノテーションの精度自体の担保が難しい
• アノテーター毎のスキルのバラツキ
• アノテーションをする基準の曖昧さ
• そもそもアノテーションが困難な問題設定
28

アノテーションの精度の重要性
• アノテーションの精度が低いと、例えテストデータに対する精度が高くとも、
テストデータに適合しているだけになる
• アノテーションが正しく行われる必要がある中で、その精度を高めることが
課題
30

アノテーションに関する商用サービスの利用
• 生データに対し、指定した仕様に応じてアノテーション結果を返してもらう
サービス
• 大量データを扱えるだけではなく、サービス側での品質担保の仕組みが重要
• ABEJA社内でのアノテーション作業の工夫点を紹介
31

アノテーションの作業フロー
• 品質を上げるため、下記のような様々な取り組みを行っている
32
教師データの作成・準備トライアルアノテーション実施最終確認・納品
• アノテーションの要
件定義
• アノテーションマニ
ュアル
• 作成・アップロード
• データのアップロー
ド
• トライアル結果の
確認
• アノテーターから
の質疑回答
• アノテーション
• 随時、質疑への回答
• 結果の確認
• アノテーション結果
の納品

アノテーション体制の構築
• アノテーション専任のPMのアサイン
• 大量のアノテーション人員の確保
• 結果レビュー体制の構築
33

アノテーションのセキュリティ
• 運用面
• セキュリティセンターでの作業の実施
• システム面
• データセンタのセキュリティ
• 通信の保護
• データの保護
• 認証・認可
34

アノテーションに関する詳細な要件定義
• 通常、アノテーターによって、ラベルのブレが発生しやすい
• アノテーション開始前にマニュアルを作成し、均一の水準になるようにする
35

アノテーション結果のレビュー制度
• アノテーションの課題
• アノテーターによっては定義を理解していない場合がある
• 雑なアノテーションがされる場合がある
• アノテーション結果を人手で確認するフローを入れる
36
• レビュアーは結果を確認して差し戻し/完了を選択
• 差し戻す場合はコメントを入れることにより以降のア
ノテーションの品質向上に寄与

重複アノテーションによるバラツキの抑制
• アノテーターをアサインする際に一つのデータに対して、複数回のアノテー
ションを行うケースもある
• 重複してアノテーションすることで、アノテーター間のバラツキを抑制
37
利用例：
• Apparent Age Estimation Using Ensemble of
Deep Learning Models
• 顔画像からの年齢推定において、複数のアノテ
ーションを利用して、バラツキを低減

本日のテーマ
38

社会性・バイアスについて
• 機械学習モデルが、開発者が意図しない差別的な挙動を取ることがある
• 性別や人種の違いによって望ましくない結果を出力
• 自動運転や医療のシステムにおいて事故を起こしてしまう
• 仮にテストデータでの精度が高かったとしても、そもそもデータ自体にバイ
アスが含まれると問題が発生してしまう
39

バイアスが問題になった例：Microsoft’s Tay
40
• Microsoftがリリースした会話Bot Tayが、不適切な発言をするようになった
• 悪意のあるユーザーによる不適切な発言を学習してしまったことが原因と
考えられている
https://www.telegraph.co.uk/technology/2016/03/24/microsofts-teen-girl-ai-turns-into-a-hitler-loving-sex-robot-wit/

バイアスが問題になった例：
Google Photosが黒人をゴリラと誤認識
41
https://twitter.com/jackyalcine/status/615329515909156865

バイアスが問題になった例：
Amazonの履歴書チェックAIの女性差別問題
• Amazonが開発していた履歴書から人材のスコアリングするAIは女性を不当
に差別していることが発覚し、開発中止。
• 学習に使用した過去の履歴書データは
男性のものが多く、テクノロジー企業には
男性が多いというバイアスを反映して
しまっていた。
42
https://www.reuters.com/article/us-amazon-com-jobs-automation-insight/amazon-scraps-
secret-ai-recruiting-tool-that-showed-bias-against-women-idUSKCN1MK08G

バイアスが問題になった例：Gender Shades
• 顔画像からの性別推定ツールは黒人の女性だと優位に精度が低くなってしま
う。
学習に使用されたデータセットに
含まれる性別・人種の分布に偏りが
あるせいだと考えられる。
43
http://gendershades.org/overview.html

バイアスが発生する要因
• 教師あり学習のロジック
1. 解決したい具体的なタスクを定義し、データを集める
2. データにアノテーションをする
3. モデルを設計する
4. モデルがアノテーションを模倣する様にモデルのパラメータを最適化
44

• 機械学習は、生まれたばかりの赤ちゃん（=モデル）に、ひたすら限定的な
情報（データ+アノテーション）だけを提示し続けて学ばせるようなもの
• モデルにとっては得られる情報が全てであり、データに含まれない一般常識
（例えば、善悪・差別など）は学習されない
45

• ほぼすべてのプロセスにおいて、データ起因でのバイアスが入り得る
46

各プロセスにおけるバイアス
• データに関するバイアス
• 学習に用いるために収集したデータに内在するバイアス
• 収集したデータにアノテーションする際に発生するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
47

各プロセスにおけるバイアス
• データに関するバイアス
• ロジックに関するバイアス
• 学習モデルや手法に想定されるバイアス
48

データ収集に起因するバイアス
• データ収集・アノテーション時に発生するバイアス、学習・評価に影響する
49

顔画像処理におけるデータ選択バイアス
• 研究で使われているデータセットは西洋人（最近では中国人も）が多い
• データセットにあまり含まれない人種の精度は低くなる
50

顔画像処理におけるデータ選択バイアス
• 年齢推定だと、20-40歳に分布が集中
• 子供や高齢者に対する推定精度が低くなりがち
51

CVPR2019 Workshop: Bias Estimation in Face Analysis
(BEFA)
バイアス問題は、学会でも注目されている
52
Goal
• 顔認識や顔属性推定におけるバイアス
を特定する最新手法の評価
• バイアスを考慮した、もしくはバイアス
に依存しないモデルづくりの促進
• 顔の解析におけるバイアスについての
分野横断的な議論

データ選択バイアスの難しさ
• データセットの作られやすい対象の方が優先されやすいため、マジョリティ
が優先されやすい構造となる
• マイノリティデータをどのように集めて学習に使えるようにするか
• 多様なマイノリティの存在を気づくこと自体が難しい
• 社会的背景によりマイノリティとなっているデータはそもそも収集するこ
とが難しいことがある、プライバシー保護の観点との衝突
53

データ選択バイアスへの対策
• 世の中に存在するバイアスやマイノリティの存在を認識・理解
• データセットに対するバイアスを理解して改善
• モデルの推論根拠を理解・解析
54

55

データセットのバイアスについて
• データ収集の都合で発生することが多い
• 性別、人種、年齢、国籍のような潜在的に有害なものから、昆虫や花のよ
うに無害なものまで多様にあり得る
• アノテーターの判断基準のバラツキ
• 悪意あるアノテーターの作成したデータ
56

データセットのバイアスへの対策について
• データのバイアスを検出するロジックを利用する
• バイアスを無くす学習手法を利用する
• バイアスなどを社会学的に体系化し、可能な限りデータを整理する
57

論文紹介：Representation Learning with Statistical
Independence to Mitigate Bias (WACV2021)
• データセットのバイアスを取り除くのではなく、バイアスが含まれるデータ
セットから公平な学習を行おうとするアプローチ
• タスクに対する識別力を高めつつ、バイアスの変数との依存性が最小となる
ように、敵対的学習に基づいてモデルを学習
58

論文紹介： Learning From Noisy Labels By Regularized
Estimation of Annotator Confusion (CVPR 2019)
• アノテーターの特性を学習することでノイジーなラベルから真の分布を見出
すアプローチ
• 複数いるアノテーターのそれぞれのスキルや特徴をConfusion Matrix (CM)と
して推定
59

論文紹介：Are We Modeling the Task or the Annotator? An
Investigation of Annotator Bias in Natural Language
Understanding Datasets (ACL2019)
• 文章理解タスクにおけるアノテーターによるバイアスを調査
• 特に質の高い少数のアノテーターに大量の文を生成させると、データの多
様性の問題が起きやすい
• アノテーターの識別子を特徴量に含むとモデルの性能が向上することから、
アノテーターのバイアスが学習されることを示唆する
• テストセットのアノテーターはトレーニングセットのアノテーターとは別に
するべきであるという提案がされている
60

論文紹介：REVISE: A Tool for Measuring and Mitigating
Bias in Visual Datasets (ECCV2020)
• データ内のバイアスの可視化を支援するツール、以下をバイアスを可視化
• オブジェクト、ジェンダー、ジオグラフィー
• バイアスを軽減するためのステップを提案し、ユーザーを支援
61

論文紹介：Towards Fairer Datasets: Filtering and Balancing the
Distribution of the People Subtree in the ImageNet Hierarchy
• ImageNetの人に関するカテゴリに関しては人種・性別・年齢の偏りがある
ことを調査
• アノテーションの方針を設計し直し、バイアスを取り除く試みを行った
62
一番上段がオリジナルのデータ、
以下は、それぞれ性別・肌・年齢に関して
のバランスを取ったデータ

LaMDAにおける倫理性
• Google社による対話システム（Google I/O 2021で発表）
• AI原則に反した誤用を避けるように注意をして提供している
63
https://www.tensorflow.org/responsible_ai

オープンソースにおける対策
Tensorflow
• 責任ある機械学習モデルを作
るための様々な仕組みを内包
• 公平性、プライバシー、解
釈可能性、セキュリティ
64
Pytorch
• 公平性を導入するライブラリ
• 人工統計的均衡性などに基づい
て公正なモデルを構築

論文紹介：Toward a better trade-off between performance and
fairness with kernel-based distribution matching (2019)
• 2つのデータセット間のスコアの分布の違いについて、学習中にモデルにペ
ナルティを与える
• カーネルベースのアプローチにより、性能と精度のトレードオフを改善
65
Maximum Mean Discrepancy
・・・カーネル空間における平均の差

66

モデルの推論根拠の理解・解析について
• データセットのバイアスの有無によって、推論結果が好ましい / 好ましくな
い場合になったとして、その理由の理解や説明が求められることもある
• これに対して、深層学習などの一部のモデルは、推論根拠を説明不可能であ
ったり、人間が期待する推論プロセスを踏んでいないこともある
67

解釈可能なDNNに付いての研究
DNNの推論プロセスを可視化し、解釈することを目指す研究
68

DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
69

DNNにおける解釈可能性問題の難しさ
• 精度と解釈可能性のトレードオフ
• 柔軟なモデルを大規模なデータで学習することを前提とした手法は、説明
可能性を放棄することで精度向上を達成している面があり、解釈可能性は
原理的に部分的にしか実現されない
• 解釈できたつもりの問題
• 解釈できたつもりでも実際はそれが表面的・推測的すぎることがある。
より詳細な解析により、モデルが想定外のプロセスで推論を行っているこ
とが発覚するケースがある。
70

推論根拠の提示
• 多くの場合、推論根拠は推論に用いた箇所のヒートマップとして与えられる
71

ImageNetで学習されたモデルはテクスチャーを見る
• ImageNetで学習されたDNNは、オブジェクトの形状ではなくテクスチャー
をもとに推論しがちであることが明らかになった。
72

バイアスに関する展望
• 機械学習を実用化するためには、これまで述べたようなデータのバイアスに
気をつける必要がある
• 挙動を制御できないため、予期せぬ結果になることもしばしばある
• 社会通念に従うようなモデルとするには、社会学的なアプローチも踏まえ
ながら、正しくデータを作成する必要がある
• 個人情報保護の観点や、倫理の観点も踏まえて実施することが大切
• 顔認識をする場合などは利用の許諾なども必要
73

まとめ
• アノテーションの重要性、技術、バイアスについて述べた
• アノテーションの速度・精度を向上させるための技術は多数存在する
• タスクの難易度に応じ、適切に技術を選定する
• 大量でクリーンなデータを用意することは重要であるが、今後、その上で更
に公平・構成なデータとなるように気をつける必要ある
74

SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜

Similar to SSII2021 [TS3] 機械学習のアノテーションにおけるデータ収集〜精度向上のための仕組み・倫理や社会性バイアス〜 (20)

More from SSII

More from SSII (20)

Recently uploaded

Recently uploaded (8)