ラベル付けのいろは

ラベル付けのいろは
2015/12/7 Kensuke Mitsuzawa

この資料を読むとわかること
そもそもラベル付けはなんのためにするの？
どんなラベルを用意したらいいの？
どれくらいのラベル数なら妥当なの？
ラベル付けは何人でやったらいいの？
ラベル付け作業をどうやって評価するの？

ラベル付けは何のためにするの？
「教師あり学習」の機械学習を実行するための必要不可欠なデータです
学習
フェーズ
ラベル付きデータ
女性バイク
クラス分類モデル
「学習」※
※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。
英語では”training”と言うのが一般的です

ラベル付けは何のためにするの？
「教師あり学習」の機械学習を実行するための必要不可欠なデータです
学習
フェーズ
ラベル付きデータ
女性バイク
予測
フェーズ
学習済み
ラベルなしデータ
「女性」
「学習」※
「予測」
※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。
英語では”training”と言うのが一般的です

「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です
人間が見て曖昧なラベルは、機械でも解けません
悪いラベル例
ラベルのタイプ『「風景」、「人」』の２ラベルの場合
風景人人？風景？

「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です
人間が見て曖昧なラベルは、機械でも解けません
悪いラベル例
ラベルのタイプ『「風景」、「人」』
風景人人？風景？
バッド・パターン
パターン１「風景」「人」のラベル体系が不適切
パターン２「風景と人が混同しやすい」データは排除されるべき

「その他」ラベルが存在している場合の対処法
悪い分類器の組み方
人風景
データ
その他
データ
関係あるデータ関係ないデータ
人風景
「その他」ラベルが存在する場合、問題を分割する方が良いです
「その他」or Notを判断するためのクラス分類器を用意しましょう
良い分類器の組み方
「その他」を判断する
分類器を作ります

どれくらいのラベル数を用意したらいいの？
「できる限り少なくする」が理想です
ベストは２ラベルにすることです
なぜ２ラベルにしないといけないのか？
ラベルが３以上になると、機械学習モデルの難易度が高くなります
つまり、思うように精度が出ません。ラベル数が多くなればなるほど、問題は難しくなります
２ラベルだけの分類３ラベル以上の分類
赤線は「分離する線が引かれるところ」の可能性
３ラベル以上だと線の可能性が多くなる
＝解くべき問題が難しくなる

実務では２ラベルでは役にたたない。どうすれば？
できる限り階層化して、１つの分類器が分類する数を減らします
データ
ラベル1 ラベル2 ラベル3 ラベル4 ラベル5 ラベル6 ラベル7
例えば、７クラス分類をやりたい場合

ラベルラベル
ラベルラベル4 ラベル5 ラベル
データ
ラベル1 ラベル2 ラベル3 ラベル6 ラベル7

ただの２分類になるので、
問題が簡単に
ラベルラベル
ラベルラベル4 ラベル5 ラベル
データ
ラベル1 ラベル2 ラベル3 ラベル6 ラベル7

最低でも、２人で同じタグ付けをするようにします
（「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です）

最低でも、２人で同じタグ付けをするようにします
（「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です）
なぜ2人で冗長な作業をしなければいけないのか？
「学習のためのラベルは属人的なんでしょ？人によって違うかもしれないじゃん。信用できんよ」
を避けるためです。（こういうことを言う人は必ずいます。ビジネスであっても、研究であっても変わりはありません）
2人以上でラベルづけをすると
「できる限り普遍的なラベルである」と言えます
研究上でも認められている手法です

どのように2人で作業をするの？
「タグ付け→認識確認」を最低でも１回は行います
サンプリング１１００データくらいをサンプリングします
トライアルタグ付け２サンプリングしたデータにタグ付けをします
認識確認３
タグ付けデータを確認します。タグが不一致の場合は
「タグ付けのルール再確認」or 「ルールの追加」をします
不一致タグが多すぎる場合は、「タグ体系」の設計を見直してください
本タグ付け作業４タグ付け作業を本格的に開始します
（タグ付け済みのデータもスキップせずに最初からやり直します）

本作業の進め方
本作業の前に「タグが不一致だった場合の対処法」を決定します
パターン１タグが不一致だったら、データは捨てる
パターン２タグが不一致だったら、すべて協議する
パターン１の場合パターン２の場合
メリット
機械学習がするべき問題が簡単になります
（人間の直感に合わないデータを捨てるため）
デメリット
学習用のデータが少なくなります
メリット
学習用のデータが確保できます
デメリット
機械学習がする問題が難しくなります
協議するために余計な時間がかかります

本作業の進め方
本作業の前に「タグが不一致だった場合の対処法」を決定します
パターン１タグが不一致だったら、データは捨てる
パターン２タグが不一致だったら、すべて協議する
パターン１の場合パターン２の場合
メリット
機械学習がするべき問題が簡単になります
（人間の直感に合わないデータを捨てるため）
デメリット
学習用のデータが少なくなります
メリット
学習用のデータが確保できます
デメリット
機械学習がする問題が難しくなります
協議するために余計な時間がかかります
パターン２の場合
「わからない」タグを導入し
ておくとよいです

ラベル付け作業はどうやって評価するの？
（参考までに）研究上では、「論文でタグ付け一致度」の報告が義務です
※ 報告がない論文は怖い人にクソミソにけなされます。もしくは受理されません
心配な場合は、「カッパ係数」を計算しておきます。
タイミングは「データを捨てる」or「協議してタグを一致させる」前です
カッパ係数とは？
「２つ以上のデータの一致度」を調べる数値です。カッパ係数>= 0.81で「とても良い」と言えます
（参考）カッパ係数とは？
Excelでも計算できますが、めんどうくさいので、相談してください。

ラベル付けのいろは

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (12)

Similar to ラベル付けのいろは

Similar to ラベル付けのいろは (20)

More from Kensuke Mitsuzawa

More from Kensuke Mitsuzawa (7)

ラベル付けのいろは