Submit Search
Upload
ラベル付けのいろは
•
Download as PPTX, PDF
•
7 likes
•
18,789 views
Kensuke Mitsuzawa
Follow
ラベル付けの方法を解説する資料です。
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 17
Download now
Recommended
最適輸送入門
最適輸送入門
joisino
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
深層学習の数理
深層学習の数理
Taiji Suzuki
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
Recommended
最適輸送入門
最適輸送入門
joisino
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII2022 [SS2] 少ないデータやラベルを効率的に活用する機械学習技術 〜 足りない情報をどのように補うか?〜
SSII
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII2022 [SS1] ニューラル3D表現の最新動向〜 ニューラルネットでなんでも表せる?? 〜
SSII
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
深層学習の数理
深層学習の数理
Taiji Suzuki
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Preferred Networks
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Swin Transformer (ICCV'21 Best Paper) を完璧に理解する資料
Yusuke Uchida
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
最適化超入門
最適化超入門
Takami Sato
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
IFSを使ったフラクタルの描画
IFSを使ったフラクタルの描画
Yu(u)ki IWABUCHI
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
ニューラルネットワーク入門
ニューラルネットワーク入門
naoto moriyama
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Kimikazu Kato
More Related Content
What's hot
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
Deep Learning JP
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
Deep Learning JP
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
Katsuki Ohto
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Masahiro Suzuki
Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
Yamato OKAMOTO
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
Yuta Kikuchi
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
Kota Matsui
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Ryo Iwaki
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
Yoshitaka Ushiku
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
Kento Doi
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
cvpaper. challenge
最適化超入門
最適化超入門
Takami Sato
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
Satoshi Hara
IFSを使ったフラクタルの描画
IFSを使ったフラクタルの描画
Yu(u)ki IWABUCHI
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Yusuke Uchida
Transformer メタサーベイ
Transformer メタサーベイ
cvpaper. challenge
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
cvpaper. challenge
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Takashi Abe
What's hot
(20)
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Pay Attention to MLPs (gMLP)
[DL輪読会]Focal Loss for Dense Object Detection
[DL輪読会]Focal Loss for Dense Object Detection
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
論文紹介 Anomaly Detection using One-Class Neural Networks (修正版
GAN(と強化学習との関係)
GAN(と強化学習との関係)
Optimizer入門&最新動向
Optimizer入門&最新動向
Skip Connection まとめ(Neural Network)
Skip Connection まとめ(Neural Network)
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
方策勾配型強化学習の基礎と応用
方策勾配型強化学習の基礎と応用
Curriculum Learning (関東CV勉強会)
Curriculum Learning (関東CV勉強会)
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
[解説スライド] NeRF: Representing Scenes as Neural Radiance Fields for View Synthesis
【メタサーベイ】数式ドリブン教師あり学習
【メタサーベイ】数式ドリブン教師あり学習
最適化超入門
最適化超入門
機械学習モデルの判断根拠の説明(Ver.2)
機械学習モデルの判断根拠の説明(Ver.2)
IFSを使ったフラクタルの描画
IFSを使ったフラクタルの描画
近年のHierarchical Vision Transformer
近年のHierarchical Vision Transformer
Transformer メタサーベイ
Transformer メタサーベイ
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
SSII2020 [OS2-02] 教師あり事前学習を凌駕する「弱」教師あり事前学習
cvpaper.challenge 研究効率化 Tips
cvpaper.challenge 研究効率化 Tips
論文紹介: Fast R-CNN&Faster R-CNN
論文紹介: Fast R-CNN&Faster R-CNN
Viewers also liked
ニューラルネットワーク入門
ニューラルネットワーク入門
naoto moriyama
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Kimikazu Kato
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015
Ryosuke Okuta
機械学習概論 講義テキスト
機械学習概論 講義テキスト
Etsuji Nakai
Pythonを使った機械学習の学習
Pythonを使った機械学習の学習
Kimikazu Kato
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
Ken Morishita
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
徹 上野山
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tatsuya Tojima
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
nlab_utokyo
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
敦志 金谷
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
Yuya Unno
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Ryota Kamoshida
Viewers also liked
(12)
ニューラルネットワーク入門
ニューラルネットワーク入門
Pythonで機械学習入門以前
Pythonで機械学習入門以前
Chainerチュートリアル -v1.5向け- ViEW2015
Chainerチュートリアル -v1.5向け- ViEW2015
機械学習概論 講義テキスト
機械学習概論 講義テキスト
Pythonを使った機械学習の学習
Pythonを使った機械学習の学習
Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
TensorFlow を使った機械学習ことはじめ (GDG京都 機械学習勉強会)
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Deep Learningと画像認識 ~歴史・理論・実践~
Deep Learningと画像認識 ~歴史・理論・実践~
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
機械学習によるデータ分析まわりのお話
機械学習によるデータ分析まわりのお話
Similar to ラベル付けのいろは
普段の仕事に活かせるキャッチコピー力養成実習
普段の仕事に活かせるキャッチコピー力養成実習
schoowebcampus
アプリ開発を効率化する 方法あれこれ
アプリ開発を効率化する 方法あれこれ
Atsushi Mizoue
書く技術・話す技術 勉強会サポートプログラム
書く技術・話す技術 勉強会サポートプログラム
Mizuhiro Kaimai
スモールリーダーシップ読書会ワークショップ
スモールリーダーシップ読書会ワークショップ
Yukei Wachi
バスケ複業エンジニアのたのしみ
バスケ複業エンジニアのたのしみ
Taku Watanabe
ソースコードを読んでみよう
ソースコードを読んでみよう
Shun Tsunoda
20210509研修・セミナーに繋がる 「ゲームの進め方」の話
20210509研修・セミナーに繋がる 「ゲームの進め方」の話
Yasuhide Ishigami
スクラムのフレームワークでKAIZENを体験しよう comeback japan 2017
スクラムのフレームワークでKAIZENを体験しよう comeback japan 2017
HIDEKAZU MATSUURA
20220921_今日からRPA推進者!(教育編)_提出用.pdf
20220921_今日からRPA推進者!(教育編)_提出用.pdf
KYOSOPRAS
推し技術書「ユースケース駆動開発実践ガイド」
推し技術書「ユースケース駆動開発実践ガイド」
keitasudo1
アジャイル開発へのイテレーション・ゼロ
アジャイル開発へのイテレーション・ゼロ
Taisuke Shiratori
教えてみてわかった、新しいことを覚えるしくみ
教えてみてわかった、新しいことを覚えるしくみ
Mori Kazue
○○について考える
○○について考える
きなこ 桜庭
アジャイル開発を始めてみませんか?(思い出編)
アジャイル開発を始めてみませんか?(思い出編)
Miho Nagase
「コーダーとしての価値を高めるウェブ解析活用術」CSS Nite 20191019
「コーダーとしての価値を高めるウェブ解析活用術」CSS Nite 20191019
大輔 井水
make the Japanese NPO sales tool better
make the Japanese NPO sales tool better
Ryo Ishihara
就職活動ぴゅ~ひゃらり~
就職活動ぴゅ~ひゃらり~
YanoLabLT
今日からはじめる「じぶんブランディング」
今日からはじめる「じぶんブランディング」
Sunami Hokuto
5分でわかる 怖くない機械学習
5分でわかる 怖くない機械学習
__john_smith__
Dev lobe20090325v1.0
Dev lobe20090325v1.0
walnut210
Similar to ラベル付けのいろは
(20)
普段の仕事に活かせるキャッチコピー力養成実習
普段の仕事に活かせるキャッチコピー力養成実習
アプリ開発を効率化する 方法あれこれ
アプリ開発を効率化する 方法あれこれ
書く技術・話す技術 勉強会サポートプログラム
書く技術・話す技術 勉強会サポートプログラム
スモールリーダーシップ読書会ワークショップ
スモールリーダーシップ読書会ワークショップ
バスケ複業エンジニアのたのしみ
バスケ複業エンジニアのたのしみ
ソースコードを読んでみよう
ソースコードを読んでみよう
20210509研修・セミナーに繋がる 「ゲームの進め方」の話
20210509研修・セミナーに繋がる 「ゲームの進め方」の話
スクラムのフレームワークでKAIZENを体験しよう comeback japan 2017
スクラムのフレームワークでKAIZENを体験しよう comeback japan 2017
20220921_今日からRPA推進者!(教育編)_提出用.pdf
20220921_今日からRPA推進者!(教育編)_提出用.pdf
推し技術書「ユースケース駆動開発実践ガイド」
推し技術書「ユースケース駆動開発実践ガイド」
アジャイル開発へのイテレーション・ゼロ
アジャイル開発へのイテレーション・ゼロ
教えてみてわかった、新しいことを覚えるしくみ
教えてみてわかった、新しいことを覚えるしくみ
○○について考える
○○について考える
アジャイル開発を始めてみませんか?(思い出編)
アジャイル開発を始めてみませんか?(思い出編)
「コーダーとしての価値を高めるウェブ解析活用術」CSS Nite 20191019
「コーダーとしての価値を高めるウェブ解析活用術」CSS Nite 20191019
make the Japanese NPO sales tool better
make the Japanese NPO sales tool better
就職活動ぴゅ~ひゃらり~
就職活動ぴゅ~ひゃらり~
今日からはじめる「じぶんブランディング」
今日からはじめる「じぶんブランディング」
5分でわかる 怖くない機械学習
5分でわかる 怖くない機械学習
Dev lobe20090325v1.0
Dev lobe20090325v1.0
More from Kensuke Mitsuzawa
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
Kensuke Mitsuzawa
サポーターズ勉強会スライド
サポーターズ勉強会スライド
Kensuke Mitsuzawa
形態素解析器の比較できるPythonパッケージつくった話
形態素解析器の比較できるPythonパッケージつくった話
Kensuke Mitsuzawa
アダルトデータマイニングの勧め
アダルトデータマイニングの勧め
Kensuke Mitsuzawa
slides for "Supervised Model Learning with Feature Grouping based on a Discre...
slides for "Supervised Model Learning with Feature Grouping based on a Discre...
Kensuke Mitsuzawa
Learning to rankの評価手法
Learning to rankの評価手法
Kensuke Mitsuzawa
Brml 3.3 d-separation
Brml 3.3 d-separation
Kensuke Mitsuzawa
More from Kensuke Mitsuzawa
(7)
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド 2018/2/27
サポーターズ勉強会スライド
サポーターズ勉強会スライド
形態素解析器の比較できるPythonパッケージつくった話
形態素解析器の比較できるPythonパッケージつくった話
アダルトデータマイニングの勧め
アダルトデータマイニングの勧め
slides for "Supervised Model Learning with Feature Grouping based on a Discre...
slides for "Supervised Model Learning with Feature Grouping based on a Discre...
Learning to rankの評価手法
Learning to rankの評価手法
Brml 3.3 d-separation
Brml 3.3 d-separation
ラベル付けのいろは
1.
ラベル付けのいろは 2015/12/7 Kensuke Mitsuzawa
2.
この資料を読むとわかること そもそもラベル付けはなんのためにするの? どんなラベルを用意したらいいの? どれくらいのラベル数なら妥当なの? ラベル付けは何人でやったらいいの? ラベル付け作業をどうやって評価するの?
3.
ラベル付けは何のためにするの? 「教師あり学習」の機械学習を実行するための必要不可欠なデータです 学習 フェーズ ラベル付きデータ 女性 バイク クラス分類モデル 「学習」※ ※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。 英語では”training”と言うのが一般的です
4.
ラベル付けは何のためにするの? 「教師あり学習」の機械学習を実行するための必要不可欠なデータです 学習 フェーズ ラベル付きデータ 女性 バイク クラス分類モデル 予測 フェーズ 学習済み クラス分類モデル ラベルなしデータ 「女性」 「学習」※ 「予測」 ※日本語では「学習」または「訓練」と言います。「知能学習」とかわけのわからない言葉を使っていた会社を見たことありますが、そういうのは好きじゃないです。 英語では”training”と言うのが一般的です
5.
どんなラベルを用意したらいいの? 「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です 人間が見て曖昧なラベルは、機械でも解けません 悪いラベル例 ラベルのタイプ 『「風景」、「人」』の2ラベルの場合 風景 人
人?風景?
6.
どんなラベルを用意したらいいの? 「誰が見ても同じ基準で分類できる」ラベル体系にするのが理想です 人間が見て曖昧なラベルは、機械でも解けません 悪いラベル例 ラベルのタイプ 『「風景」、「人」』 風景 人
人?風景? バッド・パターン パターン1「風景」「人」のラベル体系が不適切 パターン2「風景と人が混同しやすい」データは排除されるべき
7.
「その他」ラベルが存在している場合の対処法 悪い分類器の組み方 人 風景 データ その他 データ 関係あるデータ 関係ないデータ 人
風景 「その他」ラベルが存在する場合、問題を分割する方が良いです 「その他」or Notを判断するためのクラス分類器を用意しましょう 良い分類器の組み方 「その他」を判断する 分類器を作ります
8.
どれくらいのラベル数を用意したらいいの? 「できる限り少なくする」が理想です ベストは2ラベルにすることです なぜ2ラベルにしないといけないのか? ラベルが3以上になると、機械学習モデルの難易度が高くなります つまり、思うように精度が出ません。ラベル数が多くなればなるほど、問題は難しくなります 2ラベルだけの分類 3ラベル以上の分類 赤線は「分離する線が引かれるところ」の可能性 3ラベル以上だと線の可能性が多くなる =解くべき問題が難しくなる
9.
実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします データ ラベル1 ラベル2 ラベル3
ラベル4 ラベル5 ラベル6 ラベル7 例えば、7クラス分類をやりたい場合
10.
実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします ラベル ラベル ラベル ラベル4
ラベル5 ラベル データ ラベル1 ラベル2 ラベル3 ラベル6 ラベル7
11.
実務では2ラベルでは役にたたない。どうすれば? できる限り階層化して、1つの分類器が分類する数を減らします ただの2分類になるので、 問題が簡単に ラベル ラベル ラベル ラベル4
ラベル5 ラベル データ ラベル1 ラベル2 ラベル3 ラベル6 ラベル7
12.
ラベル付けは何人でやったらいいの? 最低でも、2人で同じタグ付けをするようにします (「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です)
13.
ラベル付けは何人でやったらいいの? 最低でも、2人で同じタグ付けをするようにします (「2人で手分けしてする」という意味ではありません。「2人ですべてのデータにタグ付けする」という意味です) なぜ2人で冗長な作業をしなければいけないのか? 「学習のためのラベルは属人的なんでしょ?人によって違うかもしれないじゃん。信用できんよ」 を避けるためです。(こういうことを言う人は必ずいます。ビジネスであっても、研究であっても変わりはありません) 2人以上でラベルづけをすると 「できる限り普遍的なラベルである」と言えます 研究上でも認められている手法です
14.
どのように2人で作業をするの? 「タグ付け→認識確認」を最低でも1回は行います サンプリング1 100データくらいをサンプリングします トライアルタグ付け2 サンプリングしたデータにタグ付けをします 認識確認3 タグ付けデータを確認します。タグが不一致の場合は 「タグ付けのルール再確認」or
「ルールの追加」をします 不一致タグが多すぎる場合は、「タグ体系」の設計を見直してください 本タグ付け作業4 タグ付け作業を本格的に開始します (タグ付け済みのデータもスキップせずに最初からやり直します)
15.
本作業の進め方 本作業の前に「タグが不一致だった場合の対処法」を決定します パターン1 タグが不一致だったら、データは捨てる パターン2 タグが不一致だったら、すべて協議する パターン1の場合
パターン2の場合 メリット 機械学習がするべき問題が簡単になります (人間の直感に合わないデータを捨てるため) デメリット 学習用のデータが少なくなります メリット 学習用のデータが確保できます デメリット 機械学習がする問題が難しくなります 協議するために余計な時間がかかります
16.
本作業の進め方 本作業の前に「タグが不一致だった場合の対処法」を決定します パターン1 タグが不一致だったら、データは捨てる パターン2 タグが不一致だったら、すべて協議する パターン1の場合
パターン2の場合 メリット 機械学習がするべき問題が簡単になります (人間の直感に合わないデータを捨てるため) デメリット 学習用のデータが少なくなります メリット 学習用のデータが確保できます デメリット 機械学習がする問題が難しくなります 協議するために余計な時間がかかります パターン2の場合 「わからない」タグを導入し ておくとよいです
17.
ラベル付け作業はどうやって評価するの? (参考までに)研究上では、「論文でタグ付け一致度」の報告が義務です ※ 報告がない論文は怖い人にクソミソにけなされます。もしくは受理されません 心配な場合は、「カッパ係数」を計算しておきます。 タイミングは「データを捨てる」or「協議してタグを一致させる」前です カッパ係数とは? 「2つ以上のデータの一致度」を調べる数値です。カッパ係数>= 0.81で「とても良い」と言えます (参考)カッパ係数とは? Excelでも計算できますが、めんどうくさいので、相談してください。
Download now