SlideShare a Scribd company logo
1 of 22
Download to read offline
Active Learning with Efficient Feature 
Weighting Methods for Improving Data 
Quality and Classification Accuracy 
Justin Martineau1, Lu Chen, 
Doreen Cheng, and Amit Sheth 
ACL2014 
id:skozawa 
論文輪読会
Supervised Algorithm and Data 
● 教師あり学習にはアノテーションデータが必須 
● アノテーションデータの収集方法は2種類 
1. 少数の専門家 
○ 時間がかかる、高コスト 
○ 高品質なデータ 
2. クラウドソーシング (eg. Amazon’s Mechanical Turk) 
○ 時間が早い、低コスト 
○ 低品質なデータ 
■ 分類モデルの性能低下 
大規模だが、低品質なアノテーションデータが与えられたとき、 
いかにしてデータの品質を改善し、分類器の性能を向上させるか
Error Correction with Active Learning 
● データ改善のアプローチ 
○ 再アノテーション 
■ コストが高い 
● アノテーションの軽減 
○ 最も誤っていそうな事例を選択するアルゴリズムが必要 
○ 誤り事例の選択と再アノテーションを繰り返し実行 
● この戦略は能動学習と類似
Active Learning 
● 能動学習 
○ 教師データを作成する際に最大の効果を発揮するように教師とす 
るデータを選択する方法についての研究分野 
● 少量のラベル付きデータを利用して、大量のラベルなしデータ 
の中からアノテーションすべきデータを見つける 
● アノテーションすべきデータの選択には 
主に2種類の戦略がある 
1. サンプリングの乏しい領域を選択 
2. モデルに対する影響が大きいデータを選択
Error Correction with Active Learning 
● データ改善のアプローチ 
○ 再アノテーション 
■ コストが高い 
● アノテーションの軽減 
○ 最も誤っていそうな事例を選択するアルゴリズムが必要 
○ 誤り事例の選択と再アノテーションを繰り返し実行 
● この戦略は能動学習と類似 
○ 少ない学習データを利用して高精度な分類器を学習 
○ 少数のアノテーションデータを利用し、大量の非アノテーションデー 
タから最も情報量の多い事例を選択 
繰り返し、かつ、相互にアノテーションエラーを 
訂正するために能動学習のアイデアを利用
Proposed Method 
● 効率的、かつ、効果的に誤っていそうな事例を 
見つけることが重要 
○ 事例を分類し、信頼性順にランキング 
○ 信頼性は高いが、事前のラベルと異なる事例は誤りである可能性 
が高い 
● 非線形分布拡散アルゴリズムを提案 
○ Delta IDFを利用し特徴を重み付け 
○ Delta IDFのスコア分布を利用し識別的な特徴を認識 
● Twitterの感情分析 
○ より高精度な感情分類器の学習 
○ より低いコストでのアノテーション品質の向上
Related Works 
1. ノイズ許容 (Noise Tolerance) 
○ 誤りラベルが原因の過学習を避けるように学習アルゴリズムを改善 
し、ノイズを許容可能な分類器を構築 
○ デメリット:学習するアルゴリズムに依存 
2. ノイズ除去 (Noise Elimination) 
○ 分類器を構築する前処理としてデータセットから誤りラベル 
を識別し削除する 
○ デメリット 
■ 曖昧な事例の削除 
■ ノイズが多い場合には十分なデータが残らない 
3. ノイズ訂正 (Noise Correction) 
○ 専門家が介入するアプローチとしないアプローチ 
○ 自動訂正は誤った訂正をすると新たなノイズを生む
Active Learning for Data Cleaning 
● 専門家によるラベル訂正 
○ コミュニティで再利用されうる高品質なデータの獲得 
○ 高コストだが、価値はある 
● Active Label Correction (Rebbapragada et. al (2012)) 
○ 専門家に少量の誤っていそうなデータを繰り返し提示 
○ 提案手法は同様のフレームワークを利用 
● 伝統的な能動学習との相違点 
○ 低品質なラベルを持つデータ 
○ 従来はラベルなし 
● ラベルの違いを利用 
○ 付与されている低品質なラベル 
○ 低品質なデータに基づき学習器を利用して付与したラベル
Active Learning Framework for Label Correction 
D = {(x1, y1), … , (xn, yn)} : 誤ったラベルを含むデータ 
xi: 事例, yi: ラベル {-1, +1} 
● 目的 
○ 高品質なデータDの取得 
○ 高精度な分類器Cの学習 
● 定義 
○ T:対象のデータ 
○ S:再アノテーション対象の 
データ集合 
○ Sr:再アノテーション済み 
のデータ集合 
^
Active Learning Framework for Label Correction 
● アルゴリズム 
1. データTを利用し分類器Cを構築 
2. 分類器Cを利用しTから誤っていそうな事例を 
m個(S)取得 
3. 専門家が事例(S-(Sr∧S))を 
再アノテーション 
4. データTを更新 
● 上記を繰り返し実行 
○ 1,2は交差検定 
○ アノテーションに対する 
報酬が小さくなったら終了
Feature Weighting Methods 
● 誤っていそうな事例を発見する分類器Cの構築が能動学習にお 
いて最も重要 
(1) 最もありそうな誤りを効率的に発見 
● 高精度に事例を予測し、予測の信頼度に基づきランキング 
(2) 短い学習時間 
■ 削減した時間はより多くの誤りを訂正するのに利用 
● 特徴の重み付け手法 
○ 識別的な特徴の重みを大きくする 
○ 計算量が少ない 
● 非線形分布拡散アルゴリズムを提案 
○ Delta-IDFを利用
Delta IDF Weigting Scheme 
● Delta IDF 
○ TFやTF.IDFとは異なる 
○ 正例と負例を別のコーパスとして扱う 
○ 1つのクラスに含まれるほど、単語の重みは大きくなる 
■ 特定のクラスに関連しやすい単語の重要性が大きくなる 
■ 他のクラスから識別するのに効果的な特徴 
● 単語 j のDelta IDF 
● データの不均衡への対処 
○ Delta IDFを計算する前に多数派のクラスのサンプルを減らす 
● 単語 j の重み 
(負例数) 
(単語jを含む負例数) 
(単語jを含む正例数) 
(正例数)
A Non-linear Distribution Spreading Algorithm 
● 複数クラスにわたる素性の重み(Delta IDF)分布を利用 
○ 複数の感情カテゴリ(funny, happy, sad, exciting, boring, etc.) 
● クラスuに属する単語 j の拡散スコア 
○ L: クラスの集合、 |L|: クラス数 
● 拡散スコアが高い 
クラスuとそれ以外のクラスのDelta IDFの差異 
○ あるクラスに識別的な単語のスコアが高い 
クラス数 - 1 
クラスu,単語jに対するDelta IDF ×
Experiments 
● 提案手法を評価 
○ 感情分類モデルの有効性 
○ 手法の計算時間 
○ アノテーションの品質の改善 
● タスク:感情分析 
○ 8の感情(funny, happy, sad, exciting, boring, angry, fear, heartwarming) 
○ アノテーションは簡単ではない 
i. 複数の感情がアノテーションされる 
ii. 感情表現は分かりづらく、曖昧なため、見落としやすい 
iii. データのバランスが悪い 
● 少数の感情は見落とされやすい
Experimental Setup 
● テレビ番組や映画に関するツイートデータを利用 
○ テレビ番組や映画をクエリとして20億ツイートを収集 
○ よく言及される60のテレビ番組や映画の10万ツイートを選択 
■ 各番組に対しては同じツイート数 
● データ生成 
○ Amazon Mechanical Turk 
○ 専門家
Amazon Mechanical Turk Annotation 
● 10万ツイートに対してアノテーション 
● アノテーションガイドライン 
○ 特定のルールと例を提示 
● 品質コントロール 
○ クラウドソーシングの慣行 
○ 初期のアノテーションを改善 
● 各ツイートに対して少なくとも2名以上アノテーション
Ground Truth Annotation 
● AMTと同じデータを専門家に渡す 
○ 同じガイドライン 
○ 各ツイートにたいして少なくとも2名はアノテーション 
○ 意見が一致しなかった場合は一致するまで議論 
● AMTとの比較 
○ 多くの感情に対してアノテーション
Methods For Evaluation 
● Delta-IDF 
○ Delta IDF 重みベクトルとDFベクトルの内積 
● Spread 
○ 分布拡散重みベクトル(s=2)とDFの内積 
● SVM-TF 
○ BOW(TF)のSVM 
● SVM-Delta-IDF 
○ BOW(TF.Delta-IDF)のSVM 
● 分類器Cとして利用 
○ トップmのツイートを選択 
○ 再アノテーションには 
ground truthを利用
Experimental Results (MAP/F1) 
● 再アノテーション数とMAP/F値 
○ 序盤 : SVM-Delta-IDF > SVM-TF > Spread 
○ 終盤 : SVM-Delta-IDF > Spread > SVM-TF
Experimental Results (Time Efficiency) 
● 所要時間 
○ SVM-TF : SVM-Delta-IDF : Spread : Delta-IDF = 
1 : 1/2 : 1/12 : 1/31 
○ SVM-TF: 258.8 sec, Spread: 21.4 sec 
○ 4.5 時間短縮 
■ (258.8 - 21.4) * 9 * 8 
● 9 iterations 
● 8 emotions
Experimenta Results (Queality) 
● よい手法は少ないイテレーションで多くのラベルを修正 
● Random: ランダムに事例を選択
Conclusion 
● アノテーションの品質改善手法としての能動学習を調査 
● 計算機コストが高いSVMの代わりに non-linear distribution 
spreading アルゴリズムを利用 
● 評価で以下を示した 
(1)誤りである可能性が高いデータをランキングし、 
その精度は計算機コストの高いベースライン(SVM-TF)と同等 
(2)SVM-TFより早く学習・実行 
(3)アノテーションプロセスは分類器の性能に陽に影響を与え、データ 
の品質を改善

More Related Content

Similar to Active learning with efficient feature weighting methods for improving data quality and classification accuracy

Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Fumihiko Takahashi
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tatsuya Tojima
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)MasanoriSuganuma
 
[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networksDeep Learning JP
 
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成kt.mako
 
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardStatistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardharmonylab
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルートIssei Kurahashi
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測DataRobotJP
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装Shinya Akiba
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for PredictionDeep Learning JP
 
Large Scale Incremental Learning
Large Scale Incremental LearningLarge Scale Incremental Learning
Large Scale Incremental Learningcvpaper. challenge
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationJunya Kamura
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Yosuke Shinya
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化RCCSRENKEI
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事Shunsuke Nakamura
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]DeNA
 

Similar to Active learning with efficient feature weighting methods for improving data quality and classification accuracy (20)

Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究Active Learning の基礎と最近の研究
Active Learning の基礎と最近の研究
 
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
Tokyo.R 41 サポートベクターマシンで眼鏡っ娘分類システム構築
 
CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)CNNの構造最適化手法(第3回3D勉強会)
CNNの構造最適化手法(第3回3D勉強会)
 
[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks[DL輪読会]Measuring abstract reasoning in neural networks
[DL輪読会]Measuring abstract reasoning in neural networks
 
情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成情報アクセス技術のためのテストコレクション作成
情報アクセス技術のためのテストコレクション作成
 
Statistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forwardStatistical machine learning forecasting methods concerns and ways forward
Statistical machine learning forecasting methods concerns and ways forward
 
おしゃスタ@リクルート
おしゃスタ@リクルートおしゃスタ@リクルート
おしゃスタ@リクルート
 
機械学習を使った時系列売上予測
機械学習を使った時系列売上予測機械学習を使った時系列売上予測
機械学習を使った時系列売上予測
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
[DL輪読会]Meta-Learning Probabilistic Inference for Prediction
 
Large Scale Incremental Learning
Large Scale Incremental LearningLarge Scale Incremental Learning
Large Scale Incremental Learning
 
Deep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classificationDeep learning for_extreme_multi-label_text_classification
Deep learning for_extreme_multi-label_text_classification
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
Neural Rejuvenation: Improving Deep Network Training by Enhancing Computation...
 
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
DEEP LEARNING、トレーニング・インファレンスのGPUによる高速化
 
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
SSII2022 [TS3] コンテンツ制作を支援する機械学習技術​〜 イラストレーションやデザインの基礎から最新鋭の技術まで 〜​
 
20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事20181219_全部見せます、データサイエンティストの仕事
20181219_全部見せます、データサイエンティストの仕事
 
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
運用中のゲームにAIを導入するには〜プロジェクト推進・ユースケース・運用〜 [DeNA TechCon 2019]
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 

More from Shunsuke Kozawa

Gunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムShunsuke Kozawa
 
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストGunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストShunsuke Kozawa
 
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015Shunsuke Kozawa
 
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkElasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkShunsuke Kozawa
 
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Shunsuke Kozawa
 
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発Shunsuke Kozawa
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用Shunsuke Kozawa
 
Heady news headline abstraction through event pattern clustering
Heady  news headline abstraction through event pattern clusteringHeady  news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clusteringShunsuke Kozawa
 
Joint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweetsJoint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweetsShunsuke Kozawa
 
Topical keyphrase extraction from twitter
Topical keyphrase extraction from twitterTopical keyphrase extraction from twitter
Topical keyphrase extraction from twitterShunsuke Kozawa
 

More from Shunsuke Kozawa (10)

Gunosyにおけるパーソナライズシステム
GunosyにおけるパーソナライズシステムGunosyにおけるパーソナライズシステム
Gunosyにおけるパーソナライズシステム
 
Gunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテストGunosyにおける仮説検証とABテスト
Gunosyにおける仮説検証とABテスト
 
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
はてなブックマークのトピックページの裏側 in YAPC::Asia Tokyo 2015
 
Elasticsearch in hatena bookmark
Elasticsearch in hatena bookmarkElasticsearch in hatena bookmark
Elasticsearch in hatena bookmark
 
Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成Elasticsearchを用いたはてなブックマークのトピック生成
Elasticsearchを用いたはてなブックマークのトピック生成
 
はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発はてなブックマークに基づく関連記事レコメンドエンジンの開発
はてなブックマークに基づく関連記事レコメンドエンジンの開発
 
はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用はてなブックマークの新機能における自然言語処理の活用
はてなブックマークの新機能における自然言語処理の活用
 
Heady news headline abstraction through event pattern clustering
Heady  news headline abstraction through event pattern clusteringHeady  news headline abstraction through event pattern clustering
Heady news headline abstraction through event pattern clustering
 
Joint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweetsJoint inference of named entity recognition and normalization for tweets
Joint inference of named entity recognition and normalization for tweets
 
Topical keyphrase extraction from twitter
Topical keyphrase extraction from twitterTopical keyphrase extraction from twitter
Topical keyphrase extraction from twitter
 

Recently uploaded

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 

Recently uploaded (10)

TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 

Active learning with efficient feature weighting methods for improving data quality and classification accuracy

  • 1. Active Learning with Efficient Feature Weighting Methods for Improving Data Quality and Classification Accuracy Justin Martineau1, Lu Chen, Doreen Cheng, and Amit Sheth ACL2014 id:skozawa 論文輪読会
  • 2. Supervised Algorithm and Data ● 教師あり学習にはアノテーションデータが必須 ● アノテーションデータの収集方法は2種類 1. 少数の専門家 ○ 時間がかかる、高コスト ○ 高品質なデータ 2. クラウドソーシング (eg. Amazon’s Mechanical Turk) ○ 時間が早い、低コスト ○ 低品質なデータ ■ 分類モデルの性能低下 大規模だが、低品質なアノテーションデータが与えられたとき、 いかにしてデータの品質を改善し、分類器の性能を向上させるか
  • 3. Error Correction with Active Learning ● データ改善のアプローチ ○ 再アノテーション ■ コストが高い ● アノテーションの軽減 ○ 最も誤っていそうな事例を選択するアルゴリズムが必要 ○ 誤り事例の選択と再アノテーションを繰り返し実行 ● この戦略は能動学習と類似
  • 4. Active Learning ● 能動学習 ○ 教師データを作成する際に最大の効果を発揮するように教師とす るデータを選択する方法についての研究分野 ● 少量のラベル付きデータを利用して、大量のラベルなしデータ の中からアノテーションすべきデータを見つける ● アノテーションすべきデータの選択には 主に2種類の戦略がある 1. サンプリングの乏しい領域を選択 2. モデルに対する影響が大きいデータを選択
  • 5. Error Correction with Active Learning ● データ改善のアプローチ ○ 再アノテーション ■ コストが高い ● アノテーションの軽減 ○ 最も誤っていそうな事例を選択するアルゴリズムが必要 ○ 誤り事例の選択と再アノテーションを繰り返し実行 ● この戦略は能動学習と類似 ○ 少ない学習データを利用して高精度な分類器を学習 ○ 少数のアノテーションデータを利用し、大量の非アノテーションデー タから最も情報量の多い事例を選択 繰り返し、かつ、相互にアノテーションエラーを 訂正するために能動学習のアイデアを利用
  • 6. Proposed Method ● 効率的、かつ、効果的に誤っていそうな事例を 見つけることが重要 ○ 事例を分類し、信頼性順にランキング ○ 信頼性は高いが、事前のラベルと異なる事例は誤りである可能性 が高い ● 非線形分布拡散アルゴリズムを提案 ○ Delta IDFを利用し特徴を重み付け ○ Delta IDFのスコア分布を利用し識別的な特徴を認識 ● Twitterの感情分析 ○ より高精度な感情分類器の学習 ○ より低いコストでのアノテーション品質の向上
  • 7. Related Works 1. ノイズ許容 (Noise Tolerance) ○ 誤りラベルが原因の過学習を避けるように学習アルゴリズムを改善 し、ノイズを許容可能な分類器を構築 ○ デメリット:学習するアルゴリズムに依存 2. ノイズ除去 (Noise Elimination) ○ 分類器を構築する前処理としてデータセットから誤りラベル を識別し削除する ○ デメリット ■ 曖昧な事例の削除 ■ ノイズが多い場合には十分なデータが残らない 3. ノイズ訂正 (Noise Correction) ○ 専門家が介入するアプローチとしないアプローチ ○ 自動訂正は誤った訂正をすると新たなノイズを生む
  • 8. Active Learning for Data Cleaning ● 専門家によるラベル訂正 ○ コミュニティで再利用されうる高品質なデータの獲得 ○ 高コストだが、価値はある ● Active Label Correction (Rebbapragada et. al (2012)) ○ 専門家に少量の誤っていそうなデータを繰り返し提示 ○ 提案手法は同様のフレームワークを利用 ● 伝統的な能動学習との相違点 ○ 低品質なラベルを持つデータ ○ 従来はラベルなし ● ラベルの違いを利用 ○ 付与されている低品質なラベル ○ 低品質なデータに基づき学習器を利用して付与したラベル
  • 9. Active Learning Framework for Label Correction D = {(x1, y1), … , (xn, yn)} : 誤ったラベルを含むデータ xi: 事例, yi: ラベル {-1, +1} ● 目的 ○ 高品質なデータDの取得 ○ 高精度な分類器Cの学習 ● 定義 ○ T:対象のデータ ○ S:再アノテーション対象の データ集合 ○ Sr:再アノテーション済み のデータ集合 ^
  • 10. Active Learning Framework for Label Correction ● アルゴリズム 1. データTを利用し分類器Cを構築 2. 分類器Cを利用しTから誤っていそうな事例を m個(S)取得 3. 専門家が事例(S-(Sr∧S))を 再アノテーション 4. データTを更新 ● 上記を繰り返し実行 ○ 1,2は交差検定 ○ アノテーションに対する 報酬が小さくなったら終了
  • 11. Feature Weighting Methods ● 誤っていそうな事例を発見する分類器Cの構築が能動学習にお いて最も重要 (1) 最もありそうな誤りを効率的に発見 ● 高精度に事例を予測し、予測の信頼度に基づきランキング (2) 短い学習時間 ■ 削減した時間はより多くの誤りを訂正するのに利用 ● 特徴の重み付け手法 ○ 識別的な特徴の重みを大きくする ○ 計算量が少ない ● 非線形分布拡散アルゴリズムを提案 ○ Delta-IDFを利用
  • 12. Delta IDF Weigting Scheme ● Delta IDF ○ TFやTF.IDFとは異なる ○ 正例と負例を別のコーパスとして扱う ○ 1つのクラスに含まれるほど、単語の重みは大きくなる ■ 特定のクラスに関連しやすい単語の重要性が大きくなる ■ 他のクラスから識別するのに効果的な特徴 ● 単語 j のDelta IDF ● データの不均衡への対処 ○ Delta IDFを計算する前に多数派のクラスのサンプルを減らす ● 単語 j の重み (負例数) (単語jを含む負例数) (単語jを含む正例数) (正例数)
  • 13. A Non-linear Distribution Spreading Algorithm ● 複数クラスにわたる素性の重み(Delta IDF)分布を利用 ○ 複数の感情カテゴリ(funny, happy, sad, exciting, boring, etc.) ● クラスuに属する単語 j の拡散スコア ○ L: クラスの集合、 |L|: クラス数 ● 拡散スコアが高い クラスuとそれ以外のクラスのDelta IDFの差異 ○ あるクラスに識別的な単語のスコアが高い クラス数 - 1 クラスu,単語jに対するDelta IDF ×
  • 14. Experiments ● 提案手法を評価 ○ 感情分類モデルの有効性 ○ 手法の計算時間 ○ アノテーションの品質の改善 ● タスク:感情分析 ○ 8の感情(funny, happy, sad, exciting, boring, angry, fear, heartwarming) ○ アノテーションは簡単ではない i. 複数の感情がアノテーションされる ii. 感情表現は分かりづらく、曖昧なため、見落としやすい iii. データのバランスが悪い ● 少数の感情は見落とされやすい
  • 15. Experimental Setup ● テレビ番組や映画に関するツイートデータを利用 ○ テレビ番組や映画をクエリとして20億ツイートを収集 ○ よく言及される60のテレビ番組や映画の10万ツイートを選択 ■ 各番組に対しては同じツイート数 ● データ生成 ○ Amazon Mechanical Turk ○ 専門家
  • 16. Amazon Mechanical Turk Annotation ● 10万ツイートに対してアノテーション ● アノテーションガイドライン ○ 特定のルールと例を提示 ● 品質コントロール ○ クラウドソーシングの慣行 ○ 初期のアノテーションを改善 ● 各ツイートに対して少なくとも2名以上アノテーション
  • 17. Ground Truth Annotation ● AMTと同じデータを専門家に渡す ○ 同じガイドライン ○ 各ツイートにたいして少なくとも2名はアノテーション ○ 意見が一致しなかった場合は一致するまで議論 ● AMTとの比較 ○ 多くの感情に対してアノテーション
  • 18. Methods For Evaluation ● Delta-IDF ○ Delta IDF 重みベクトルとDFベクトルの内積 ● Spread ○ 分布拡散重みベクトル(s=2)とDFの内積 ● SVM-TF ○ BOW(TF)のSVM ● SVM-Delta-IDF ○ BOW(TF.Delta-IDF)のSVM ● 分類器Cとして利用 ○ トップmのツイートを選択 ○ 再アノテーションには ground truthを利用
  • 19. Experimental Results (MAP/F1) ● 再アノテーション数とMAP/F値 ○ 序盤 : SVM-Delta-IDF > SVM-TF > Spread ○ 終盤 : SVM-Delta-IDF > Spread > SVM-TF
  • 20. Experimental Results (Time Efficiency) ● 所要時間 ○ SVM-TF : SVM-Delta-IDF : Spread : Delta-IDF = 1 : 1/2 : 1/12 : 1/31 ○ SVM-TF: 258.8 sec, Spread: 21.4 sec ○ 4.5 時間短縮 ■ (258.8 - 21.4) * 9 * 8 ● 9 iterations ● 8 emotions
  • 21. Experimenta Results (Queality) ● よい手法は少ないイテレーションで多くのラベルを修正 ● Random: ランダムに事例を選択
  • 22. Conclusion ● アノテーションの品質改善手法としての能動学習を調査 ● 計算機コストが高いSVMの代わりに non-linear distribution spreading アルゴリズムを利用 ● 評価で以下を示した (1)誤りである可能性が高いデータをランキングし、 その精度は計算機コストの高いベースライン(SVM-TF)と同等 (2)SVM-TFより早く学習・実行 (3)アノテーションプロセスは分類器の性能に陽に影響を与え、データ の品質を改善