SlideShare a Scribd company logo
1 of 14
Adapting taggers to Twitter 
with not-so-distant supervision 
(Plank et al.) 
COLING 2014 読み会(2014/11/05) 
小町研M1 平田亜衣1
Abstract 
 遠距離学習(半教師ありと教師なし学習)を用いたツ 
イッターへのPOSとNERの適用. 
 特に良いnot-so-distant supervisionの一番良いソー 
スとしてウェブサイトのリンクを用いた. 
 TwitterにおけるPOS taggingとNERにおいてstate-of- 
the-artの研究を大きく改善した. 
 POS tagging:89.76% accuracy, 8% error reduction 
 NER:F1=79.4%, 10% error reduction 
2
1,Introduction 
 Twitterから自動で情報抽出する研究が多くなされて 
いる. 
 しかし,Hovy et al. (2014)ではこれまで提案された 
モデルは各々サンプルにオーバーフィッティングして 
いて,twitterデータ以外での評価はとても下がること 
を示した. 
 これはtwitterでドリフトしているためであったり 
Eisenstein (2013),単純にtwitterが異質であったり, 
小さなサンプルにバイアスがかかっていたりするため 
である. 
 この論文では,ラベル付けされていないtweetからの 
学習を追加することによって,少なくともこのバイア 
スを正すことができるという仮説を立て,検証してい 
く. 
3
 この論文ではラベル付けされてないデータからの学習 
を助けるための遠距離教師あり学習を提案する. 
 我々のアイデアは,遠距離教師あり学習としてtweet 
に付随するURLのウェブサイトの言語情報を使う. 
 リンクされているウェブサイトを学習の時のみに使う 
が,テストの段階では必要としない. 
 我々の半教師ありの手法は他に存在するアプローチよ 
りも違ったtweetのデータに対して頑健にPOSタグ付 
けとNERモデルを学習することができる. 
4
5 
2, Tagging with not-so-distant 
狙いはラベル付けされていない 
tweetの小さなpoolでタグ系列 
の推測によってモデルのバイア 
スを修正し,数回のモデルの再 
学習によって徐々にモデルのバ 
イアスを正しくすることである. 
ベースラインとpredict() 
functionの扱いが違うだけ 
の4つのシステムで実験す 
る. 
supervision 
tweet(x)とtweet内のリ 
ンク先ウェブサイト(w)
 ベースラインと4つのpredict() 
 SELF-TRAINING baseline 
 一般的なラベル付けされていないtwitterデータへの推 
測.predict()のvのみでwを考慮しないもの. 
 WEB 
 ウェブサイトからの情報を追加する.tweetとそれと 
一致するウェブサイト両方で出現したすべての単語に 
対して,ウェブサイトで当てはまるタグを付与する. 
 例 
 (1)でタグ付けをすると”Supplier”がadjective(形容 
詞)と判断される.(間違い) 
 (2)だと右の単語(“Project”)と同じで,noun(名詞)だ 
と判断される.(正解) 
6
 DICT 
 辞書(Wikitionary)のみを使うもの. 
 DICT<WEB 
 辞書の情報とwebの情報が衝突した時に,webの情報 
を使うもの. 
 WEB<DICT 
 逆に辞書の情報を使うもの. 
7
3, Experiments 
 3.1 Model 
 CRF(features proposed by Gimpel et al. 2011) 
 Twitterコーパスから抽出したBrown word cluster 
 プールサイズ:1000 
 500や2000のサイズでの実験では同じような結果に 
なった. 
 development dataでの反復回数:i 
 websiteへのNER 
 品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011) 
 NERシステム:Stanford NER system (Finkel et al., 
2005) 
 Stanford NER taggerでのタグ付けと,各iteration 
でタグ付けし直すよりもoff-lineでのタグ付けをした 
方がわずかに良い結果となった. 
8
 3.2 Data 
 unsupervised domain adaptation(DA) 
 ラベル付けされたニュース記事データのみ 
 semi-supervised DA 
 twitterデータとニュース記事 
 training data 
 POS 
 WSJ newswire 
 in-domain training POS data comes from Gimpel et al. 
(2011) 
 NER 
 CoNLL2003datasetsofannotated newswire from the Reuters 
corpus. 
 in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN) 
9 
in-domain out-of-domain
 3.2 Data 
 Unlabeled data 
 TwitterAPIでtweet-websiteのペアを200k収集. 
 websiteに1文以上含まれているか,ストップワード以外 
の単語が少なくとも1語以上含まれているかなどの制限 
をかけたもの. 
 out-of-vocabulary(OOV) rate 
10
4,Result 
 4.1 POS results 
11
4,Result 
 4.1 POS results 
12 
OOV rateが低 
いため,高い 
値が出る. 
これら提案手法では, 
既存のシステ(Owoputi 
et al., 2013)の87.5%の 
精度よりも良い結果が 
得られた
 Learning with URLs 
 Note, again, that they do not require the test data 
to contain URLs. 
13
 4.2 NER results 14

More Related Content

Similar to Coling読み会 2014

NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料Shohei Hido
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例Yahoo!デベロッパーネットワーク
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015Yahoo!デベロッパーネットワーク
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafKenta Oono
 
Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Pythonロフト くん
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)NTT DATA Technology & Innovation
 
TokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfTokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfkotora_0507
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングYosuke Mizutani
 

Similar to Coling読み会 2014 (10)

NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
Nttr study 20130206_share
Nttr study 20130206_shareNttr study 20130206_share
Nttr study 20130206_share
 
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例ヤフー音声認識サービスでのディープラーニングとGPU利用事例
ヤフー音声認識サービスでのディープラーニングとGPU利用事例
 
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
データサイエンスを支える基盤とそのテクノロジー@WebDBフォーラム2015 #webdbf2015
 
Development and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and mafDevelopment and Experiment of Deep Learning with Caffe and maf
Development and Experiment of Deep Learning with Caffe and maf
 
Getting Started with Graph Database with Python
Getting Started with Graph Database with PythonGetting Started with Graph Database with Python
Getting Started with Graph Database with Python
 
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
人と機械の協働によりデータ分析作業の効率化を目指す協働型機械学習技術(NTTデータ テクノロジーカンファレンス 2020 発表資料)
 
TokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdfTokyoR101_BeginnersSession1.pdf
TokyoR101_BeginnersSession1.pdf
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
アドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニングアドテク×Scala×パフォーマンスチューニング
アドテク×Scala×パフォーマンスチューニング
 

Recently uploaded

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 

Recently uploaded (8)

プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 

Coling読み会 2014

  • 1. Adapting taggers to Twitter with not-so-distant supervision (Plank et al.) COLING 2014 読み会(2014/11/05) 小町研M1 平田亜衣1
  • 2. Abstract  遠距離学習(半教師ありと教師なし学習)を用いたツ イッターへのPOSとNERの適用.  特に良いnot-so-distant supervisionの一番良いソー スとしてウェブサイトのリンクを用いた.  TwitterにおけるPOS taggingとNERにおいてstate-of- the-artの研究を大きく改善した.  POS tagging:89.76% accuracy, 8% error reduction  NER:F1=79.4%, 10% error reduction 2
  • 3. 1,Introduction  Twitterから自動で情報抽出する研究が多くなされて いる.  しかし,Hovy et al. (2014)ではこれまで提案された モデルは各々サンプルにオーバーフィッティングして いて,twitterデータ以外での評価はとても下がること を示した.  これはtwitterでドリフトしているためであったり Eisenstein (2013),単純にtwitterが異質であったり, 小さなサンプルにバイアスがかかっていたりするため である.  この論文では,ラベル付けされていないtweetからの 学習を追加することによって,少なくともこのバイア スを正すことができるという仮説を立て,検証してい く. 3
  • 4.  この論文ではラベル付けされてないデータからの学習 を助けるための遠距離教師あり学習を提案する.  我々のアイデアは,遠距離教師あり学習としてtweet に付随するURLのウェブサイトの言語情報を使う.  リンクされているウェブサイトを学習の時のみに使う が,テストの段階では必要としない.  我々の半教師ありの手法は他に存在するアプローチよ りも違ったtweetのデータに対して頑健にPOSタグ付 けとNERモデルを学習することができる. 4
  • 5. 5 2, Tagging with not-so-distant 狙いはラベル付けされていない tweetの小さなpoolでタグ系列 の推測によってモデルのバイア スを修正し,数回のモデルの再 学習によって徐々にモデルのバ イアスを正しくすることである. ベースラインとpredict() functionの扱いが違うだけ の4つのシステムで実験す る. supervision tweet(x)とtweet内のリ ンク先ウェブサイト(w)
  • 6.  ベースラインと4つのpredict()  SELF-TRAINING baseline  一般的なラベル付けされていないtwitterデータへの推 測.predict()のvのみでwを考慮しないもの.  WEB  ウェブサイトからの情報を追加する.tweetとそれと 一致するウェブサイト両方で出現したすべての単語に 対して,ウェブサイトで当てはまるタグを付与する.  例  (1)でタグ付けをすると”Supplier”がadjective(形容 詞)と判断される.(間違い)  (2)だと右の単語(“Project”)と同じで,noun(名詞)だ と判断される.(正解) 6
  • 7.  DICT  辞書(Wikitionary)のみを使うもの.  DICT<WEB  辞書の情報とwebの情報が衝突した時に,webの情報 を使うもの.  WEB<DICT  逆に辞書の情報を使うもの. 7
  • 8. 3, Experiments  3.1 Model  CRF(features proposed by Gimpel et al. 2011)  Twitterコーパスから抽出したBrown word cluster  プールサイズ:1000  500や2000のサイズでの実験では同じような結果に なった.  development dataでの反復回数:i  websiteへのNER  品詞タグ付け:LAPOS tagger (Tsuruoka et al., 2011)  NERシステム:Stanford NER system (Finkel et al., 2005)  Stanford NER taggerでのタグ付けと,各iteration でタグ付けし直すよりもoff-lineでのタグ付けをした 方がわずかに良い結果となった. 8
  • 9.  3.2 Data  unsupervised domain adaptation(DA)  ラベル付けされたニュース記事データのみ  semi-supervised DA  twitterデータとニュース記事  training data  POS  WSJ newswire  in-domain training POS data comes from Gimpel et al. (2011)  NER  CoNLL2003datasetsofannotated newswire from the Reuters corpus.  in-domain NER data comes from Finin et al. (2010) (FININ-TRAIN) 9 in-domain out-of-domain
  • 10.  3.2 Data  Unlabeled data  TwitterAPIでtweet-websiteのペアを200k収集.  websiteに1文以上含まれているか,ストップワード以外 の単語が少なくとも1語以上含まれているかなどの制限 をかけたもの.  out-of-vocabulary(OOV) rate 10
  • 11. 4,Result  4.1 POS results 11
  • 12. 4,Result  4.1 POS results 12 OOV rateが低 いため,高い 値が出る. これら提案手法では, 既存のシステ(Owoputi et al., 2013)の87.5%の 精度よりも良い結果が 得られた
  • 13.  Learning with URLs  Note, again, that they do not require the test data to contain URLs. 13
  • 14.  4.2 NER results 14