Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

国際コンペティション 参加報告(WWW2015・ACL2015)

1,317 views

Published on

電子情報通信学会 第7回 テキストマイニング・シンポジウム 講演資料

Published in: Technology

国際コンペティション 参加報告(WWW2015・ACL2015)

  1. 1. 国際コンペティション 参加報告 (WWW2015・ACL2015) 山田 育矢 (Ikuya Yamada) 株式会社Studio Ousia / 慶應義塾大学 / 国立情報学研究所
  2. 2. STUDIO OUSIA Outline ‣ ‣ ‣ 2
  3. 3. STUDIO OUSIA Entity linkingとは ‣ ‣ ✦ ✦ ✦ 4 Kyary Pamyu Pamyu is a Japanese model and singer. Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo. Harajuku wikipedia/Harajuku wikipedia/Kawaii KawaiiKyary Pamyu Pamyu wikipedia/Kyary_Pamyu_Pamyu
  4. 4. STUDIO OUSIA エンティティの特徴 ‣ ‣ ‣ 5
  5. 5. STUDIO OUSIA エンティティの特徴: DBpedia Ontology Classes ‣ ‣ ‣ 6 http://mappings.dbpedia.org/server/ontology/classes/ Kyary Pamyu Pamyu: MusicalArtist, Artist, Person, Agent iPhone: InformationAppliance, Device Japan: Country, PopulatedPlace, Place
  6. 6. STUDIO OUSIA エンティティの特徴: Wikipedia Link-based Measure [Milne and Witten ’08] 7 Image taken from Milne and Witten 2008. An Effective, Low-Cost Measure of Semantic Relatedness Obtained from Wikipedia Links
  7. 7. STUDIO OUSIA 何がエンティティ? ‣ ✦ ✦ ‣ ✦ ‣ ✦ ✦ 8
  8. 8. Twitterからのエンティティリンキング An End-to-End Entity Linking Approach for Tweets [#Microposts ’15]
  9. 9. STUDIO OUSIA Background ‣ Twitterのエンティティリンキングは、短 く、口語的で、ノイズが多いことから非常に 難しい ‣ 既存手法は、より綺麗な長いテキスト (ニュ ース等)を対象にしており、Twitterだと精度 が悪い (例: Illinois Wikifier and Wikipedia Miner) 10
  10. 10. STUDIO OUSIA ‣ 一般的なEntity Linking実装でのツイートでの 精度は非常に悪い [Rizzo et al. ’14] 11
  11. 11. STUDIO OUSIA #Microposts NEEL Challenge ‣ International World Wide Web Conference (WWW)内で開催 されている#Micropostsワークショップにて2014年、2015年 とツイートからのEntity Linkingに関するコンペティション (NEEL Challenge) が行われた ‣ ツイートに対するエンティティリンキングのデータセットが 配布され、精度を競う形式で開催 ‣ 対象となるKnowledge Baseのリンク先はDBpedia URI 12
  12. 12. STUDIO OUSIA #Microposts NEEL Challenge 2015 ‣ 2015年から、NILエンティティ(Knowledge Baseに無いエンテ ィティ)及びエンティティのクラス分類もタスクに含まれるよう になった ‣ 21チームが参加を表明したものの、ルールが複雑であったなど の理由で7チームが最終的に残った ‣ 参加者はHTTP経由でEntity LinkingのAPIを公開し、主催者側 で、APIを通じて精度を評価する形式で評価 13
  13. 13. STUDIO OUSIA #Microposts NEEL 2015コーパス 14 100000025580548097 31 35 http://dbpedia.org/resource/BRIC Thing 100000025580548097 69 74 http://dbpedia.org/resource/Intel Organization 100000025580548097 3 8 http://dbpedia.org/resource/Intel Organization 100008638684475392 104 110 http://dbpedia.org/resource/Afghanistan Location 100010138022330368 29 34 http://dbpedia.org/resource/Japan Location ‣ 2011年から2014年までの計6,025ツイートが対象 ‣ Tweet ID、開始位置、終了位置、DBpedia URI、エンテ ィティのクラスの入ったアノテーションが与えられる
  14. 14. システムの概要
  15. 15. STUDIO OUSIA アーキテクチャ 16 Entity Linking NIL Mention Detection Input Text Results 4つの教師付き学習器を使用 Type Prediction (KB Entity Mentions) Type Prediction (NIL Mentions) ✦ エンティティとNILエンティティ(DBpediaに無いエンティティ)を検出し、 そのエンティティの種類 (PERSON, LOCATION等)を分類する ✦ Entity Linkingとは別にNIL Mention Detectionモジュールを実装 ✦ エンティティとNILエンティティそれぞれに対してエンティティの種類の 分類器を実装
  16. 16. Entity Linking
  17. 17. STUDIO OUSIA Entity Linking: メンション・エンティティ辞書 ‣ メンション・エンティティ辞書は、メンション文字列を可能なリンク先 エンティティにマップする ‣ メンション文字列は、下記のソースから取得: ✦ Wikipediaのページタイトル ✦ Wikipediaのリダイレクトページのタイトル ✦ Wikipediaのアンカーテキスト (Wikipediaのページ内リンクに 含まれる文字列) 18 apple Apple Inc. Apple (fruit)
  18. 18. STUDIO OUSIA Entity Linking: メンション候補の生成 ‣ 固有表現抽出器等でメンションの候補を抽出せずに、ツイート内 の全ての可能なN-gram (n <= 10)を候補とする (End-to-End Entity Linking) ‣ メンション候補は、メンション・エンティティ辞書に対して、N- gram文字列を使ってクエリして取得する 19 Mention Candidate Generation Mention Detection and Disambiguation
  19. 19. STUDIO OUSIA Entity Linking: メンションの曖昧検索 ‣ Twitterでの不規則なメンション (ミススペル、略記、アクロニム)に対応す るため、以下の曖昧マッチを用いている ✦ ファジー検索: 編集距離2以内の全てのメンションにマッチ ✦ 曖昧検索: クエリ内の単語の67%以上が含まれているメンションにマッチ ✦ アクロニム検索: 事前に生成されたアクロニム文字列に対してマッチ ‣ このステップで、多くのメンションを生成しておき、次のステップでフィル ターする 20 Mention Candidate Generation Mention Detection and Disambiguation
  20. 20. STUDIO OUSIA Entity Linking: メンションの検出と曖昧性解消 ‣ 生成したメンション候補の中から、正しいメンションを選択する ‣ 教師付き機械学習 (Random Forest) を用いた ‣ 主な特徴量: ✦ ベース: Link probability, Capitalization probability, Commonness, # of inbound links, TAGME entity coherence, etc... ✦ 文字列類似度: 編集距離, Jaro-Winkler, Soft TF-IDF, Jaccard Similarity, etc... ✦ Word and Entity embeddingを用いた類似度 内製の単語及びエンティティのEmbeddingでのツイート内の単語とエンティティの Cosine similarity ✦ Wikipedia Page Viewから取得したポピュラリティ Wikipedia Page Viewデータから取得したエンティティのポピュラリティ 21 Mention Candidate Generation Mention Detection and Disambiguation
  21. 21. STUDIO OUSIA Entity Linking: Wikipediaページビューからの特徴量 ‣ ツイートの作成日のWikipediaページビューによって、 エンティティの該当日のポピュラリティを取得 ‣ 従来のエンティティリンキングは、依存しているWikipediaのダンプか らポピュラリティを取得していたため、特定のWikipediaダンプに依存 ‣ ツイートの作成時における一時的なWikipediaエンティティのポピュラ リティを自然な形で取得できる 22 Mention Candidate Generation Mention Detection and Disambiguation
  22. 22. NIL Mention Detection
  23. 23. STUDIO OUSIA NIL Mention Detection ‣ 教師付き機械学習 (Random Forest) で、メンションが 検出されるべきか否かを学習 ‣ 用いた特徴: ✦ Stanford NERの抽出結果 (該当メンションが抽出されたか否か) - 標準のモデルとCapitalizationを使用していないモデルの二つ を使用 ✦ ツイート中のCapitalizeされた単語の比率 ✦ 品詞タグ、文字列素性、単語長ほか 24
  24. 24. Type Prediction
  25. 25. STUDIO OUSIA Type Prediction: Entity Mentions ‣ 教師付き機械学習 (Random forestとLogistic regressionの Ensemble) でエンティティのクラスを学習 ‣ 用いた特徴: ✦ エンティティのクラス情報 (DBpedia Ontology Classes と Freebase Types) ✦ Stanford NERが検出したエンティティのクラス 26
  26. 26. STUDIO OUSIA Type Prediction: NIL Entity Mentions ‣ 教師付き機械学習 (Random forestとLogistic regressionの Ensemble) でNILエンティティのクラスを学習 ‣ 用いた特徴量 ✦ Word embeddings: Embedding中でのメンションに含まれる 単語の平均ベクトル。Stanford GloVe Twitter 2B modelを Embeddingとして用いた ✦ NER entity types: Stanford NERで検出されたエンティティの クラス 27
  27. 27. 結果
  28. 28. STUDIO OUSIA ‣ 優勝しました! 29
  29. 29. STUDIO OUSIA ‣ ちなみに昨年のWWWで行われた#Microposts 2014コンペティションではMicrosoftが圧勝 30
  30. 30. スコアの差はどこから?
  31. 31. STUDIO OUSIA ‣ 一般的なエンティティリンキング実装では、固有表現抽出器(NER)を 使用して、テキスト中から候補となるエンティティ文字列を抽出する ‣ #Microposts 2014の2位以下のエントリーでは、固有表現抽出器 (NER)を使用して、エンティティ文字列を抽出している ‣ 2位はエンティティの曖昧性解消にGoogle検索を利用 32
  32. 32. STUDIO OUSIA 33 ‣ Twitterからの固有表現抽出器の精度はState-of-the-artな実装でも非常に低い (F1値で22.46%~51.5%) ‣ 昨年のMicrosoftのアプローチ及び我々のアプローチはNERに依存しないEnd- to-endなアプローチを取っている ‣ スコアの大きな乖離はこのあたりから来ているのでは?
  33. 33. STUDIO OUSIA まとめ ‣ 新しいツイートに対して有効なEnd-to-Endのエンティ ティリンキング手法を提案した ‣ DBpedia等の知識ベースは、エンティティリンキング に対しても有用であることが分かった ‣ 正確なメンション検出は人間にも非常に難しい。特に Capitalizationが正確でないツイートに対しては困難 34
  34. 34. エンティティリンキングによる ツイートからの固有表現抽出の改善 Enhancing Named Entity Recognition in Twitter Messages Using Entity Linking [ACL WNUT '15]
  35. 35. STUDIO OUSIA Background ‣ ツイートからの固有表現抽出は、ノイズが多 く、短く、口語的であるため難しい ‣ 代表的な固有表現抽出手法の精度は非常に低い (F1スコアで50ポイント程度 [Derczynski et al. 2015]) 36
  36. 36. STUDIO OUSIA ツイートからの固有表現抽出は エンティティリンキングで良くなるか? 37
  37. 37. STUDIO OUSIA ACL W−NUT Workshop ‣ ACL 2015 内で開催されたWorkshop on Noisy User-generated Text (W-NUT)にてツイートからの固有表現抽出のShared taskが行われた ‣ Shared task用に作成された固有表現抽出のデータセットが配布され、 精度を競う形式で開催 ‣ ツイート中から固有表現を認識し、10個の指定されたクラス (person, company, geo-loc, product, tvshow, movie, facility, musicartist, sportsteam, other) に分類する 38 https://noisy-text.github.io/
  38. 38. STUDIO OUSIA ACL W-NUT コーパス 39 ‣ ツイートおよび固有表現タグが訓練用として与えられ、未知のテストデータ上で 精度を計測する ‣ 2010年9月に取得された訓練セット(1,795ツイート)、開発セット(599ツイート)、 及び2014年12月-2015年2月に取得された開発セット(425ツイート)が与えられる ‣ 2014年12月-2015年2月に取得されたテストセット(1,000ツイート)で精度を検証
  39. 39. STUDIO OUSIA 参加チーム ‣ シンガポール科学技術研究庁、National Research Council Canada、University of Sheffieldなど、合計8チームが参加 40
  40. 40. システムの概要
  41. 41. STUDIO OUSIA 42 New Frozen Boutique to Open at Disney's Hollywood Studios “Frozen”を抽出するのは、従来の固有表現抽出の 手法では難しい
  42. 42. STUDIO OUSIA Entity Linking 43 New Frozen Boutique to Open at Disney's Hollywood Studios /wiki/Frozen_(2013_film) /wiki/The_Walt_Disney_Company /wiki/Disney’s_Hollywood_Studios ‣ エンティティリンキングを使うと”Frozen”を検出できる: ✦ “Frozen”は非常にポピュラーなエンティティである (Wikipedia のリンク構造やページビューから判断できる) ✦ “Frozen”は意味的に他のエンティティと強く関連している
  43. 43. STUDIO OUSIA Our Approach ‣ 最初にエンティティリンキングをEnd-to-endで行う ‣ 検出されたメンションの情報を固有表現抽出に用いる ‣ エンティティに関する情報はWikipedia、DBpedia、 Freebase等の知識ベースから抽出する ‣ エンティティの検出と分類は別のコンポーネントで処理する 44 エンティティ リンキング エンティティの検出 (NER) エンティティの分類 (NER)
  44. 44. End-to-End Entity Linking エンティティ リンキング エンティティの 検出 エンティティの 分類
  45. 45. STUDIO OUSIA End-to-End Entity Linking ‣ #Microposts 2015で用いたツイート用の エンティティリンキング実装を用いた 46 Image taken from NEEL2015 Challenge Summary: http://www.slideshare.net/giusepperizzo/neel2015-challenge-summary
  46. 46. エンティティの検出 エンティティ リンキング エンティティの 検出 エンティティの 分類
  47. 47. STUDIO OUSIA エンティティの検出: アプローチ ‣ 教師付き機械学習を用いてすべての可能なn-gram (n <= 10) に 対して確信度スコアを付与する ‣ 教師付き機械学習には、Random forestを用いた ‣ N-Gramがオーバーラップした場合には、文頭から順に 最長一致したものを採用する ‣ 使用した機械学習器の特徴量: ✦ エンティティに関連する特徴 ✦ 言語的な特徴 (NERの結果や品詞タグ等) 48
  48. 48. STUDIO OUSIA エンティティの検出: エンティティに関連する特徴 ‣ エンティティリンキングが付与した確信度スコア ‣ エンティティのポピュラリティ: ✦ Wikipediaでのインバウンドのリンク数 ✦ Wikipediaでの平均ページビュー数 ‣ メンションに関連する指標: ✦ Link probability ✦ Capitalization probability 49
  49. 49. STUDIO OUSIA Link Probability 50 Her public image is associated with Japan's kawaisa culture centered in Harajuku, Tokyo Takeshita Street is a street lined with fashion boutiques, and cafes in Harajuku in Tokyo, Japan. Department Store and Museum is a department store located in the Harajuku... Takeshita Street Kyary Pamyu Pamyu Laforet Link Plain text LINK_PROBABILITY(Harajuku) = 2/3
  50. 50. STUDIO OUSIA エンティティの検出: 言語的な特徴 ‣ Stanford NERがメンションを検出したか ‣ Ark Tweet NLPが付与した該当単語及び 周辺単語の品詞タグ ‣ 該当単語及び周辺単語がCapitalizeされているか ‣ メンションの長さ (単語ベース、文字ベース) 51
  51. 51. エンティティの分類 エンティティ リンキング エンティティの 検出 エンティティの 分類
  52. 52. STUDIO OUSIA エンティティの分類 ‣ 教師付機械学習を用いて検出されたメンションを事前に定義されたタイプ に分類する ‣ 機械学習器として、Linear SVMを用いた ‣ 用いた主な特徴量: ✦ 知識ベースから取得したエンティティの種類 (DBpedia Ontology Classes and Freebase Types) ✦ Stanford NERで取得したエンティティの種類 (i.e., PERSON, ORGANIZATION, LOCATION) ✦ N-Gram中に含まれる単語の平均ベクトル (Stanford GloVe 840Bモデ ルで生成) ✦ エンティティリンキングによる確信度のスコア 53
  53. 53. STUDIO OUSIA Results ‣ 二位のチームと比較してSegmentationタスクで10.34 F1、 Classificationタスクで5.01 F1差をつけて優勝 54 Performances of the proposed systems at segmenting entities Performances of the proposed systems at both segmentation and classification tasks NLANGP nrc multimedialab USFD
  54. 54. STUDIO OUSIA Conclusion ‣ エンティティリンキングを用いることで、ツイー トの固有表現抽出の精度を向上することができる ‣ エンティティリンキングを使うと、知識ベース上 の高品質な情報を固有表現抽出で有効に使用する ことができるようになる 55
  55. 55. THANK YOU!

×