Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Wikipediaを活用した言語解析で 世界に挑戦

1,111 views

Published on

NHK技研での講演資料です。

Published in: Technology
  • Be the first to comment

Wikipediaを活用した言語解析で 世界に挑戦

  1. 1. 山田 育矢 (Ikuya Yamada) 株式会社Studio Ousia / 慶應義塾大学 / 国立情報学研究所
  2. 2. STUDIO OUSIA 自己紹介 ‣ ✦ ✦ ‣ ✦ ‣ 2
  3. 3. STUDIO OUSIA Outline ‣ ‣ ‣ ‣ 3
  4. 4. STUDIO OUSIA Entity linkingとは ‣ ‣ ✦ ✦ ✦ 5 Kyary Pamyu Pamyu is a Japanese model and singer. Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo. Harajuku wikipedia/Harajuku wikipedia/Kawaii KawaiiKyary Pamyu Pamyu wikipedia/Kyary_Pamyu_Pamyu
  5. 5. STUDIO OUSIA エンティティの特徴 ‣ ‣ ‣ 6
  6. 6. STUDIO OUSIA エンティティの特徴: DBpedia Ontology Classes ‣ ‣ ‣ 7 http://mappings.dbpedia.org/server/ontology/classes/ Kyary Pamyu Pamyu: MusicalArtist, Artist, Person, Agent iPhone: InformationAppliance, Device Japan: Country, PopulatedPlace, Place
  7. 7. STUDIO OUSIA エンティティの特徴: Wikipedia Link-based Measure [Milne and Witten ’08] 8 Image taken from Milne and Witten 2008. An Effective, Low-Cost Measure of Semantic Relatedness Obtained from Wikipedia Links
  8. 8. STUDIO OUSIA 何がエンティティ? ‣ ✦ ✦ ‣ ✦ ‣ ✦ ✦ 9
  9. 9. Evaluating the Helpfulness of Linked Entities to Readers [HT ’15]
  10. 10. STUDIO OUSIA 人に役立つエンティティ ‣ ‣ ✦ 11 Kyary Pamyu Pamyu is a Japanese model and singer. Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo.
  11. 11. STUDIO OUSIA Wikipedia Manual of Style ‣ relevant and helpful ‣ 12 http://en.wikipedia.org/wiki/Wikipedia:Manual_of_Style#Wikilinks
  12. 12. STUDIO OUSIA アプローチ ‣ ‣ ‣ 13 Kyary Pamyu Pamyu is a Japanese model and singer. Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo. TRUE FALSE/
  13. 13. STUDIO OUSIA アプローチ ‣ ‣ 14 Entity Linking Helpfulness Evaluation (Our Method) Input Text Entities エンティティリンキングの後処理のステップとして実装
  14. 14. STUDIO OUSIA List of machine-learning features 特徴量 ‣ ‣ ‣ ‣ ‣ ‣ 15 特徴量は6つのグループに分けられる
  15. 15. STUDIO OUSIA Link Probability Features ‣ ‣ ✦ ✦ ✦ 16 Ca(m): A set of entities that contain mention as an anchor Ct(m): A set of entities that contain mention Link probabilityはWikipedia内で該当する文字列(メンション)が リンク文字列として出現する確率をあらわす
  16. 16. STUDIO OUSIA Link Probability Features 17 Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo Takeshita Street is a street lined with fashion boutiques, cafes in Harajuku in Tokyo, Japan. Department Store and Museum is a department store located in the Harajuku... Takeshita Street Kyary Pamyu Pamyu Laforet Link Plain text LINK_PROB(Harajuku) = 2/3
  17. 17. STUDIO OUSIA Entity Features ‣ ‣ ‣ ‣ ‣ 18
  18. 18. STUDIO OUSIA Entity Class Features 19 Entity class featuresは、DBpedia, Freebaseから取得した エンティティのクラス情報をあらわす Kyary Pamyu Pamyu wikipedia/Kyary_Pamyu_Pamyu DBpedia:/ontology/Person DBpedia:/ontology/Artist Freebase:/people/person Freebase:/music/artist Harajuku wikipedia/Harajuku … DBpedia:/ontology/Place Freebase:/location/location Freebase:/location/neighborhood …
  19. 19. STUDIO OUSIA Topical Coherence Feature ‣ ‣ ‣ 20 e: Entity; KB: Entities in KB; c(e): Entities having a link to e e: Entity; E: Set of entities in the document
  20. 20. STUDIO OUSIA Topical Coherence Feature 21 Kyary Pamyu Pamyu is a Japanese model and singer. Her public image is associated with Japan's kawaisa culture centered in the Harajuku, Tokyo. 0.2 0.4 REL(Kyary Pamyu Pamyu, kawaisa culture) = 0.4 REL(Kyary Pamyu Pamyu, Harajuku) = 0.2 COHERENCE(Kyary Pamyu Pamyu, E) = (0.4 + 0.2) / 2 = 0.3
  21. 21. STUDIO OUSIA その他の特徴量 ‣ ✦ ✦ ✦ ✦ ✦ ✦ ✦ ‣ ✦ ✦ 22
  22. 22. STUDIO OUSIA Dataset ‣ ✦ ✦ ‣ ‣ ‣ 23 “Do you think converting the highlighted keyword into a link is sufficiently helpful to readers and could it improve the readers’ overall experience?”
  23. 23. STUDIO OUSIA 24 Annotation screen displayed to the annotators
  24. 24. STUDIO OUSIA Machine-learning Algorithms ‣ ✦ ✦ ✦ ✦ ‣ ✦ ✦ 25 Precision Recall F1 C4.5 0.8281 0.8069 0.8173 SVMLINEAR 0.8581 0.7892 0.8221 SVMRBF 0.8676 0.7806 0.8217 AdaBoost 0.8484 0.8383 0.8433 Random Forest 0.8697 0.8419 0.8554
  25. 25. STUDIO OUSIA Main Results ‣ 26 Precision Recall F1 LinkProb 0.6980 0.7761 0.7349 TAGME 0.7936 0.7782 0.7857 Milne&Witten 0.8079 0.7904 0.7989 Our Method 0.8697 0.8419 0.8554
  26. 26. STUDIO OUSIA Ablation Study: Overview ‣ ‣ 27 Feature Types Precision Recall F1 Link probability only 0.8228 0.8093 0.8158 LP+Entity 0.8511 0.8266 0.8385 LP+Entity class 0.8487 0.8341 0.8412 LP+Topical coherence 0.8281 0.8117 0.8197 LP+Textual 0.8268 0.8266 0.8266 LP+Mention Occurrence 0.8279 0.8117 0.8196 Effectiveness of features by their categories Category name Description Link probability (LP) Probability that mention is used as anchor Entity (ENT) Several statistics of entity in Wikipedia Entity class (EC) Entity classes in DBpedia and Freebase Topical coherence (TC) How entity is related to topics of document Textual (TXT) Several textual features Mention occurrence (MO) How mention is appeared in document Summary of Feature Categories
  27. 27. STUDIO OUSIA Ablation Study: Overview ‣ ‣ ‣ 28 Feature Types Precision Recall F1 Link probability only 0.8228 0.8093 0.8158 LP+Entity 0.8511 0.8266 0.8385 LP+Entity class 0.8487 0.8341 0.8412 LP+Topical coherence 0.8281 0.8117 0.8197 LP+Textual 0.8268 0.8266 0.8266 LP+Mention Occurrence 0.8279 0.8117 0.8196 Effectiveness of features by their categories Category name Description Link probability (LP) Probability that mention is used as anchor Entity (ENT) Several statistics of entity in Wikipedia Entity class (EC) Entity classes in DBpedia and Freebase Topical coherence (TC) How entity is related to topics of document Textual (TXT) Several textual features Mention occurrence (MO) How mention is appeared in document Summary of Feature Categories
  28. 28. STUDIO OUSIA 1. DBPEDIA/ontology/Agent 2. FREEBASE/people/person 3. FREEBASE/business/employer 4. FREEBASE/organization/organization 5. SCHEMA ORG/Person 6. DBPEDIA/ontology/Person 7. FREEBASE/book/book subject 8. DBPEDIA/ontology/Disease 9. FREEBASE/business/business operation 10. SCHEMA ORG/Organization 11. DBPEDIA/ontology/Organization 12. FREEBASE/sports/proathlete 13. FREEBASE/location/location 14. DBPEDIA/ontology/Athlete 15. DBPEDIA/base/consumermedical/medical term Ablation Study: Entity Class Features ‣ 29 List of top 15 entity class features
  29. 29. STUDIO OUSIA 1. DBPEDIA/ontology/Agent 2. FREEBASE/people/person 3. FREEBASE/business/employer 4. FREEBASE/organization/organization 5. SCHEMA ORG/Person 6. DBPEDIA/ontology/Person 7. FREEBASE/book/book subject 8. DBPEDIA/ontology/Disease 9. FREEBASE/business/business operation 10. SCHEMA ORG/Organization 11. DBPEDIA/ontology/Organization 12. FREEBASE/sports/proathlete 13. FREEBASE/location/location 14. DBPEDIA/ontology/Athlete 15. DBPEDIA/base/consumermedical/medical term ‣ ‣ 30 List of top 15 entity class features Ablation Study: Entity Class Features
  30. 30. STUDIO OUSIA 1. DBPEDIA/ontology/Agent 2. FREEBASE/people/person 3. FREEBASE/business/employer 4. FREEBASE/organization/organization 5. SCHEMA ORG/Person 6. DBPEDIA/ontology/Person 7. FREEBASE/book/book subject 8. DBPEDIA/ontology/Disease 9. FREEBASE/business/business operation 10. SCHEMA ORG/Organization 11. DBPEDIA/ontology/Organization 12. FREEBASE/sports/proathlete 13. FREEBASE/location/location 14. DBPEDIA/ontology/Athlete 15. DBPEDIA/base/consumermedical/medical term ‣ ‣ ‣ 31 List of top 15 entity class features Ablation Study: Entity Class Features
  31. 31. STUDIO OUSIA まとめ ‣ ‣ 32
  32. 32. Twitterからのエンティティリンキング An End-to-End Entity Linking Approach for Tweets [#Microposts ’15]
  33. 33. STUDIO OUSIA Background ‣ Twitterのエンティティリンキングは、短 く、口語的で、ノイズが多いことから非常に 難しい ‣ 既存手法は、より綺麗な長いテキスト (ニュ ース等)を対象にしており、Twitterだと精度 が悪い (例: Illinois Wikifier and Wikipedia Miner) 34
  34. 34. STUDIO OUSIA ‣ 一般的なEntity Linking実装でのツイートでの 精度は非常に悪い [Rizzo et al. ’14] 35
  35. 35. STUDIO OUSIA #Microposts NEEL Challenge ‣ International World Wide Web Conference (WWW)内で開催 されている#Micropostsワークショップにて2014年、2015年 とツイートからのEntity Linkingに関するコンペティション (NEEL Challenge) が行われた ‣ ツイートに対するエンティティリンキングのデータセットが 配布され、精度を競う形式で開催 ‣ 対象となるKnowledge Baseのリンク先はDBpedia URI 36
  36. 36. STUDIO OUSIA #Microposts NEEL Challenge 2015 ‣ 2015年から、NILエンティティ(Knowledge Baseに無いエンテ ィティ)及びエンティティのクラス分類もタスクに含まれるよう になった ‣ 21チームが参加を表明したものの、ルールが複雑であったなど の理由で7チームが最終的に残った ‣ 参加者はHTTP経由でEntity LinkingのAPIを公開し、主催者側 で、APIを通じて精度を評価する形式で評価 37
  37. 37. STUDIO OUSIA #Microposts NEEL 2015コーパス 38 100000025580548097 31 35 http://dbpedia.org/resource/BRIC Thing 100000025580548097 69 74 http://dbpedia.org/resource/Intel Organization 100000025580548097 3 8 http://dbpedia.org/resource/Intel Organization 100008638684475392 104 110 http://dbpedia.org/resource/Afghanistan Location 100010138022330368 29 34 http://dbpedia.org/resource/Japan Location ‣ 2011年から2014年までの計6,025ツイートが対象 ‣ Tweet ID、開始位置、終了位置、DBpedia URI、エンテ ィティのクラスの入ったアノテーションが与えられる
  38. 38. システムの概要
  39. 39. STUDIO OUSIA アーキテクチャ 40 Entity Linking NIL Mention Detection Input Text Results 4つの教師付き学習器を使用 Type Prediction (KB Entity Mentions) Type Prediction (NIL Mentions) ✦ エンティティとNILエンティティ(DBpediaに無いエンティティ)を検出し、 そのエンティティの種類 (PERSON, LOCATION等)を分類する ✦ Entity Linkingとは別にNIL Mention Detectionモジュールを実装 ✦ エンティティとNILエンティティそれぞれに対してエンティティの種類の 分類器を実装
  40. 40. STUDIO OUSIA Entity Linking: メンション・エンティティ辞書 ‣ メンション・エンティティ辞書は、メンション文字列を可能なリンク先 エンティティにマップする ‣ メンション文字列は、下記のソースから取得: ✦ Wikipediaのページタイトル ✦ Wikipediaのリダイレクトページのタイトル ✦ Wikipediaのアンカーテキスト (Wikipediaのページ内リンクに 含まれる文字列) 41 apple Apple Inc. Apple (fruit)
  41. 41. STUDIO OUSIA Entity Linking: メンション候補の生成 ‣ 固有表現抽出器等でメンションの候補を抽出せずに、ツイート内 の全ての可能なN-gram (n <= 10)を候補とする (End-to-End Entity Linking) ‣ メンション候補は、メンション・エンティティ辞書に対して、N- gram文字列を使ってクエリして取得する 42 Mention Candidate Generation Mention Detection and Disambiguation
  42. 42. STUDIO OUSIA Entity Linking: メンションの曖昧検索 ‣ Twitterでの不規則なメンション (ミススペル、略記、アクロニム)に対応す るため、以下の曖昧マッチを用いている ✦ ファジー検索: 編集距離2以内の全てのメンションにマッチ ✦ 曖昧検索: クエリ内の単語の67%以上が含まれているメンションにマッチ ✦ アクロニム検索: 事前に生成されたアクロニム文字列に対してマッチ ‣ このステップで、多くのメンションを生成しておき、次のステップでフィル ターする 43 Mention Candidate Generation Mention Detection and Disambiguation
  43. 43. STUDIO OUSIA Entity Linking: メンションの検出と曖昧性解消 ‣ 生成したメンション候補の中から、正しいメンションを選択する ‣ 教師付き機械学習 (Random Forest) を用いた ‣ 主な特徴量: ✦ ベース: Link probability, Capitalization probability, Commonness, # of inbound links, TAGME entity coherence, etc... ✦ 文字列類似度: 編集距離, Jaro-Winkler, Soft TF-IDF, Jaccard Similarity, etc... ✦ Word and Entity embeddingを用いた類似度 内製の単語及びエンティティのEmbeddingでのツイート内の単語とエンティティの Cosine similarity ✦ Wikipedia Page Viewから取得したポピュラリティ Wikipedia Page Viewデータから取得したエンティティのポピュラリティ 44 Mention Candidate Generation Mention Detection and Disambiguation
  44. 44. STUDIO OUSIA Entity Linking: Wikipediaページビューからの特徴量 ‣ ツイートの作成日のWikipediaページビューによって、 エンティティの該当日のポピュラリティを取得 ‣ 従来のエンティティリンキングは、依存しているWikipediaのダンプか らポピュラリティを取得していたため、特定のWikipediaダンプに依存 ‣ ツイートの作成時における一時的なWikipediaエンティティのポピュラ リティを自然な形で取得できる 45 Mention Candidate Generation Mention Detection and Disambiguation
  45. 45. 結果
  46. 46. STUDIO OUSIA ‣ 優勝しました! 47
  47. 47. STUDIO OUSIA ‣ ちなみに昨年のWWWで行われた#Microposts 2014コンペティションではMicrosoftが圧勝 48
  48. 48. スコアの差はどこから?
  49. 49. STUDIO OUSIA ‣ 一般的なエンティティリンキング実装では、固有表現抽出器(NER)を 使用して、テキスト中から候補となるエンティティ文字列を抽出する ‣ #Microposts 2014の2位以下のエントリーでは、固有表現抽出器 (NER)を使用して、エンティティ文字列を抽出している ‣ 2位はエンティティの曖昧性解消にGoogle検索を利用 50
  50. 50. STUDIO OUSIA 51 ‣ Twitterからの固有表現抽出器の精度はState-of-the-artな実装でも非常に低い (F1値で22.46%~51.5%) ‣ 昨年のMicrosoftのアプローチ及び我々のアプローチはNERに依存しないEnd- to-endなアプローチを取っている ‣ スコアの大きな乖離はこのあたりから来ているのでは?
  51. 51. STUDIO OUSIA まとめ ‣ 新しいツイートに対して有効なEnd-to-Endのエンティ ティリンキング手法を提案した ‣ DBpedia等の知識ベースは、エンティティリンキング に対しても有用であることが分かった ‣ 正確なメンション検出は人間にも非常に難しい。特に Capitalizationが正確でないツイートに対しては困難 52
  52. 52. エンティティリンキングによる ツイートからの固有表現抽出の改善 Enhancing Named Entity Recognition in Twitter Messages Using Entity Linking [ACL WNUT '15]
  53. 53. STUDIO OUSIA Background ‣ ツイートからの固有表現抽出は、ノイズが多 く、短く、口語的であるため難しい ‣ 代表的な固有表現抽出手法の精度は非常に低い (F1スコアで50ポイント程度 [Derczynski et al. 2015]) 54
  54. 54. STUDIO OUSIA ツイートからの固有表現抽出は エンティティリンキングで良くなるか? 55
  55. 55. STUDIO OUSIA ACL W−NUT Workshop ‣ ACL 2015 内で開催されたWorkshop on Noisy User-generated Text (W-NUT)にてツイートからの固有表現抽出のShared taskが行われた ‣ Shared task用に作成された固有表現抽出のデータセットが配布され、 精度を競う形式で開催 ‣ ツイート中から固有表現を認識し、10個の指定されたクラス (person, company, geo-loc, product, tvshow, movie, facility, musicartist, sportsteam, other) に分類する 56 https://noisy-text.github.io/
  56. 56. STUDIO OUSIA ACL W-NUT コーパス 57 ‣ ツイートおよび固有表現タグが訓練用として与えられ、未知のテストデータ上で 精度を計測する ‣ 2010年9月に取得された訓練セット(1,795ツイート)、開発セット(599ツイート)、 及び2014年12月-2015年2月に取得された開発セット(425ツイート)が与えられる ‣ 2014年12月-2015年2月に取得されたテストセット(1,000ツイート)で精度を検証
  57. 57. STUDIO OUSIA 参加チーム ‣ シンガポール科学技術研究庁、National Research Council Canada、University of Sheffieldなど、合計8チームが参加 58
  58. 58. システムの概要
  59. 59. STUDIO OUSIA 60 New Frozen Boutique to Open at Disney's Hollywood Studios “Frozen”を抽出するのは、従来の固有表現抽出の 手法では難しい
  60. 60. STUDIO OUSIA Entity Linking 61 New Frozen Boutique to Open at Disney's Hollywood Studios /wiki/Frozen_(2013_film) /wiki/The_Walt_Disney_Company /wiki/Disney’s_Hollywood_Studios ‣ エンティティリンキングを使うと”Frozen”を検出できる: ✦ “Frozen”は非常にポピュラーなエンティティである (Wikipedia のリンク構造やページビューから判断できる) ✦ “Frozen”は意味的に他のエンティティと強く関連している
  61. 61. STUDIO OUSIA Our Approach ‣ 最初にエンティティリンキングをEnd-to-endで行う ‣ 検出されたメンションの情報を固有表現抽出に用いる ‣ エンティティに関する情報はWikipedia、DBpedia、 Freebase等の知識ベースから抽出する ‣ エンティティの検出と分類は別のコンポーネントで処理する 62 エンティティ リンキング エンティティの検出 (NER) エンティティの分類 (NER)
  62. 62. End-to-End Entity Linking エンティティ リンキング エンティティの 検出 エンティティの 分類
  63. 63. STUDIO OUSIA End-to-End Entity Linking ‣ #Microposts 2015で用いたツイート用の エンティティリンキング実装を用いた 64 Image taken from NEEL2015 Challenge Summary: http://www.slideshare.net/giusepperizzo/neel2015-challenge-summary
  64. 64. エンティティの検出 エンティティ リンキング エンティティの 検出 エンティティの 分類
  65. 65. STUDIO OUSIA エンティティの検出: アプローチ ‣ 教師付き機械学習を用いてすべての可能なn-gram (n <= 10) に 対して確信度スコアを付与する ‣ 教師付き機械学習には、Random forestを用いた ‣ N-Gramがオーバーラップした場合には、文頭から順に 最長一致したものを採用する ‣ 使用した機械学習器の特徴量: ✦ エンティティに関連する特徴 ✦ 言語的な特徴 (NERの結果や品詞タグ等) 66
  66. 66. STUDIO OUSIA エンティティの検出: エンティティに関連する特徴 ‣ エンティティリンキングが付与した確信度スコア ‣ エンティティのポピュラリティ: ✦ Wikipediaでのインバウンドのリンク数 ✦ Wikipediaでの平均ページビュー数 ‣ メンションに関連する指標: ✦ Link probability ✦ Capitalization probability 67
  67. 67. STUDIO OUSIA エンティティの検出: 言語的な特徴 ‣ Stanford NERがメンションを検出したか ‣ Ark Tweet NLPが付与した該当単語及び 周辺単語の品詞タグ ‣ 該当単語及び周辺単語がCapitalizeされているか ‣ メンションの長さ (単語ベース、文字ベース) 68
  68. 68. エンティティの分類 エンティティ リンキング エンティティの 検出 エンティティの 分類
  69. 69. STUDIO OUSIA エンティティの分類 ‣ 教師付機械学習を用いて検出されたメンションを事前に定義されたタイプ に分類する ‣ 機械学習器として、Linear SVMを用いた ‣ 用いた主な特徴量: ✦ 知識ベースから取得したエンティティの種類 (DBpedia Ontology Classes and Freebase Types) ✦ Stanford NERで取得したエンティティの種類 (i.e., PERSON, ORGANIZATION, LOCATION) ✦ N-Gram中に含まれる単語の平均ベクトル (Stanford GloVe 840Bモデ ルで生成) ✦ エンティティリンキングによる確信度のスコア 70
  70. 70. STUDIO OUSIA Results ‣ 二位のチームと比較してSegmentationタスクで10.34 F1、 Classificationタスクで5.01 F1差をつけて優勝 71 Performances of the proposed systems at segmenting entities Performances of the proposed systems at both segmentation and classification tasks NLANGP nrc multimedialab USFD
  71. 71. STUDIO OUSIA Conclusion ‣ エンティティリンキングを用いることで、ツイー トの固有表現抽出の精度を向上することができる ‣ エンティティリンキングを使うと、知識ベース上 の高品質な情報を固有表現抽出で有効に使用する ことができるようになる 72
  72. 72. THANK YOU!

×