言語資源と付き合う

4,662 views

Published on

0 Comments
15 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
4,662
On SlideShare
0
From Embeds
0
Number of Embeds
50
Actions
Shares
0
Downloads
67
Comments
0
Likes
15
Embeds 0
No embeds

No notes for slide

言語資源と付き合う

  1. 1. ⾔言語資源と付き合う 2012/06/07 @ PFIセミナー株式会社Preferred Infrastructure 海野  裕也
  2. 2. ⾃自⼰己紹介l  海野  裕也 l  @unnonouno l  unno/no/uno l  研究開発部⾨門 l  Jubatusチームリーダーl  専⾨門 l  ⾃自然⾔言語処理理 l  統語解析、⽂文圧縮、同義語抽出+クエリ拡張、⼊入⼒力力⽀支援 l  テキストマイニング l  ⾔言語横断テキストマイニング、曖昧パターンマッチ 2
  3. 3. 今⽇日はゆるふわです 3
  4. 4. 今⽇日のゴールl  ⾔言語処理理における⾔言語資源の重要性を認識識するl  ⾔言語資源に絡む⽤用語を知るl  ⾔言語資源に関連する研究の紹介l  これから⾔言語資源とどう付き合うべきか 4
  5. 5. アジェンダ1.  ⾔言語処理理と⾔言語資源2.  ⾔言語資源とは何か3.  ⾔言語資源の作成4.  ⾔言語資源と付き合う 5
  6. 6. ⾔言語処理理と⾔言語資源6
  7. 7. ⾃自然⾔言語処理理のタスク テキスト 何か⾔言語処理理 ⾔言語処理理 結果l  ⼊入⼒力力は⾃自然⽂文l  出⼒力力はタスクによって違う l  形態素解析なら形態素列列が出⼒力力 7
  8. 8. 処理理とリソース(規則)の分離離 テキスト エン ⾔言語処理理 ジン + 辞書 結果l  処理理と規則(辞書)の分離離l  辞書は肥⼤大化、複雑化、メンテナンスの低下 l  辞書のメンテナンス性も主要な課題(前回のセミナー) 8
  9. 9. 機械学習時代の⾃自然⾔言語処理理 タグ付き コーパス 学習 辞書 エン パラメー ⾔言語処理理 テキスト + ジン タ 結果l  今まで⼿手で作っていたパラメータは⾃自動調整l  辞書の⽐比重は⼩小さくl  代わりに膨⼤大なタグ付きコーパスが必要になった 9
  10. 10. お客さんが絡むと・・・ タグ付き コーパス 学習 辞書 エン パラメー ⾔言語処理理 テキスト + ジン タ 結果l  お客さんの分野でちゃんと動くのか? l  辞書のメンテナンスは困難 l  データを作ってもらうのも困難l  そうはいっても真の課題がわかるのはお客さんだけ 10
  11. 11. 課題は増えていくl  辞書のメンテナンス l  「辞書に追加したのに⾒見見つけてくれないよ!」 l  「変な単語が出てきちゃうよ!」l  コーパス作成 l  「データは何件作ればいいの?」 l  「データ作るの⼤大変なんだけど」 技術で解決したい! 11
  12. 12. ⼿手法よりもデータが重要l  タスクの複雑さは⼿手法よりもデータに依存 l  データに依存して難易易度度が変わる l  形態素解析しやすい⽂文書、しにくい⽂文書、しやすい⾔言語、しに くい⾔言語l  精度度を担っているのはほとんどが⾔言語資源 l  良良い規則を作る l  良良い辞書を作る l  良良い正解データを作る 12
  13. 13. ⾔言語資源とは何か13
  14. 14. ⾔言語資源とは何か言語資源(げんごしげん)とは、自然言語を研究するさいに用いられる資源のこと。 辞書やコーパス、シソーラス、インフォーマントなどがこれにあたる。 (Wikipedia) ⼤大雑把には2種類に⼤大別されるl  コーパスl  辞書 14
  15. 15. 「コーパス」とは?コーパス(corpus)とは、言語学において、自然言語処理の研究に用いるため、自然言語の文章を構造化し大規模に集積したもの。構造化では言語的な情報(品詞、統語構造など)が付与される。コンピュータ利用が進み、電子化データとなった。 (Wikipedia) l  基本的には実際に使われた⽂文をたくさん集めたデータl  ⾃自然⾔言語処理理以外でも使われる l  コーパス⾔言語学l  構造化した情報が付与されてない場合もある 15
  16. 16. アノテーション(注釈)とは?l  テキストデータに対して付与された正解情報 l  固有表現抽出なら正解タグ l  単語分割なら分割ラベル l  統語解析なら句句構造や依存構造l  正解付与する⼈人のことをアノテーターと呼ぶ 16 ChaKi
  17. 17. 注釈の整合性とタスクの難易易度度l  ⼈人間が注釈をつけても曖昧なことがある l  例例:係り受け解析の⼈人間同⼠士の⼀一致率率率は90%くらいl  数値上これ以上の精度度はそもそも不不可能 l  AさんがOKと⾔言っても、BさんはNOと⾔言うl  ⼀一致率率率がそもそも70%くらいにしかならないタスクもあ る 17
  18. 18. 「κはいくつですか?」l  Inter-annotator agreement l  アノテーター間でどれくらい同意が取れるかl  ⼀一般的にはκ統計量量を⽤用いる l  Pr(a): 評価が⼀一致する確率率率 l  Pr(e): 独⽴立立だと仮定した場合に⼀一致する確率率率 18
  19. 19. 注釈付きコーパスあれこれl  ツリーバンク l  統語構造のアノテーションがついたコーパス l  統語構造は⽊木構造で表現されることが多いため、こう呼ばれるl  対訳コーパス l  翻訳関係にある⽂文対を集めたコーパス 19
  20. 20. 「辞書」とは?l  特定の⾔言語単位に対する⾔言語情報資源 l  例例:⾳音素、形態素、単語、意味役割…l  データによって情報の粒粒度度は様々 l  単なる単語集合 l  品詞情報 l  各種情報l  いわゆる「辞典」のことではない l  お客様先で使うときは注意 l  NLPの⽂文脈だと機械が利利⽤用するためのリソースの意味 20
  21. 21. 辞書あれこれl  単語辞書 l  何かしらの「単語」の⼀一覧 l  その他の情報(品詞、読み、活⽤用など)が付与されることもあ るl  シソーラス l  類語や上位語・下位語関係など、語と語の意味の粒粒度度の関係が 付与された辞書 l  紙に書かれたシソーラスもありますl  訳語辞書 l  訳語関係にある単語対の⼀一覧 21
  22. 22. コーパスと辞書の違いは?l  コーパスは「⽂文書の事例例」ベース、辞書は「単語や複合 語などの⾔言語単位」ベースl  ・・・と書いてみたが、たぶん割りと曖昧 22
  23. 23. メジャーな⾔言語資源を幾つか・・・l  コーパス l  京都⼤大学テキストコーパス l  現代⽇日本語書き⾔言葉葉均衡コーパス l  EDRコーパス l  ATR⾳音素バランス503⽂文 l  Penn Treebankl  辞書 l  IPA辞書 l  ⽇日本語語彙体系 l  EDR辞書 l  WordNet 23
  24. 24. 京都⼤大学テキストコーパスl  京⼤大⿊黒橋研究室l  毎⽇日新聞1995年年データに対して、⼈人⼿手でタグ付けl  形態素解析、係り受け解析、照応解析などの情報 * 0 26D 村山 むらやま * 名詞 人名 * * 富市 とみいち * 名詞 人名 * * 首相 しゅしょう * 名詞 普通名詞 * * は は * 助詞 副助詞 * * * 1 2D 年頭 ねんとう * 名詞 普通名詞 * * に に * 助詞 格助詞 * * * 2 6D あたり あたり あたる 動詞 * 子音動詞ラ行 基本連用形 24
  25. 25. 現代⽇日本語書き⾔言葉葉均衡コーパス (BCCWJ)l  国⽴立立国語研究所l  世の中に流流通する様々な分野の⽂文書から、均等にサンプ リングしたようなコーパスを⽬目指している <corpus lang="japanese"> <article articleID="OC14_03054m" genre="OC"> <sentence> <mor pos="名詞-普通名詞-一般" rd="チエ">知恵</mor> <mor pos="名詞-普通名詞-一般" rd="ブクロ">袋</mor> <mor pos="助詞-格助詞" rd="ニ">に</mor> <mor pos="動詞-非自立可能" rd="シ" bfm="スル">し</mor> <mor pos="助動詞" rd="タ" bfm="タ">た</mor> <mor pos="名詞-普通名詞-サ変可能" rd="シツモン">質問</mor> <mor pos="助詞-格助詞" rd="デ">で</mor> 25
  26. 26. ATR⾳音素バランス503⽂文l  ATR (国際電気通信基礎技術研究所)l  ⾳音声認識識⽤用のデータセットl  味のある例例⽂文で有名(by @tkng) l  「あらゆる現実を全て⾃自分の⽅方へねじ曲げたのだ」 26
  27. 27. Penn Treebankl  ペンシルバニア⼤大学l  Wall Street JournalやBrown Corpusに品詞と統語構造 をタグ付けl  最も有名なタグ付きコーパスの1つ ( (S    (NP-SBJ      (NP (NNP Pierre) (NNP Vinken) )      (, ,)      (ADJP        (NP (CD 61) (NNS years) )        (JJ old) )      (, ,) )    (VP (MD will) … 27
  28. 28. Google N-gram コーパスl  Googlel  ウェブ上でクロールしたデータに単語1~7グラムの中で、 頻度度の⾼高いものとその頻度度をまとめたデータ の 呼び声 王宮 の お触れ × 2 30 の 呼び声 王宮 の お触れ × 3 51 の 呼び声 砂塵 の 大 竜巻 × 28 の 呼び声 破 界 伝 ( 5 43 の 呼び声 神 の 宣告 × 3 25 の 呼び声 第 壱 章 チェーン ・ 20 の 呼び声 罠 【 永続 】 自分 22 の 呼び声 聖なる バリア - ミラーフォース - 194 28
  29. 29. タグ付きコーパスの探し⽅方l  紹介しているページ l  NAIST松本研のページl  ⾔言語資源を管理理しているサイト l  Linguistic Data Consortium (LDC) l  ⾔言語資源協会 (GSK)l  個別に⼊入⼿手 l  個⼈人が作成している場合がある 29
  30. 30. ⾔言語資源の作成30
  31. 31. ⾔言語資源を作るのは⼤大変! しかし,大規模コーパスは通常,膨大な試行錯誤の累積 として成立している。当初に定めた仕様にしたがって実装 を進めるなかで多くの問題が発見され,それらに対処す る過程で,仕様が精密化されてゆくが,ときとして仕様に 矛盾が発見されることもあり,その結果,過去の作業に遡 及した修正作業を行わなければならない事態なども発生 する。 「日本語話し言葉コーパスの構築法」より l  統制のとれた⾔言語資源を作るのは⼤大変 l  統括マネージャー+アノテーター複数⼈人 l  同⼀一データに対して2⼈人以上のアノテーション l  定例例ミーティング、問題の洗い出し l  ⼀一般的に年年単位のプロジェクトになる l  膨⼤大な⼈人件費 31
  32. 32. コーパス作成の例例l  GENIA corpus l  @東⼤大辻井研 l  分⼦子⽣生物学論論⽂文中に記載される、タンパク質の反応に関する情 報抽出のアノテーションつきコーパスl  BCCWJ l  @国⽴立立国語研究所 l  8つのグループ、5年年間(2006~2010年年)l  EDRコーパス l  @NICT l  1辞書、1ライセンス120万円 32
  33. 33. ルールベースから機械学習へ規則作りからコーパス作りへ ⼈人⼿手のリソース(辞 処理理エ ⼤大量量コーパ + 学習エ 書、規 ンジン ス + ンジン 則…)l  リソースづくりがコーパスづくりに変わっただけでコス ト変わってないんでは・・・? 33
  34. 34. コーパスと⾃自然⾔言語処理理・機械学習関連での研究より効率率率よく性能を上げることが研究テーマになる1.  タグ無しコーパスの積極的な利利⽤用 l  半教師有り学習 l  転移学習2.  コーパス作成の効率率率化 l  能動学習3.  ⾮非専⾨門家の利利⽤用 l  Learning from Crowds4.  コーパス作成環境の整備 34
  35. 35. 1. タグ無しコーパスの利利⽤用l  半教師有り学習 l  ラベル付きデータ(タグ付きコーパス)と⼤大量量のラベルなし データ(⽣生コーパス)から学習 l  ラベル付きデータのみの時よりも効率率率が良良いl  転移学習 l  学習データと適応先のデータで分野が異異なるという問題設定 l  学習データのみを使うよりも、適応先ドメインのタグ無しデー タを使ったほうが効率率率が良良い 35
  36. 36. 2. コーパス作成の効率率率化l  能動学習 l  最も効率率率良良く学習できる正解ラベル(アノテーション)から順 番につけていく l  単純にランダムな順序で学習するよりも効率率率が良良い l  ⼤大岩さんのPFIセミナーを参照 36
  37. 37. 3. ⾮非専⾨門家の利利⽤用l  Learning From Crowds l  ノイズがある、アノテーターに能⼒力力差があるという前提での機 械学習の⽅方法論論 l  Amazon Mechanical Turkを利利⽤用した研究などが近年年盛ん 37
  38. 38. 4. コーパス作成環境の整備l  アノテーション⾃自体の研究 l  アノテーションのツール l  実際にコーパスを作ったときの報告l  テキストアノテーションワークショップ l  http://nlp.nii.ac.jp/tawc/ l  アノテーションの設計、⽅方法論論、⽀支援等に関する会議 l  2012/8/6, 7 @NII 38
  39. 39. ⾔言語資源とどう付き合うか39
  40. 40. ある⽇日ルールが適⽤用できなくなる瞬間l  「NMB à ミネベア」だと思ってたら、ある⽇日から NMB48が・・・l  「スイカ à ⻄西⽠瓜」だと思ってたら、ある⽇日からSuica が・・・l  機械学習 or ルールベースとは独⽴立立の問題 l  モデルが適⽤用できなくなる l  ルールが適⽤用できなくなる 40
  41. 41. 同じ問題は機械学習でも起こりうるl  未知の領領域のデータに対してどう振る舞うのか? 41
  42. 42. 分類基準が変えたら何が起こるのか?l  誤分類が改善される l  新しいルールの追加 l  ルールの修正 l  再学習を⾛走らせるl  今までうまく動いていたデータは? l  影響がないとは思えない l  それは充分に検証しましたか?l  そんなこといってもイタチごっこじゃないか l  そうですね l  だから何もしなくていいとは思えない 42
  43. 43. 疑⼼心暗⻤⿁鬼l  いつか破綻するかもしれないl  実はもう破綻しているのかもしれないl  ⾒見見つかる間違い、増える問い合わせl  説明できないロジック・・・ 43
  44. 44. 全てを疑ったとき、信じられるのは⽤用例例だけ 用例のよさは,それが実際に人間によって使われた表現で あるという意味で,健全でかつ安定した情報であるという点 にあるだろう. (自然言語処理, 岩波より) l  ⽤用例例に対する判断は変わらない l  「NMBのキーボードを買った」がNMB48になることはない l  「スイカ割りをした」がSuicaになることはない l  信じられるものだけを信じるl  ⽤用例例は単体テストのようなもの l  ロジック(ルール)だけあってテスト(事例例)のないプログラ ムを信⽤用できますか? l  テストで全てを⾔言えるわけではないが、何もないより説得⼒力力が ある 44
  45. 45. お客さんが報告できるのは⽤用例例だけl  どの例例をどう間違えたか l  「NMB48がたくさん引っかかるんだけど!」l  内部がどうなっているかはわからない l  内部の詳細なロジックを理理解して使ってもらうのは厳しい l  どの例例をどう間違えたかならわかるはず(多分)   45
  46. 46. 基準が変わることとは別問題⾃自体が変わった場合とは別、問題は切切り分けるl  本当に変わった l  「ホークス  à ダイエー」から「ホークス à ソフトバンク」l  粒粒度度が変わった l  「iPhone à 携帯電話」から「iPhone à スマートフォン」l  気分が変わった l  ⾟辛い・・・ l  Inter-annotator agreement 46
  47. 47. 考えるべき問題設定? タグ付き 辞書 学習 コーパス 検証 エン パラメー ⾔言語処理理 テキスト + ジン タ 結果l  既存の⾔言語資源+⽣生コーパス+お客様保有資源+お客様 ⾃自⾝身+⾮非専⾨門家l  使えるものはなんでも使う 47
  48. 48. まとめl  ⾔言語処理理の振る舞いを決めるうえで⾔言語資源は重要l  ⼤大別するとコーパスと辞書があるl  ⾔言語資源を作るのは⼤大変 l  数億という単位でお⾦金金がかかっている・・・l  ⽤用例例をベースとして考える l  規則はいつか破綻する可能性がある l  ⽤用例例をためる、管理理する、全体の仕組みを考える 48

×