SlideShare a Scribd company logo
1 of 4
日本語記述の緻密化を目指した
       超大規模コーパスの構築

                  国立国語研究所
                コーパス開発センター
              浅原 正幸   前川 喜久雄
            今田 水穂   保田 祥  小西 光


2012/9/25         SIG-IFAT short talk   1
国立国語研究所は
Web アーカイブを構築します



2012/9/25   SIG-IFAT short talk   2
超大規模コーパスプロジェクト(2011-2016)
        Web テキストを中心に100億語規模のテキストコーパスを構築

    Ⅰ コーパスの現状と将来像                                  Ⅱ 超大規模コーパス(イメージ)
                                                                                    開発研究
                                                          構築               応用
                           1 0 0 億 語
                  『日本語記述の緻密化を                                   日           言語変化
                                                       無作為抽出
                    目指した超大規模コーパス』                               本            の分析     研究者・

                  情報源 : ウェブ上の全日本語データ                            語                    辞書編集者
                                                       文書タイプ               言語モデルの
                                                                超
                                                        情報推定    大            構築
                  目 的 : 稀言語現象の情報を収集し、
                        より実態を反映した日本語                            規          応用のための
                        「言語モデル」の構築を目指す                 形態素解析    模           統計量推定    企業・出版社
                                                                コ
                  工 夫 : ウェブ文書タイプ情報の自動推定
                        自動形態素解析によりデータ収集               時系列データ    ー          辞書用例の
                        の効率化を図る                         追加      パ           自動抽出
           応 用 : 機械翻訳・音声翻訳の精度向上                                 ス
                 国語(日本語)辞書の用例自動収集
       1 億 語     日本語使用実態の定量的な把握に
『現代日本語書き言葉       基づく言語政策の策定に貢献                                  [人文学系分野]
      均衡コーパス』
                                                      Ⅲ 実施体制
情報源 : 書籍・雑誌・新聞(約3500万語)
                                   【将 来】
      図書館の図書(約3000万語)
      特定分野毎(約3500万語)

目   的 : 実際に使用されたデータから
                                                               【連携研究機関】
        「代表データ」を提示

問題点 : 規模が小さい                                                    [工学系分野]
      手作業のため収集に限界         【現 状】


2012/9/25                                SIG-IFAT short talk                         3
Web アーカイブシステムの構成
• 収集
      – Heritrix クローラに基づく、月次のバルク収集
      – テキスト(HTML)のみの収集
• 組織化
      –     リンクー被リンク情報の構造化
      –     収集日時の保存
      –     メタデータ(出自)を補完するレジスタ推定
      –     教師なし機械学習に基づく未知語収集と人手による辞書構築
      –     文分割、形態素解析、文節認定、係り受け解析
• 利活用
      – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール
      – Open Source Wayback による時系列提示
      – 接尾辞配列による文用例検索ツール
• 保存
      – WARC ファイル形式(ISO 28500:2009)による永続保存
      – 収集月毎の語彙表/N-gram情報の保存

2012/9/25              SIG-IFAT short talk          4

More Related Content

Similar to 2012 09-25-sig-ifat

MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)真 岡本
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニングMunenori Sugimura
 
国会図書館件名標目自然文検索
国会図書館件名標目自然文検索国会図書館件名標目自然文検索
国会図書館件名標目自然文検索genroku
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合うYuya Unno
 
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発Toshiaki Nakazawa
 
図書館でのSolrの使い方
図書館でのSolrの使い方図書館でのSolrの使い方
図書館でのSolrの使い方Kosuke Tanabe
 
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)Ikki Ohmukai
 
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」Kosuke Tanabe
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Hironori Washizaki
 
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業kulibrarians
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニングgenroku
 
20140418 info talkセミナー資料
20140418 info talkセミナー資料20140418 info talkセミナー資料
20140418 info talkセミナー資料Takahiro Iwase
 
物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例Masao Takaku
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討Yoji Kiyota
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)Ikki Ohmukai
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表verskdmai
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後Masao Takaku
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) gsis gsis
 

Similar to 2012 09-25-sig-ifat (20)

MojiHimoji(20110218)
MojiHimoji(20110218)MojiHimoji(20110218)
MojiHimoji(20110218)
 
おとなのテキストマイニング
おとなのテキストマイニングおとなのテキストマイニング
おとなのテキストマイニング
 
国会図書館件名標目自然文検索
国会図書館件名標目自然文検索国会図書館件名標目自然文検索
国会図書館件名標目自然文検索
 
言語資源と付き合う
言語資源と付き合う言語資源と付き合う
言語資源と付き合う
 
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発
大規模な論文対訳データを利用した高精度な中日、英日ニューラル機械翻訳の開発
 
図書館でのSolrの使い方
図書館でのSolrの使い方図書館でのSolrの使い方
図書館でのSolrの使い方
 
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
 
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
RubyKaigi2011講演資料「日本の図書館はどのようにRubyを使っているか」
 
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
Pythonを含む多くのプログラミング言語を扱う処理フレームワークとパターン、鷲崎弘宜、PyConJP 2016 招待講演
 
Erpと自然言語処理
Erpと自然言語処理Erpと自然言語処理
Erpと自然言語処理
 
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング
 
20140418 info talkセミナー資料
20140418 info talkセミナー資料20140418 info talkセミナー資料
20140418 info talkセミナー資料
 
物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例物質・材料研究機構におけるNext-L Enjuの導入事例
物質・材料研究機構におけるNext-L Enjuの導入事例
 
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
論文執筆の環境をめぐる最新の状況と、学会の査読・編集システムを持続可能とするための方策の検討
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表ver
 
Web API入門
Web API入門Web API入門
Web API入門
 
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
物質・材料研究機構におけるNext-L Enjuの採用,導入と今後
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 

More from Asahara Masayuki

More from Asahara Masayuki (7)

2013 03-13 DepParse
2013 03-13 DepParse2013 03-13 DepParse
2013 03-13 DepParse
 
2013 03-13 EVENT
2013 03-13 EVENT2013 03-13 EVENT
2013 03-13 EVENT
 
2013 03-13-TIMEX
2013 03-13-TIMEX2013 03-13-TIMEX
2013 03-13-TIMEX
 
2013 02-28-hcorpus
2013 02-28-hcorpus2013 02-28-hcorpus
2013 02-28-hcorpus
 
2012 09-06-poster
2012 09-06-poster2012 09-06-poster
2012 09-06-poster
 
2012/08/06 annotation WS
2012/08/06 annotation WS2012/08/06 annotation WS
2012/08/06 annotation WS
 
2012/03/06 sympo
2012/03/06 sympo2012/03/06 sympo
2012/03/06 sympo
 

2012 09-25-sig-ifat

  • 1. 日本語記述の緻密化を目指した 超大規模コーパスの構築 国立国語研究所 コーパス開発センター 浅原 正幸 前川 喜久雄 今田 水穂 保田 祥 小西 光 2012/9/25 SIG-IFAT short talk 1
  • 3. 超大規模コーパスプロジェクト(2011-2016) Web テキストを中心に100億語規模のテキストコーパスを構築 Ⅰ コーパスの現状と将来像 Ⅱ 超大規模コーパス(イメージ) 開発研究 構築 応用 1 0 0 億 語 『日本語記述の緻密化を 日 言語変化 無作為抽出 目指した超大規模コーパス』 本 の分析 研究者・ 情報源 : ウェブ上の全日本語データ 語 辞書編集者 文書タイプ 言語モデルの 超 情報推定 大 構築 目 的 : 稀言語現象の情報を収集し、 より実態を反映した日本語 規 応用のための 「言語モデル」の構築を目指す 形態素解析 模 統計量推定 企業・出版社 コ 工 夫 : ウェブ文書タイプ情報の自動推定 自動形態素解析によりデータ収集 時系列データ ー 辞書用例の の効率化を図る 追加 パ 自動抽出 応 用 : 機械翻訳・音声翻訳の精度向上 ス 国語(日本語)辞書の用例自動収集 1 億 語 日本語使用実態の定量的な把握に 『現代日本語書き言葉 基づく言語政策の策定に貢献 [人文学系分野] 均衡コーパス』 Ⅲ 実施体制 情報源 : 書籍・雑誌・新聞(約3500万語) 【将 来】 図書館の図書(約3000万語) 特定分野毎(約3500万語) 目 的 : 実際に使用されたデータから 【連携研究機関】 「代表データ」を提示 問題点 : 規模が小さい [工学系分野] 手作業のため収集に限界 【現 状】 2012/9/25 SIG-IFAT short talk 3
  • 4. Web アーカイブシステムの構成 • 収集 – Heritrix クローラに基づく、月次のバルク収集 – テキスト(HTML)のみの収集 • 組織化 – リンクー被リンク情報の構造化 – 収集日時の保存 – メタデータ(出自)を補完するレジスタ推定 – 教師なし機械学習に基づく未知語収集と人手による辞書構築 – 文分割、形態素解析、文節認定、係り受け解析 • 利活用 – NutchWAX (lucene-ja), Solr 系の転置索引による検索ツール – Open Source Wayback による時系列提示 – 接尾辞配列による文用例検索ツール • 保存 – WARC ファイル形式(ISO 28500:2009)による永続保存 – 収集月毎の語彙表/N-gram情報の保存 2012/9/25 SIG-IFAT short talk 4