Your SlideShare is downloading. ×
  • Like
Session2:「グローバル化する情報処理」/伊藤敬彦
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Now you can save presentations on your phone or tablet

Available for both IPhone and Android

Text the download link to your phone

Standard text messaging rates apply

Session2:「グローバル化する情報処理」/伊藤敬彦

  • 3,457 views
Published

PFIオープンセミナー2012「多様化する情報を支える技術」 …

PFIオープンセミナー2012「多様化する情報を支える技術」
2012年9月21日(金)実施
≪概要≫企業組織およびサービスのグローバル化が展開するにつれ、扱う言語が単一という仮定が成り立たなくなっています。扱う言語が複数になったことで起こるシステムの複雑化に対応するための弊社の取り組みについて紹介します。

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
3,457
On SlideShare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
28
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. グローバル化する情報処理株式会社 Preferred Infrastructure研究開発部門 リサーチャー伊藤 敬彦
  • 2. 自己紹介• 2007年奈良先端科学技術大学院大学博士後期課程修了 (工学博士)• 2007年ファストサーチ&トランスファ株式会社入社• 2009年株式会社ミクシィ入社• 2012年株式会社プリファードインフラストラクチャーに て検索エンジン Sedue の開発、国際化に従事 1
  • 3. 発表内容• 検索プラットフォーム Sedue のご紹介• 多言語処理に関する弊社の取り組み 2
  • 4. 発表内容• 検索プラットフォーム Sedue のご紹介• 多言語処理に関する弊社の取り組み 3
  • 5. 統合検索プラットフォーム 4
  • 6. 統合検索プラットフォーム Sedue• SSD に最適化させた高性能な検索を提供• 特殊な検索方式(接尾辞配列)を採用 ➥ どの言語でももれ無く高速に検索• 参考:多くの検索エンジンが採用する検索方式 (転置インデクス、N-Gram) • 言語サポートが必要、もしくは処理速度に問題 5
  • 7. Sedue:製品提供/技術提供代表事例メディア業界 • 日経BP社様 全社横断検索 • 朝日新聞社様 公式ニュースサイト 朝日digital • 株式会社インプレスビジネスメディア様 • 日本放送協会様 NHKニュース • 株式会社電通様 ザッピングエンジン「XAPPY」EC/Webサービス業界 • 株式会社イプロス様 製造技術データベースサイト • 国立情報学研究所様 図書情報サービスWebcat Plus • 株式会社エフルート様 モバイル検索サービス • 株式会社コマースリンク様 ショッピングサーチ.jp 6
  • 8. Sedue が提供する機能• Sedue はコアである検索インデクス以外に検索補助、 および導入を支援する仕組みを提供• Sedue が提供する機能の抜粋 • レコメンド機能、サジェスト機能 • ドリルダウン機能、高いカスタマイズ性 • リアルタイム検索 7
  • 9. Sedueの機能:検索とレコメンドの統合 検索を行ったユーザーに「この文 書も興味があるかもしれません」 と、オススメの提示が実現
  • 10. Apache Solr との比較 Sedue Solrサポート コンサルティング、インストール、運 インストール、運用についてのみサポー体制 用サポート、また開発チームとの連携 ト。 が可能。 JVM のガべージコレクションが起こる可安定性 ガベージコレクションはない。 能性。 ・クエリ補正、補完 ・結果のクラスタリング付加機能 ・レコメンド:コンテンツベース、行 ・クエリ補完 動履歴ベース ただし、マルチバイト文字は未対応検索の完 接尾辞配列による漏れのない、完全な 転置ファイルを利用した場合、検索漏れ全性 検索を実現。 が発生する 9
  • 11. 発表内容• 検索エンジン Sedue のご紹介• 多言語処理に関する弊社の取り組み 10
  • 12. 多言語処理とは?注意: 多言語処理は翻訳ではない。多言語処理: • システム、アプリケーションの機能が任意の言語で 動作させる、精度を向上させる処理 • 言語によって全く利用できないということがないよ うにサポートする処理 11
  • 13. 多言語処理を行う背景はじめに弊社が多言語処理を行うことになった背景と現状の問題点について共有する • サービスのグローバル化 • 言語の利用状況 • 会社組織のグローバル化 12
  • 14. 背景:サービスのグローバル化 • Web サービスが扱う言語の種類は多様化している • Twitter の場合、非英語は 60% であり、非英語の伸び が著しい 非英語 61% 英語 39% 2010年時は50% 13http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter
  • 15. 背景: 主要言語の利用状況 言語 第一言語:単位 言語 第一言語:単位 100万人 100万人 中国語 845 ジャワ語 85 スペイン語 329 ベトナム語 69 フランス語 68 英語 328 韓国語 66 ヒンドゥー語 240 トルコ語 51 アラビア語 280 イタリア語 62 ポルトガル語 178 ペルシア語 39 ロシア語 144 マレー語 37 タイ語 26 日本語 122 ドイツ語 101http://en.wikipedia.org/wiki/List_of_languages_by_number_of_native_speakers 14 より
  • 16. 背景:会社組織のグローバル化• 日本企業の現地法人数: 24,000 社• 日本企業が進出した国と地域:130 カ国 • 海外進出企業データ 2012 より 社内文書が単一の言語であるとことが仮定できない 15
  • 17. 現状の問題点:多言語処理ツールの不備多くの既存のアプリケーションは特定の言語以外を扱うように設計されていない • 既存のアプリケーション: 検索エンジン、レコメンド、 ソーシャルモニタリング、文書分類・整理、マーケ ティングツール - 言語によっては全く使用できない➥ 現地法人の従業員によっては検索等の社内ツール、アプ リケーションを全く利用できない。 16
  • 18. 多言語処理:弊社の既存技術• Sedue:検索プラットフォーム • 言語に依存しない検索方式(接尾辞配列)を採用 • どの言語でも漏れ無く高速に検索できる• Bazil / Jubatus:機械学習基盤 • 正解データさえあれば、任意の言語に対応できる さらに精度を向上させるには言語ツールの整備が必 要! 17
  • 19. 言語ツールの例:単語の正規化• 単語の表層の変化を正規化する処理 • 入力: “tokenizing is important” • 出力: “tokeniz is important”• 検索エンジンにおけるメリット:表層の変化を正規化す ることで、検索精度を向上できる。• 注意:表層の変化は言語によって異なるため、言語毎に 実装する必要がある。 18
  • 20. 複数の言語を扱う難しさ• 使用するツールの数が多い 言語同定 単語分割 - ツールの数=言語×ツールの種類 単語正規化 評判分析 固有表現抽出 構文解析• アプリケーションが任意の言語で動作するには ➥ 各言語毎に存在するツール群を組み合わせる必要 ➥ 各アプリケーション毎に作り込むとコストがかかる 19
  • 21. 多言語解析基盤: Screw の開発• アプリケーションが任意の言語で動作することをサポー ト • Screw を既存のアプリケーションに組み込むことで 複数の言語に対応、精度を向上させる• Screw は任意のアプリケーションに対応できるように 柔軟な設定ができる 20
  • 22. 多言語解析基盤:Screw の機能1. アプリケーションが必要とする入力処理を設定された 順番に適用する2. 入力言語に応じて必要なツールが自動で適用される3. 柔軟な設定 21
  • 23. Screw が提供する機能 1必要な処理を順番に適用する • 処理の順番は設定ファイルに記述 • 例:言語同定→単語分割→単語正規化 …入力文書 言語同定 アプリケーション I would 単語分割 検索 like to have a cup of coffee … 単語正規化 レコメンド … 22
  • 24. イメージ:Screw の出力 入力文書を言語処理ツールで適用した結果が出力される • 出力:JSON 形式入力文書 { …, Tokenized: [General,General Electric is an 言語同定 Electric, is, an, AmericanAmerican corporation, incorporatedcorporation …],incorporated in New 単語分割 Lemmatized: [General,York and Electric, is, an, Americanheadquartered in 単語正規化 corporation, incorporat…],United States Location: [United States, New York], … … } 23
  • 25. Screw が提供する機能 2 言語毎に必要な処理を適用 • 入力文書の言語を自動同定した上で入力言語用のツール を適用する • NOTE: アプリケーションは入力言語を意識しなくてよ い 言語同定器入力文書 アプリケーション 日本語 単語分割 英語 単語分割 I would like to have 検索 a cup of 日本語 正規化器 英語 正規化器 coffee … レコメンド … …
  • 26. Screw が提供する機能 3柔軟な設定• 必要な処理の流れはすべて設定 ファイルに記述 言語同定 • アプリケーション毎、案件毎 単語分割 に調整可能 単語正規化• 新たに必要になった言語、ツー … 固有表現抽出 ルの組み込みコストも低い … 25
  • 27. Screw の利用例:検索エンジン検索精度を向上させるためのツール群が適用される • 入力:文書、クエリの二種類入力文書 … 言語処理 I would like to have 単語分割 a cup of coffee … 言語同定 検索 インデクシング 単語正規化 レコメンドクエリ coffee … クエリ発行 26
  • 28. Screw の利用例:多言語検索 状況:文書集合が複数の言語を含む • 必要な言語処理は Screw が全てやってくれる入力文書(複数言語)私は蟹が好き です … 言語処理 I would like to have 言語同定 a cup of coffee … 単語分割 検索 インデクシング 単語正規化 レコメンドクエリ coffee … クエリ発行 27
  • 29. 現状のご報告• Sedue の次期バージョンで多言語機能 (Screw のイン テグレーション) をリリース• サポート言語:日本語、英語、中国語 28
  • 30. ロードマップ: 基本機能をサポートする言語(2012年9月時点 今後変更することもございます)2012/9 日本語、英語、中国語 スペイン語、ポルトガル語、ドイツ語、フランス語2013/3 タイ語、ロシア語、アラビア語、イタリア語、ヒンディー語2013/9 ギリシア語、フィンランド語、オランダ語、チェコ語、2014/3 ベトナム語等 29
  • 31. 将来の計画:Screw を単体で提供既存のアプリケーションを多言語化、国際展開するためのフレームワークとしてリリース • アプリケーション:BI・マーケティング、文書マイ ニング、広告最適化 … 言語処理 既存アプリ 単語分割 ケーション入力文書 言語同定 BI I would like to have a cup of 単語正規化 広告 coffee … … 30
  • 32. 将来の計画: Jubatus, Bazil との連携 1• Jubatus, Bazil への入力(多言語)の前処理を行い、分類 精度を向上させる。 … 言語処理 単語分割入力文書 言語同定 I would like to have 単語正規化 a cup of coffee … … 31
  • 33. 将来の計画: Jubatus, Bazil との連携 2Screw が処理中の文書を Jubatus, Bazil に投げ、機械学習等の結果を利用できるようにする。 … 言語処理 単語分割入力文書 アプリケーション 言語同定 I would BI like to have Jubatus 接続 a cup of coffee … 広告 … 32
  • 34. まとめ• 統合検索 プラットフォーム Sedue について紹介• 多言語解析基盤 Screw のご紹介Confidential : Need To Known 33
  • 35. ご清聴ありがとうございました 34