大規模データ時代に求められる自然言語処理

講演
2012/2/2 @ 東北北⼤大学産学連携講義：先端技術の基礎と実践

⼤大規模データ時代に求められる
⾃自然⾔言語処理理

株式会社Preferred Infrastructure
岡野原⼤大輔
hillbig@preferred.jp

今回の発表内容は個⼈人の意⾒見見であり、
会社の意⾒見見ではありません

⾃自⼰己紹介

l  名前：岡野原　⼤大輔
l  経歴：
l  福島県いわき市⽣生まれ、磐城⾼高校（ラグビー部）

l  東京⼤大学理理科⼀一類→同情報理理⼯工学研究科コンピュータ科学博⼠士課程

2010年年3⽉月終了了、情報理理⼯工学博⼠士（その間未踏2本、ユース1本）
l  株式会社プリファードインフラストラクチャー 2006年年創業

l  研究開発チームのリーダー&戦略略&企画&開発&雑⽤用などいろいろ

l  専⾨門分野は統計的⾃自然⾔言語処理理、機械学習、データ構造
（主に簡潔データ構造）、データ圧縮、データマイニング
l  twitter @hillbig

会社紹介
株式会社 Preferred Infrastructure (略略称PFI）
l  社是：最⾼高の技術を最短で世の中に届ける
l  社員数：フルタイム 19⼈人（4⽉月に25⼈人） + バイト10⼈人弱
l  4名を除き、全員研究、エンジニア

l  ICPC世界⼤大会出場者や未踏経験者が多い。redcoderも多い

l  検索索/推薦⽂文やでの製品開発・販売・サービス提供
l  ⼤大⼿手メディア、サービス会社のバックエンドのエンジンを提供

l  提供先例例：朝⽇日新聞、NHK、はてな、NII、イプロス、電通、⽇日経BP

l  ⼤大規模分散コンピューティング分野での技術提供
l  各社との共同研究開発、システム開発

l  ⼤大規模分散リアルタイム解析システム Jubatus

今後PFIをどのような会社にしていきたいか

l  研究・開発・ビジネス（世の中）をもっと近づけたい
l  それが達成できるような⼈人材・組織作りをしたい

l  （短期的には）IT業務の形を変えたい
l  エンジニアが⾃自⽴立立し、⾃自分で考えて仕事をできるようにしたい

l  受託ではなく、我々も問題を⼀一緒に考えて、それを社会で共有する

l  （⻑⾧長期的には）世の中を変えるようなソフトウェアを開発したい
l  ⾃自⽴立立した優秀なエンジニアを集め、それぞれが責任をもって能動的

に業務できるような組織作りを⾏行行う
l  数⼗十年年後には今の産業を⽀支え、新しい産業を作りたい

本⽇日の話

l  ⾃自然⾔言語処理理の実世界への応⽤用について次のテーマで話す
l  どこで使われているのか

l  何が必要とされているか

l  ビジネス的な観点や、実際どういうプレイヤーが存在するかなどに
ついても突っ込んで話します。
l  今後社会に出た時役に⽴立立つかもしれません

⾃自然⾔言語処理理の
実世界への応⽤用

⾃自然⾔言語処理理の基本技術

⾃自然⾔言語（⼈人が書いたり話した⾔言語）を処理理するための技術は⾮非常に広く
毎年年のように各分野で新しい技術が⽣生まれている

要素技術
単語分割構⽂文解析意味解析辞書構築

⽂文書分類⾃自動要約情報抽出著者推定

機械翻訳⾳音声認識識情報検索索質問応答
複合技術

⾃自然⾔言語処理理の現状

l  以前の⾃自然⾔言語処理理は⾔言語学のエキスパートが処理理するための辞書、
ルールを⼈人⼿手で作っていた（演繹的⼿手法）
l  問題：メンテナンスコストが⼤大きい、新分野への対応コストが⼤大きい

l  90年年代後半から統計的⾃自然⾔言語処理理が主流流に（帰納的）
l  ⼤大量量の⾔言語データを元に辞書、ルールを⾃自動的に獲得する

l  統計学、データマイニング、機械学習との融合

l  ルールベースと⽐比較しても同程度度もしくはそれを超える性能を達成

l  しかし、まだ実⽤用化されていない部分も多い
l  この原因については最後の⽅方で話します

⾃自然⾔言語処理理を⽀支える技術

l  ⾔言語学はもちろんだが、それ以外にも様々な分野の技術が必要

l  データ構造
l  例例：数千万キーワードの辞書を1台で保持し、⾼高速マッチングを⾏行行う

l  統計学
l  例例：単語の珍しさを単語の重要度度する

l  機械学習
l  例例：分類済みの⽂文書セットが与えられた時、そこから分類ルールを学

習し、新しい⽂文書を適切切に分類する
l  ⼤大規模数値最適化
l  例例：⽂文書と⽂文書の関係を、それらの中に出現する単語の情報を⽤用いて
求めたい．⽂文書を⾏行行、単語を列列とする⾏行行列列を特異異値分解し分析する

⾃自然⾔言語処理理はどこで使われているのか？

l  ⾔言語情報があるところならどこでも使われている
l  そして⾔言語情報は今やどこにでも存在し電⼦子化されている

l  それらの情報年年電⼦子化されコンピュータが扱えるようになった

l  PFIでの具体例例を通じ、技術の利利⽤用例例をいくつか紹介する
l  検索索エンジン　

l  情報整理理

l  業務改善

l  属性情報分析

応⽤用例例１：検索索エンジン

l  世の中には様々な種類の検索索エンジンが存在する
l  Web検索索については前回のGoogleの賀沢さんが話したはず

l  エンタープライズ検索索
l  EC検索索
l  ⽂文献特許検索索

l  ちなみに今回は⾃自然⾔言語処理理がテーマなので省省略略するが、
⽣生物情報向け検索索エンジンの需要は⾮非常に⾼高くなっている
l  次世代シーケンサの低価格化/普及 → オーダーメイド医療療

l  ⾔言語情報と⽣生物情報の解析に利利⽤用する要素技術は殆ど同じ

エンタープライズ検索索

l  企業内検索索：業務中に発⽣生する⽂文書を検索索する
l  メール、議事録、掲⽰示板、契約書、設計書、部品書

l  エンタープライズ検索索の現状
l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流行ととも

にデータベース市場、BI市場と融合してきつつある
l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆買

収された．Fast（MS）、Autonomy (HP）、Endeca（Oracle）

l  ⽂文書の⾃自動分類（タグ付）、整理理、組織名や⼈人名、製品名の抽出、
そして、それらの名寄せが利利⽤用される
l  ⽂文書分類、固有表現抽出、照応解析

E-commerce 検索索

l  楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索
l  ECサイトの多くは、外部検索索エンジン（Googleなど）から直接

来た後に商品を絞り込むために利利⽤用する場合が多い
l  ECサイトによって⾃自作と購⼊入している⼩小さい場合は半々程度度

l  各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い
楽天、Amazon、ZOZOTOWN などなど
l  必要なNLP技術
l  クエリ拡張（製品名などはまずそのままヒットしない）

l  商品属性の抽出（製品名、原材料料、⾊色、キャッチコピー）

l  名寄せ　この商品とこの商品は同じ？バージョン違い？

l  レコメンド
l  商品情報の⽂文章から、お薦めできるかどうかを分析する

⽂文献・特許検索索

l  研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用
l  漏漏れは許されない．関連結果を全て調べる．数千件⾒見見る場合も

l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい

l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べる

必要がある
l  各企業、政府が今どのような⽅方針をとっているのかも調べたい

→⾦金金融業界などでの利利⽤用も多い

l  誰が⾔言っているのか、影響はどのくらいかの分析も重要
l  情報フィルタリングと同じように、クエリを仕掛けておいて、新し
い情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも

応⽤用例例２：情報整理理

l  関連ニュース記事のレコメンド
l  ある記事と関連のある記事を出したい

l  過去に同じようなことはあったか？
l  関連する⼈人や企業に関する記事は？
l  以前は、記事投稿の際、似ている記事を⼈人⼿手で⾒見見つけていた．
l  記事に対し、関連ニュース、tweet、⼈人などを⾃自動で紐紐付けられた
l  鍵となる⾃自然⾔言語処理理技術はキーワード抽出とスコアリング
l  どのキーワードがどのように重要か？

l  ⼈人名、事件名、イベント名、
l  Wikipedia、クエリログなどから⼤大規模辞書を構築＋未知語処理理
l  ⾼高速な推薦
l  登録された記事全てに対して、毎回レコメンドを調べる

例例：どのキーワードが⽂文書を特徴付けるのに重要
か？
⽇日本電信電話株式会社（東京都千代⽥田区、代表取締役社⻑⾧長：三浦　惺、
以下「NTT」）と株式会社プリファードインフラストラクチャー（東
京都⽂文京区、代表取締役社⻑⾧長：⻄西川徹、以下「PFI社」）は、ビッグ
データ*1と呼ばれる⼤大規模データをリアルタイムに⾼高速分析処理理する
基盤技術「Jubatus*2」（第1版）を開発しました。

これらのキーワードをどのように抽出する？
　辞書ベース/⽂文脈情報ベース/頻度度ベース
この情報で「東京都⽂文京区」より「ビッグデータ」が重要と、どう機
械的に判断するか？
→珍しさ、辞書、⽂文書中位置、⽂文書集合での関係、流流⾏行行度度など

情報フィルタリング

l  関連する情報だけを⼊入⼿手する
l  アドホック検索索：クエリが動的、対象⽂文書が静的

l  Googleなどのウェブ検索索などいわゆる普通の剣作
l  情報フィルタリング：クエリが静的、対象⽂文書が動的
l  近年年のSocial News Readerがこれらの技術に近づいている

クエリが動的クエリが静的
（ユーザーが毎回⼊入⼒力力）（決まっている）
結果はpull型結果はpush型
⽂文書が動的情報フィルタリング
（ニュース、（はてブのカテゴリと
twitter）か、Social News
Readerなど）
⽂文書が静的（ウェブアドホック検索索
ページ、製品情報）（ウェブ検索索など⼀一般の
検索索の概念念はこれ）

応⽤用例例３：業務改善

l  ⽂文書と組織のマッチング
l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべき

⼈人に⾃自動的に必要な情報をpushする
l  組織変更更があった時に、どの⽂文書（情報）をどの組織に割り当てる

のかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う

l  ⼈人事への応⽤用
l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に⾃自

動推定し、その結果を検索索などで利利⽤用できるようにする
l  レジュメを⽂文書分類する．正解データはクラウドソーシングで作る
l  転職斡旋会社や、⼤大企業の⼈人事などで使われる
l  linkedinなどで⼤大規模な適⽤用例例をみることができる

⼈人事・取引・業務情報の管理理

l  取引情報
l  取引先の会社は数百社から数千社からなるため、どこに商談の可能

性があるかを⾃自動的に分析する
l  ミーティングの場所、出席者、議題などを⾃自動抽出

l  業務情報
l  プロジェクトの進捗管理理

l  redmineなどのチケットを分析する

l  この領領域を狙っている企業は最近多くなっている
l  salesforce, linkedin, yammer

例例：業務⽂文書で必要な解析

l  ⼈人・組織に関係する処理理が多くなる
l  毎⽇日様々な⽂文書が⽣生成され（⼈人の出⼊入りも多いので）、⽂文書がある
⼈人に関係する/しないという判断が困難になってくる

l  ⽂文書分類のラベルセットが、⼈人/部署になってくる
l  これまで読んだ⽂文書（もしくは読んでよかった⽂文書が正解データ）

l  組織変更更があったら、それに追従して⽂文書割り当てを決める
l  企業は定期的に組織変更更、合併、分裂裂が発⽣生する

l  必要な⽂文書を再度度全部割り振り直すのはかなり困難な作業

応⽤用例例４：属性分析

l  ユーザーの属性分析
l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族構

成、年年収、各製品/企業への嗜好などが分析できる
l  ある商品がどのような⼈人にウケている、外れているといったマーケ
ティング分析への利利⽤用
l  第三者広告配信の広まりとともに、ユーザーと広告のマッチングは
キーテクノロジーになっている
この⼈人なら、この広告は⾼高確率率率
l  第三者配信で押すから、⾼高値で⼊入札！

広告を
広告出したい⼈人達

広告を出せる枠を持った⼈人
(ウェブサイトを持っている⼈人）第三者配信

属性分析

l  ⾔言語情報だけに限らず、いまやあらゆる情報を利利⽤用してユーザーの
情報は分析され利利⽤用されている
l  アクセス時間、パターン

l  IPアドレス

l  クリックログ

l  クエリログ

l  これらの情報はサイト間を超えて共有されつつある
l  あるサイトで広告をクリックしたら、他のサイトでも、同じ広告ば

かりが出るようになったなど

⾃自然⾔言語処理理の基本技術

ここまで以下のオレンジ⾊色のついた周辺のことを話しました

要素技術
単語分割構⽂文解析意味解析辞書構築

⽂文書分類⾃自動要約情報抽出著者推定

機械翻訳⾳音声認識識情報検索索質問応答
複合技術

何が必要とされているか

l  ⾃自然⾔言語処理理の実⽤用化において何が必要とされるのかを紹介

l  多⾔言語対応
l  コーパス作成からのビジネス化
l  ⼤大量量・⾼高速・リアルタイム処理理
l  統合技術の実⽤用化
l  幅広いスキルを持った⼈人材

何が必要とされているか？
1. 多⾔言語対応
l  ⼀一つの⾔言語だけではなく、複数の⾔言語を同時に処理理したいニーズは
あらゆる⾔言語処理理の応⽤用分野で⾼高まっている
l  英語 14億, 中国語 10億, ヒンディー 7億⼈人, スペイン語 3億

フランス語 2億, アラビア語 1.7億, ポルトガル語 1.6億
マレー語 1.6億ベンガル語 1.5億⽇日本語 1.2億ドイツ語 1億
l  ⽇日本語だけが処理理できるのでは売れない、使ってもらえない

l  スマートフォンの普及により、英語が話せる知識識階層以外の利利⽤用も

急速に進みつつある
l  これまで紹介してきた技術はどの⾔言語でも使いたい
l  例例：キーワード抽出の重み付けが「⽇日本語」固有の⽅方法だと、他の

⾔言語に応⽤用するのは難しい
l  機械翻訳以前に⾔言語横断で分析したいという要望も⼤大きい

1. 多⾔言語対応（続）

l  NLP研究の多くは英語、中国語、⽇日本語など主要⾔言語が多い
l  ⾔言語処理理ツールは主要⾔言語のみで整備される場合が多い
l  海外企業では、CJK部隊が設置されるがうまくいかない場合が多い

l  ⽇日本語処理理のノウハウを持っていても海外では通⽤用しない

l  ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない
l  Google翻訳は数年年で50⾔言語強にスケールした

l  ⾔言語のスケーラビリティに対する徹底的な意識識

l  ⽇日本だけで閉じているとジリ貧に

2. コーパス作成のビジネス化
l  統計的⾃自然⾔言語処理理は辞書・ルールを得るために「タグ付きコーパ
ス」と呼ばれる正解付き⾔言語データを利利⽤用している
l  ⽂文書分類の場合は、⽂文書とそのタグのペア、

l  キーワード抽出の場合は、⽂文とその中に含まれるキーワードの位置

情報など
l  限定されたドメイン向けの研究⽤用のコーパスしか存在していない
l  ⽇日本は古くは京都コーパス、最近は均衡コーパスなど研究者が⼤大き

なコーパスをいくつか作っている
l  企業が、⾃自分の製品情報などに特化した⾔言語処理理器を作ろうとした

時、⾃自分たちですぐにコーパスを作れる仕組みはできないか

コーパス作成のビジネス化（続）

l  クラウドソーシング（Amazon Mechanical Turks）など安価にデー
タを構築する⼿手段は揃いつつあるが、もっと有効なデータが⾃自由に
売買される時代がやってくる
l  既に広告配信などでは、配信最適化に有効なデータは売買されはじ

めている

3. ⼤大量量・⾼高速処理理
l  Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人でも⼤大量量のデータ
（ビッグデータ）が⼿手に⼊入れられるような時代になってきた
l  例例：twitterの場合秒間1万tweet弱。

l  1台で秒間10万程度度までなら単語分割、重要語抽出、分類、タグ付

は可能だが、それ以上の分析は難しい

l  世の中のデータは年年率率率45%ずつ増えており、2020年年には現在の40
倍になると推定されている
l  ありとあらゆる種類のデータが増えている

l  今記録されていない⾳音声データや議事録といったデータなども記録

され、処理理される時代はすぐやってくる

⼤大量量・⾼高速処理理（続）

l  ⼤大量量の情報をリアルタイムで処理理できると世界が変わる
l  データを保持する必要はなくなる

l  ⼤大量量のデータを利利⽤用して真⾯面⽬目に計算せずに⼀一部のデータ、もしく

は要約されたデータから分析をする技術が重要になる
Sampling, Sketching
→Jubatus プロジェクト（リアルタイム＋分散＋深い解析）

4. 統合技術の実⽤用化
l  統合技術の実⽤用化は進みつつある
l  情報検索索

l  機械翻訳 (Google, MS)

l  ⾳音声認識識質問応答（Apple Siri、IBM Watson →診断への応⽤用)

l  こうした開発には要素技術は数百と使われている
l  優れた要素技術を発⾒見見し、組合せるようなスキルが必要

l  精度度を上げれば良良かった要素技術の研究の時とは違った問題設定

l  ゴールが明確でなく、誰にどのように提供すればよいか、そのため
に今そろっている道具で何ができるかを考える必要がある
l  例例：ネジやシャーシ、エンジンなどの部品がある時、どのように⾃自
動⾞車車を作るかと似ている. どこで妥協するか、コストなども

幅広いスキルを持った⼈人材
l  ⾃自然⾔言語処理理に限らず、⼀一般的に⾔言える話
l  下のスキルのうち2つ、3つできる⼈人は増えつつあり多く持った⼈人が
活躍できる世の中になってきている
l  技術

l  開発

l  設計

l  運⽤用

l  企画

l  デザイン・UX

l  マネジメント

l  ビジネス化
l  (ソーシャル？）

まとめ

l  ⾃自然⾔言語処理理は社会のあらゆる分野で利利⽤用されてきている
l  ⾔言語情報を介して業務、⼈人、社会などを知ることができる

l  データは今後も増える⼀一⽅方であり、⼈人では処理理できなくなる
l  ⼈人が処理理できる情報量量には上限がある．機械の⼿手助けにより

本当に重要な情報だけを⼈人が処理理するようにしなければならない

l  ⾃自然⾔言語処理理の実⽤用化はまだまだこれから
l  要素技術の改善と同時に、これらを組合せることでいかにして、世

の中に不不可⽋欠な技術にしていくか

大規模データ時代に求められる自然言語処理

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 大規模データ時代に求められる自然言語処理

Similar to 大規模データ時代に求められる自然言語処理 (20)

More from Preferred Networks

More from Preferred Networks (20)

大規模データ時代に求められる自然言語処理