SlideShare a Scribd company logo
1 of 40
Download to read offline
2012/12/6@情報処理理学会連続セミナー:
              ビッグデータ時代の⾃自然⾔言語処理理




         ⼤大規模・⾼高速・⾼高精度度な
        ⾃自然⾔言語処理理を⽀支える技術



               岡野原  ⼤大輔


       株式会社Preferred  Infrastructure  
          hillbig@preferred.jp
会社紹介
株式会社  Preferred  Infrastructure
l    略略称    PFI
l    代表者 ⻄西川  徹
l    設⽴立立   2006年年3⽉月
l    社員数 26名
l    所在地 〒113-‐‑‒0033  東京都⽂文京区本郷2-‐‑‒40-‐‑‒1
l    事業概要
      l    検索索/分析分野での製品開発,  販売,  サービス提供
      l    ⼤大規模分散分析エンジンの共同研究開発


                最先端の技術を最短路路で実⽤用化
             リサーチとエンジニアリングの融合
      世の中に必要とされる中で特に重要で困難な課題に対し解を提供

                               2
Preferred  Infrastructure
メンバー構成
l    フルタイム26⼈人中23⼈人がエンジニア/研究者
      l  以下の情報/理理/⼯工学博⼠士

            l    ⾃自然⾔言語処理理/機械学習/計算量量理理論論/データマイニング/⽂文字列列解析
      l    ICPCプログラミングコンテスト  世界⼤大会(=⽇日本代表)  7名
      l    未踏プロジェクト  5名
      l    TopCoder世界上位や、世界プログラミングコンテスト優勝者など
l    各種コミュニティへの働きかけ
      l  ⽇日本Hadoopユーザー会⽴立立ち上げ,  ⾃自然⾔言語処理理若若⼿手の会委員⻑⾧長

      l  ⽇日本語⼊入⼒力力本,  Haskel本,  各種雑誌記事,  専⾨門書



      その他、データ圧縮、UI/UX、セキュリティ、分散システム、
      ソフトウェア⼯工学など様々な分野の専⾨門家

                                  3
アジェンダ

l  ⾃自然⾔言語処理理を取り巻く世界の変化
l  情報フィルタリング
l  業界別の⾃自然⾔言語処理理
l  ⾃自然⾔言語処理理を⽀支えるツール
     l  Bazil

     l  Jubatus




                    4
⾃自然⾔言語処理理を取り巻く
     世界の変化
多⾔言語化 (1/3)

   l    世の中の⾔言語の種類は多様化している
         l  twitterの場合、⾮非英語は60%であり、⾮非英語の伸びが著しい

         l  新興国でのスマートフォンの普及により、他⾔言語コンテンツが増加




                                                                                  非英語 61%	




                                                                                  英語 39%
                                                                                  2010年時は50%	



http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter
多⾔言語化  (2/3)

l    スマートフォンの普及により、これまでのインターネットユーザ
      ーとは異異なる⾮非英語圏の利利⽤用者が急速に増加
      l  c.f. LINEはスペイン語圏、アラビア語圏で利利⽤用者が急激に増加

      l  東南アジアの諸⾔言語、インドの⽅方⾔言利利⽤用者の⼈人⼝口は数千万単位



l    多⾔言語を統⼀一的に解析可能なツールは殆ど存在しない
      l     特にアジア⾔言語に弱い場合が多い
       l    機械翻訳は技術的には向上しつつあるが、発展途上
       l    基本的な⾃自然⾔言語処理理のツール:キーワード抽出,検索索、レコメ
             ンド、名寄せ、⽂文書分類・整理理、などを多⾔言語向けに提供できて
             いない
多⾔言語化(3/3)

l    これまでのNLPのツールは英語、ヨーロッパ⾔言語、中国語、⽇日本
      語などがサポートされる場合が多かった
      l  研究者が多い、先進国、

          アメリカが注⽬目している国(昔はロシア・⽇日本、今は中国・アラ
          ビア語)


l    ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない
       l  Google翻訳は数年年で50⾔言語強にスケールした

        l    ⾔言語のスケーラビリティに対する徹底的な意識識が必要
⾔言語資源の⼤大規模・リアルタイム化 (1/4)

l    Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人/企業/研究機関
      でもビッグデータが⼿手に⼊入れられるような時代になってきた


l    世の中のデータは年年率率率45%ずつ増えており、2020年年には
      現在の40倍になると推定されている
      l  今後、⾳音声認識識、⾃自動議事録、電⼦子カルテなど⾔言語資源は量量・種

          類ともに増加することが予想されている
⾔言語資源の⼤大規模・リアルタイム化 (2/4)

l  SNS
     l  Twitter : 100億 tweets / ⽉月, 5.17億 user(active 1.4億)*1

     l  Facebook : 1200億 message /⽉月, >10億 user *2

     l  LINE : 300億 message / ⽉月, 7500万 user*3

l  論論⽂文
     l  Peer reviewed Journal で 135万 article / 年年*4

             l    年年率率率 4〜~10%の増加, 15年年で2倍に
             l    conference proceedings などは更更に⾼高い増加率率率


      *1 http://weekly.ascii.jp/elem/000/000/084/84331/
      *2 http://qconlondon.com/dl/qcon-london-2011/slides/
      KannanMuthukkaruppan_HBaseFacebook.pdf
      *3 http://www.slideshare.net/sunsuk7tp/hbase-at-line
      *4 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909426/	
                                             10
⾔言語資源の⼤大規模・リアルタイム化 (3/4)

l    専⾨門家すら全ての情報に触れることは困難
      l  関連する領領域も急速に拡⼤大している



l    SNS, 電⼦子ジャーナルなど情報発信能⼒力力は急激に増えたが、⼈人の
      処理理能⼒力力は急激に増えないのでアシストツールが必須
       l  ⼤大量量の情報から必要な情報のみを集める

       l  情報フィルタリングツール

       l  情報要約ツール



l    SNSを中⼼心に情報はリアルタイムで発⽣生する
      l    秒間数千〜~万, これらの結果に反応できるか


                          11
⾔言語資源の⼤大規模・リアルタイム化 (4/4)

l    ⼤大規模な辞書も様々な形で利利⽤用可能
       l  Google N-gram, Wikipedia, twitter



l    例例:⾔言語横断のコンセプト辞書  *1
       l  English Wikipediaの各コンセプトに対応するキーワード

             l    他⾔言語の英語の関係はWikipediaでの対応から抽出
       l    各wikipediaのエントリへのリンクの際のアンカーテキストの統
             計情報を利利⽤用して、キーワードとコンセプトの関係を抽出
       l    31億リンクの情報から2.9億  キーワード-コンセプトペアを抽出
             l    ウェブから抽出しているので、様々な⾔言語が存在

 *1 “A Cross-Lingual Dictionary for English Wikipedia Concepts”, 

 V. I. Spitkovsky, A. X. Chang, LREC 2012	
http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/	
                                      12
情報フィルタリング




13
情報フィルタリング

l    関連する情報だけを⼊入⼿手する
      l  アドホック検索索:クエリが動的、対象⽂文書が静的

            l    Googleなどのウェブ検索索などいわゆる普通の剣作
      l    情報フィルタリング:クエリが静的、対象⽂文書が動的
            l    近年年のSocial News Curatorがこれらの技術に近づいている

                          クエリが動的           クエリが静的
                          (ユーザーが毎回⼊入⼒力力)   (決まっている)
                          結果はpull型         結果はpush型
⽂文書が動的                                     情報フィルタリング
(ニュース、
twitter)                                   はてブのカテゴリ、
                                           Social News Curator
⽂文書が静的(ウェブ                アドホック検索索
ページ、製品情報)                 (ウェブ検索索など⼀一般の
                          検索索の概念念はこれ)
例例:Prismatic
  l    ニュースやブログ記事などにあらゆるトピックタグをつける
        l    タグ付けの精度度は⾮非常に⾼高く、網羅羅性も⾼高い
  l    ユーザーの嗜好ピックは、サービス利利⽤用履履歴から⾃自動推定




                             15
例例:災害対策




地域、トピック、時間で情報をフィルタリング
              16
例例:ユーザー属性フィルtリング
各ユーザー属性にに関連するtweetのみを抽出する	




                    17
例例:会社情報
各会社情報に関連するtweetのみを抽出する	




                    18
例例:⾔言語横断でのフィルタリング
                            appleに関
⾔言語横断で特定情報をフィルタリングすることも可能   連する情報
                            フィルタリ
                            ング例例




                19
その他の情報フィルタリングサービス

l  Crowsnest
     l  フォローユーザーのツイート情報を元にユーザーの興味にあう情

         報が収集される
l  Facebook
     l  EdgeRankに基づき、興味ある情報のみニュースフィードに表⽰示

         EdgeRank = 親密度度 * ⾏行行動タイプに基づく重み * 新鮮度度


l    論論⽂文・特許・医療療情報・官報など特定分野における情報フィルタ
      リングツールも重要となっている




                       20
情報フィルタリング・まとめ

l  ⼤大量量の⾔言語情報が⽣生成される中、関連する必要な情報のみをフィ
    ルタリングして収集できるツール・サービスは重要度度を増している
     l  従来のウェブ検索索を補完する形で

l  様々な軸でフィルタリングすることが可能
     l  トピック

     l  企業

     l  製品

     l  地域

     l  ユーザー属性

     l  利利⽤用ユーザー関連  



l    今後、研究・実⽤用化は増えていくとおもわれる

                    21
実社会の中でのNLP




22
利利⽤用事例例

l    実社会の中でNLPがどのように使われているのかを紹介する
      l  いずれもこれまで対象としていなかった⼤大規模なデータを対象に

          している


l    医療療・ヘルスケア
l    製造
l    EC
l    ⽂文献・特許
l    社内情報
l    広告




                      23
医療療・ヘルスケア

l  電⼦子カルテの⼊入⼒力力⽀支援・情報抽出
l  診断⽀支援 c.f. IBM Watson
l  伝染病の流流⾏行行予測
    l  Google Flu 下図(特定クエリログの検索索回数履履歴から推定)

      http://www.google.org/flutrends/about/how.html	




                                             24
製造

l  部品名の名寄せ:  国毎、⼯工場毎に違う名前を使っており、必要な
    部品を融通しようと思った時に分からない
l  ⾃自由⽂文で書かれたノウハウ(故障履履歴、作業改善案)を機械的に
    処理理可能にする仕組み
l  octopart(画⾯面を通じて紹介)
     l  カタログから製品情報を⾃自動抽出で絞込み可能に




                  25
例例:Octpart




             26
EC

l    楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索
      l  ECサイトの多くは、外部検索索エンジン(Googleなど)から直接

          来た後に商品を絞り込むために利利⽤用する場合が多い
      l  ECサイトによって⾃自作・チューニングしている場合も多い

            l    各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い
                  楽天、Amazon、ZOZOTOWN など
l    必要なNLP技術
      l  クエリ拡張(製品名などはそのままヒットしない)

      l  商品属性の抽出(製品名、原材料料、⾊色、キャッチコピー)

      l  名寄せ  この商品とこの商品は同じ?バージョン違い?

      l    レコメンド
            l    商品情報の⽂文章から、お薦めできるかどうかを分析する
⽂文献・特許

l    研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用
      l  漏漏れは許されない.関連結果を全て調べる.数千件⾒見見る場合も

      l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい

      l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べ

          る必要がある
      l  各企業、政府が今どのような⽅方針をとっているのかも調べたい

          →⾦金金融業界などでの利利⽤用も多い


l  誰が⾔言っているのか、影響はどのくらいかの分析も重要
l  情報フィルタリングと同じように、クエリを仕掛けておいて、新
      しい情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも
⼈人材・⼈人事

l    ⽂文書と組織のマッチング
       l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべ

           き⼈人に⾃自動的に必要な情報をpushする
       l  組織変更更があった時に、どの⽂文書(情報)をどの組織に割り当て

           るのかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う


l    ⼈人事への応⽤用
       l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に

           ⾃自動推定し、その結果を検索索などで利利⽤用できるようにする
         l    レジュメを⽂文書分類する.正解データはクラウドソーシングで作る
         l    転職斡旋会社や、⼤大企業の⼈人事などで使われる
         l    linkedinなどで⼤大規模な適⽤用例例をみることができる
社内情報

l  業務⽂文書解析
     l  メール、議事録、掲⽰示板、契約書、設計書、部品書

     l  例例:ミーティングの場所、出席者、議題などを⾃自動抽出

         過去の関連⽂文書を全て⾒見見つける
l  エンタープライズ検索索
     l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流流⾏行行とと

         もにデータベース市場、BI市場と融合してきつつある
     l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆

         買収された.Fast(MS)、Autonomy (HP)、Endeca(Oracle)
l  ⽂文書の⾃自動分類(タグ付)、整理理、組織名や⼈人名、製品名の抽出
      、そして、それらの名寄せが利利⽤用される
      l  ⽂文書分類、固有表現抽出、照応解析
広告

l    ユーザーの属性分析
      l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族

          構成、年年収、各製品/企業への嗜好などが分析できる
      l  ある商品がどのような⼈人にウケている、外れているといったマー

          ケティング分析への利利⽤用
      l  第三者広告配信の広まりとともに、ユーザーと広告のマッチング

          はキーテクノロジーになっている
                           この⼈人なら、この広告は⾼高確率率率
l    第三者配信                 で押すから、⾼高値で⼊入札!

                                        広告を

                  広告                    出したい人達	


広告を出せる枠を持った人

(ウェブサイトを持っている人)
             第三者配信
Bazil


       (弊社開発中のベータ版サービス)




32
Bazil: 誰でも簡単にデータ解析を

  l    データ解析の敷居を下げるためのASPサービス
        l  基本的なデータ解析を誰でも使えるようなツールを⽬目指す

        l  Excelが使えれば、使えるレベルを⽬目指す



プログラムが書ける	
                            Bazilの
                           ターゲット
  Excelが使える	
               ユーザー         データ
                                        解析ツール


  コンピュータが

     使えない	

                データ解析で
   データ解析の基本的な
   データ解析、機械学習

                何ができるか
   知識を持っている	
    NLPのマスター
                分からない
Bazil:利利⽤用概念念図

l    様々な⽂文章・数値データにに対応
l    少数の正解を与え学習することで、指定したカテゴリに⾃自動的に分類される
                  学習                 予測

                    社内情報      R&D
      ・R&D
      ・営業                     営業



         ・経済           ニュース   スポーツ
         ・政治                  経済
         ・スポーツ
         ・芸能  etc


                              レディース
      ・メンズ             商品情報
      ・レディース                  キッズ
      ・キッズ
      ・ベビー  etc
Bazil Farm 学習結果分析例例(1) Tweet年年齢推定:
  20代⼥女女性のTweetに対する10-19歳モデル適⽤用結果
  l  10-19歳っぽい表現:⼥女女の⼦子/ameblo/かわいかっ/もう少し
  l  10-19歳っぽくない表現:酒/頑張ら/出⾝身/結婚式/楽しんで

                  10-19歳(不不正解)モデルに反応した表現




青文字:プラスに働いた	
赤文字:マイナスに働いた	
赤文字:マイナスに働いた	
        35
Bazil Farm 学習結果分析例例(2) Tweet年年齢推定:
      20代⼥女女性のTweetに対する20-29歳モデル適⽤用結果
l  20-‐‑‒29歳っぽい表現:結婚式/出⾝身/パン/酒/多趣味/♡/可愛い
l  20-‐‑‒29歳っぽくない表現:クリパ/下さい/かわいかっ/暮らし/部屋


                   20-29歳(正解)モデルに反応した表現




青文字:プラスに働いた	
赤文字:マイナスに働いた	
赤文字:マイナスに働いた
Bazil Farm 学習結果分析例例(3) Tweet性別推定:
      ⼥女女性のTweetに対する男性モデル適⽤用結果

l    男性っぽい表現:
      あんまり/ずっと/⾒見見た⽬目/
      サッカー/選ん/えらい/疲れ
      試合/歩い/マジ/悔しい


l    男性っぽくない=
      ⼥女女性っぽい表現:
      私/捨て/おじさん/お菓⼦子/
      塗り/途中/まま/本/♡



青文字:プラスに働いた	
赤文字:マイナスに働いた	
赤文字:マイナスに働いた
Bazil Farm学習結果分析例例(4): 分析結果⼀一覧




                 38
全体まとめ

l    ⾃自然⾔言語処理理はより⼤大規模・リアルタイムに
       l  数百億〜~1兆件, 秒間数千の⾔言語資源が利利⽤用可能に

l    情報フィルタリングがより重要に
       l  ⾔言語情報の⽣生成速度度は⼈人の処理理可能な量量を遥かに超えている

       l  ツールを使いこなして、必要な情報を集める仕組みが必要

l    様々なビジネスの場⾯面での⾃自然⾔言語処理理の利利⽤用が進む
l    Bazil :
       l  誰でも簡単に⾃自然⾔言語処理理・データ解析を⾏行行えるASPサービス

l    Jubatus(今回紹介無):
       l  ⼤大規模・リアルタイム解析を可能とするビッグデータ処理理基盤




                         39
Copyright  ©  2006-‐‑‒2012  
Preferred  Infrastructure  All  Right  Reserved.

More Related Content

What's hot

Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Yuya Unno
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴Yuya Unno
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理Preferred Networks
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusOfficial
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題Kenta Oono
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことJiro Nishitoba
 
Deep learning Libs @twm
Deep learning Libs @twmDeep learning Libs @twm
Deep learning Libs @twmYuta Kashino
 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 Preferred Networks
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Etsuji Nakai
 
機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索nobu_k
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアルYuya Unno
 
開発者からみたTensor flow
開発者からみたTensor flow開発者からみたTensor flow
開発者からみたTensor flowHideo Kinami
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmYuya Unno
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Tatsuya Tojima
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた株式会社メタップスホールディングス
 
Caffeのデータレイヤで夢が広がる話
Caffeのデータレイヤで夢が広がる話Caffeのデータレイヤで夢が広がる話
Caffeのデータレイヤで夢が広がる話Masaki Saito
 

What's hot (20)

Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
Jubatusにおける大規模分散オンライン機械学習@先端金融テクノロジー研究会
 
深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴深層学習フレームワークChainerの特徴
深層学習フレームワークChainerの特徴
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
Jubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組みJubatusの特徴変換と線形分類器の仕組み
Jubatusの特徴変換と線形分類器の仕組み
 
ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題ディープラーニング最近の発展とビジネス応用への課題
ディープラーニング最近の発展とビジネス応用への課題
 
ChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なことChainerでDeep Learningを試す為に必要なこと
ChainerでDeep Learningを試す為に必要なこと
 
Deep learning Libs @twm
Deep learning Libs @twmDeep learning Libs @twm
Deep learning Libs @twm
 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
東北大学講義資料 実世界における自然言語処理 - すべての人にロボットを - 坪井祐太 
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編Python 機械学習プログラミング データ分析演習編
Python 機械学習プログラミング データ分析演習編
 
機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索機械学習を利用したちょっとリッチな検索
機械学習を利用したちょっとリッチな検索
 
予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル予測型戦略を知るための機械学習チュートリアル
予測型戦略を知るための機械学習チュートリアル
 
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
Deep learning を用いた画像から説明文の自動生成に関する研究の紹介
 
開発者からみたTensor flow
開発者からみたTensor flow開発者からみたTensor flow
開発者からみたTensor flow
 
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning AlgorithmICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
 
Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門Python による 「スクレイピング & 自然言語処理」入門
Python による 「スクレイピング & 自然言語処理」入門
 
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみたFacebookの人工知能アルゴリズム「memory networks」について調べてみた
Facebookの人工知能アルゴリズム「memory networks」について調べてみた
 
Caffeのデータレイヤで夢が広がる話
Caffeのデータレイヤで夢が広がる話Caffeのデータレイヤで夢が広がる話
Caffeのデータレイヤで夢が広がる話
 

Similar to bigdata2012nlp okanohara

研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011Preferred Networks
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方Shohei Hido
 
ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件Katsuhide Hirai
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Preferred Networks
 
人口知能・自然言語処理・社会科学・政治学
人口知能・自然言語処理・社会科学・政治学人口知能・自然言語処理・社会科学・政治学
人口知能・自然言語処理・社会科学・政治学Keiko Ono
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)Tetsuro Toyoda
 
株式会社タイムインターメディア 事例集
株式会社タイムインターメディア 事例集株式会社タイムインターメディア 事例集
株式会社タイムインターメディア 事例集Arai Ran
 
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜Toru Takahashi
 
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析TOSHI STATS Co.,Ltd.
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要Analytics2014
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向dstn
 
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-Yoji Kiyota
 

Similar to bigdata2012nlp okanohara (20)

mlabforum2012_okanohara
mlabforum2012_okanoharamlabforum2012_okanohara
mlabforum2012_okanohara
 
研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011研究・企業・生き方について 情報科学若手の会2011
研究・企業・生き方について 情報科学若手の会2011
 
tut_pfi_2012
tut_pfi_2012tut_pfi_2012
tut_pfi_2012
 
(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方(道具としての)データサイエンティストのつかい方
(道具としての)データサイエンティストのつかい方
 
Google plus
Google plusGoogle plus
Google plus
 
ソフト業界生き残りの条件
ソフト業界生き残りの条件ソフト業界生き残りの条件
ソフト業界生き残りの条件
 
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
Session4:「先進ビッグデータ応用を支える機械学習に求められる新技術」/比戸将平
 
aiconf2017okanohara
aiconf2017okanoharaaiconf2017okanohara
aiconf2017okanohara
 
人口知能・自然言語処理・社会科学・政治学
人口知能・自然言語処理・社会科学・政治学人口知能・自然言語処理・社会科学・政治学
人口知能・自然言語処理・社会科学・政治学
 
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
オープンデータを使った新しいビジネスモデルの可能性(データビジネス創造フォーラム)
 
株式会社タイムインターメディア 事例集
株式会社タイムインターメディア 事例集株式会社タイムインターメディア 事例集
株式会社タイムインターメディア 事例集
 
201306 ITにおける第3の波
201306 ITにおける第3の波201306 ITにおける第3の波
201306 ITにおける第3の波
 
Lean startup: facebook、twitter、スマートフォン全盛に我々は何ができるか
Lean startup: facebook、twitter、スマートフォン全盛に我々は何ができるかLean startup: facebook、twitter、スマートフォン全盛に我々は何ができるか
Lean startup: facebook、twitter、スマートフォン全盛に我々は何ができるか
 
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
地域情報のデジタル化と“オープン”であることの意義 〜文化資料やWikipediaの活用と地域協働〜
 
ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析ビジネスマネージャとデータ分析
ビジネスマネージャとデータ分析
 
データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向20120822_dstn技術交流会_DataSpider接続先技術動向
20120822_dstn技術交流会_DataSpider接続先技術動向
 
自然言語処理紹介(就職編)
自然言語処理紹介(就職編)自然言語処理紹介(就職編)
自然言語処理紹介(就職編)
 
Eguan - Analysys Japan
Eguan - Analysys Japan Eguan - Analysys Japan
Eguan - Analysys Japan
 
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
テキストアナリティクスの知見を社会に活かすには? -シーズ指向の視点とニーズ指向の視点-
 

More from Preferred Networks

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57Preferred Networks
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Preferred Networks
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Preferred Networks
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...Preferred Networks
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Preferred Networks
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2Preferred Networks
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Preferred Networks
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演Preferred Networks
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Preferred Networks
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)Preferred Networks
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)Preferred Networks
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るPreferred Networks
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Preferred Networks
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会Preferred Networks
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2Preferred Networks
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...Preferred Networks
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...Preferred Networks
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50Preferred Networks
 

More from Preferred Networks (20)

PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
PodSecurityPolicy からGatekeeper に移行しました / Kubernetes Meetup Tokyo #57
 
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
Optunaを使ったHuman-in-the-loop最適化の紹介 - 2023/04/27 W&B 東京ミートアップ #3
 
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
Kubernetes + containerd で cgroup v2 に移行したら "failed to create fsnotify watcher...
 
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
深層学習の新しい応用と、 それを支える計算機の進化 - Preferred Networks CEO 西川徹 (SEMICON Japan 2022 Ke...
 
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
Kubernetes ControllerをScale-Outさせる方法 / Kubernetes Meetup Tokyo #55
 
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
Kaggle Happywhaleコンペ優勝解法でのOptuna使用事例 - 2022/12/10 Optuna Meetup #2
 
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
最新リリース:Optuna V3の全て - 2022/12/10 Optuna Meetup #2
 
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
Optuna Dashboardの紹介と設計解説 - 2022/12/10 Optuna Meetup #2
 
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
 
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
Deep Learningのための専用プロセッサ「MN-Core」の開発と活用(2022/10/19東大大学院「 融合情報学特別講義Ⅲ」)
 
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
PFNにおける研究開発(2022/10/19 東大大学院「融合情報学特別講義Ⅲ」)
 
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
自然言語処理を 役立てるのはなぜ難しいのか(2022/10/25東大大学院「自然言語処理応用」)
 
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語るKubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
Kubernetes にこれから入るかもしれない注目機能!(2022年11月版) / TechFeed Experts Night #7 〜 コンテナ技術を語る
 
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
Matlantis™のニューラルネットワークポテンシャルPFPの適用範囲拡張
 
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
PFNのオンプレ計算機クラスタの取り組み_第55回情報科学若手の会
 
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
続・PFN のオンプレML基盤の取り組み / オンプレML基盤 on Kubernetes 〜PFN、ヤフー〜 #2
 
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
Kubernetes Service Account As Multi-Cloud Identity / Cloud Native Security Co...
 
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
KubeCon + CloudNativeCon Europe 2022 Recap / Kubernetes Meetup Tokyo #51 / #k...
 
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
KubeCon + CloudNativeCon Europe 2022 Recap - Batch/HPCの潮流とScheduler拡張事例 / Kub...
 
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
独断と偏見で選んだ Kubernetes 1.24 の注目機能と今後! / Kubernetes Meetup Tokyo 50
 

bigdata2012nlp okanohara

  • 1. 2012/12/6@情報処理理学会連続セミナー:               ビッグデータ時代の⾃自然⾔言語処理理 ⼤大規模・⾼高速・⾼高精度度な ⾃自然⾔言語処理理を⽀支える技術 岡野原  ⼤大輔 株式会社Preferred  Infrastructure   hillbig@preferred.jp
  • 2. 会社紹介 株式会社  Preferred  Infrastructure l  略略称   PFI l  代表者 ⻄西川  徹 l  設⽴立立   2006年年3⽉月 l  社員数 26名 l  所在地 〒113-‐‑‒0033  東京都⽂文京区本郷2-‐‑‒40-‐‑‒1 l  事業概要 l  検索索/分析分野での製品開発,  販売,  サービス提供 l  ⼤大規模分散分析エンジンの共同研究開発 最先端の技術を最短路路で実⽤用化 リサーチとエンジニアリングの融合 世の中に必要とされる中で特に重要で困難な課題に対し解を提供 2
  • 3. Preferred  Infrastructure メンバー構成 l  フルタイム26⼈人中23⼈人がエンジニア/研究者 l  以下の情報/理理/⼯工学博⼠士 l  ⾃自然⾔言語処理理/機械学習/計算量量理理論論/データマイニング/⽂文字列列解析 l  ICPCプログラミングコンテスト  世界⼤大会(=⽇日本代表)  7名 l  未踏プロジェクト  5名 l  TopCoder世界上位や、世界プログラミングコンテスト優勝者など l  各種コミュニティへの働きかけ l  ⽇日本Hadoopユーザー会⽴立立ち上げ,  ⾃自然⾔言語処理理若若⼿手の会委員⻑⾧長 l  ⽇日本語⼊入⼒力力本,  Haskel本,  各種雑誌記事,  専⾨門書 その他、データ圧縮、UI/UX、セキュリティ、分散システム、 ソフトウェア⼯工学など様々な分野の専⾨門家 3
  • 4. アジェンダ l  ⾃自然⾔言語処理理を取り巻く世界の変化 l  情報フィルタリング l  業界別の⾃自然⾔言語処理理 l  ⾃自然⾔言語処理理を⽀支えるツール l  Bazil l  Jubatus 4
  • 6. 多⾔言語化 (1/3) l  世の中の⾔言語の種類は多様化している l  twitterの場合、⾮非英語は60%であり、⾮非英語の伸びが著しい l  新興国でのスマートフォンの普及により、他⾔言語コンテンツが増加 非英語 61% 英語 39% 2010年時は50% http://semiocast.com/publications/2011_11_24_Arabic_highest_growth_on_Twitter
  • 7. 多⾔言語化  (2/3) l  スマートフォンの普及により、これまでのインターネットユーザ ーとは異異なる⾮非英語圏の利利⽤用者が急速に増加 l  c.f. LINEはスペイン語圏、アラビア語圏で利利⽤用者が急激に増加 l  東南アジアの諸⾔言語、インドの⽅方⾔言利利⽤用者の⼈人⼝口は数千万単位 l  多⾔言語を統⼀一的に解析可能なツールは殆ど存在しない l  特にアジア⾔言語に弱い場合が多い l  機械翻訳は技術的には向上しつつあるが、発展途上 l  基本的な⾃自然⾔言語処理理のツール:キーワード抽出,検索索、レコメ ンド、名寄せ、⽂文書分類・整理理、などを多⾔言語向けに提供できて いない
  • 8. 多⾔言語化(3/3) l  これまでのNLPのツールは英語、ヨーロッパ⾔言語、中国語、⽇日本 語などがサポートされる場合が多かった l  研究者が多い、先進国、 アメリカが注⽬目している国(昔はロシア・⽇日本、今は中国・アラ ビア語) l  ⾃自然⾔言語処理理は、⾔言語に対してスケールしなければならない l  Google翻訳は数年年で50⾔言語強にスケールした l  ⾔言語のスケーラビリティに対する徹底的な意識識が必要
  • 9. ⾔言語資源の⼤大規模・リアルタイム化 (1/4) l  Google, MSなど巨⼤大企業のみならず、⼀一般の⼈人/企業/研究機関 でもビッグデータが⼿手に⼊入れられるような時代になってきた l  世の中のデータは年年率率率45%ずつ増えており、2020年年には 現在の40倍になると推定されている l  今後、⾳音声認識識、⾃自動議事録、電⼦子カルテなど⾔言語資源は量量・種 類ともに増加することが予想されている
  • 10. ⾔言語資源の⼤大規模・リアルタイム化 (2/4) l  SNS l  Twitter : 100億 tweets / ⽉月, 5.17億 user(active 1.4億)*1 l  Facebook : 1200億 message /⽉月, >10億 user *2 l  LINE : 300億 message / ⽉月, 7500万 user*3 l  論論⽂文 l  Peer reviewed Journal で 135万 article / 年年*4 l  年年率率率 4〜~10%の増加, 15年年で2倍に l  conference proceedings などは更更に⾼高い増加率率率 *1 http://weekly.ascii.jp/elem/000/000/084/84331/ *2 http://qconlondon.com/dl/qcon-london-2011/slides/ KannanMuthukkaruppan_HBaseFacebook.pdf *3 http://www.slideshare.net/sunsuk7tp/hbase-at-line *4 http://www.ncbi.nlm.nih.gov/pmc/articles/PMC2909426/ 10
  • 11. ⾔言語資源の⼤大規模・リアルタイム化 (3/4) l  専⾨門家すら全ての情報に触れることは困難 l  関連する領領域も急速に拡⼤大している l  SNS, 電⼦子ジャーナルなど情報発信能⼒力力は急激に増えたが、⼈人の 処理理能⼒力力は急激に増えないのでアシストツールが必須 l  ⼤大量量の情報から必要な情報のみを集める l  情報フィルタリングツール l  情報要約ツール l  SNSを中⼼心に情報はリアルタイムで発⽣生する l  秒間数千〜~万, これらの結果に反応できるか 11
  • 12. ⾔言語資源の⼤大規模・リアルタイム化 (4/4) l  ⼤大規模な辞書も様々な形で利利⽤用可能 l  Google N-gram, Wikipedia, twitter l  例例:⾔言語横断のコンセプト辞書  *1 l  English Wikipediaの各コンセプトに対応するキーワード l  他⾔言語の英語の関係はWikipediaでの対応から抽出 l  各wikipediaのエントリへのリンクの際のアンカーテキストの統 計情報を利利⽤用して、キーワードとコンセプトの関係を抽出 l  31億リンクの情報から2.9億  キーワード-コンセプトペアを抽出 l  ウェブから抽出しているので、様々な⾔言語が存在 *1 “A Cross-Lingual Dictionary for English Wikipedia Concepts”, 
 V. I. Spitkovsky, A. X. Chang, LREC 2012 http://www-nlp.stanford.edu/pubs/crosswikis-data.tar.bz2/ 12
  • 14. 情報フィルタリング l  関連する情報だけを⼊入⼿手する l  アドホック検索索:クエリが動的、対象⽂文書が静的 l  Googleなどのウェブ検索索などいわゆる普通の剣作 l  情報フィルタリング:クエリが静的、対象⽂文書が動的 l  近年年のSocial News Curatorがこれらの技術に近づいている クエリが動的 クエリが静的 (ユーザーが毎回⼊入⼒力力) (決まっている) 結果はpull型 結果はpush型 ⽂文書が動的 情報フィルタリング (ニュース、 twitter) はてブのカテゴリ、 Social News Curator ⽂文書が静的(ウェブ アドホック検索索 ページ、製品情報) (ウェブ検索索など⼀一般の 検索索の概念念はこれ)
  • 15. 例例:Prismatic l  ニュースやブログ記事などにあらゆるトピックタグをつける l  タグ付けの精度度は⾮非常に⾼高く、網羅羅性も⾼高い l  ユーザーの嗜好ピックは、サービス利利⽤用履履歴から⾃自動推定 15
  • 19. 例例:⾔言語横断でのフィルタリング appleに関 ⾔言語横断で特定情報をフィルタリングすることも可能 連する情報 フィルタリ ング例例 19
  • 20. その他の情報フィルタリングサービス l  Crowsnest l  フォローユーザーのツイート情報を元にユーザーの興味にあう情 報が収集される l  Facebook l  EdgeRankに基づき、興味ある情報のみニュースフィードに表⽰示 EdgeRank = 親密度度 * ⾏行行動タイプに基づく重み * 新鮮度度 l  論論⽂文・特許・医療療情報・官報など特定分野における情報フィルタ リングツールも重要となっている 20
  • 21. 情報フィルタリング・まとめ l  ⼤大量量の⾔言語情報が⽣生成される中、関連する必要な情報のみをフィ ルタリングして収集できるツール・サービスは重要度度を増している l  従来のウェブ検索索を補完する形で l  様々な軸でフィルタリングすることが可能 l  トピック l  企業 l  製品 l  地域 l  ユーザー属性 l  利利⽤用ユーザー関連   l  今後、研究・実⽤用化は増えていくとおもわれる 21
  • 23. 利利⽤用事例例 l  実社会の中でNLPがどのように使われているのかを紹介する l  いずれもこれまで対象としていなかった⼤大規模なデータを対象に している l  医療療・ヘルスケア l  製造 l  EC l  ⽂文献・特許 l  社内情報 l  広告 23
  • 24. 医療療・ヘルスケア l  電⼦子カルテの⼊入⼒力力⽀支援・情報抽出 l  診断⽀支援 c.f. IBM Watson l  伝染病の流流⾏行行予測 l  Google Flu 下図(特定クエリログの検索索回数履履歴から推定) http://www.google.org/flutrends/about/how.html 24
  • 25. 製造 l  部品名の名寄せ:  国毎、⼯工場毎に違う名前を使っており、必要な 部品を融通しようと思った時に分からない l  ⾃自由⽂文で書かれたノウハウ(故障履履歴、作業改善案)を機械的に 処理理可能にする仕組み l  octopart(画⾯面を通じて紹介) l  カタログから製品情報を⾃自動抽出で絞込み可能に 25
  • 27. EC l  楽天、Amazonなど⼤大量量の商品を扱うサイトが利利⽤用する検索索 l  ECサイトの多くは、外部検索索エンジン(Googleなど)から直接 来た後に商品を絞り込むために利利⽤用する場合が多い l  ECサイトによって⾃自作・チューニングしている場合も多い l  各ECサイトの検索索エンジンを考察してみるのは⾯面⽩白い 楽天、Amazon、ZOZOTOWN など l  必要なNLP技術 l  クエリ拡張(製品名などはそのままヒットしない) l  商品属性の抽出(製品名、原材料料、⾊色、キャッチコピー) l  名寄せ  この商品とこの商品は同じ?バージョン違い? l  レコメンド l  商品情報の⽂文章から、お薦めできるかどうかを分析する
  • 28. ⽂文献・特許 l  研究機関やコンサルタントが⽂文献や特許を調査する際に利利⽤用 l  漏漏れは許されない.関連結果を全て調べる.数千件⾒見見る場合も l  概念念が似たキーワード、⽂文書を分析し漏漏れ無く取得したい l  「IPS細胞」で検索索したら、それに関係しそうな概念念も全て調べ る必要がある l  各企業、政府が今どのような⽅方針をとっているのかも調べたい →⾦金金融業界などでの利利⽤用も多い l  誰が⾔言っているのか、影響はどのくらいかの分析も重要 l  情報フィルタリングと同じように、クエリを仕掛けておいて、新 しい情報が⼿手に⼊入ったらすぐアラートを⾶飛ばす仕組みも
  • 29. ⼈人材・⼈人事 l  ⽂文書と組織のマッチング l  情報と⼈人のマッチングを⾔言語情報を介して⾏行行い、情報を共有すべ き⼈人に⾃自動的に必要な情報をpushする l  組織変更更があった時に、どの⽂文書(情報)をどの組織に割り当て るのかの設定を⼈人⼿手で⾏行行うのは⾮非常に困難だが、それを⾃自動で⾏行行う l  ⼈人事への応⽤用 l  その⼈人の持っているスキルと,そのレベルをレジュメなどを元に ⾃自動推定し、その結果を検索索などで利利⽤用できるようにする l  レジュメを⽂文書分類する.正解データはクラウドソーシングで作る l  転職斡旋会社や、⼤大企業の⼈人事などで使われる l  linkedinなどで⼤大規模な適⽤用例例をみることができる
  • 30. 社内情報 l  業務⽂文書解析 l  メール、議事録、掲⽰示板、契約書、設計書、部品書 l  例例:ミーティングの場所、出席者、議題などを⾃自動抽出 過去の関連⽂文書を全て⾒見見つける l  エンタープライズ検索索 l  国内市場は100億円程度度だが、近年年ビッグデータ解析の流流⾏行行とと もにデータベース市場、BI市場と融合してきつつある l  ビッグデータ解析の要素技術として重要であり、世界最⼤大⼿手は皆 買収された.Fast(MS)、Autonomy (HP)、Endeca(Oracle) l  ⽂文書の⾃自動分類(タグ付)、整理理、組織名や⼈人名、製品名の抽出 、そして、それらの名寄せが利利⽤用される l  ⽂文書分類、固有表現抽出、照応解析
  • 31. 広告 l  ユーザーの属性分析 l  プロフィール、tweet内容から、性別、年年齢、職種、趣味、家族 構成、年年収、各製品/企業への嗜好などが分析できる l  ある商品がどのような⼈人にウケている、外れているといったマー ケティング分析への利利⽤用 l  第三者広告配信の広まりとともに、ユーザーと広告のマッチング はキーテクノロジーになっている この⼈人なら、この広告は⾼高確率率率 l  第三者配信 で押すから、⾼高値で⼊入札! 広告を
 広告 出したい人達 広告を出せる枠を持った人
 (ウェブサイトを持っている人) 第三者配信
  • 32. Bazil (弊社開発中のベータ版サービス) 32
  • 33. Bazil: 誰でも簡単にデータ解析を l  データ解析の敷居を下げるためのASPサービス l  基本的なデータ解析を誰でも使えるようなツールを⽬目指す l  Excelが使えれば、使えるレベルを⽬目指す プログラムが書ける Bazilの ターゲット Excelが使える ユーザー データ 解析ツール コンピュータが
 使えない データ解析で
 データ解析の基本的な
 データ解析、機械学習
 何ができるか
 知識を持っている NLPのマスター 分からない
  • 34. Bazil:利利⽤用概念念図 l  様々な⽂文章・数値データにに対応 l  少数の正解を与え学習することで、指定したカテゴリに⾃自動的に分類される 学習 予測 社内情報 R&D ・R&D ・営業 営業 ・経済 ニュース スポーツ ・政治 経済 ・スポーツ ・芸能  etc レディース ・メンズ 商品情報 ・レディース キッズ ・キッズ ・ベビー  etc
  • 35. Bazil Farm 学習結果分析例例(1) Tweet年年齢推定: 20代⼥女女性のTweetに対する10-19歳モデル適⽤用結果 l  10-19歳っぽい表現:⼥女女の⼦子/ameblo/かわいかっ/もう少し l  10-19歳っぽくない表現:酒/頑張ら/出⾝身/結婚式/楽しんで 10-19歳(不不正解)モデルに反応した表現 青文字:プラスに働いた 赤文字:マイナスに働いた 赤文字:マイナスに働いた 35
  • 36. Bazil Farm 学習結果分析例例(2) Tweet年年齢推定: 20代⼥女女性のTweetに対する20-29歳モデル適⽤用結果 l  20-‐‑‒29歳っぽい表現:結婚式/出⾝身/パン/酒/多趣味/♡/可愛い l  20-‐‑‒29歳っぽくない表現:クリパ/下さい/かわいかっ/暮らし/部屋 20-29歳(正解)モデルに反応した表現 青文字:プラスに働いた 赤文字:マイナスに働いた 赤文字:マイナスに働いた
  • 37. Bazil Farm 学習結果分析例例(3) Tweet性別推定: ⼥女女性のTweetに対する男性モデル適⽤用結果 l  男性っぽい表現: あんまり/ずっと/⾒見見た⽬目/ サッカー/選ん/えらい/疲れ 試合/歩い/マジ/悔しい l  男性っぽくない= ⼥女女性っぽい表現: 私/捨て/おじさん/お菓⼦子/ 塗り/途中/まま/本/♡ 青文字:プラスに働いた 赤文字:マイナスに働いた 赤文字:マイナスに働いた
  • 39. 全体まとめ l  ⾃自然⾔言語処理理はより⼤大規模・リアルタイムに l  数百億〜~1兆件, 秒間数千の⾔言語資源が利利⽤用可能に l  情報フィルタリングがより重要に l  ⾔言語情報の⽣生成速度度は⼈人の処理理可能な量量を遥かに超えている l  ツールを使いこなして、必要な情報を集める仕組みが必要 l  様々なビジネスの場⾯面での⾃自然⾔言語処理理の利利⽤用が進む l  Bazil : l  誰でも簡単に⾃自然⾔言語処理理・データ解析を⾏行行えるASPサービス l  Jubatus(今回紹介無): l  ⼤大規模・リアルタイム解析を可能とするビッグデータ処理理基盤 39
  • 40. Copyright  ©  2006-‐‑‒2012   Preferred  Infrastructure  All  Right  Reserved.