Successfully reported this slideshow.
乾
情報伝達のための最も重要なメディアは、日本語や英語など、誰もが日常で使っている人間のため
の言語(ことば)です。人が話すこうした言語を、情報科学ではプログラミング言語などの形式言
語と区別して「自然言語」と呼びます。
本研究室では、自然言語...
談話解析・文脈解析 大規模言語データからの知識獲得
構文解析・意味解析
Web情報分析(言論マップ)
■言語理解のための基盤技術
■基礎理論
■応用技術
o	
o	
o	
o	
o	
x	
x	
x	
 x	
 x	
x	
o	
o	
o	
o...
Q: アメリカの建国以来、
初のアフリカ系大統領に
なった人は誰ですか?
大学入試問題を解く
コンピュータ
ウェブの海から知をつむぐ自然言語処理
様々な問題に答える
質問応答システム
米国の人気クイズ番組「Jeopardy!」
で最高金額を獲得...
自然言語処理で次の災害に備える
乾・岡崎研究室 研究テーマ
デマの収集
(よく反論されている命題のマイニング)
コスモ石油: 5時間で訂正,24時間で収束
《緊急:拡散希望》ICUのみ自家発電中。燃料のA重油
も朝7時でなくなり、人工呼吸器も止...
Upcoming SlideShare
Loading in …5
×

Lab visit research

13,420 views

Published on

  • Be the first to comment

  • Be the first to like this

Lab visit research

  1. 1. 乾 情報伝達のための最も重要なメディアは、日本語や英語など、誰もが日常で使っている人間のため の言語(ことば)です。人が話すこうした言語を、情報科学ではプログラミング言語などの形式言 語と区別して「自然言語」と呼びます。 本研究室では、自然言語で表現され、伝達され、蓄積される情報や人の知識をコンピュータで処 理するための基礎理論、基盤技術、応用技術に関する研究を行います。自然言語処理 (natural lan guage processing)、知識情報処理 (knowledge processing)、計算言語学 (computational linguistic s)、コミュニケーション科学 (communication science)、などと呼ばれる領域が我々のフィールド です。 基盤技術 グラン ディング 高精度化 汎化 統合 言語理解 ロボット 対話 コミュニ ケーショ ン支援 Web情報 分析 応用技術 推論 言語意味 解析 知識獲得 基礎理論 統計的 機械学習 情報伝達 理論 言語の 数理モデル 2010年にスタート した新しい研究室です こうした目的を実現するためには、究極的には人 の言葉を理解するコンピュータを開発する必要が あります。もちろん、これは簡単な目標ではあり ません。しかし、自然言語処理の技術はそこに向 けて着実に進歩しています。たとえば、これまで コンピュータに決定的に欠けていた常識的知識を、 コンピュータ自身が大量の言語データから自動的 に獲得して、より高度な言語意味解析や推論に使 う、といったことが少しずつ可能になり、大きな ブレークスルーの兆しが見え始めています。 本研究室では、言葉が分かるとはどういうことか、 コミュニケーションの成立条件は何かといった、 情報伝達の仕組みを解明しモデル化する理論的研 究、そして人間の知的な情報伝達、情報分析を支 援するソフトウェアを構築する工学的研究を展開 します。言葉から人の知に迫る。心躍る研究領域 がここにあります。 インターネットやウェブの爆発的な普及によって、 誰でも大量の情報を入手し、蓄積し、発信できる 時代になりました。しかし、その一方で、あまり にも多くの情報がネット上に無秩序に分散してい るために、欲しい情報をうまく探せなかったり、 重要な情報の存在に気づかなかったり、情報が信 用できるかどうか分からなかったり、といった問 題も日常的に起こっています。 さて、ここで言う情報はその多くが自然言語です から、求められるのは自然言語処理です。膨大な 言語情報をもしコンピュータで自動的に収集し、 選別し、分析できるようになれば、また自動的に 他言語に翻訳したり、対話的に人に伝えることが できるようになれば、我々を取り巻く情報環境は 大きく変わるでしょう。そうした自然言語処理に よるWeb情報分析やコミュニケーション支援、知 識循環の重要性が急速に高まっています。 URL: http://www.cl.ecei.tohoku.ac.jp�� 情報知能システム総合学科 コンピュータサイエンスコース 知能コンピューティングコース 岡﨑研究室・ 言語コミュニケーションの仕組みや不思議さに惹かれる人、次世代のWeb情報サービスを企業と組 んで作ってみたい人、数理統計的なモデル化をやってみたい人、広く歓迎します。 事前の専門知識は不要です。研究室の中で基礎から勉強します。大切なのは新しいことに挑戦してい ける好奇心とそれを持続できる根気です。元気な研究室を一緒に作っていきませんか?
  2. 2. 談話解析・文脈解析 大規模言語データからの知識獲得 構文解析・意味解析 Web情報分析(言論マップ) ■言語理解のための基盤技術 ■基礎理論 ■応用技術 o o o o o x x x x x x o o o o o x o γ OBJ AM-­‐LOC   AGENT   PRODUCT   THEME   MATERIAL   AGENT   THEME   CONJ COORD COORD COORD CONJ NMOD NAME LOC APPO PMOD SBJ Bell  ,  based    in    Los    Angeles  ,  makes    and    distributes    electronic  ,  computer    and    building      products  . product.01 base.01 building.01 distribute.01 make.01 INSTITUTION   AGENT   電話をかけ(行為)たけれども通じ(効果)ない 電話をかけ(行為)続けても通じ(効果)ない 電話をかけ(行為)ようとしても通じ(効果)ない 電話をかけ(行為)てみるものの通じ(効果)ない <verb;action>ても<verb;effect>ない <verb;action>ないと<verb;effect>ない <verb;action>たけれども<verb;effect>ない <verb;action>うとしても<verb;effect>ない <verb;action>続けても<verb;effect>ない サンタバーバラに電話をかけてくれて、…、 また電話が通じないので、… 司会者に電話をかけてもらいます。…電話が 通じるなり、… 文内共起事例 文章内共起事例 Xをかける(行為)→Xが通じる(効果)X={電話,願い,魔法,呪い,…} Xにかける(行為)→Xに通じる(効果)X={相手,彼女,彼,闘争,…} 共起パターン Xをかける<関係不明>Xが通じる X={電話,願い,魔法,呪い,…} Xにかける<関係不明>Xに通じる X={相手,彼女,彼,闘争,…} Xをかける<関係不明>Xを通じる X={電話,生涯,鏝絵,税,…} 言語の数理モデル Webには様々な人が様々な立場から書いた 文書が混在しています。それらを自動解析し、 重複する内容や矛盾する内容を検出すること によって、例えば右図のように、一つの文書 を読むだけでは分からない多角的な情報分析 ができるようになる可能性があります。 Mariah  Carey   Japan   Her  voice   many  people   I   Mariah  Carey  came  to  Japan.  Her  voice  aMracted  many  people.   I  wished  to  go  to    her    concert. p(y|x) = exp ⇤ k kfk(x, y) ⇥ ⇤ y exp ⇤ k kfk(x, y) ⇥ l( |D) = log n⌅ i=1 p(yi|xi) ⇥ ⇤ k 2 k 2⇥2 = n⇤ i=1 ⇤ k kfk(xi, yi) log Z (x) ⇥ ⇤ k 2 k 2⇥2 ( |D) ⇥k = n⇤ i=1 fk(xi, yi) ⇤ y fk(xi, y)p(y|xi) ⇥ ⇥k ⇤2 言語の意味を解析し、高度な言語理解に繋げるに は、言語が持つ性質を数理統計的に捉え、言語の 数理モデルを構築する必要があります。Webから マイニングした膨大な経験情報と組み合わせれば、 人の行動や思考の原理に迫れるかもしれません。 機械学習や確率統計、論理などの枠組みを駆使し たモデル化に取り組みます。 文の構文構造(単語間の修飾関係、右 図の上部)やそれが意味する内容(例 えば、右図の下部のような出来事を表 す述語とその構成要素)を高精度で頑 健に自動解析する研究を進めます。 数億文規模の大規模言語データから、例えばイベント間 の因果関係や目的手段関係などの知識を自動獲得します。 獲得した知識は意味・談話解析の高度化に利用します。 下の文章の her は Mariah Carey を 指します。言語理解では、このように 文章中の要素間の参照関係や論理構造 を認識する処理も必要です。 英作文支援のための用例検索 ネット上に流通している情報の背後にある論理 構造を解析しその整合性を分析することで、 安全・危険に関する多角的な判断材料を人や 社会に提供します。 Web文書集合 情報の論理構造とリスクの分析 英作文において適切な表現の選択を支援するた め、 参照するに相応しい英文用例を検索・提示 する用例検索システムの研究を行っています。 乾・岡崎研究室 研究テーマ例
  3. 3. Q: アメリカの建国以来、 初のアフリカ系大統領に なった人は誰ですか? 大学入試問題を解く コンピュータ ウェブの海から知をつむぐ自然言語処理 様々な問題に答える 質問応答システム 米国の人気クイズ番組「Jeopardy!」 で最高金額を獲得したIBMの質問応答 システム「ワトソン」のように、Web 上のテキストから得られる知識を獲 得・活用することで、様々なタイプの     質問に回答することができる     システムを開発します。 Wikipediaから知識を獲得して、セ ンター試験問題をコンピュータに解 かせます。人間の思考を、言語処理 の技術を用いてエミュレートしよう という試みです。 @sendai_taro 性別: 男性 居住地: 仙台市青葉区 出身地: 東京 職業: 飲食業 趣味: ジョギング, お酒 思想: 仏教 … Twitter User Profiling ツイートの内容や場所情報から、 ユーザーの性別、居住地、出身地、 職業、趣味、思想など、ユーザーの 属性を推定するプロファイリングを 試みます。 仮説推論(アブダクション)を用 いて、与えられた観察に対する最 も良い説明(仮説)を推論します。 観察 説明 ... 店(w) of(w, z) 行く(u2, x, w) 食べる(u1, x, z) 美味しい(u3, z) 聞いた(u4, x, e7) 再び(u6, u5) 行くだろう(u5, x, y) 美味しい(u7, z) やなぎ=うどん屋 (y = w) 店(n1) of(n1, n2) うなぎ(n2) 行く(u8, x, n1) そば(n4) 食べる(u10, n4) うな重(n3) 食べる(u9, x, n3) うなぎ丼(n5) 食べる(u11, n5) ... ... 天ぷら(n6) 食べる(u12, x, n6) たまたま(u16, u15) 近くある(u15, x, w) いつも(u14, u13) 通う(u13, x, w) ... だし汁(n8) of(n8, z) 美味しい(u20, n8) ... ... ... ... 私(x) やなぎ(y) 行く(e1, x, y) 評判(e2, z) きつねうどん(z) 頼む(e3, x, z) 期待通り(e4, v) 味(v) 満足する(e5, x, v) 週末に母とやなぎに行きました。 私は評判のきつねうどんを頼みました。 期待通りの味に大満足。 やなぎはうどん屋だろう 私は再びやなぎに行くだろう 私はきつねうどんが 美味しいと聞いた 私はきつねうどんを 食べるために行った ×   ×   ×   ○   Twitterユーザーの プロファイリング 自ら推論し学ぶ コンピュータ A: バラク・オバマ 乾・岡崎研究室 研究テーマ
  4. 4. 自然言語処理で次の災害に備える 乾・岡崎研究室 研究テーマ デマの収集 (よく反論されている命題のマイニング) コスモ石油: 5時間で訂正,24時間で収束 《緊急:拡散希望》ICUのみ自家発電中。燃料のA重油 も朝7時でなくなり、人工呼吸器も止まってしまいます。 A重油の入手先をご教示ください。0222482131(仙 台市太白区広南病院用度課電気室) [拡散希望]電話すると、仙台市太白区広南病院用度課 電気室は燃料のA重油は解決したとのこと 自衛隊に届け! #japan 朝の七時までに広南病院にA 重油を下さい。全ての人の呼吸器がとまります。至急 A重油の入手先をご教示ください。0222482131仙 台市太白区広南病院用度課電気室。 ... 要 請 解 決 5h ツイート数 要請の拡散が収束しない さがすイソジン 参照 参照 ソースは? 北海道君(@hokka) 懐疑 イソジンを飲んではいけ ません.   厚労省(@mhlw) 反論 同意 新聞で読んでびっくり.   中部力(@chuburiki) 発言 参照 反論 イソジン飲んでみたけど, 超まずかった. 東京兼(@tkyken) 消毒薬を服用すると,下 痢・腹痛が発生します.   厚労省(@mhlw) 発言 発言 参照 みんな,これ見て! 近畿鯛(@kinkidai) 同意 同意 参照 震災の混乱に乗じた! 悪質な流言に注意を 宮城子(@miyako) 参照 同意 参照 ちょっとイソジン買ってくる.   東海亜(@tokaia) 同意 情報社会でもこんなこ とが起こるとは…. 山陰塊(@saninkai) 参照 同意 情報の「背景」の可視化 返信や非公式RTから〈反論〉の関係を検出 @※※※ 925RTs 2011-03-11 23:26:35 コスモ石油の爆発により有害物質が雲などに付着し、 雨などと一緒に降るので外出の際は傘かカッパなど を持ち歩き、身体が雨に接触しないようにしてくだ さい!!! コピペとかして皆さんに知らせてくださ い。 @◇◇◇ 1676RTs, 2011-03-12 14:46:29 【重要】 コスモ石油株式会社から「コスモ石 油の爆発…降る」という情報について、「こ のような事実はありません」との発表。 http://www.cosmo-oil.jp/… @☆☆☆ 0RTs, 2011-03-11 23:49:24 ガセネタらしいです (>_<) RT @※※※: 千葉市近辺 に在住の方! コスモ石油の爆 発により有害物質が雲などに付 着し、雨などといっしょに降る ので外出の際は傘かカッパなど を持ち歩き、身体が雨に接触し ないようにして下さい!!! @▽▽▽ 442RTs 2011-03-11 19:58:50 フジテレビで言ってましたな RT@※※※: 【拡散希 望】 千葉市近辺に在住の方! コスモ石油の爆発 により有害物質が….雨に接触しないようにしてくだ さい!!! デマツイート のクラスタ 訂正ツイート のクラスタ 訂正ツイートの クラスタ 検出された
 〈反論〉関係 〈類似〉する
 ツイート 言論マップ 〈同意〉〈反論〉等の意味的関係を深い言語処理で解析 RT・QT等の手がかりがない一般のWeb文書に拡張可能 質問「放射能に効くのは何ですか?」 NICT QAシステム「一休」に聞く 東北大 言論マップで裏を取る デマの一生 (デマの拡散と訂正の拡散を時系列分析) 「多賀城市」をキーワードにして,写真付きツイートを検索 イオン多賀城店で多くの人が孤立して取 り残されています。写真は父が撮影したも のです。どうか救助をお願いします。 仙台の若林区から七ヶ浜や多賀城市に向 かう産業道路。 被災地の生の声をひろう

×