• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
114th
 

114th

on

  • 901 views

ku-librarians #114 「Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見」清田陽司 ...

ku-librarians #114 「Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見」清田陽司 氏(東京大学情報基盤センター助教)

Statistics

Views

Total Views
901
Views on SlideShare
898
Embed Views
3

Actions

Likes
0
Downloads
4
Comments
0

1 Embed 3

http://d.hatena.ne.jp 3

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    114th 114th Presentation Transcript

    • 2009年8月27日 第114回ku‐librarians勉強会@京都大学附属図書館 Wikipediaをいかに使いこなすか? ~知識抽出、情報ナビゲーション、 ~知識抽出 情報ナビゲ ション そしてトピック発見 見 東京大学情報基盤センター 東京大学情報基盤センタ 学術情報研究部門 助教 (兼 株式会社リッテル 上席研究員) 清田 陽司 清
    • 関心分野 • 自然言語処理技術を応用した情報検索システム – 対話的ヘルプシステム「ダイアログナビ」 対話的 ルプシステム ダイア グナビ」 • WindowsやOffice利用者向けの質問応答サービス • 情報検索プロセスの解明 – 対話(聞き返し)による情報探しニーズの明確化 – 情報の組織化 • 聞き返しをするには何らかの知識構造が必要 – 情報検索手段の変遷 • 人に聞く 図書館 データベース サーチエンジン 掲示板 人に聞く、図書館、データベース、サーチエンジン、掲示板… 図書館レファレンスサービスの課題と共通 • レファレンス支援システムの研究 – タクソノミーとフォークソノミーの統合 – 実用システムの研究開発 リッテルナビゲーターとして実用化 2
    • 経緯 • もともと京大メディアセンターのヘルプシステム を手掛かりに博士の研究を始めた ( 年) (2000年) – 京大附属図書館レファレンスシステムもあった – 利用できるデータはNDLSHだけだった • その後 MSとの共同研究でダイアログナビを その後、MSとの共同研究でダイアログナビを 開発し、博士論文を提出 • 「次に何を研究しようか」と考えていたときに東 大総合図書館内の研究室に赴任 (2004年) – 図書館の豊富な情報リソースをうまく使えないか? – Wiki di のコンテンツが本格的に充実してきた Wikipediaのコンテンツが本格的に充実してきた
    • ダイアログナビ(Dialog Navigator) ( g g ) • マイクロソフト株式会社との共同研究 • 2002年4月から運用開始 • いまは稼働していませんが 4
    • 5
    • 6
    • 7
    • 8
    • 9
    • 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 10
    • 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 11
    • エキスパートやコールセンター 対話的に具体性のギャップを解消 Windowsで エラーが発生したのはい エラーが発生した つですか? お使いのWindowsは何で すか? どんなエラーメッセージが 出ましたか? 12
    • もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 13
    • もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 14
    • こんなときどうしますか? • Winnyをテーマにしてレポートを書く – 知的財産(著作権)に関する法律の観点から – P2Pソフトウェアの技術について – 匿名掲 板独特 文化 匿名掲示板独特の文化 – 表現の自由との関連 • 「日本のアニメ」を研究したい – アニメ産業のあり方 (製作会社、分業制、…) ア メ産業のあり方 – アニメ製作技術 (セル画、CG、…) – アニメの主題 キャラクターの描き方・・・ユニ アニメの主題、キャラクターの描き方・・・ユニ セックス… – アニメの国際比較 アニメの国際比較… 15
    • こんなときお役にたちます リッテルナビゲ タ リッテルナビゲーター =情報探しのヒント検索システム (1) 「 「切り口」探し 探 (2) 情報の関連づけ 情報そのものの発見、情報の関係との発見 16
    • リッテルナビゲーターとは? リッテルナビゲ タ とは? 「情報探索のヒント」検索システム =パスファインダ 自動生成システム =パスファインダー自動生成システム • さまざまな情報リソースの統合検索 – 件名標目、書架分類、レファレンスブック、 Webサイト、オンライン百科事典、... • 曖昧な質問(キーワード)から具体的な探 し方へのナビゲ ション し方へのナビゲーション – Wikipediaを用いた探索テーマの自動導出 17
    • リッテルナビゲーターの主な機能 リ テルナビゲ タ の主な機能 • テーマグラフの自動生成 – 分野の自動的な導出 • 分野からの情報探し – 日本十進分類法(NDC)による資料検索 →書架の特定、参考図書調べ – インタ ネ ト学術情報インデ クスの利用 インターネット学術情報インデックスの利用 • 関連キーワード探し • 他のサーチエンジンとのリンク – OPAC JapanKnowledge Google Scholarなど OPAC、JapanKnowledge、Google Scholarなど 18
    • 19
    • 20
    • セキュリティへの脅威 (情報漏洩など) 著作権法改正の 議論に与えた影響は 議論に与えた影響は? 被害額は? ソフトウェアの開発モデ ルとしてのフリーウェア ルとしてのフリ ウェア 21
    • P2Pネットワーク P2Pネットワ ク 技術の観点から 特異な存在 ソフトウェア=創作物 匿名性により普及 創作物を公開することで逮捕され 創作物を 開する と 逮捕され 匿名掲示板独自の るのは表現の自由に反する? 文化 22
    • 23
    • 一大産業としての ア アニメ 芸術としてのアニメ アニメ製作技術の もはやサブカル 高度化 チャーではない? 24
    • 25
    • 26
    • •著作権法百年史 •著作権法事典 •著作権法ハンドブック 著作権法 ドブ ク •表現の自由・著作権・名誉毀損 やさしく引ける判例総覧 •著作権法のノウハウ •… 27
    • 利用実績 • 導 導入先 東 東京大学、東京電機大学、同志社大学、東邦大 、東 機 、 、東 学、亜細亜大学、千葉大学、神奈川工科大学 ※2009年5月より国立国会図書館 リサ チ ナビ ※2009年5月より国立国会図書館「リサーチ・ナビ 」にコンポーネントとして導入 • マーケティング用途利用 マ ケティング用途利用 – ベクトル空間モデルによる関連KW抽出とWikipedia カテ リの組み合わせでSEMワ ド候補を導出 カテゴリの組み合わせでSEMワード候補を導出 – 分野別辞書の作成 • テレビ番組、ドラマ、タレント、映画、お菓子、… 32
    • ワ ド抽出例 ワード抽出例 おでん 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん… 涼宮ハルヒの憂鬱 涼宮 ルヒの憂鬱 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊 少年エース、ねこマン、… 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ タル・パニック!、… 独立UHF放送局→らき☆すた NHKにようこそ! 魔 独立UHF放送局→らき☆すた、NHKにようこそ!、魔 法少女リリカルなのはA‘s、ひぐらしのなく頃に、少 年陰陽師、ゼロの使い魔、… 年陰陽師 ゼロの使い魔 33
    • もくじ 1. Littel Navigatorとは? 2. 2 図書館の世界とW bの世界 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす Wiki di を使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 34
    • 情報検索の手段の変遷 • 20世紀以前 – 人に聞く – 相談窓口 (無料: 図書館や公共機関, 有料: コンサルタントなど) – 本屋に行く – 図書館で調べる – Webディレクトリ、個人ブックマーク、商用DB… デ ク 個人ブ ク ク 商 • 21世紀: 上に加えて – GoogleなどのWebサーチエンジンの利用 – 掲示板 人力検索エンジン ソーシャルブック 掲示板、人力検索エンジン、ソ シャルブック マーク… 35
    • 情報探しのニーズ • Web検索で探せる質問=事実を問う質問 – 関東大震災はいつ発生しましたか? – XXXってどんな病気? • 本当に探し手が知りたいこと – 大学の学生「関東大震災についてのレポートを書か 大学の学生「関東大震災についてのレポ トを書か なきゃいけなんだけど、いったいどんな資料から調べ 」 たらいいの?」 – 難病の患者「この病気について最先端の治療を行っ ている病院を探す方法は?」 情報探しのテーマが曖昧な場合が多い →テ マの推薦(レコメンデ ション)が必要! →テーマの推薦(レコメンデーション)が必要! 36
    • テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして 欲しい – これができないと結局使ってもらえない • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 存在 • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 37 Web情報の組織化の現状は?
    • Web情報の組織化の取り組み • サーチエンジンの性能向上 ジ – PageRank ( eb の民主主義) age a (Web上の民主主義) – 自然言語処理分野の成果の活用 • 多数の 般利用者による情報組織化 多数の一般利用者による情報組織化 – ブログ: トラックバック – 掲示板: スレッド、まとめサイト – ソーシャルブックマーク: 一般利用者によるタグ ソ シャルブックマ ク: 般利用者によるタグ (キーワード)の付与 – Wikipedia: 百科事典の共同編纂 38
    • 情報検索におけるロングテール(?) • 難病の治療法 – 10万人に1人という難病にかかった。かかりつけの医者 はXという治療法を勧めたが、深刻な副作用を伴うらしい。 一方、たまたまニュースで海外で普及しつつある治療法Y 方 たまたまニ スで海外で普及しつつある治療法Y を知ったが、それを実践できる医者を知らない。さてどち らを選択すべきか? • F社の期限切れ原料使用問題の背景 – 過去の同様の事件との共通点は? – では他社の製品は安全なのか? – Web掲示板上での主流意見はあてになるのか? • A市における過去100年間の犯罪発生率 Webの利用で答えられるか? 39
    • Webの情報検索手段としての性質 利点 • とんでもなく広いカバレ ジ とんでもなく広いカバレッジ • 多様性(マスメディアへのアンチテーゼ) ( ) 欠点 • 価値・信頼性の判断基準を提供してくれない – 利用者自身が知識体系をもっている必要がある • フロー情報中心 情報中心 – ストック情報は残りにくい – 注目されすぎた情報は突如姿を消してしまう • ブラウジング指向の組織化 40
    • Web上での組織化の限界 ブラウジング指向に偏りがち ブ ジ グ が • ソーシャルブックマークやランキングを機能さ ソ シャルブックマ クやランキングを機能さ せているフィードバックは、ブラウジングを便 利にしたい情報消費者のものが中心 • 偏った探索になりがち – 検証を経ていない二次情報への頼りすぎ • 人類が積み重ねてきたストック情報とリンクさ れていない(浅い組織化) 41
    • Webの可能性 可能性 • 探索手段としての間口の広さ – どんなキーワードを入力してもとりあえず何かヒット ド も ず – 情報探索の足がかりとしては最適 • 注目されていない情報も存在を許される – マスメディアにはない最大の特色 – どうやって価値を判断するかが問題 • Wikipediaの可能性 – 膨大な項目数(日本語: 30万項目以上) – 明確な目的: 「 確な 的 「Web上に百科事典を構築する」 科事典を構築する – 項目の組織化への取り組み(Wikipediaカテゴリ) 他のWebサイトにはない大きな特色 42
    • テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして Web 欲しい – これができないと結局使ってもらえない Wikipedia • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 図書館 存在 システム • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 渡 情 Wikipediaを橋渡しとして、信頼できる情報 資源をお薦めできないか? 43
    • もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 44
    • オントロジーとフォークソノミー オントロジー ジ フォークソノミー • トップダウン的な分類 • ボトムアップ的な分類 • ひとつの上位概念 • 複数の上位概念 再生可能 半導体 電気化学 電池 エネルギー 素子 電離層 電池 磁気化学 燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ 図書館的な分類体系 Web的な分類体系 45
    • Wikipedia p 価格 • インターネット上で共 価格(かかく)とは、有形・無形の各種の商品 (サービスを含む)の取引に際して提示される金 同編集されている多 額を言う。基本的には需要と供給のバランスに 言語百科事典 よって決定される。一般には、値段(ねだん)とも 呼ばれる。 • 各記事にはカテゴリ … カテゴリ: [マーケティング][経済学][市場] が付与されている – フォークソノミーの特 フォ クソノミ の特 社会 徴を有する 社会科学 経済 – カテゴリにもカテゴリを 付与できる(ゆるやか 労働 産業 な階層構造) ビジネススキル 商業 – 複数の上位概念を与 えることができる(多重 経営学 流通 継承) マーケティング 経済学 ケティング 市場 46 価格
    • オントロジー 社会 型構造 社会科学 経済 労働 産業 ビジネススキル ビジネ キ 商業 経営学 流通 マーケティング グ 経済学 市場 フォ クソノミ 型 フォークソノミー型 構造 価格 47
    • 提案: Wikipediaと図書館分類体系の 対応づけ 図書館の分類体系をWiki di で拡張してみよう 図書館の分類体系をWikipediaで拡張してみよう! • Wikipedia – Webの汎用的な情報資源としては最も組織化されてい る(Wikipediaカテゴリ) – Web上の他の情報資源との親和性をもつ • 図書館分類体系(書架分類法、件名標目表) ( ) – 人類が営々と積み重ねてきた知識体系 – 価値判断に必要な情報資源への有力なポインタ 両者を組み合わせて利用することによって、キー ワ ドから探索テ ワードから探索テーマ(=件名)を自動導出する ( 件名)を自動導出する → 導出された件名に関連する情報資源を提示 48
    • 社会科学(300) 自然科学(400) 技術(500) 「地震防災の事典」(岡( 「日本被害地震総覧」 経済(330) 田恒男ほか, 2000年) 社会(360) 地球科学(450) 建築学(520) (宇佐美龍夫, 2003年) 経済史(332) 社会福祉(369) 地震学(453) 建築構造(524) 「経済学事典」(日本 経済新聞社, 1996年) 経済史-日本 災害 地震誌(453.2) 地震 (332.1) 経済史-日本 地震災害 地震予知 耐震建築 -平成時代 (332.107) 図書館オ 図書館オントロジー ジ (NDC, BSH) Wikipedia p 経済史 災害 震災がその後の 日本の 災害と防災の 防災対策に 地震 経済史 歴史 与えた影響 平成時代 地震の歴史 震災を引き起こした 地震(1995年兵庫県 震災が日本経済に 南部地震) 49 与えた影響 阪神・淡路大震災
    • 情報探索の スタ ト地点 スタート地点 Web情報資源(サーチエンジン) 情報資 ジ フォークソノミー 図書館 Wikipedia 情 分類体系 報の •NDC 専 対応づけ→ 門 •BSH 性 深い情報探 多様な情報資源 ・ 索へ 信 •入門書 頼 •レファレンスブック レフ レンスブ ク 性 •各種データベース •学術雑誌論文 学術雑誌論文 •過去の文献・資料 50
    • もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 51
    • 最新の状況 • 日本語版が60万項目を超えた (7/8) 本 版が を超 た – XMLでダウンロード可能 (1.1Bytes) ダウン 可能 ( y ) • 英語版は300万項目を超えた (8/17) –9 G 9.4GBytes, bzip2圧縮 b i 2圧縮 52
    • Wikipediaで何ができる?(1) • コーパスとしての利用 パ – 定義文の抽出 → 言い換え 定義文 抽出 → 言 換え • コーパスとは、電子化された自然言語の文章から成る 巨大なテキストデータである。 – 翻訳用例の獲得 (言語間リンク) • 文書集合としての利用 – 単語(Wikipediaエントリ)間の類似度計算 53
    • Wikipediaで何ができる?(2) • 表記揺れ辞書としての利用 – リダイレクト • ソフトウエア工学 → ソフトウェア工学 → ソフトウェア工学 • モンティ パイソンズ → モンティ パイソン • 線形代数学 → 線型代数学 • 国道17号線 → 国道17号 • 業務上過失致傷罪 → 業務上過失致死傷罪 – 括弧表現 • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である 放散虫の一群である。 • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通 称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST  CORPORATION)は、日本最大手の電気通信事業者である。 54
    • Wikipediaで何ができる?(3) • シソーラスとしての利用 – Wikipediaカテゴリ p カテ リ • 固有表現辞書としての利用 – 地名 人名 組織名 地名、人名、組織名 – 商品名 • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ キー、チョコエッグ、… • 自動車: カローラ、エスティマ、マーチ、ベンツ、… • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、… 55
    • Wikipediaの特徴 • 多数の参加者による編集 多数 参加者 る編集 • 半定型デ タ 半定型データ • 外部情報リソースとの連携 • 項目の組織化 56
    • (1)多数の参加者による編集 • 基本方針 「誰 も編集 きる 基本方針は「誰でも編集できる」 • 秩序維持の仕組みが存在する – ガイドライン (5つの原則) – ペ ジ毎のノ ト (議論 合意形成の場) ページ毎のノート (議論、合意形成の場) – 管理者によるコントロール • 保護 (編集合戦への対応) • 削除 • 投稿ブロック • 管理者の選任・解任 57
    • (2)半定型データ • ウ キプ ジ ク ウィキプロジェクト • 大学、スポーツチーム、芸能人、… • テンプレート • 大学、サッカー選手、映画、 58
    • (3)外部情報リソースとの連携 • 外部 外部Webサイトへのリンク – 緯度・経度 (Google Mapsなどへのリンク) 緯度 経度 ( g pな リンク) • 参考文献 – ISBN (Amazon, OPACなどへのリンク) S ( O Cなど のリンク) 59
    • (4)項目の組織化 価格 価格(かかく)とは、有形・無形の各種の商品 • カテゴリシステム ゴ (サービスを含む)の取引に際して提示される金 額を言う。基本的には需要と供給のバランスに – フォークソノミーの よって決定される。一般には、値段(ねだん)とも 呼ばれる。 呼ばれる 特徴を有する … – カテゴリにもカテゴ カテゴリ: [マーケティング][経済学][市場] リを付与できる(ゆ 社会 るやかな階層構造) 社会科学 経済 – 複数の上位概念を 複数の 位概念を 与えることができる 労働 産業 (多重継承) ビジネススキル 商業 経営学 流通 マ ケティング マーケティング 経済学 市場 60 価格
    • 既存の情報リソースとの比較 タクソノミーとフォークソノミーの中間的性格 タクソノミ とフ クソノミ の中間的性格 • 構造 – 下位層はフォークソノミー的 (複数の上位概念) – 上位層はタクソノミー的(単一の上位概念) • 信頼性 – 既存のシソーラスよりはいい加減 既存のシソ ラスよりはいい加減 – フォークソノミーよりは信頼できる? • カバレッジ – フォークソノミーほどではないが、多様な概念をカ バ している バーしている 61
    • 情報の価値評価 信頼性 あるカテゴリ の重要な語彙を網羅性良く含む あるカテゴリーの重要な語彙を網羅性良く含む 意外性 複数のカテゴリ の語彙を併せ 含むか 複数のカテゴリーの語彙を併せて含むか 意外性の程度 複数のカテゴリーの距離がどのくらい離れてい 意 性 程度 複数 ゴ 離がど く 離れ るか 従来は遠いと思われていた概念たちの架け橋 有用性 個人の目的によ て異なる 個々人の過去の興味を示 個人の目的によって異なる。個々人の過去の興味を示 す用語リストに適度に関連することが大切:機械学習による適応 62
    • 意外性の少ない情報 Wikipediaのカテゴリー階層構造の場合の例 あるカテゴリとその直系の子孫の間では新規性、意 外性はない。 イギリスの企業 イギリスの鉄道事業 ユーロトンネル株 式会社 63
    • カテゴリ関係から得られた結果が 多くの人々にとって既知の例 多くの人々にと て既知の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 ユーロト category:イギリ category:イギリス 5 6 あり ンネル会 ネ 会 1 スの企業 の鉄道事業者 社 g y 伝統医 category:伝統医 漢方医 医療 category:医療 t 2 3 あり 1 学 学 category:アメリ 卒業 category:恋愛映 g y カ合衆国の映 6 4 なし (1967年 55 画 画作品 の映画) Category:アメリカ category:アメリ ビーナ ビ ナ 合衆国のオリン カ合衆国のオ 6 7 なし ス・ウィリ 55 ピック金メダリス リンピック選手 アムズ ト category:日本 category:東京都 木村拓 6 5 なし 2088 64 の俳優 出身の人物 哉
    • 意外性のある知識情報 Wikipediaのカテゴリー階層構造の場合の例 離れたカテゴリー間の面白い架け橋は、情報アクセス グラフ間の構造を利用して評価、選別できる。 カ ボンナノチュ ブ カーボンナノチューブ 宇宙 軌道エレベータ 65
    • 意外性のあるカテゴリ関係をもつ項目の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 category:オリンピック category:日本の内 5 射撃競技日本代表選 8 なし 麻生太郎 1 閣総理大臣 手 category:弁当 4 category:キャラクター 5 なし キャラ弁 1 category:アメリカ合衆 テカムセ category:呪術 4 6 なし 1 国の大統領 の呪い category:オリンピック category:日本の経 5 サッカー日本代表選 8 なし 堀江忠男 1 済学者 手 category:コンピュー 福田ウイ 5 category:福田康夫 4 なし 1 タウイルス ルス カナビス・ category:祭 3 category:大麻 3 なし 1 カップ category:イリノイ州 category:グラミー賞 バラク・オ 選出のアメリカ合衆 7 4 なし 1 受賞者 バマ 66 国上院議員
    • 新規性、有用性のある知識はどこにいるか iki di の構造を機械学習 Wikipediaの構造を機械学習 下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から 教師あり機械学習し、情報の評価、選別、発見、推奨に活用 カーボンナノチューブ このカテゴリーの 記事に現れる語 宇宙 彙 このカテゴリーの 記事に現れる語 彙 軌道エレベータ 67
    • 用語の対訳取得 Wikipediaの対訳の利用(システム開発中) Web上の多言語資源などから専門用語対訳 辞書抽出 現在も進めており、日中、日英での成果あり 現在も進めており 日中 日英での成果あり 多言語化により言語コミュニティのごとのモノ の見方の相違を調べることができる 言語依存性の少ないシステム 言語依存性の高いソフトの使用は最小限にし、多くの 言語への拡張性を狙う。 言語への拡張性を狙う 68
    • Wikipediaの言語間格差の解消 参考文献が充実 数学関係が充実 英語のWikipedia 280万項目 英語 p 項目 日本語のWikipedia 50万項目 ローカルな文 化などで必ず ローカルな文 ロ カルな文 Wikipe しも対訳され 対訳の 化などで必ず diaを補 る必要はない ある項目 しも対訳され 完する 項目 技術用語な る必要はない ど対訳される 項目 べき項目 選別 用語を翻訳し、 用語を翻訳し 対応する日本 Web 語Webページ ページ この境界線を見つける機械学習手法 を検索 自然言語処理(固有名、地域名などの処 理を利用) 69
    • Wikipediaのデータを活用するには • 全デ タ 全データはXMLでダウンロード可能 ダウ ド 能 • ただし取り扱いは意外と面倒 – データが巨大 – Wiki記法のparsing iki記法の i – リンク切れの扱い Wikipediaの軽量解析ツ ルを開発しています Wikipediaの軽量解析ツールを開発しています Wik‐IE: http://wik‐ie.sourceforge.jp/ 70
    • Hadoopとは何か? A large‐scale distributed batch processing  infrastracture • Large‐scale = Web規模のデータを扱える • 1TB t (1兆バイト) 1PB t (1000兆バイト) 1TBytes(1兆バイト)~1PBytes(1000兆バイト) • Distributed = 分散型システム • Batch = バッチ処理専用 (高速な処理) • I f t t インフラとしてのシステム Infrastructure = インフラとしてのシステム • つまり意識せずに使える
    • Hadoopのアプローチ • 並列処理をするためにたくさんのコンピュータ をつないで、大量の情報を効率的に処理 • コストの安いコンピュータをたくさん結びつけ てひとつのクラスタを構成する • 1000個のCPUを積んだ1台のマシン(現実には存 在しないが)のコストは、1個のCPUを積んだ1000 在しな が トは 個 を積んだ 台のマシンより高くつく
    • スケールアップとスケールアウト 1台の計算機 の性能 性能を上げようとすると コストが飛躍的に 増大してしまう この領域をうまく 使いたい コスト
    • 既存技術との比較 • H d Hadoop • 単純化されたプログラミングモデル • ユーザは簡単に分散システムの実装とテストが可能 • 与えられたデータとタスクを各マシンに効率的・自動 的に分散 • 各マシンのCPUコアをフルに活用できる • 既存技術の例: Condor  • データの分散機能がない • 高価なストレージ(SAN)が必要 • 各マシン間での同期システム( 各マシン間での同期システム(MPIなど)を実装する必 など)を実装する必 要
    • データ分散 •h d のクラスタ hadoopのクラスタ • データを全ノードに分散 • Hadoop分散ファイルシステム(HDFS) • 大きなデータファイルは 管理された複数ノー 大きなデ タファイルは、管理された複数ノ ドに分散 • 分散したファイルは、複数マシン間で複製 • マシン故障でもデータ損失がない • 故障に応じて データを再複製 故障に応じて、デ タを再複製 • 一つの名前空間で管理し、アクセス可能
    • MapReduce: 各プロセスの自立性を高める • 各プ 各プロセスの個別化で信頼性向上 個 信頼性向 • 「MapReduce」プログラムモデルで記述 • MapReduce • Mappers:分割するタスク • Reducers:集約するタスク • ノード間通信の制限で、データ転送を管理 • 分散システムの信頼性を向上
    • k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 3 6 8 reduce reduce reduce r1 s1 r2 s2 r3 s3
    • k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine combine combine combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partitioner partitioner partitioner partitioner Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 9 8 reduc reduc reduc e e e r1 s1 r2 s2 r3 s3
    • MapReduceの応用タスク • 検索 検索インデックスの作成 デ 作成 • キーワードのカウント キ ワ ドのカウント • ログの時系列解析 – 例) あるキーワードで探した人がどんな資料にあ たっているのか? • レコメンデーション(いわゆる協調フィルタリン グ) • グラフ探索 • 機械学習 79
    • スケーラビリティ • Hadoopの利点の1つは、単調なスケーラビリティ d の利点の は 単調なスケ ラビリテ カーブ • Hadoopプログラム プ グ • 小規模データは不向き→他の分散システムで実行さ せた方が良い場合がある た方が良 場合がある • 他の分散システム • 大規模(10~1000台のマシンで実行)データでは、書 き換えが必要 • 非常にフラットなスケーラビリティカーブ • マシン数と比例したパフォーマンス増加
    • もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 81
    • 今後 展開 今後の展開 他言語版の開発 • 英語版 開発中 LCSHが検索可能 英語版の開発中: が検索 能 分野別シソ ラスの活用 分野別シソーラスの活用 • 医学分野: MeSHなどとの連携 情報リテラシー教育の題材として • 大学の教育現場 – シラバスとの連携 • 企業研修、生涯学習など 業 修 学 など – 検索の多様な側面を体験的に学べる 検索の多様な側面を体験的に学 る 82
    • おわりに • Wikipediaと図書館分類体系の統合利用によって、 パスファインダ に近い「情報探索のヒント提示」を パスファインダーに近い「情報探索のヒント提示」を 可能とした – 情報探索の多様な「切り口」の提示 – 信頼性のある情報資源への誘導 • 「 書館 「図書館かWebか」という二項対立ではなく、両者 な 者 の役割を踏まえた見方が大事 – 図書館: 信頼性、組織化 – Web: どんなキーワードからでも探せる どんなキ ワ ドからでも探せる 83