2009年8月27日
第114回ku‐librarians勉強会@京都大学附属図書館




   Wikipediaをいかに使いこなすか?
   ~知識抽出、情報ナビゲーション、
   ~知識抽出 情報ナビゲ ション
          そし...
関心分野
• 自然言語処理技術を応用した情報検索システム
 – 対話的ヘルプシステム「ダイアログナビ」
   対話的 ルプシステム ダイア グナビ」
  • WindowsやOffice利用者向けの質問応答サービス
• 情報検索プロセスの解明
...
経緯
• もともと京大メディアセンターのヘルプシステム
  を手掛かりに博士の研究を始めた (     年)
                   (2000年)
 – 京大附属図書館レファレンスシステムもあった
 – 利用できるデータはNDL...
ダイアログナビ(Dialog Navigator)
       (     g     g    )




 • マイクロソフト株式会社との共同研究
 • 2002年4月から運用開始
    • いまは稼働していませんが          4
5
6
7
8
9
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
...
質問とテキストの間の
       具体性のギャップ
           52件のテキストが見つかりました。
           52件のテキストが見つかりました
Windowsで      • Windows 98を起動したときに、…と
...
エキスパートやコールセンター
対話的に具体性のギャップを解消

 Windowsで    エラーが発生したのはい
 エラーが発生した    つですか?



             お使いのWindowsは何で
             すか...
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wiki...
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wiki...
こんなときどうしますか?
• Winnyをテーマにしてレポートを書く
 – 知的財産(著作権)に関する法律の観点から
 – P2Pソフトウェアの技術について
 – 匿名掲 板独特 文化
   匿名掲示板独特の文化
 – 表現の自由との関連
• ...
こんなときお役にたちます
リッテルナビゲ タ
リッテルナビゲーター
=情報探しのヒント検索システム
(1) 「
    「切り口」探し
         探
(2) 情報の関連づけ
  情報そのものの発見、情報の関係との発見




     ...
リッテルナビゲーターとは?
 リッテルナビゲ タ とは?
「情報探索のヒント」検索システム
=パスファインダ 自動生成システム
=パスファインダー自動生成システム
• さまざまな情報リソースの統合検索
 – 件名標目、書架分類、レファレンスブッ...
リッテルナビゲーターの主な機能
リ テルナビゲ タ の主な機能
• テーマグラフの自動生成
 – 分野の自動的な導出
• 分野からの情報探し
 – 日本十進分類法(NDC)による資料検索
   →書架の特定、参考図書調べ
 – インタ ネ ト学...
19
20
セキュリティへの脅威
              (情報漏洩など)
 著作権法改正の
議論に与えた影響は
議論に与えた影響は?
  被害額は?




         ソフトウェアの開発モデ
         ルとしてのフリーウェア
    ...
P2Pネットワーク
          P2Pネットワ ク
          技術の観点から
            特異な存在




   ソフトウェア=創作物         匿名性により普及
創作物を公開することで逮捕され
創作物を ...
23
一大産業としての
              ア
              アニメ


芸術としてのアニメ              アニメ製作技術の
 もはやサブカル                  高度化
チャーではない?




  ...
25
26
•著作権法百年史
•著作権法事典
•著作権法ハンドブック
 著作権法  ドブ ク
•表現の自由・著作権・名誉毀損
やさしく引ける判例総覧
•著作権法のノウハウ
•…




            27
利用実績
• 導
  導入先
  東
  東京大学、東京電機大学、同志社大学、東邦大
       、東  機   、     、東
  学、亜細亜大学、千葉大学、神奈川工科大学
※2009年5月より国立国会図書館 リサ チ ナビ
※2009年...
ワ ド抽出例
        ワード抽出例
おでん
 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん…
涼宮ハルヒの憂鬱
涼宮 ルヒの憂鬱
 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊
  少年エース、ねこマン、…
 学園小説 ご愁傷さま ノ宮...
もくじ
1.   Littel Navigatorとは?
2.
2    図書館の世界とW bの世界
     図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
   ...
情報検索の手段の変遷
• 20世紀以前
 – 人に聞く
 – 相談窓口
   (無料: 図書館や公共機関, 有料: コンサルタントなど)
 – 本屋に行く
 – 図書館で調べる
 – Webディレクトリ、個人ブックマーク、商用DB…
     ...
情報探しのニーズ
• Web検索で探せる質問=事実を問う質問
 – 関東大震災はいつ発生しましたか?
 – XXXってどんな病気?
• 本当に探し手が知りたいこと
 – 大学の学生「関東大震災についてのレポートを書か
   大学の学生「関東大震...
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして
   欲しい
 – これができないと結局使ってもらえない
• 組織化
 – 「これを見た人はこんな情報も見...
Web情報の組織化の取り組み
• サーチエンジンの性能向上
       ジ
 – PageRank ( eb の民主主義)
    age a (Web上の民主主義)
 – 自然言語処理分野の成果の活用
• 多数の 般利用者による情報組織化
...
情報検索におけるロングテール(?)
• 難病の治療法
 – 10万人に1人という難病にかかった。かかりつけの医者
   はXという治療法を勧めたが、深刻な副作用を伴うらしい。
   一方、たまたまニュースで海外で普及しつつある治療法Y
    ...
Webの情報検索手段としての性質
利点
• とんでもなく広いカバレ ジ
  とんでもなく広いカバレッジ
• 多様性(マスメディアへのアンチテーゼ)
     (              )
欠点
• 価値・信頼性の判断基準を提供してくれない
...
Web上での組織化の限界
ブラウジング指向に偏りがち
ブ   ジ グ      が
• ソーシャルブックマークやランキングを機能さ
  ソ シャルブックマ クやランキングを機能さ
  せているフィードバックは、ブラウジングを便
  利にしたい情...
Webの可能性
             可能性
• 探索手段としての間口の広さ
 – どんなキーワードを入力してもとりあえず何かヒット
          ド     も    ず
 – 情報探索の足がかりとしては最適
• 注目されていない情...
テ マ推薦の要件
          テーマ推薦の要件
• カバレ ジ
  カバレッジ
 – どんなキーワードに対しても何かをお薦めして    Web
   欲しい
 – これができないと結局使ってもらえない
                 ...
もくじ
1.                   とは?
     Littel Navigatorとは?
          l
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wiki...
オントロジーとフォークソノミー
オントロジー
     ジ               フォークソノミー
• トップダウン的な分類         • ボトムアップ的な分類
• ひとつの上位概念           • 複数の上位概念
    ...
Wikipedia
                 p
                   価格
• インターネット上で共       価格(かかく)とは、有形・無形の各種の商品
                   (サービスを含む)の取...
オントロジー        社会
 型構造
       社会科学   経済


  労働                     産業

ビジネススキル
ビジネ  キ                   商業

       経営学     ...
提案: Wikipediaと図書館分類体系の
           対応づけ
図書館の分類体系をWiki di で拡張してみよう
図書館の分類体系をWikipediaで拡張してみよう!
• Wikipedia
 – Webの汎用的な情報資源とし...
社会科学(300)                  自然科学(400)    技術(500)

                     「地震防災の事典」(岡(             「日本被害地震総覧」
             経済(...
情報探索の
     スタ ト地点
     スタート地点


         Web情報資源(サーチエンジン)
            情報資        ジ
              フォークソノミー

 図書館  Wikipedia...
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
 ...
最新の状況
• 日本語版が60万項目を超えた (7/8)
   本 版が     を超 た
 – XMLでダウンロード可能 (1.1Bytes)
       ダウン   可能 (    y )
• 英語版は300万項目を超えた (8/17)
...
Wikipediaで何ができる?(1)
• コーパスとしての利用
    パ
 – 定義文の抽出 → 言い換え
   定義文 抽出 → 言 換え
  • コーパスとは、電子化された自然言語の文章から成る
    巨大なテキストデータである。
 ...
Wikipediaで何ができる?(2)
• 表記揺れ辞書としての利用
 – リダイレクト
   •   ソフトウエア工学 → ソフトウェア工学
                 → ソフトウェア工学
   •   モンティ パイソンズ    →...
Wikipediaで何ができる?(3)
• シソーラスとしての利用
 – Wikipediaカテゴリ
       p    カテ リ
• 固有表現辞書としての利用
 – 地名 人名 組織名
   地名、人名、組織名
 – 商品名
   • 菓...
Wikipediaの特徴
•   多数の参加者による編集
    多数 参加者   る編集
•   半定型デ タ
    半定型データ
•   外部情報リソースとの連携
•   項目の組織化




                      ...
(1)多数の参加者による編集
• 基本方針 「誰 も編集 きる
  基本方針は「誰でも編集できる」
• 秩序維持の仕組みが存在する
 – ガイドライン (5つの原則)
 – ペ ジ毎のノ ト (議論 合意形成の場)
   ページ毎のノート (議...
(2)半定型データ
• ウ キプ ジ ク
  ウィキプロジェクト
 • 大学、スポーツチーム、芸能人、…
• テンプレート
 • 大学、サッカー選手、映画、




                      58
(3)外部情報リソースとの連携
• 外部
  外部Webサイトへのリンク
 – 緯度・経度 (Google Mapsなどへのリンク)
   緯度 経度 (   g     pな    リンク)
• 参考文献
 – ISBN (Amazon, O...
(4)項目の組織化
               価格
               価格(かかく)とは、有形・無形の各種の商品
• カテゴリシステム
    ゴ          (サービスを含む)の取引に際して提示される金
        ...
既存の情報リソースとの比較
タクソノミーとフォークソノミーの中間的性格
タクソノミ とフ  クソノミ の中間的性格
• 構造
 – 下位層はフォークソノミー的 (複数の上位概念)
 – 上位層はタクソノミー的(単一の上位概念)
• 信頼性
 –...
情報の価値評価
信頼性 あるカテゴリ の重要な語彙を網羅性良く含む
    あるカテゴリーの重要な語彙を網羅性良く含む

意外性 複数のカテゴリ の語彙を併せ 含むか
    複数のカテゴリーの語彙を併せて含むか

意外性の程度 複数のカテゴリ...
意外性の少ない情報
     Wikipediaのカテゴリー階層構造の場合の例

あるカテゴリとその直系の子孫の間では新規性、意
外性はない。

                    イギリスの企業

イギリスの鉄道事業


        ...
カテゴリ関係から得られた結果が
                多くの人々にとって既知の例
                多くの人々にと て既知の例
                                              ...
意外性のある知識情報
    Wikipediaのカテゴリー階層構造の場合の例

離れたカテゴリー間の面白い架け橋は、情報アクセス
グラフ間の構造を利用して評価、選別できる。

                       カ ボンナノチュ ブ...
意外性のあるカテゴリ関係をもつ項目の例
                                                         共通項目
   カテゴリ1         階層      カテゴリ2         階...
新規性、有用性のある知識はどこにいるか
     iki di の構造を機械学習
    Wikipediaの構造を機械学習
下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い
   Wikipediaの語彙、グラフ構造を、新...
用語の対訳取得
Wikipediaの対訳の利用(システム開発中)
Web上の多言語資源などから専門用語対訳
辞書抽出
  現在も進めており、日中、日英での成果あり
  現在も進めており 日中 日英での成果あり
多言語化により言語コミュニティのご...
Wikipediaの言語間格差の解消
      参考文献が充実                     数学関係が充実


    英語のWikipedia 280万項目
    英語     p         項目
           ...
Wikipediaのデータを活用するには
• 全デ タ
  全データはXMLでダウンロード可能
           ダウ   ド 能
• ただし取り扱いは意外と面倒
  – データが巨大
  – Wiki記法のparsing
     iki...
Hadoopとは何か?
A large‐scale distributed batch processing 
  infrastracture
• Large‐scale = Web規模のデータを扱える
  • 1TB t (1兆バイト) 1...
Hadoopのアプローチ
• 並列処理をするためにたくさんのコンピュータ
  をつないで、大量の情報を効率的に処理
• コストの安いコンピュータをたくさん結びつけ
  てひとつのクラスタを構成する
 • 1000個のCPUを積んだ1台のマシン(...
スケールアップとスケールアウト
1台の計算機
の性能



                    性能を上げようとすると
                     コストが飛躍的に
                      増大してしまう
...
既存技術との比較
• H d
  Hadoop
  • 単純化されたプログラミングモデル
    • ユーザは簡単に分散システムの実装とテストが可能
  • 与えられたデータとタスクを各マシンに効率的・自動
    的に分散
    • 各マシ...
データ分散
•h d   のクラスタ
 hadoopのクラスタ
 • データを全ノードに分散
• Hadoop分散ファイルシステム(HDFS)
 • 大きなデータファイルは 管理された複数ノー
   大きなデ タファイルは、管理された複数ノ
 ...
MapReduce:
   各プロセスの自立性を高める
• 各プ
  各プロセスの個別化で信頼性向上
            個    信頼性向
• 「MapReduce」プログラムモデルで記述
• MapReduce
 • Mappers:分...
k1 v1   k2 v2   k3 v3    k4 v4   k5 v5    k6 v6




 map                 map                   map                map


a ...
k1 v1   k2 v2   k3 v3     k4 v4   k5 v5      k6 v6




 map                    map                     map                ...
MapReduceの応用タスク
• 検索
  検索インデックスの作成
      デ    作成
• キーワードのカウント
  キ ワ ドのカウント
• ログの時系列解析
 – 例) あるキーワードで探した人がどんな資料にあ
   たっているの...
スケーラビリティ
• Hadoopの利点の1つは、単調なスケーラビリティ
    d   の利点の は 単調なスケ ラビリテ
  カーブ
• Hadoopプログラム
        プ グ
 • 小規模データは不向き→他の分散システムで実行さ
...
もくじ
1.
1    Littel Navigatorとは?
     Litt l N i t とは
2.   図書館の世界とWebの世界
3.   2つの分類体系の統合による分類自動導出
4.
4    Wikipediaを使いこなす
 ...
今後 展開
        今後の展開
他言語版の開発
• 英語版 開発中 LCSHが検索可能
  英語版の開発中:     が検索 能
分野別シソ ラスの活用
分野別シソーラスの活用
• 医学分野: MeSHなどとの連携
情報リテラシー教育の...
おわりに
• Wikipediaと図書館分類体系の統合利用によって、
  パスファインダ に近い「情報探索のヒント提示」を
  パスファインダーに近い「情報探索のヒント提示」を
  可能とした
   – 情報探索の多様な「切り口」の提示
   ...
114th
114th
114th
114th
Upcoming SlideShare
Loading in …5
×

114th

846 views
755 views

Published on

ku-librarians #114 「Wikipediaをいかに使いこなすか? ---知識抽出、情報ナビゲーション、そしてトピック発見」清田陽司 氏(東京大学情報基盤センター助教)

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
846
On SlideShare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
6
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

114th

  1. 1. 2009年8月27日 第114回ku‐librarians勉強会@京都大学附属図書館 Wikipediaをいかに使いこなすか? ~知識抽出、情報ナビゲーション、 ~知識抽出 情報ナビゲ ション そしてトピック発見 見 東京大学情報基盤センター 東京大学情報基盤センタ 学術情報研究部門 助教 (兼 株式会社リッテル 上席研究員) 清田 陽司 清
  2. 2. 関心分野 • 自然言語処理技術を応用した情報検索システム – 対話的ヘルプシステム「ダイアログナビ」 対話的 ルプシステム ダイア グナビ」 • WindowsやOffice利用者向けの質問応答サービス • 情報検索プロセスの解明 – 対話(聞き返し)による情報探しニーズの明確化 – 情報の組織化 • 聞き返しをするには何らかの知識構造が必要 – 情報検索手段の変遷 • 人に聞く 図書館 データベース サーチエンジン 掲示板 人に聞く、図書館、データベース、サーチエンジン、掲示板… 図書館レファレンスサービスの課題と共通 • レファレンス支援システムの研究 – タクソノミーとフォークソノミーの統合 – 実用システムの研究開発 リッテルナビゲーターとして実用化 2
  3. 3. 経緯 • もともと京大メディアセンターのヘルプシステム を手掛かりに博士の研究を始めた ( 年) (2000年) – 京大附属図書館レファレンスシステムもあった – 利用できるデータはNDLSHだけだった • その後 MSとの共同研究でダイアログナビを その後、MSとの共同研究でダイアログナビを 開発し、博士論文を提出 • 「次に何を研究しようか」と考えていたときに東 大総合図書館内の研究室に赴任 (2004年) – 図書館の豊富な情報リソースをうまく使えないか? – Wiki di のコンテンツが本格的に充実してきた Wikipediaのコンテンツが本格的に充実してきた
  4. 4. ダイアログナビ(Dialog Navigator) ( g g ) • マイクロソフト株式会社との共同研究 • 2002年4月から運用開始 • いまは稼働していませんが 4
  5. 5. 5
  6. 6. 6
  7. 7. 7
  8. 8. 8
  9. 9. 9
  10. 10. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 10
  11. 11. 質問とテキストの間の 具体性のギャップ 52件のテキストが見つかりました。 52件のテキストが見つかりました Windowsで • Windows 98を起動したときに、…と エラーが発生した いうエラーが発生する • Wi d XPでアプリケ シ ンを Windows XPでアプリケーションを 起動したときに、エラーが発生する • インターネットにダイアルアップで接 続しようとしたときに、…というエラー 続 うと たとき と う が発生する • 印刷中にエラーが発生して印刷で きない • ………………………….. 11
  12. 12. エキスパートやコールセンター 対話的に具体性のギャップを解消 Windowsで エラーが発生したのはい エラーが発生した つですか? お使いのWindowsは何で すか? どんなエラーメッセージが 出ましたか? 12
  13. 13. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 13
  14. 14. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 14
  15. 15. こんなときどうしますか? • Winnyをテーマにしてレポートを書く – 知的財産(著作権)に関する法律の観点から – P2Pソフトウェアの技術について – 匿名掲 板独特 文化 匿名掲示板独特の文化 – 表現の自由との関連 • 「日本のアニメ」を研究したい – アニメ産業のあり方 (製作会社、分業制、…) ア メ産業のあり方 – アニメ製作技術 (セル画、CG、…) – アニメの主題 キャラクターの描き方・・・ユニ アニメの主題、キャラクターの描き方・・・ユニ セックス… – アニメの国際比較 アニメの国際比較… 15
  16. 16. こんなときお役にたちます リッテルナビゲ タ リッテルナビゲーター =情報探しのヒント検索システム (1) 「 「切り口」探し 探 (2) 情報の関連づけ 情報そのものの発見、情報の関係との発見 16
  17. 17. リッテルナビゲーターとは? リッテルナビゲ タ とは? 「情報探索のヒント」検索システム =パスファインダ 自動生成システム =パスファインダー自動生成システム • さまざまな情報リソースの統合検索 – 件名標目、書架分類、レファレンスブック、 Webサイト、オンライン百科事典、... • 曖昧な質問(キーワード)から具体的な探 し方へのナビゲ ション し方へのナビゲーション – Wikipediaを用いた探索テーマの自動導出 17
  18. 18. リッテルナビゲーターの主な機能 リ テルナビゲ タ の主な機能 • テーマグラフの自動生成 – 分野の自動的な導出 • 分野からの情報探し – 日本十進分類法(NDC)による資料検索 →書架の特定、参考図書調べ – インタ ネ ト学術情報インデ クスの利用 インターネット学術情報インデックスの利用 • 関連キーワード探し • 他のサーチエンジンとのリンク – OPAC JapanKnowledge Google Scholarなど OPAC、JapanKnowledge、Google Scholarなど 18
  19. 19. 19
  20. 20. 20
  21. 21. セキュリティへの脅威 (情報漏洩など) 著作権法改正の 議論に与えた影響は 議論に与えた影響は? 被害額は? ソフトウェアの開発モデ ルとしてのフリーウェア ルとしてのフリ ウェア 21
  22. 22. P2Pネットワーク P2Pネットワ ク 技術の観点から 特異な存在 ソフトウェア=創作物 匿名性により普及 創作物を公開することで逮捕され 創作物を 開する と 逮捕され 匿名掲示板独自の るのは表現の自由に反する? 文化 22
  23. 23. 23
  24. 24. 一大産業としての ア アニメ 芸術としてのアニメ アニメ製作技術の もはやサブカル 高度化 チャーではない? 24
  25. 25. 25
  26. 26. 26
  27. 27. •著作権法百年史 •著作権法事典 •著作権法ハンドブック 著作権法 ドブ ク •表現の自由・著作権・名誉毀損 やさしく引ける判例総覧 •著作権法のノウハウ •… 27
  28. 28. 利用実績 • 導 導入先 東 東京大学、東京電機大学、同志社大学、東邦大 、東 機 、 、東 学、亜細亜大学、千葉大学、神奈川工科大学 ※2009年5月より国立国会図書館 リサ チ ナビ ※2009年5月より国立国会図書館「リサーチ・ナビ 」にコンポーネントとして導入 • マーケティング用途利用 マ ケティング用途利用 – ベクトル空間モデルによる関連KW抽出とWikipedia カテ リの組み合わせでSEMワ ド候補を導出 カテゴリの組み合わせでSEMワード候補を導出 – 分野別辞書の作成 • テレビ番組、ドラマ、タレント、映画、お菓子、… 32
  29. 29. ワ ド抽出例 ワード抽出例 おでん 鍋料理→すき焼き、寄せ鍋、味噌煮込みうどん… 涼宮ハルヒの憂鬱 涼宮 ルヒの憂鬱 角川書店→ハレ晴レユカイ、ザ・スニーカー、月刊 少年エース、ねこマン、… 学園小説 ご愁傷さま ノ宮くん、Missing、フルメ 学園小説→ご愁傷さま二ノ宮くん、Missing、フルメ タル・パニック!、… 独立UHF放送局→らき☆すた NHKにようこそ! 魔 独立UHF放送局→らき☆すた、NHKにようこそ!、魔 法少女リリカルなのはA‘s、ひぐらしのなく頃に、少 年陰陽師、ゼロの使い魔、… 年陰陽師 ゼロの使い魔 33
  30. 30. もくじ 1. Littel Navigatorとは? 2. 2 図書館の世界とW bの世界 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす Wiki di を使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 34
  31. 31. 情報検索の手段の変遷 • 20世紀以前 – 人に聞く – 相談窓口 (無料: 図書館や公共機関, 有料: コンサルタントなど) – 本屋に行く – 図書館で調べる – Webディレクトリ、個人ブックマーク、商用DB… デ ク 個人ブ ク ク 商 • 21世紀: 上に加えて – GoogleなどのWebサーチエンジンの利用 – 掲示板 人力検索エンジン ソーシャルブック 掲示板、人力検索エンジン、ソ シャルブック マーク… 35
  32. 32. 情報探しのニーズ • Web検索で探せる質問=事実を問う質問 – 関東大震災はいつ発生しましたか? – XXXってどんな病気? • 本当に探し手が知りたいこと – 大学の学生「関東大震災についてのレポートを書か 大学の学生「関東大震災についてのレポ トを書か なきゃいけなんだけど、いったいどんな資料から調べ 」 たらいいの?」 – 難病の患者「この病気について最先端の治療を行っ ている病院を探す方法は?」 情報探しのテーマが曖昧な場合が多い →テ マの推薦(レコメンデ ション)が必要! →テーマの推薦(レコメンデーション)が必要! 36
  33. 33. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして 欲しい – これができないと結局使ってもらえない • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 存在 • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 37 Web情報の組織化の現状は?
  34. 34. Web情報の組織化の取り組み • サーチエンジンの性能向上 ジ – PageRank ( eb の民主主義) age a (Web上の民主主義) – 自然言語処理分野の成果の活用 • 多数の 般利用者による情報組織化 多数の一般利用者による情報組織化 – ブログ: トラックバック – 掲示板: スレッド、まとめサイト – ソーシャルブックマーク: 一般利用者によるタグ ソ シャルブックマ ク: 般利用者によるタグ (キーワード)の付与 – Wikipedia: 百科事典の共同編纂 38
  35. 35. 情報検索におけるロングテール(?) • 難病の治療法 – 10万人に1人という難病にかかった。かかりつけの医者 はXという治療法を勧めたが、深刻な副作用を伴うらしい。 一方、たまたまニュースで海外で普及しつつある治療法Y 方 たまたまニ スで海外で普及しつつある治療法Y を知ったが、それを実践できる医者を知らない。さてどち らを選択すべきか? • F社の期限切れ原料使用問題の背景 – 過去の同様の事件との共通点は? – では他社の製品は安全なのか? – Web掲示板上での主流意見はあてになるのか? • A市における過去100年間の犯罪発生率 Webの利用で答えられるか? 39
  36. 36. Webの情報検索手段としての性質 利点 • とんでもなく広いカバレ ジ とんでもなく広いカバレッジ • 多様性(マスメディアへのアンチテーゼ) ( ) 欠点 • 価値・信頼性の判断基準を提供してくれない – 利用者自身が知識体系をもっている必要がある • フロー情報中心 情報中心 – ストック情報は残りにくい – 注目されすぎた情報は突如姿を消してしまう • ブラウジング指向の組織化 40
  37. 37. Web上での組織化の限界 ブラウジング指向に偏りがち ブ ジ グ が • ソーシャルブックマークやランキングを機能さ ソ シャルブックマ クやランキングを機能さ せているフィードバックは、ブラウジングを便 利にしたい情報消費者のものが中心 • 偏った探索になりがち – 検証を経ていない二次情報への頼りすぎ • 人類が積み重ねてきたストック情報とリンクさ れていない(浅い組織化) 41
  38. 38. Webの可能性 可能性 • 探索手段としての間口の広さ – どんなキーワードを入力してもとりあえず何かヒット ド も ず – 情報探索の足がかりとしては最適 • 注目されていない情報も存在を許される – マスメディアにはない最大の特色 – どうやって価値を判断するかが問題 • Wikipediaの可能性 – 膨大な項目数(日本語: 30万項目以上) – 明確な目的: 「 確な 的 「Web上に百科事典を構築する」 科事典を構築する – 項目の組織化への取り組み(Wikipediaカテゴリ) 他のWebサイトにはない大きな特色 42
  39. 39. テ マ推薦の要件 テーマ推薦の要件 • カバレ ジ カバレッジ – どんなキーワードに対しても何かをお薦めして Web 欲しい – これができないと結局使ってもらえない Wikipedia • 組織化 – 「これを見た人はこんな情報も見ています」で は不十分! – 分類ごとにお薦めすべき情報資源には定番が 図書館 存在 システム • 信頼性 – 「ネットでググる」だけでは不十分! – 信頼できる情報資源が必要 渡 情 Wikipediaを橋渡しとして、信頼できる情報 資源をお薦めできないか? 43
  40. 40. もくじ 1. とは? Littel Navigatorとは? l 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik‐IEの紹介 – Hadoop, MapReduceとは? Hadoop MapReduceとは? 5. まとめ 44
  41. 41. オントロジーとフォークソノミー オントロジー ジ フォークソノミー • トップダウン的な分類 • ボトムアップ的な分類 • ひとつの上位概念 • 複数の上位概念 再生可能 半導体 電気化学 電池 エネルギー 素子 電離層 電池 磁気化学 燃料電池 太陽電池 蓄電池 燃料電池 太陽電池 トランジスタ 図書館的な分類体系 Web的な分類体系 45
  42. 42. Wikipedia p 価格 • インターネット上で共 価格(かかく)とは、有形・無形の各種の商品 (サービスを含む)の取引に際して提示される金 同編集されている多 額を言う。基本的には需要と供給のバランスに 言語百科事典 よって決定される。一般には、値段(ねだん)とも 呼ばれる。 • 各記事にはカテゴリ … カテゴリ: [マーケティング][経済学][市場] が付与されている – フォークソノミーの特 フォ クソノミ の特 社会 徴を有する 社会科学 経済 – カテゴリにもカテゴリを 付与できる(ゆるやか 労働 産業 な階層構造) ビジネススキル 商業 – 複数の上位概念を与 えることができる(多重 経営学 流通 継承) マーケティング 経済学 ケティング 市場 46 価格
  43. 43. オントロジー 社会 型構造 社会科学 経済 労働 産業 ビジネススキル ビジネ キ 商業 経営学 流通 マーケティング グ 経済学 市場 フォ クソノミ 型 フォークソノミー型 構造 価格 47
  44. 44. 提案: Wikipediaと図書館分類体系の 対応づけ 図書館の分類体系をWiki di で拡張してみよう 図書館の分類体系をWikipediaで拡張してみよう! • Wikipedia – Webの汎用的な情報資源としては最も組織化されてい る(Wikipediaカテゴリ) – Web上の他の情報資源との親和性をもつ • 図書館分類体系(書架分類法、件名標目表) ( ) – 人類が営々と積み重ねてきた知識体系 – 価値判断に必要な情報資源への有力なポインタ 両者を組み合わせて利用することによって、キー ワ ドから探索テ ワードから探索テーマ(=件名)を自動導出する ( 件名)を自動導出する → 導出された件名に関連する情報資源を提示 48
  45. 45. 社会科学(300) 自然科学(400) 技術(500) 「地震防災の事典」(岡( 「日本被害地震総覧」 経済(330) 田恒男ほか, 2000年) 社会(360) 地球科学(450) 建築学(520) (宇佐美龍夫, 2003年) 経済史(332) 社会福祉(369) 地震学(453) 建築構造(524) 「経済学事典」(日本 経済新聞社, 1996年) 経済史-日本 災害 地震誌(453.2) 地震 (332.1) 経済史-日本 地震災害 地震予知 耐震建築 -平成時代 (332.107) 図書館オ 図書館オントロジー ジ (NDC, BSH) Wikipedia p 経済史 災害 震災がその後の 日本の 災害と防災の 防災対策に 地震 経済史 歴史 与えた影響 平成時代 地震の歴史 震災を引き起こした 地震(1995年兵庫県 震災が日本経済に 南部地震) 49 与えた影響 阪神・淡路大震災
  46. 46. 情報探索の スタ ト地点 スタート地点 Web情報資源(サーチエンジン) 情報資 ジ フォークソノミー 図書館 Wikipedia 情 分類体系 報の •NDC 専 対応づけ→ 門 •BSH 性 深い情報探 多様な情報資源 ・ 索へ 信 •入門書 頼 •レファレンスブック レフ レンスブ ク 性 •各種データベース •学術雑誌論文 学術雑誌論文 •過去の文献・資料 50
  47. 47. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 51
  48. 48. 最新の状況 • 日本語版が60万項目を超えた (7/8) 本 版が を超 た – XMLでダウンロード可能 (1.1Bytes) ダウン 可能 ( y ) • 英語版は300万項目を超えた (8/17) –9 G 9.4GBytes, bzip2圧縮 b i 2圧縮 52
  49. 49. Wikipediaで何ができる?(1) • コーパスとしての利用 パ – 定義文の抽出 → 言い換え 定義文 抽出 → 言 換え • コーパスとは、電子化された自然言語の文章から成る 巨大なテキストデータである。 – 翻訳用例の獲得 (言語間リンク) • 文書集合としての利用 – 単語(Wikipediaエントリ)間の類似度計算 53
  50. 50. Wikipediaで何ができる?(2) • 表記揺れ辞書としての利用 – リダイレクト • ソフトウエア工学 → ソフトウェア工学 → ソフトウェア工学 • モンティ パイソンズ → モンティ パイソン • 線形代数学 → 線型代数学 • 国道17号線 → 国道17号 • 業務上過失致傷罪 → 業務上過失致死傷罪 – 括弧表現 • アカンタリア(Acantharea、棘針綱・棘針類とも)は原生生物である 放散虫の一群である。 • 東日本電信電話株式会社(ひがしにっぽんでんしんでんわ、通 称:NTT東日本、英称:NIPPON TELEGRAPH AND TELEPHONE EAST  CORPORATION)は、日本最大手の電気通信事業者である。 54
  51. 51. Wikipediaで何ができる?(3) • シソーラスとしての利用 – Wikipediaカテゴリ p カテ リ • 固有表現辞書としての利用 – 地名 人名 組織名 地名、人名、組織名 – 商品名 • 菓子: アーモンドグリコ、M&M’s、かっぱえびせん、ポッ キー、チョコエッグ、… • 自動車: カローラ、エスティマ、マーチ、ベンツ、… • テレビドラマ: ごくせん、斉藤さん、7人の女弁護士、… 55
  52. 52. Wikipediaの特徴 • 多数の参加者による編集 多数 参加者 る編集 • 半定型デ タ 半定型データ • 外部情報リソースとの連携 • 項目の組織化 56
  53. 53. (1)多数の参加者による編集 • 基本方針 「誰 も編集 きる 基本方針は「誰でも編集できる」 • 秩序維持の仕組みが存在する – ガイドライン (5つの原則) – ペ ジ毎のノ ト (議論 合意形成の場) ページ毎のノート (議論、合意形成の場) – 管理者によるコントロール • 保護 (編集合戦への対応) • 削除 • 投稿ブロック • 管理者の選任・解任 57
  54. 54. (2)半定型データ • ウ キプ ジ ク ウィキプロジェクト • 大学、スポーツチーム、芸能人、… • テンプレート • 大学、サッカー選手、映画、 58
  55. 55. (3)外部情報リソースとの連携 • 外部 外部Webサイトへのリンク – 緯度・経度 (Google Mapsなどへのリンク) 緯度 経度 ( g pな リンク) • 参考文献 – ISBN (Amazon, OPACなどへのリンク) S ( O Cなど のリンク) 59
  56. 56. (4)項目の組織化 価格 価格(かかく)とは、有形・無形の各種の商品 • カテゴリシステム ゴ (サービスを含む)の取引に際して提示される金 額を言う。基本的には需要と供給のバランスに – フォークソノミーの よって決定される。一般には、値段(ねだん)とも 呼ばれる。 呼ばれる 特徴を有する … – カテゴリにもカテゴ カテゴリ: [マーケティング][経済学][市場] リを付与できる(ゆ 社会 るやかな階層構造) 社会科学 経済 – 複数の上位概念を 複数の 位概念を 与えることができる 労働 産業 (多重継承) ビジネススキル 商業 経営学 流通 マ ケティング マーケティング 経済学 市場 60 価格
  57. 57. 既存の情報リソースとの比較 タクソノミーとフォークソノミーの中間的性格 タクソノミ とフ クソノミ の中間的性格 • 構造 – 下位層はフォークソノミー的 (複数の上位概念) – 上位層はタクソノミー的(単一の上位概念) • 信頼性 – 既存のシソーラスよりはいい加減 既存のシソ ラスよりはいい加減 – フォークソノミーよりは信頼できる? • カバレッジ – フォークソノミーほどではないが、多様な概念をカ バ している バーしている 61
  58. 58. 情報の価値評価 信頼性 あるカテゴリ の重要な語彙を網羅性良く含む あるカテゴリーの重要な語彙を網羅性良く含む 意外性 複数のカテゴリ の語彙を併せ 含むか 複数のカテゴリーの語彙を併せて含むか 意外性の程度 複数のカテゴリーの距離がどのくらい離れてい 意 性 程度 複数 ゴ 離がど く 離れ るか 従来は遠いと思われていた概念たちの架け橋 有用性 個人の目的によ て異なる 個々人の過去の興味を示 個人の目的によって異なる。個々人の過去の興味を示 す用語リストに適度に関連することが大切:機械学習による適応 62
  59. 59. 意外性の少ない情報 Wikipediaのカテゴリー階層構造の場合の例 あるカテゴリとその直系の子孫の間では新規性、意 外性はない。 イギリスの企業 イギリスの鉄道事業 ユーロトンネル株 式会社 63
  60. 60. カテゴリ関係から得られた結果が 多くの人々にとって既知の例 多くの人々にと て既知の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 ユーロト category:イギリ category:イギリス 5 6 あり ンネル会 ネ 会 1 スの企業 の鉄道事業者 社 g y 伝統医 category:伝統医 漢方医 医療 category:医療 t 2 3 あり 1 学 学 category:アメリ 卒業 category:恋愛映 g y カ合衆国の映 6 4 なし (1967年 55 画 画作品 の映画) Category:アメリカ category:アメリ ビーナ ビ ナ 合衆国のオリン カ合衆国のオ 6 7 なし ス・ウィリ 55 ピック金メダリス リンピック選手 アムズ ト category:日本 category:東京都 木村拓 6 5 なし 2088 64 の俳優 出身の人物 哉
  61. 61. 意外性のある知識情報 Wikipediaのカテゴリー階層構造の場合の例 離れたカテゴリー間の面白い架け橋は、情報アクセス グラフ間の構造を利用して評価、選別できる。 カ ボンナノチュ ブ カーボンナノチューブ 宇宙 軌道エレベータ 65
  62. 62. 意外性のあるカテゴリ関係をもつ項目の例 共通項目 カテゴリ1 階層 カテゴリ2 階層 子孫関係 項目 数 category:オリンピック category:日本の内 5 射撃競技日本代表選 8 なし 麻生太郎 1 閣総理大臣 手 category:弁当 4 category:キャラクター 5 なし キャラ弁 1 category:アメリカ合衆 テカムセ category:呪術 4 6 なし 1 国の大統領 の呪い category:オリンピック category:日本の経 5 サッカー日本代表選 8 なし 堀江忠男 1 済学者 手 category:コンピュー 福田ウイ 5 category:福田康夫 4 なし 1 タウイルス ルス カナビス・ category:祭 3 category:大麻 3 なし 1 カップ category:イリノイ州 category:グラミー賞 バラク・オ 選出のアメリカ合衆 7 4 なし 1 受賞者 バマ 66 国上院議員
  63. 63. 新規性、有用性のある知識はどこにいるか iki di の構造を機械学習 Wikipediaの構造を機械学習 下図「軌道エレベータ」のような新規性などのある情報が現れる確率が高い Wikipediaの語彙、グラフ構造を、新規性、有用性のある記事の例から 教師あり機械学習し、情報の評価、選別、発見、推奨に活用 カーボンナノチューブ このカテゴリーの 記事に現れる語 宇宙 彙 このカテゴリーの 記事に現れる語 彙 軌道エレベータ 67
  64. 64. 用語の対訳取得 Wikipediaの対訳の利用(システム開発中) Web上の多言語資源などから専門用語対訳 辞書抽出 現在も進めており、日中、日英での成果あり 現在も進めており 日中 日英での成果あり 多言語化により言語コミュニティのごとのモノ の見方の相違を調べることができる 言語依存性の少ないシステム 言語依存性の高いソフトの使用は最小限にし、多くの 言語への拡張性を狙う。 言語への拡張性を狙う 68
  65. 65. Wikipediaの言語間格差の解消 参考文献が充実 数学関係が充実 英語のWikipedia 280万項目 英語 p 項目 日本語のWikipedia 50万項目 ローカルな文 化などで必ず ローカルな文 ロ カルな文 Wikipe しも対訳され 対訳の 化などで必ず diaを補 る必要はない ある項目 しも対訳され 完する 項目 技術用語な る必要はない ど対訳される 項目 べき項目 選別 用語を翻訳し、 用語を翻訳し 対応する日本 Web 語Webページ ページ この境界線を見つける機械学習手法 を検索 自然言語処理(固有名、地域名などの処 理を利用) 69
  66. 66. Wikipediaのデータを活用するには • 全デ タ 全データはXMLでダウンロード可能 ダウ ド 能 • ただし取り扱いは意外と面倒 – データが巨大 – Wiki記法のparsing iki記法の i – リンク切れの扱い Wikipediaの軽量解析ツ ルを開発しています Wikipediaの軽量解析ツールを開発しています Wik‐IE: http://wik‐ie.sourceforge.jp/ 70
  67. 67. Hadoopとは何か? A large‐scale distributed batch processing  infrastracture • Large‐scale = Web規模のデータを扱える • 1TB t (1兆バイト) 1PB t (1000兆バイト) 1TBytes(1兆バイト)~1PBytes(1000兆バイト) • Distributed = 分散型システム • Batch = バッチ処理専用 (高速な処理) • I f t t インフラとしてのシステム Infrastructure = インフラとしてのシステム • つまり意識せずに使える
  68. 68. Hadoopのアプローチ • 並列処理をするためにたくさんのコンピュータ をつないで、大量の情報を効率的に処理 • コストの安いコンピュータをたくさん結びつけ てひとつのクラスタを構成する • 1000個のCPUを積んだ1台のマシン(現実には存 在しないが)のコストは、1個のCPUを積んだ1000 在しな が トは 個 を積んだ 台のマシンより高くつく
  69. 69. スケールアップとスケールアウト 1台の計算機 の性能 性能を上げようとすると コストが飛躍的に 増大してしまう この領域をうまく 使いたい コスト
  70. 70. 既存技術との比較 • H d Hadoop • 単純化されたプログラミングモデル • ユーザは簡単に分散システムの実装とテストが可能 • 与えられたデータとタスクを各マシンに効率的・自動 的に分散 • 各マシンのCPUコアをフルに活用できる • 既存技術の例: Condor  • データの分散機能がない • 高価なストレージ(SAN)が必要 • 各マシン間での同期システム( 各マシン間での同期システム(MPIなど)を実装する必 など)を実装する必 要
  71. 71. データ分散 •h d のクラスタ hadoopのクラスタ • データを全ノードに分散 • Hadoop分散ファイルシステム(HDFS) • 大きなデータファイルは 管理された複数ノー 大きなデ タファイルは、管理された複数ノ ドに分散 • 分散したファイルは、複数マシン間で複製 • マシン故障でもデータ損失がない • 故障に応じて データを再複製 故障に応じて、デ タを再複製 • 一つの名前空間で管理し、アクセス可能
  72. 72. MapReduce: 各プロセスの自立性を高める • 各プ 各プロセスの個別化で信頼性向上 個 信頼性向 • 「MapReduce」プログラムモデルで記述 • MapReduce • Mappers:分割するタスク • Reducers:集約するタスク • ノード間通信の制限で、データ転送を管理 • 分散システムの信頼性を向上
  73. 73. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 3 6 8 reduce reduce reduce r1 s1 r2 s2 r3 s3
  74. 74. k1 v1 k2 v2 k3 v3 k4 v4 k5 v5 k6 v6 map map map map a 1 b 2 c 3 c 6 a 5 c 2 b 7 c 8 combine combine combine combine a 1 b 2 c 9 a 5 c 2 b 7 c 8 partitioner partitioner partitioner partitioner Shuffle and Sort: aggregate values by keys a 1 5 b 2 7 c 2 9 8 reduc reduc reduc e e e r1 s1 r2 s2 r3 s3
  75. 75. MapReduceの応用タスク • 検索 検索インデックスの作成 デ 作成 • キーワードのカウント キ ワ ドのカウント • ログの時系列解析 – 例) あるキーワードで探した人がどんな資料にあ たっているのか? • レコメンデーション(いわゆる協調フィルタリン グ) • グラフ探索 • 機械学習 79
  76. 76. スケーラビリティ • Hadoopの利点の1つは、単調なスケーラビリティ d の利点の は 単調なスケ ラビリテ カーブ • Hadoopプログラム プ グ • 小規模データは不向き→他の分散システムで実行さ せた方が良い場合がある た方が良 場合がある • 他の分散システム • 大規模(10~1000台のマシンで実行)データでは、書 き換えが必要 • 非常にフラットなスケーラビリティカーブ • マシン数と比例したパフォーマンス増加
  77. 77. もくじ 1. 1 Littel Navigatorとは? Litt l N i t とは 2. 図書館の世界とWebの世界 3. 2つの分類体系の統合による分類自動導出 4. 4 Wikipediaを使いこなす – 意外性のある情報の発見 – 言語間格差の抽出 – 軽量解析ツールWik-IEの紹介 – Hadoop, Hadoop MapReduceとは? 5. まとめ 81
  78. 78. 今後 展開 今後の展開 他言語版の開発 • 英語版 開発中 LCSHが検索可能 英語版の開発中: が検索 能 分野別シソ ラスの活用 分野別シソーラスの活用 • 医学分野: MeSHなどとの連携 情報リテラシー教育の題材として • 大学の教育現場 – シラバスとの連携 • 企業研修、生涯学習など 業 修 学 など – 検索の多様な側面を体験的に学べる 検索の多様な側面を体験的に学 る 82
  79. 79. おわりに • Wikipediaと図書館分類体系の統合利用によって、 パスファインダ に近い「情報探索のヒント提示」を パスファインダーに近い「情報探索のヒント提示」を 可能とした – 情報探索の多様な「切り口」の提示 – 信頼性のある情報資源への誘導 • 「 書館 「図書館かWebか」という二項対立ではなく、両者 な 者 の役割を踏まえた見方が大事 – 図書館: 信頼性、組織化 – Web: どんなキーワードからでも探せる どんなキ ワ ドからでも探せる 83

×