SlideShare a Scribd company logo
1 of 20
Download to read offline
平成24年度学術ポータル担当者研修 2012年8月1日/22日




   学術情報流通を実現する技術(1)
     ‐-要素技術(検索、DB等の基盤技術に
          特化した話を中心に)--


                                   国立教育政策研究所
                                  教育研究情報センター
                                          総括研究官
                                             江草由佳
                                     Twitter: @yegusa

                                                   1
情報検索とは (由来)
•       情報検索
    –        IR: information (storage and ) retrieval
         •     情報(information) を呼び戻すこと(retrieval)
         •     元はinformation storage and retrieval 情報の蓄積と検索
    –     1950年にムアーズ(Calvin N. Mooers)が初めて定義
    –     1960年代に広く使われるようになる
    –     (search: これも「検索」と訳すが。。。)


        呼び戻す
        (retrieve)
                       あらかじめ
                       蓄積された
                                            retriever(レトリーバー):
                        データ
                                            獲物をくわえて戻って           2
                                            くるように訓練された猟犬
データベースの起源
• 1950年代
• 米国国防総省が戦力に関する情報を保管、
  集中管理するためコンピュータを使ったライブ
  ラリーを開発
• データの基地(data base)から由来




                      3
データベースの定義(1)
• 著作権法二条十の三
 – 論文、数値、図形その他の情報の集合物であっ
   て、それらの情報を電子計算機を用いて検索す
   ることができるように体系的に構成したもの
• 日本工業規格(JIS)
 – 適用業務分野で使用するデータの集まりであっ
   て、データの特性とそれに対応する実態の間の
   関係とを記述した概念的な構造によって編成され
   たもの(X0017)
 – 特定の規則に従って電子的な形式で、一か所に
   蓄積されたデータの集合であって、コンピュータ
   でアクセス可能なもの(X0807)
                           4
データベースの定義(2)
      --データベースの特徴--
• コンピュータを用いて検索できることが重要。情報
  が電子メディアに蓄積され、コンピュータを使用して
  検索できる状態になっている。
• データや情報がコンピュータ処理できるように体系
  的に整理され、統合化・構造化されて蓄積・保存さ
  れており、必要な情報だけを部分的に取り出せる。
• 蓄積情報の検索や更新が容易に行えるよう、効率
  化を図ったものである。

  ※ ちなみに、ヨーロッパにおけるデータベースの定義では、
  コンピュータを使用するかしないか、電子的であるかどうかについては
  特に限定していない                          5
(要素技術の話の前に)
  前提:計算機は意外と・・・おばか
• 計算機(コンピューター、プログラム、システム)は魔法じゃ
  ない
• 計算機が得意なこと→(単純な)同じ作業の繰り返しを正
  確に・人間より速く・必ずやってくれる
 – 途中で投げ出したり、飽きたり、疲れたりしない(ただし、電気
   は食う)
• 計算機はかなり細かいレベルで手順まで含めて命令しな
  いと動かない
 – 適当にやってなどの命令はできない
 – なにか「適当に」やっているように見えることは裏で細かいレベ
   ルまでの命令を人間が仕込んでいる
 – 逆に言うと、かなり細かいレベルまでの命令を人間がかんがえ
   つけなければ、「適当な」動きを計算機を使って実現はできな
   い

                                   6
検索にまつわる様々な観点(一部)
                                     どうやってためて
            呼び戻す                      いくか(表?
            (retrieve)                 XML?)
                         あらかじめ
                         蓄積された
どうやってほし                   データ        どうやって取り出
いものを取り出                               しやすくするか
  すか



                                 どうやって高速に
  検索する単位は                          とりだすか
    なにか?
  文字?単語?文    どうやって更新し
  書?自由語?統    やすくするか(間違
    制語?       いを少なくなど)

                                            7
どうやってためていくか?表?XML?
   -- データベースの種類 --
• リレーショナルデータベース(RDB)
 – 表としてデータを扱う
• オブジェクトデータベース
 – オブジェクトとしてデータを扱う
• XMLデータベース
 – XMLとしてデータを扱う
• 全文データベース

 – いろいろある、なんでもRDBにすればよいというものでは
   ない
 – 書誌データ、全文データはRDBには向いていない


                                 8
どうやって取り出しやすくするか?
     -- レコードと検索フィールド--
                検索フィールド名
 レコード
  レコード
   レコード
     レコード               検索フィールド値


          論題:    Reading―速読・多読
                         について考える
          著者名:   清水由理子
検索フィールド   請求記号: P343-5C2-14
          掲載誌名: 獨協大学外国語教育研究14
(仮想的な)
          発行年月: 1995.12
検索フィールド   掲載ページ: p.273~282
          登録日:   19970930         9
          本文:    (682CAD-11.pdf )
どうやって高速にとりだすか(1)
        --なにも仕掛けがないと。。。--
 • レコードを最初から最後まで順番に検索
 • レコードが多くなると時間がかかってしまう
レコード1    レコード2        レコード3        レコード4     レコード5



キーワードA       キーワードA    キーワードC       キーワードB    キーワードA
キーワードB       キーワードB    キーワードD       キーワードC    キーワードC
キーワードD       キーワードF    キーワードE       キーワードE



ヒット! レコード1            ヒット! レコード3
                                           ヒットした件数は2件、
例:「キーワードD」を検索する                            ヒットしたレコードは10
                                           レコード1とレコード3
どうやって高速にとりだすか(2)
   -- インデックス を用意する--
• 高速にデータにアクセスするために必要
• インデックス方式
 – 転置ファイル(Inverted file; インバーテッドファイル)
   • もっともよく使われる方式
 – TRI木
 – Suffix Array
 – ・・・いろいろある



                                   11
転置ファイル(1)
  • 検索キーごとにレコードを集計したファイルを作成す
    る方式
  • Inverted file(転置ファイル、倒置ファイル)ともいう


レコード1      レコード2     レコード3    転置ファイル
                              キーワード    レコード        件数
キーワードA     キーワードA    キーワードC
                                   A   1   2   5    3件
キーワードB     キーワードB    キーワードD
キーワードD     キーワードF    キーワードE        B   1   2   4    3件
                                   C   3   4   5    3件
         レコード4      レコード5
                                   D   1   3        2件
                                   E   3   4        2件
         キーワードB     キーワードA
         キーワードC     キーワードC         F   2           1件
         キーワードE                                     12
転置ファイル(2)

        – 例:「キーワードD」を検索する
        – 欠点:あらかじめ転置ファイルを作らなければな
          らない、ファイルの容量増
レコード1      レコード2     レコード3    転置ファイル
                              キーワード    レコード        件数
キーワードA     キーワードA    キーワードC
                                   A   1   2   5    3件
キーワードB     キーワードB    キーワードD
キーワードD     キーワードF    キーワードE        B   1   2   4    3件
                                   C   3   4   5    3件
         レコード4      レコード5
                                   D   1   3        2件
                                   E   3   4        2件
         キーワードB     キーワードA
         キーワードC     キーワードC         F   2           1件
         キーワードE                                     13
レコード例(1)               転置ファイル (3)
 http://nyti.ms/po6J1Z        #librahack              1     とは        1     昨年    1
 うーむ                          9                       1,2   な         2     絶句    1
              レコード例(2)        Aaron                   1     なあ        2     専門    2
 Aaron
                要は            JSTOR                   1     ない        2     存在    2
 Swartz
                ライブラリアン       Swartz                  1     なく        2     逮捕    1
 が                            http://nyti.ms/po6J1Z   1
                に                                           なら        2     大量    1
 昨年                           、                       1,2   に         2     読ん    2
 9              必要
                              。                       2     の         1,2   必要    2
 月              な             ・                       1     は         2     文学    2
 の              の             いい                      2     ば         2     勉強    2
 JSTOR          は             うーむ                     1     ほう        2     本音    2
                、      ひとまとめにして、
                              か                       2     みんな       2     名乗る   2
 から
                国内     辞書順に並べ替え
                              かけ                      2     もっと       2     遊び    2
 の
                文学            から                      1     を         2     容疑    1
 大量                           が                       1,2   ん         2           2
                                                                            要は
 ダウンロード 読ん                    こと                      2     ダウンロード    1
 容疑             だり
                              し                       2     ドラマ       2
 で              、             じゃ                      2     ライブラリアン   2
 逮捕             月             すぎ                      2     悪い        2
 ・              9             する                      2     家         2
 起訴             の             た                       2     起訴        1
                ドラマ           たり                      2     月         1,2
 とは
                を             だり                      2     見         2
 絶句                           て                       2     言え        2
 #librahack     見                                                            14
                              で                       1     国内        2
転置ファイル (4)
#librahack              1     とは      1   昨年 1
9                       1,2   な       2   絶句 1  • 検索する際には、ひと
Aaron                   1     なあ      2   専門 2    まとめにした単語リス
JSTOR                   1     ない      2   存在 2
Swartz                  1     なく      2   逮捕 1
                                                  トに対して照合する。
http://nyti.ms/po6J1Z   1             2   大量 1
、                       1,2
                              なら
                              に       2   読ん 2  • 単語リストの長さを  T
。                       2     の       1,2 必要 2    とした場合、平均で
・                       1     は       2   文学 2
いい                      2     ば       2   勉強 2  Log (T)
                                                      2 回の照合で
うーむ                     1     ほう      2   本音 2
か                       2     みんな     2   名乗る 2
                                                  検索できる(=2分探
かけ                      2     もっと     2   遊び 2    索)
から                      1     を       2   容疑 1
が                       1,2   ん       2   要は 2    ⇒ 対数をとるので、飛
こと                      2     ダウンロード 1              躍的な速度が実現
し                       2     ドラマ     2
じゃ                      2     ライブラリアン 2             できる。
すぎ                      2     悪い      2
する                      2     家       2
                                                  ⇒ 100語で 平均3.3回
た                       2
                        2
                              起訴      1           ⇒ 100万語で平均20回
たり                            月       1,2
だり                      2     見   「ダウンロード」で検索する場合
                                      2
て                       2     言え      2
で                       1     国内      2
転置ファイル(5)
      --どうやってキーワードを取り出す?--
          レコード例(1): 「http://nyti.ms/po6J1Z うーむ、
          Aaron Swartzが昨年9月のJSTORからの大量
          ダウンロード容疑で逮捕・起訴とは、絶句。
          #librahack」
              http://twitter.com/tmasao/status/93607169886396416
•   http://nyti.ms/po6J1Z • から      • 絶句
•   うーむ                   • の       • #librahack
•   Aaron                 • 大量
•   Swartz                • ダウンロード
                    意味のある語単位で切る=形態素解析
•                         • 容疑
    が (日本語の文章の意味(かかり受けや品詞など)を解析して
•   昨年                意味のある語で区切るようにする)
                          • で
•   9                     • 逮捕
•   月                     • ・
•   の                     • 起訴
•   JSTOR                 • とは
転置ファイル(6)
         --どうやってキーワードを取り出す?--
             レコード例(1): 「http://nyti.ms/po6J1Z うーむ、
             Aaron Swartzが昨年9月のJSTORからの大量
             ダウンロード容疑で逮捕・起訴とは、絶句。
             #librahack」
                  http://twitter.com/tmasao/status/93607169886396416

•   http://nyti.ms/po6J1Z   • JSTOR • ロー   • 起訴
•   うー                      • から    • ード   • 訴と
•   ーむ                      • らの    • ド容   • とは
                                           • は絶
•   Aaron                   • の大    • 容疑   • 絶句
•   Swartz                  • 大量    • 疑で   • #librahack
•   が昨            N-gram: 強引に、2文字づつなどで強制的に切る方法
                            • 量ダ    • で逮
•   年9                      • ダウ    • 逮捕
•   9月                      • ウン    • 捕・
•   月の                      • ンロ    • ・起
転置ファイル(7)
        --どうやってキーワードを取り出す?--
      レコード例(2): 「要はライブラリアンに必要なのは、国内
      文学読んだり、月9のドラマを見たりするんじゃなくて、存
      在をかけて勉強することじゃないかなあ。本音を言えば、
      悪いが、みんな遊びすぎ。専門家を名乗るなら、もっと勉
      強したほうがいい。」
                                 http://twitter.com/arg/status/20007995359
形態素解析
•   要は        •   読ん    •   する     •   勉強      •   言え      •   専門       •    ほう
•   ライブラリアン   •   だり    •   ん      •   する      •   ば       •   家        •    が
•   に         •   、     •   じゃ     •   こと      •   、       •   を        •    いい
•   必要        •   月     •   なく     •   じゃ      •   悪い      •   名乗る      •    。
•   な         •   9     •   て      •   ない      •   が       •   なら
•   の         •   の     •   、      •   か       •   、       •   、
•   は         •   ドラマ   •   存在     •   なあ      •   みんな     •   もっと
•   、         •   を     •   を      •   。       •   遊び      •   勉強
•   国内        •   見     •   かけ     •   本音      •   すぎ      •   し
•   文学        •   たり    •   て      •   を       •   。       •   た
転置ファイル(8)
            --どうやって検索する?--
• レコード例:
    – (1) 「http://nyti.ms/po6J1Z うーむ、Aaron Swartzが昨年9月の
      JSTORからの大量ダウンロード容疑で逮捕・起訴とは、絶句。
      #librahack」
    – (2)「要はライブラリアンに必要なのは、国内文学読んだり、月9
      のドラマを見たりするんじゃなくて、存在をかけて勉強すること
      じゃないかなあ。本音を言えば、悪いが、みんな遊びすぎ。専門
      家を名乗るなら、もっと勉強したほうがいい。」
•   Q: [Swartz] -> [Swartz] -> Hit! (1)
•   Q: [専門家] -> [専門][家] -> Hit! (2)       インデックスを使った
                                           検索(仕組み/人)
•   Q: [9月] -> [9][月] -> Hit? (1) (2)       のところで、
                                          それぞれ工夫必要
•   Q: [#librahack] -> Hit???
•   Q: [アーロン・シュワルツ] -> No Hit?
まとめ
•   情報検索~データベースとは?
•   検索にまつわる観点
•   レコードの蓄積からインデックスの構築、検索まで
•   転置ファイルを例に

• 参考文献:
    – 情報アクセスの新たな展開-情報検索・利用の最新動
      向. 日本図書館情報学会編. 勉誠出版, 2009, 216p.
      ISBN: 978-4-585-00278-9
    – Modern Information Retrieval: The Concepts and
      Technology behind Search (2nd Edition). Ricardo Baeza-
      Yates, Berthier Ribeiro-Neto. ACM Press Books, 2011,
      944p. ISBN: 978-0321416919
                                                         20

More Related Content

More from Yuka Egusa

2018-10-30 図書館総合展2018 トークイベント saveMLAKとは
2018-10-30 図書館総合展2018 トークイベント saveMLAKとは2018-10-30 図書館総合展2018 トークイベント saveMLAKとは
2018-10-30 図書館総合展2018 トークイベント saveMLAKとはYuka Egusa
 
2018-06-24 saveMLAK Wiki Tutorial for Veteran
2018-06-24 saveMLAK Wiki Tutorial for Veteran2018-06-24 saveMLAK Wiki Tutorial for Veteran
2018-06-24 saveMLAK Wiki Tutorial for VeteranYuka Egusa
 
2018-06-24 saveMLAK Wiki Tutorial
2018-06-24 saveMLAK Wiki Tutorial2018-06-24 saveMLAK Wiki Tutorial
2018-06-24 saveMLAK Wiki TutorialYuka Egusa
 
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介Yuka Egusa
 
2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LOD2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LODYuka Egusa
 
2016-09-11-c4ljp2016-勉強会のすすめ
2016-09-11-c4ljp2016-勉強会のすすめ2016-09-11-c4ljp2016-勉強会のすすめ
2016-09-11-c4ljp2016-勉強会のすすめYuka Egusa
 
2016-09-03-saveMLAK ウィキチュートリアル
2016-09-03-saveMLAK ウィキチュートリアル2016-09-03-saveMLAK ウィキチュートリアル
2016-09-03-saveMLAK ウィキチュートリアルYuka Egusa
 
2014-06-12_FRBR&RDA勉強会復習スライド
2014-06-12_FRBR&RDA勉強会復習スライド2014-06-12_FRBR&RDA勉強会復習スライド
2014-06-12_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとはYuka Egusa
 
2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―Yuka Egusa
 
2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館Yuka Egusa
 
2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習Yuka Egusa
 
2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会Yuka Egusa
 
2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会Yuka Egusa
 
2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習Yuka Egusa
 

More from Yuka Egusa (20)

2018-10-30 図書館総合展2018 トークイベント saveMLAKとは
2018-10-30 図書館総合展2018 トークイベント saveMLAKとは2018-10-30 図書館総合展2018 トークイベント saveMLAKとは
2018-10-30 図書館総合展2018 トークイベント saveMLAKとは
 
2018-06-24 saveMLAK Wiki Tutorial for Veteran
2018-06-24 saveMLAK Wiki Tutorial for Veteran2018-06-24 saveMLAK Wiki Tutorial for Veteran
2018-06-24 saveMLAK Wiki Tutorial for Veteran
 
2018-06-24 saveMLAK Wiki Tutorial
2018-06-24 saveMLAK Wiki Tutorial2018-06-24 saveMLAK Wiki Tutorial
2018-06-24 saveMLAK Wiki Tutorial
 
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介
2017-09-28 LODチャレンジ2017キックオフ 教科書LODの紹介
 
2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LOD2017-09-03 c4ljp-教科書LOD
2017-09-03 c4ljp-教科書LOD
 
2016-09-11-c4ljp2016-勉強会のすすめ
2016-09-11-c4ljp2016-勉強会のすすめ2016-09-11-c4ljp2016-勉強会のすすめ
2016-09-11-c4ljp2016-勉強会のすすめ
 
2016-09-03-saveMLAK ウィキチュートリアル
2016-09-03-saveMLAK ウィキチュートリアル2016-09-03-saveMLAK ウィキチュートリアル
2016-09-03-saveMLAK ウィキチュートリアル
 
2014-06-12_FRBR&RDA勉強会復習スライド
2014-06-12_FRBR&RDA勉強会復習スライド2014-06-12_FRBR&RDA勉強会復習スライド
2014-06-12_FRBR&RDA勉強会復習スライド
 
2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド
 
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
 
2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド
 
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
 
2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド
 
2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館
 
2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド
 
2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド
 
2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習
 
2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会
 
2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会
 
2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習
 

2012-08-01_平成24年度学術ポータル担当者研修講義

  • 1. 平成24年度学術ポータル担当者研修 2012年8月1日/22日 学術情報流通を実現する技術(1) ‐-要素技術(検索、DB等の基盤技術に 特化した話を中心に)-- 国立教育政策研究所 教育研究情報センター 総括研究官 江草由佳 Twitter: @yegusa 1
  • 2. 情報検索とは (由来) • 情報検索 – IR: information (storage and ) retrieval • 情報(information) を呼び戻すこと(retrieval) • 元はinformation storage and retrieval 情報の蓄積と検索 – 1950年にムアーズ(Calvin N. Mooers)が初めて定義 – 1960年代に広く使われるようになる – (search: これも「検索」と訳すが。。。) 呼び戻す (retrieve) あらかじめ 蓄積された retriever(レトリーバー): データ 獲物をくわえて戻って 2 くるように訓練された猟犬
  • 3. データベースの起源 • 1950年代 • 米国国防総省が戦力に関する情報を保管、 集中管理するためコンピュータを使ったライブ ラリーを開発 • データの基地(data base)から由来 3
  • 4. データベースの定義(1) • 著作権法二条十の三 – 論文、数値、図形その他の情報の集合物であっ て、それらの情報を電子計算機を用いて検索す ることができるように体系的に構成したもの • 日本工業規格(JIS) – 適用業務分野で使用するデータの集まりであっ て、データの特性とそれに対応する実態の間の 関係とを記述した概念的な構造によって編成され たもの(X0017) – 特定の規則に従って電子的な形式で、一か所に 蓄積されたデータの集合であって、コンピュータ でアクセス可能なもの(X0807) 4
  • 5. データベースの定義(2) --データベースの特徴-- • コンピュータを用いて検索できることが重要。情報 が電子メディアに蓄積され、コンピュータを使用して 検索できる状態になっている。 • データや情報がコンピュータ処理できるように体系 的に整理され、統合化・構造化されて蓄積・保存さ れており、必要な情報だけを部分的に取り出せる。 • 蓄積情報の検索や更新が容易に行えるよう、効率 化を図ったものである。 ※ ちなみに、ヨーロッパにおけるデータベースの定義では、 コンピュータを使用するかしないか、電子的であるかどうかについては 特に限定していない 5
  • 6. (要素技術の話の前に) 前提:計算機は意外と・・・おばか • 計算機(コンピューター、プログラム、システム)は魔法じゃ ない • 計算機が得意なこと→(単純な)同じ作業の繰り返しを正 確に・人間より速く・必ずやってくれる – 途中で投げ出したり、飽きたり、疲れたりしない(ただし、電気 は食う) • 計算機はかなり細かいレベルで手順まで含めて命令しな いと動かない – 適当にやってなどの命令はできない – なにか「適当に」やっているように見えることは裏で細かいレベ ルまでの命令を人間が仕込んでいる – 逆に言うと、かなり細かいレベルまでの命令を人間がかんがえ つけなければ、「適当な」動きを計算機を使って実現はできな い 6
  • 7. 検索にまつわる様々な観点(一部) どうやってためて 呼び戻す いくか(表? (retrieve) XML?) あらかじめ 蓄積された どうやってほし データ どうやって取り出 いものを取り出 しやすくするか すか どうやって高速に 検索する単位は とりだすか なにか? 文字?単語?文 どうやって更新し 書?自由語?統 やすくするか(間違 制語? いを少なくなど) 7
  • 8. どうやってためていくか?表?XML? -- データベースの種類 -- • リレーショナルデータベース(RDB) – 表としてデータを扱う • オブジェクトデータベース – オブジェクトとしてデータを扱う • XMLデータベース – XMLとしてデータを扱う • 全文データベース – いろいろある、なんでもRDBにすればよいというものでは ない – 書誌データ、全文データはRDBには向いていない 8
  • 9. どうやって取り出しやすくするか? -- レコードと検索フィールド-- 検索フィールド名 レコード レコード レコード レコード 検索フィールド値 論題: Reading―速読・多読 について考える 著者名: 清水由理子 検索フィールド 請求記号: P343-5C2-14 掲載誌名: 獨協大学外国語教育研究14 (仮想的な) 発行年月: 1995.12 検索フィールド 掲載ページ: p.273~282 登録日: 19970930 9 本文: (682CAD-11.pdf )
  • 10. どうやって高速にとりだすか(1) --なにも仕掛けがないと。。。-- • レコードを最初から最後まで順番に検索 • レコードが多くなると時間がかかってしまう レコード1 レコード2 レコード3 レコード4 レコード5 キーワードA キーワードA キーワードC キーワードB キーワードA キーワードB キーワードB キーワードD キーワードC キーワードC キーワードD キーワードF キーワードE キーワードE ヒット! レコード1 ヒット! レコード3 ヒットした件数は2件、 例:「キーワードD」を検索する ヒットしたレコードは10 レコード1とレコード3
  • 11. どうやって高速にとりだすか(2) -- インデックス を用意する-- • 高速にデータにアクセスするために必要 • インデックス方式 – 転置ファイル(Inverted file; インバーテッドファイル) • もっともよく使われる方式 – TRI木 – Suffix Array – ・・・いろいろある 11
  • 12. 転置ファイル(1) • 検索キーごとにレコードを集計したファイルを作成す る方式 • Inverted file(転置ファイル、倒置ファイル)ともいう レコード1 レコード2 レコード3 転置ファイル キーワード レコード 件数 キーワードA キーワードA キーワードC A 1 2 5 3件 キーワードB キーワードB キーワードD キーワードD キーワードF キーワードE B 1 2 4 3件 C 3 4 5 3件 レコード4 レコード5 D 1 3 2件 E 3 4 2件 キーワードB キーワードA キーワードC キーワードC F 2 1件 キーワードE 12
  • 13. 転置ファイル(2) – 例:「キーワードD」を検索する – 欠点:あらかじめ転置ファイルを作らなければな らない、ファイルの容量増 レコード1 レコード2 レコード3 転置ファイル キーワード レコード 件数 キーワードA キーワードA キーワードC A 1 2 5 3件 キーワードB キーワードB キーワードD キーワードD キーワードF キーワードE B 1 2 4 3件 C 3 4 5 3件 レコード4 レコード5 D 1 3 2件 E 3 4 2件 キーワードB キーワードA キーワードC キーワードC F 2 1件 キーワードE 13
  • 14. レコード例(1) 転置ファイル (3) http://nyti.ms/po6J1Z #librahack 1 とは 1 昨年 1 うーむ 9 1,2 な 2 絶句 1 レコード例(2) Aaron 1 なあ 2 専門 2 Aaron 要は JSTOR 1 ない 2 存在 2 Swartz ライブラリアン Swartz 1 なく 2 逮捕 1 が http://nyti.ms/po6J1Z 1 に なら 2 大量 1 昨年 、 1,2 に 2 読ん 2 9 必要 。 2 の 1,2 必要 2 月 な ・ 1 は 2 文学 2 の の いい 2 ば 2 勉強 2 JSTOR は うーむ 1 ほう 2 本音 2 、 ひとまとめにして、 か 2 みんな 2 名乗る 2 から 国内 辞書順に並べ替え かけ 2 もっと 2 遊び 2 の 文学 から 1 を 2 容疑 1 大量 が 1,2 ん 2 2 要は ダウンロード 読ん こと 2 ダウンロード 1 容疑 だり し 2 ドラマ 2 で 、 じゃ 2 ライブラリアン 2 逮捕 月 すぎ 2 悪い 2 ・ 9 する 2 家 2 起訴 の た 2 起訴 1 ドラマ たり 2 月 1,2 とは を だり 2 見 2 絶句 て 2 言え 2 #librahack 見 14 で 1 国内 2
  • 15. 転置ファイル (4) #librahack 1 とは 1 昨年 1 9 1,2 な 2 絶句 1 • 検索する際には、ひと Aaron 1 なあ 2 専門 2 まとめにした単語リス JSTOR 1 ない 2 存在 2 Swartz 1 なく 2 逮捕 1 トに対して照合する。 http://nyti.ms/po6J1Z 1 2 大量 1 、 1,2 なら に 2 読ん 2 • 単語リストの長さを T 。 2 の 1,2 必要 2 とした場合、平均で ・ 1 は 2 文学 2 いい 2 ば 2 勉強 2 Log (T) 2 回の照合で うーむ 1 ほう 2 本音 2 か 2 みんな 2 名乗る 2 検索できる(=2分探 かけ 2 もっと 2 遊び 2 索) から 1 を 2 容疑 1 が 1,2 ん 2 要は 2 ⇒ 対数をとるので、飛 こと 2 ダウンロード 1 躍的な速度が実現 し 2 ドラマ 2 じゃ 2 ライブラリアン 2 できる。 すぎ 2 悪い 2 する 2 家 2 ⇒ 100語で 平均3.3回 た 2 2 起訴 1 ⇒ 100万語で平均20回 たり 月 1,2 だり 2 見 「ダウンロード」で検索する場合 2 て 2 言え 2 で 1 国内 2
  • 16. 転置ファイル(5) --どうやってキーワードを取り出す?-- レコード例(1): 「http://nyti.ms/po6J1Z うーむ、 Aaron Swartzが昨年9月のJSTORからの大量 ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 http://twitter.com/tmasao/status/93607169886396416 • http://nyti.ms/po6J1Z • から • 絶句 • うーむ • の • #librahack • Aaron • 大量 • Swartz • ダウンロード 意味のある語単位で切る=形態素解析 • • 容疑 が (日本語の文章の意味(かかり受けや品詞など)を解析して • 昨年 意味のある語で区切るようにする) • で • 9 • 逮捕 • 月 • ・ • の • 起訴 • JSTOR • とは
  • 17. 転置ファイル(6) --どうやってキーワードを取り出す?-- レコード例(1): 「http://nyti.ms/po6J1Z うーむ、 Aaron Swartzが昨年9月のJSTORからの大量 ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 http://twitter.com/tmasao/status/93607169886396416 • http://nyti.ms/po6J1Z • JSTOR • ロー • 起訴 • うー • から • ード • 訴と • ーむ • らの • ド容 • とは • は絶 • Aaron • の大 • 容疑 • 絶句 • Swartz • 大量 • 疑で • #librahack • が昨 N-gram: 強引に、2文字づつなどで強制的に切る方法 • 量ダ • で逮 • 年9 • ダウ • 逮捕 • 9月 • ウン • 捕・ • 月の • ンロ • ・起
  • 18. 転置ファイル(7) --どうやってキーワードを取り出す?-- レコード例(2): 「要はライブラリアンに必要なのは、国内 文学読んだり、月9のドラマを見たりするんじゃなくて、存 在をかけて勉強することじゃないかなあ。本音を言えば、 悪いが、みんな遊びすぎ。専門家を名乗るなら、もっと勉 強したほうがいい。」 http://twitter.com/arg/status/20007995359 形態素解析 • 要は • 読ん • する • 勉強 • 言え • 専門 • ほう • ライブラリアン • だり • ん • する • ば • 家 • が • に • 、 • じゃ • こと • 、 • を • いい • 必要 • 月 • なく • じゃ • 悪い • 名乗る • 。 • な • 9 • て • ない • が • なら • の • の • 、 • か • 、 • 、 • は • ドラマ • 存在 • なあ • みんな • もっと • 、 • を • を • 。 • 遊び • 勉強 • 国内 • 見 • かけ • 本音 • すぎ • し • 文学 • たり • て • を • 。 • た
  • 19. 転置ファイル(8) --どうやって検索する?-- • レコード例: – (1) 「http://nyti.ms/po6J1Z うーむ、Aaron Swartzが昨年9月の JSTORからの大量ダウンロード容疑で逮捕・起訴とは、絶句。 #librahack」 – (2)「要はライブラリアンに必要なのは、国内文学読んだり、月9 のドラマを見たりするんじゃなくて、存在をかけて勉強すること じゃないかなあ。本音を言えば、悪いが、みんな遊びすぎ。専門 家を名乗るなら、もっと勉強したほうがいい。」 • Q: [Swartz] -> [Swartz] -> Hit! (1) • Q: [専門家] -> [専門][家] -> Hit! (2) インデックスを使った 検索(仕組み/人) • Q: [9月] -> [9][月] -> Hit? (1) (2) のところで、 それぞれ工夫必要 • Q: [#librahack] -> Hit??? • Q: [アーロン・シュワルツ] -> No Hit?
  • 20. まとめ • 情報検索~データベースとは? • 検索にまつわる観点 • レコードの蓄積からインデックスの構築、検索まで • 転置ファイルを例に • 参考文献: – 情報アクセスの新たな展開-情報検索・利用の最新動 向. 日本図書館情報学会編. 勉誠出版, 2009, 216p. ISBN: 978-4-585-00278-9 – Modern Information Retrieval: The Concepts and Technology behind Search (2nd Edition). Ricardo Baeza- Yates, Berthier Ribeiro-Neto. ACM Press Books, 2011, 944p. ISBN: 978-0321416919 20