Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
図書館検索システムの
新しい形を目指して
~NDLラボサーチとL-Crowdを中心に
池田 光雪
- 千葉大学 アカデミック・リンク・センター
- 国立国会図書館非常勤調査員
lumely@chiba-u.jp / mitsu@klis.tsu...
● 自己紹介
● NDLラボについて
● NDLラボサーチについて
– アプリ・API・リソースの疎結合な三層構成
– 実験的諸機能
● L-Crowdについて
– NDLにおける書誌誤同定の発見
– NDLデジタルコレクション資料から
絵や写...
● 池田光雪 IKEDA Kosetsu
● 高校生の頃は何となく「図書館」に興味があり
筑波大学知識情報・図書館学類に進学
– 電子図書館に漠然とした憧れ
– しかし,入学後に「研究」と「システム開発」の
違いに気が付き研究方向はスイッチ
–...
● 2007/4-2016/7
筑波大学(学部~博士後期課程)
● 2014/4-現在
国立国会図書館 非常勤調査員
– 館内における検証システムの構築などを担当
● 2016/4-現在
千葉大学 アカデミック・リンク・センター
特任助教
– ...
● 今回はNDLで開発したNDLラボサーチと
最近取り組んでいるL-Crowdの話をします
● 発表後にも質疑の時間はありますが,
不明な点があれば適宜ご質問ください
本日のテーマ
5 71
NDLラボとは[1]
“
(前略)
現代、資料はその身を電子に変え、人々はインター
ネットに情報を求めて集まるようになっています。
その中で、伝統的な図書館も変革を迫られています。
既存のアナログ資料をどのようにインターネットを
通じて提供する...
NDLラボの構造
NDLラボ
外部研究者
公開
研究成果
移植
環境構築
データ提供
NDL職員
7 71
 NIIの阿辺川武先生が開発
 国立国会図書館デジタルコレクション
(以降国デコ)の資料の一部をOCR+αして利用
 Wikipediaなどの外部情報源から脚注を自動表示
事例1) 電子読書支援システム[3]
[3] ”NDLラボ : 脚...
 人文情報学研究所の永崎研宣先生が開発
 国デコの資料をテキストデータ化するための
プラットフォーム
事例2) 翻デジ2014[4]
[4] ”翻デジ2014”. NDLラボ. http://lab.ndl.go.jp/dhii/omk2/...
 人文情報学研究所の永崎研宣先生が開発
 国デコの一部資料の絵や写真を俯瞰・検索できる
 L-Crowdプロジェクトの成果を活用(後述)
事例3) 国デコImage Wall[5]
[5] ”国デコImage Wall”. NDLラボ. ...
 東京大学の美馬秀樹先生,増田勝也先生が開発
 国デコの一部資料に対し,意味的な関連に
基づいた探索を可能とするシステム
事例4) 書誌情報検索・可視化システム[6]
[6] ”NDLラボ 書誌情報検索・可視化システム”. NDLラボ. h...
 NDLサーチの次期実装プロトタイプとして
新たに構築された検索システム
 学術的な意味合いよりも実用的意味合いを追求
事例5) NDLラボサーチ[7]
[7] ”NDLラボサーチ”. NDLラボ. http://lab.ndl.go.jp...
NDLラボサーチについて
13 71
14 71
 川島隆徳(国立国会図書館)
– バックエンド全般を担当
 常川真央(現 アジア経済研究所)
– 2013年度までNDL非常勤調査員として
ラボサーチのフロントエンド全般を担当.
主にシングルページアプリケーションの枠組みを構築
 池田光...
1. 高速に動作
– Ajax-Solrというエンジンをベースにしている
 キャッシュや分散検索等の仕組みが豊富
– ただしNDLサーチとの差はI/Oやデータ量が原因?
2. アプリ・API・リソースの疎結合な三層構成
3. 実験的諸機能の実...
アプリ・API・リソースの
疎結合な三層構成
NDLラボサーチについて
17 71
 個々の構成要素が緊密に結びついている状態を
密結合,緩やかに結びつき独立性が高い状態のこ
とを疎結合と呼ぶ
 密結合なシステムでは連携を考える必要がない,
一元管理が可能などの利点がある一方,
柔軟な運用ができない
密結合と疎結合
リソー...
 疎結合な構成であれば
ある部分だけの交換が可能に
 例1) 同じ見た目のまま
データを変えたい
 例2) データはそのままで
見た目や機能を一新したい
疎結合であることの利点
リソース
API
アプリ
リソース
API
アプリ アプリ
...
 アプリ部分はNDL LabSearch Client[8, 9]として
オープンソースソフトウェア化
 誰もが自由にカスタマイズできるように,
という思想
NDLラボサーチ
リソース
API
アプリ NDLラボサーチ
NDL所蔵資料+
雑...
 図書館総合演習の授業で使うために設計
– 条件に合致する資料を探すという演習
 ログイン機能の追加
 誰が・いつ・どのような行動をしたかのログを蓄積
 発見した資料を出力して提出する機能
NDLラボサーチの応用例:同志社サーチ
リソー...
さらなるNDLラボサーチの応用
リソース
API
アプリ NDLラボ全文サーチ
NDL所蔵資料+
全文データ
リソース
API
アプリNDLラボOPAC
NDL所蔵資料
いずれも内部での検証用
22 71
実験的諸機能
NDLラボサーチについて
23 71
(0) 画面遷移回数を抑える
(1) 表示形式の切り替え
(2) 全レコード表示からの絞り込み
(3) キーワード(タグ)による絞り込み
(4) NOTファセット
(5) 著作数順ソート
(6) ブックマークとレコメンド
(7) ブックマークの...
 資料を表すボックスをクリックすると
ボックス全体が伸縮して
分類や大きさといった詳細な情報が表示される
– タイトルをクリックすると全てのメタデータ及び
パーマリンクを持つさらに詳細な画面に遷移
 検索結果画面と詳細画面を
何度も往復させ...
26 71
 複数のデザインを提供し,
自由に切り替えられるようにする
 「大きく表示」「小さく表示」「表」
(1) 表示形式の切り替え
27 71
 やはり昔ながらの表形式は一望性が高く
見やすいとの好評を館内では得た
 一方,著者やタイトルがリストのように表示され,
また詳細な情報もページ遷移することなく
確認可能な前述の形式も一定の評価を得た
 どちらがより望ましいかはおそらく
...
 全レコードを取得するというSolrの機能
 ファセットで絞り込んでいくという使い方
(2) 全レコード表示からの絞り込み
29 71
 図書・雑誌といったような「資料種別」
「刊行年」,「分類」のような属性情報を元に
所望の資料を絞り込んでいく
 検索対象が明確でないときに有用?
(2) 全レコード表示からの絞り込み cont’d
30 71
NDC: 645 刊行年: ...
 いわゆるタグクラウド
 タイトルの形態素からヒューリスティックに生成
(3) キーワード(タグ)による絞り込み
クエリ「殊能 将之」に対するキーワード
31 71
 NOT絞り込みを可能に
 明らかに違う条件を除外できる
(4) NOTファセット
雑誌記事索引を除外
32 71
 「『ハリー・ポッター』の原作を読みたい」
という欲求があったとする
– 著者名はわからないという想定
 「ハリー ポッター」をキーワードとして
本をNDLサーチで検索しても,
原作はあまり上位にはこない
– 解説本や楽譜などの派生作品がヒ...
 検索結果の上位10件
のうち,2(4)件が原作
 シリーズものをまとめる
関係で少なくカウント
NDLサーチの結果*
34 71
* 2015年9月5日時点での http://iss.ndl.go.jp/ の結果.
 雑誌記事索引を除外した
場合,上位10中5件は
原作
 5件目以降は
ほぼずっと原作
 資料種別の絞り込みと
組み合わせると有用?
NDLラボサーチの結果**
35 71
* 2015年9月5日時点での http://lab.ndl.g...
 検索結果からワンクリックでブックマーク
 ブックマークに登録されている資料の著者名・
NDC・NDLC・出版者名を使って内部で
問合せした結果をレコメンドとして表示
(6) ブックマークとレコメンド
36 71
ブックマーク レコメンド
 印刷することを前提に,
ブックマークした資料を表形式で表示
– 表示する項目を選択可能
– 開架式図書館における探索のためのメモとして
(7) ブックマークのエクスポート
37 71
 NDLサーチのApacheログから
同一ユーザにより一度に閲覧された資料を
取得し表示
 「この資料を見た人はこの資料も見ています」
(8) アクセスログを使った共起資料の表示
38 71
 NDLラボは図書館が抱える課題に対して
実証的実験を行うことで解決を図る場
 NDLラボサーチは次世代を見据え作られた,
疎結合な構成の検索システム
 NDLラボの様々な取り組みに対し,
是非ご意見やご感想をお寄せ下さい!
– http...
L-Crowd
40 71
● 人間の力が必要な図書館領域の問題に対し,
マイクロボランティアとクラウドソーシング
による解決を図る試み
● いくつかのプロジェクトを実施中
L-Crowd
[10] ”歌川広重「伊勢参宮・宮川の渡し」”. Wikimedia Common...
● crowd(群衆)+sourcing(業務委託)
● 不特定多数の人々に作業を委託すること
● 日本国内ではオンラインマッチングを行う
ランサーズ[10]が有名
– 「ロゴを作って欲しい」
– 「システムを構築して欲しい」…他
● L-Cr...
● 人の知や力を利用した計算のこと
● 画像のタグ付け,
OCR不可能な文字の文字起こしなど,
計算機には出来ないが人には出来る作業を
人にやってもらうという方法
● reCAPTCHA[11]が有名
ヒューマンコンピュテーションとは
43 7...
● 認証時などのタイミングで
表示されている2つの文字列を入力させる
● 実は認証に使っている(答えが既知な)のは左の
文字列だけで,右の文字列は何を入れてもいい
– 右の文字列は機械には読み取れない
● ある人が左右の文字列を入力したとして,...
● 数秒から数分といった
非常に短時間で終わるボランティアのこと
● Webを活用することにより,
パソコンやスマートフォンから電車での移動中や
ちょっとした休憩時間などにボランティアを行う
マイクロボランティア
45 71
● 公共と学術目的に利用される,非営利の
マイクロボランティア・クラウドソーシング
プラットフォーム
● 2011年11月から運用開始
● これまでに10以上のプロジェクトが
実施されている
Crowd4U[12]
46 71
[12] ”Cr...
● Crowd4Uでは様々な媒体・方法で
タスクに取り組むことができる
– 日常的な行動に付随したシステムも複数開発
 コンスタントなスループットの維持が期待できる
Crowd4U|タスクへの取り組み方
47 71
● Webサイトにタスクを埋め込むこともできる
Crowd4U|Webサイトへ埋め込み
48 71
[13] lumely. ”図書の網”. http://lumely.hatenablog.com/, (accessed 2016-10-07...
● 床の上を歩くだけでタスクに回答できる
– 同志社大学,明治大学,神戸大学,筑波大学に設置
Crowd4U|床システム
49 71
● スマートフォンがロックから復帰したときに
タスクが表示される
● 「スマホボランティア」として
Google Playで配信中
Crowd4U|スマートフォンロックアプリ
50 71
● 人間の力が必要な図書館領域の問題に対し,
マイクロボランティアとクラウドソーシング
による解決を図る試み
– Crowd4Uをプラットフォームとして活用
● 1つのプロジェクトが完了
– NDLにおける書誌誤同定の発見(終了)
● 2つのプ...
NDLにおける書誌誤同定の発見
L-Crowd
52 71
● 横断検索システムで用いるために,
全国の県立図書館などから書誌を収集して
横断的な書誌を作る
● 検索結果において同じ資料を指す書誌を
複数箇所に表示させないためには,
書誌を同定する必要がある
背景|全国書誌
53 71
[14] ”国立...
● ISBNは(その意義からしても)
同定キーとして有効なはず
● しかし,調査を進めたところ全く違う図書に
同じISBNが振られているデータが見つかった
– 出版社によるISBNの使い回し等が理由
– 旅行本などにおいて,出版年が違う図書に
...
機械的な判別は難しい
55 71
● 次の2つは単なる文字列の比較では
別の予稿集だが,おそらく同じもの
– 正しい同定には人間の判断が必要になる
タイトル 出版社
Transportation and traffic theory: 10th...
ある書誌に対し,同じISBNを持つ別の書誌を
(複数)並べ,明らかに違うかを選ばせるタスク
NDLにおける書誌誤同定の発見
56 71
● 3回ずつ,計22,765タスク実施
– 3回とも同じ判断が下された :69.9%
 3回とも同じ書誌であると判定: 45.6%
 3回とも違う書誌であると判定: 24.3%
– 2回は同じ判断が下された :18.4%
– 全て違う判断が...
国デコ資料から
絵や写真・図表を抜き出す
L-Crowd
58 71
● 35万点もの図書をはじめとして,非常に多くの
資料を公開
– その多くがパブリックドメイン
国立国会図書館デジタルコレクション[15]
59 71
[15] ”国立国会図書館デジタルコレクション”. 国立国会図書館.
http://dl.n...
● 基本的な導線:
表紙のサムネイル画像やメタデータ,
検索結果のスニペットから興味関心を引き出す
● 「もう一つの導線」:
図書資料中に含まれる絵や写真,図表などから
図書全体への関心を喚起する
● もう一つの導線を構築するために,
絵や写真...
● 見開き画像を表示し,
図表や写真を含むかを「はい」「いいえ」で判定
タスク設計
61 71
 人文情報学研究所の永崎研宣先生が開発
 国デコの一部資料の絵や写真を俯瞰・検索できる
 IIIFに対応した表示
結果の利用:国デコImage Wall[5]
[5] ”国デコImage Wall”. NDLラボ. http://lab....
 2つのAPIからなるデジタルアーカイブの国際規格
– 画像を表示する際にURIで表示の仕方を指定するルール
(image API)
– Image APIを前提として,画像のメタデータを共有する
ルール(presentation API)
...
国デコ資料の文字起こしを行う
L-Crowd
64 71
● 画像でしか公開されていないコレクション
(例えば国デコ)が文字起こしされれば,
様々な恩恵が得られる
– Googleなどのサーチエンジンから発見が可能に
– 単語の使用頻度のような定量的な分析が可能に
– 読み上げをするためにも全文データ...
● OCRが認識した領域と,認識した候補を
表示させその正誤を判定
タスク設計
66 71
● 20,644タスクを実施し,
3,979文字が校正結果として得られた
● OCRをしただけの結果のF値が76.2だったことに
対し,タスク結果は89.6まで向上
– 残りは旧字体・異体字・新字体間での誤りや,
「あ」と「ぁ」のような同形間で...
今後の展開・まとめ
68 71
● マイクロタスク型クラウドソーシングにより,
NDLの所蔵データについては
誤同定の発見ができた
● 課題:
– 地域資料のようなNDLが持たないデータは範囲外
– ISBNを持たない図書は対象外
– NDLの所蔵データと,都道府県立図書館が...
「都道府県総合目録の将来像に関する
研究プロジェクト」
● 京都府域で収集したメタデータとNDLが持つ
メタデータについて,同定ロジックで一致
しているが完全には一致していないものを比較
するマイクロタスク型クラウドソーシングを行う
– 同志社...
● 新しい図書館検索システムを指向した
NDLラボサーチ
– アプリ・API・リソースの分離
● マイクロボランティアとクラウドソーシング
による図書館領域の問題解決を図るL-Crowd
– Crowd4Uチームに是非参加を!
– 第18回図書...
Upcoming SlideShare
Loading in …5
×

図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

426 views

Published on

2016年10月22日(土)に大阪府立中央図書館で開催した,
日本図書館研究会情報組織化研究グループ2016年10月月例研究会の発表資料です.
http://josoken.digick.jp/meeting/news.html#201610

今回もいらすとやさんのイラストを使いました. http://www.irasutoya.com/

Published in: Science
  • Be the first to comment

図書館検索システムの新しい形を目指して ~NDLラボサーチとL-Crowdを中心に

  1. 1. 図書館検索システムの 新しい形を目指して ~NDLラボサーチとL-Crowdを中心に 池田 光雪 - 千葉大学 アカデミック・リンク・センター - 国立国会図書館非常勤調査員 lumely@chiba-u.jp / mitsu@klis.tsukuba.ac.jp 2016/10/22(Sat) 日本図書館研究会 情報組織化研究グループ 2016年10月月例研究会
  2. 2. ● 自己紹介 ● NDLラボについて ● NDLラボサーチについて – アプリ・API・リソースの疎結合な三層構成 – 実験的諸機能 ● L-Crowdについて – NDLにおける書誌誤同定の発見 – NDLデジタルコレクション資料から 絵や写真・図表を抜き出す – NDLデジタルコレクション資料を文字起こしする ● 今後の展開・まとめ 目次 2 71
  3. 3. ● 池田光雪 IKEDA Kosetsu ● 高校生の頃は何となく「図書館」に興味があり 筑波大学知識情報・図書館学類に進学 – 電子図書館に漠然とした憧れ – しかし,入学後に「研究」と「システム開発」の 違いに気が付き研究方向はスイッチ – 博論のテーマは「XMLに対する問合せ式の修正」 自己紹介 3 71
  4. 4. ● 2007/4-2016/7 筑波大学(学部~博士後期課程) ● 2014/4-現在 国立国会図書館 非常勤調査員 – 館内における検証システムの構築などを担当 ● 2016/4-現在 千葉大学 アカデミック・リンク・センター 特任助教 – アカデミック・リンク内に設置された ミニスタジオや空間整備に取り組んでいる – 今後は研究データの利活用も……? 自己紹介 cont’d 4 71
  5. 5. ● 今回はNDLで開発したNDLラボサーチと 最近取り組んでいるL-Crowdの話をします ● 発表後にも質疑の時間はありますが, 不明な点があれば適宜ご質問ください 本日のテーマ 5 71
  6. 6. NDLラボとは[1] “ (前略) 現代、資料はその身を電子に変え、人々はインター ネットに情報を求めて集まるようになっています。 その中で、伝統的な図書館も変革を迫られています。 既存のアナログ資料をどのようにインターネットを 通じて提供するか、電子的な資料をどう整理して、 どのように人々がアクセスできるようにするか。 (中略) NDLラボは、そういった図書館が抱える課題に 対して、実証的な実験を行うことで 解決を図るために用意された実験場です。 [1] 国立国会図書館 次世代システム開発研究室. ”NDLラボについて”. NDLラボ. http://lab.ndl.go.jp/cms/?q=about, (accessed 2015-08-18) 6 71
  7. 7. NDLラボの構造 NDLラボ 外部研究者 公開 研究成果 移植 環境構築 データ提供 NDL職員 7 71
  8. 8.  NIIの阿辺川武先生が開発  国立国会図書館デジタルコレクション (以降国デコ)の資料の一部をOCR+αして利用  Wikipediaなどの外部情報源から脚注を自動表示 事例1) 電子読書支援システム[3] [3] ”NDLラボ : 脚注表示機能を有した電子読書支援システムの構築実験”. NDLラボ. http://lab.ndl.go.jp/nii/, (accessed 2016-10-07) 8 71
  9. 9.  人文情報学研究所の永崎研宣先生が開発  国デコの資料をテキストデータ化するための プラットフォーム 事例2) 翻デジ2014[4] [4] ”翻デジ2014”. NDLラボ. http://lab.ndl.go.jp/dhii/omk2/, (accessed 2016-10-07) 9 71
  10. 10.  人文情報学研究所の永崎研宣先生が開発  国デコの一部資料の絵や写真を俯瞰・検索できる  L-Crowdプロジェクトの成果を活用(後述) 事例3) 国デコImage Wall[5] [5] ”国デコImage Wall”. NDLラボ. http://lab.ndl.go.jp/dhii/kunidicoview/, (accessed 2016-10-07) 10 71
  11. 11.  東京大学の美馬秀樹先生,増田勝也先生が開発  国デコの一部資料に対し,意味的な関連に 基づいた探索を可能とするシステム 事例4) 書誌情報検索・可視化システム[6] [6] ”NDLラボ 書誌情報検索・可視化システム”. NDLラボ. http://lab.ndl.go.jp/ut/, (accessed 2016-10-07) 11 71
  12. 12.  NDLサーチの次期実装プロトタイプとして 新たに構築された検索システム  学術的な意味合いよりも実用的意味合いを追求 事例5) NDLラボサーチ[7] [7] ”NDLラボサーチ”. NDLラボ. http://lab.ndl.go.jp/ndls/, (accessed 2016-10-07) 12 71
  13. 13. NDLラボサーチについて 13 71
  14. 14. 14 71
  15. 15.  川島隆徳(国立国会図書館) – バックエンド全般を担当  常川真央(現 アジア経済研究所) – 2013年度までNDL非常勤調査員として ラボサーチのフロントエンド全般を担当. 主にシングルページアプリケーションの枠組みを構築  池田光雪(NDL非常勤調査員 / 千葉大学) – 2014年度からフロントエンド全般を担当. 主に細かいデザインや機能を作成  原田隆史(NDL非常勤調査員 / 同志社大学) – アドバイザー 開発体制 15 71
  16. 16. 1. 高速に動作 – Ajax-Solrというエンジンをベースにしている  キャッシュや分散検索等の仕組みが豊富 – ただしNDLサーチとの差はI/Oやデータ量が原因? 2. アプリ・API・リソースの疎結合な三層構成 3. 実験的諸機能の実装 – 表示方法の検討 NDLラボサーチのポイント・理念 16 71
  17. 17. アプリ・API・リソースの 疎結合な三層構成 NDLラボサーチについて 17 71
  18. 18.  個々の構成要素が緊密に結びついている状態を 密結合,緩やかに結びつき独立性が高い状態のこ とを疎結合と呼ぶ  密結合なシステムでは連携を考える必要がない, 一元管理が可能などの利点がある一方, 柔軟な運用ができない 密結合と疎結合 リソース・アプリ リソース API アプリ 密結合 疎結合 18 71
  19. 19.  疎結合な構成であれば ある部分だけの交換が可能に  例1) 同じ見た目のまま データを変えたい  例2) データはそのままで 見た目や機能を一新したい 疎結合であることの利点 リソース API アプリ リソース API アプリ アプリ リソース 19 71
  20. 20.  アプリ部分はNDL LabSearch Client[8, 9]として オープンソースソフトウェア化  誰もが自由にカスタマイズできるように, という思想 NDLラボサーチ リソース API アプリ NDLラボサーチ NDL所蔵資料+ 雑誌記事索引 2,300万件 [8]常川真央. ”ineku2/ndl-labsearch-client”. GitHub. https://github.com/ineku2/ndl-labsearch-client, (accessed 2015-08-18) [9]常川真央. ”NDL LabSearch Clientのご紹介”. slideshare. http://www.slideshare.net/tsunekawamao/ndl- labsearch-client, (accessed 2015-08-18) 20 71
  21. 21.  図書館総合演習の授業で使うために設計 – 条件に合致する資料を探すという演習  ログイン機能の追加  誰が・いつ・どのような行動をしたかのログを蓄積  発見した資料を出力して提出する機能 NDLラボサーチの応用例:同志社サーチ リソース API アプリ 同志社サーチ 同志社大学 所蔵資料 21 71
  22. 22. さらなるNDLラボサーチの応用 リソース API アプリ NDLラボ全文サーチ NDL所蔵資料+ 全文データ リソース API アプリNDLラボOPAC NDL所蔵資料 いずれも内部での検証用 22 71
  23. 23. 実験的諸機能 NDLラボサーチについて 23 71
  24. 24. (0) 画面遷移回数を抑える (1) 表示形式の切り替え (2) 全レコード表示からの絞り込み (3) キーワード(タグ)による絞り込み (4) NOTファセット (5) 著作数順ソート (6) ブックマークとレコメンド (7) ブックマークのエクスポート (8) アクセスログを使った共起資料の表示 実装した諸機能 表 示 絞 り 込 み 拡 張 24 71
  25. 25.  資料を表すボックスをクリックすると ボックス全体が伸縮して 分類や大きさといった詳細な情報が表示される – タイトルをクリックすると全てのメタデータ及び パーマリンクを持つさらに詳細な画面に遷移  検索結果画面と詳細画面を 何度も往復させないというコンセプト  エクスポートなどはモーダルウィンドウで行う (0) 画面遷移回数を抑える 25 71
  26. 26. 26 71
  27. 27.  複数のデザインを提供し, 自由に切り替えられるようにする  「大きく表示」「小さく表示」「表」 (1) 表示形式の切り替え 27 71
  28. 28.  やはり昔ながらの表形式は一望性が高く 見やすいとの好評を館内では得た  一方,著者やタイトルがリストのように表示され, また詳細な情報もページ遷移することなく 確認可能な前述の形式も一定の評価を得た  どちらがより望ましいかはおそらく 利用スタイルに依存する (1) 表示形式の切り替え cont’d 28 71
  29. 29.  全レコードを取得するというSolrの機能  ファセットで絞り込んでいくという使い方 (2) 全レコード表示からの絞り込み 29 71
  30. 30.  図書・雑誌といったような「資料種別」 「刊行年」,「分類」のような属性情報を元に 所望の資料を絞り込んでいく  検索対象が明確でないときに有用? (2) 全レコード表示からの絞り込み cont’d 30 71 NDC: 645 刊行年: 2016 NDCが645かつ 刊行年が2016
  31. 31.  いわゆるタグクラウド  タイトルの形態素からヒューリスティックに生成 (3) キーワード(タグ)による絞り込み クエリ「殊能 将之」に対するキーワード 31 71
  32. 32.  NOT絞り込みを可能に  明らかに違う条件を除外できる (4) NOTファセット 雑誌記事索引を除外 32 71
  33. 33.  「『ハリー・ポッター』の原作を読みたい」 という欲求があったとする – 著者名はわからないという想定  「ハリー ポッター」をキーワードとして 本をNDLサーチで検索しても, 原作はあまり上位にはこない – 解説本や楽譜などの派生作品がヒットしてしまう  「シリーズものなど場合,派生作品より 原作者の著作数が一番多いのでは?」 という仮定から「著作数順ソート」を実装 (5) 著作数順ソート 33 71
  34. 34.  検索結果の上位10件 のうち,2(4)件が原作  シリーズものをまとめる 関係で少なくカウント NDLサーチの結果* 34 71 * 2015年9月5日時点での http://iss.ndl.go.jp/ の結果.
  35. 35.  雑誌記事索引を除外した 場合,上位10中5件は 原作  5件目以降は ほぼずっと原作  資料種別の絞り込みと 組み合わせると有用? NDLラボサーチの結果** 35 71 * 2015年9月5日時点での http://lab.ndl.go.jp/ndls/ の結果.
  36. 36.  検索結果からワンクリックでブックマーク  ブックマークに登録されている資料の著者名・ NDC・NDLC・出版者名を使って内部で 問合せした結果をレコメンドとして表示 (6) ブックマークとレコメンド 36 71 ブックマーク レコメンド
  37. 37.  印刷することを前提に, ブックマークした資料を表形式で表示 – 表示する項目を選択可能 – 開架式図書館における探索のためのメモとして (7) ブックマークのエクスポート 37 71
  38. 38.  NDLサーチのApacheログから 同一ユーザにより一度に閲覧された資料を 取得し表示  「この資料を見た人はこの資料も見ています」 (8) アクセスログを使った共起資料の表示 38 71
  39. 39.  NDLラボは図書館が抱える課題に対して 実証的実験を行うことで解決を図る場  NDLラボサーチは次世代を見据え作られた, 疎結合な構成の検索システム  NDLラボの様々な取り組みに対し, 是非ご意見やご感想をお寄せ下さい! – http://lab.ndl.go.jp/ ここまでのまとめ 39 71
  40. 40. L-Crowd 40 71
  41. 41. ● 人間の力が必要な図書館領域の問題に対し, マイクロボランティアとクラウドソーシング による解決を図る試み ● いくつかのプロジェクトを実施中 L-Crowd [10] ”歌川広重「伊勢参宮・宮川の渡し」”. Wikimedia Commons. https://commons.wikimedia.org/wiki/File:Ando_hirosige_miyakawanowatasi.jpg, (accessed 2016-10-07) 41 71
  42. 42. ● crowd(群衆)+sourcing(業務委託) ● 不特定多数の人々に作業を委託すること ● 日本国内ではオンラインマッチングを行う ランサーズ[10]が有名 – 「ロゴを作って欲しい」 – 「システムを構築して欲しい」…他 ● L-CrowdをサポートするCrowd4Uでは, 特にヒューマンコンピュテーションな クラウドソーシングに着目している クラウドソーシング 42 71 [10] ”ランサーズ”. http://www.lancers.jp/, (accessed 2016-10-07)
  43. 43. ● 人の知や力を利用した計算のこと ● 画像のタグ付け, OCR不可能な文字の文字起こしなど, 計算機には出来ないが人には出来る作業を 人にやってもらうという方法 ● reCAPTCHA[11]が有名 ヒューマンコンピュテーションとは 43 71 [11] ”reCAPTCHA: Easy on Humans, Hard on Robots”. https://www.google.com/recaptcha/intro/, (accessed 2016-10-07)
  44. 44. ● 認証時などのタイミングで 表示されている2つの文字列を入力させる ● 実は認証に使っている(答えが既知な)のは左の 文字列だけで,右の文字列は何を入れてもいい – 右の文字列は機械には読み取れない ● ある人が左右の文字列を入力したとして, 左の文字列が正しいのであれば 右の文字列も正しいだろうという仮定のもと 人に文字起こしをさせている reCAPTCHA 44 71
  45. 45. ● 数秒から数分といった 非常に短時間で終わるボランティアのこと ● Webを活用することにより, パソコンやスマートフォンから電車での移動中や ちょっとした休憩時間などにボランティアを行う マイクロボランティア 45 71
  46. 46. ● 公共と学術目的に利用される,非営利の マイクロボランティア・クラウドソーシング プラットフォーム ● 2011年11月から運用開始 ● これまでに10以上のプロジェクトが 実施されている Crowd4U[12] 46 71 [12] ”Crowd4Uとは何でしょうか?”.http://crowd4u.org/ja/about, (accessed 2016-10-07)
  47. 47. ● Crowd4Uでは様々な媒体・方法で タスクに取り組むことができる – 日常的な行動に付随したシステムも複数開発  コンスタントなスループットの維持が期待できる Crowd4U|タスクへの取り組み方 47 71
  48. 48. ● Webサイトにタスクを埋め込むこともできる Crowd4U|Webサイトへ埋め込み 48 71 [13] lumely. ”図書の網”. http://lumely.hatenablog.com/, (accessed 2016-10-07) [13]
  49. 49. ● 床の上を歩くだけでタスクに回答できる – 同志社大学,明治大学,神戸大学,筑波大学に設置 Crowd4U|床システム 49 71
  50. 50. ● スマートフォンがロックから復帰したときに タスクが表示される ● 「スマホボランティア」として Google Playで配信中 Crowd4U|スマートフォンロックアプリ 50 71
  51. 51. ● 人間の力が必要な図書館領域の問題に対し, マイクロボランティアとクラウドソーシング による解決を図る試み – Crowd4Uをプラットフォームとして活用 ● 1つのプロジェクトが完了 – NDLにおける書誌誤同定の発見(終了) ● 2つのプロジェクトが進行中 – 国デコ資料から絵や写真・図表を抜き出す – 国デコ資料の文字起こし ● さらに新しいプロジェクトも準備中 L-Crowd 51 71
  52. 52. NDLにおける書誌誤同定の発見 L-Crowd 52 71
  53. 53. ● 横断検索システムで用いるために, 全国の県立図書館などから書誌を収集して 横断的な書誌を作る ● 検索結果において同じ資料を指す書誌を 複数箇所に表示させないためには, 書誌を同定する必要がある 背景|全国書誌 53 71 [14] ”国立国会図書館 NDL”. Twitter. https://twitter.com/ndljp, (accessed 2016-10-07) [14]書誌 書誌 書誌 収集 同定 NDL 図書館A 図書館B 全国書誌
  54. 54. ● ISBNは(その意義からしても) 同定キーとして有効なはず ● しかし,調査を進めたところ全く違う図書に 同じISBNが振られているデータが見つかった – 出版社によるISBNの使い回し等が理由 – 旅行本などにおいて,出版年が違う図書に 同じISBNを振ってしまっている場合も ● 機械的に同定すると,約100万の書誌の中に 1万組ほどISBNの重複が見つかる – 全てが間違いというわけでもない  版の微妙な違いなどで複数の書誌を作る,など 同定キーとしてのISBN 54 71
  55. 55. 機械的な判別は難しい 55 71 ● 次の2つは単なる文字列の比較では 別の予稿集だが,おそらく同じもの – 正しい同定には人間の判断が必要になる タイトル 出版社 Transportation and traffic theory: 10th International symposium : Jul 1987, Cambridge, MA Elsevier Transportation and traffic theory: proceedings of the Tenth International Symposium on Transportation and Traffic Theory, held July 8- 10, 1987, at the Massachusetts Institute of Technology, Cambridge, Massachusetts Elsevier
  56. 56. ある書誌に対し,同じISBNを持つ別の書誌を (複数)並べ,明らかに違うかを選ばせるタスク NDLにおける書誌誤同定の発見 56 71
  57. 57. ● 3回ずつ,計22,765タスク実施 – 3回とも同じ判断が下された :69.9%  3回とも同じ書誌であると判定: 45.6%  3回とも違う書誌であると判定: 24.3% – 2回は同じ判断が下された :18.4% – 全て違う判断が下された :11.6% ● 判断が分かれたものや, 3回とも違うと判定されたものが 実際どうなのかについては現在調査中 NDLにおける書誌誤同定の発見|結果 57 71
  58. 58. 国デコ資料から 絵や写真・図表を抜き出す L-Crowd 58 71
  59. 59. ● 35万点もの図書をはじめとして,非常に多くの 資料を公開 – その多くがパブリックドメイン 国立国会図書館デジタルコレクション[15] 59 71 [15] ”国立国会図書館デジタルコレクション”. 国立国会図書館. http://dl.ndl.go.jp/, (accessed 2016-10-11)
  60. 60. ● 基本的な導線: 表紙のサムネイル画像やメタデータ, 検索結果のスニペットから興味関心を引き出す ● 「もう一つの導線」: 図書資料中に含まれる絵や写真,図表などから 図書全体への関心を喚起する ● もう一つの導線を構築するために, 絵や写真,図表が含まれる見開き画像を マイクロボランティアにより集める デジタルアーカイブへの「もう一つの導線」[16] 60 71 [16] 永崎研宣, 森嶋厚行, 池田光雪, 林亮太, 太田千尋. “オープンサイエンスの基盤としての国デコ Image Wall IIIF+Crowd4Uの活用事例として”. 第112回人文科学とコンピュータ研究会発表会. 2016, 3p. (to appear)
  61. 61. ● 見開き画像を表示し, 図表や写真を含むかを「はい」「いいえ」で判定 タスク設計 61 71
  62. 62.  人文情報学研究所の永崎研宣先生が開発  国デコの一部資料の絵や写真を俯瞰・検索できる  IIIFに対応した表示 結果の利用:国デコImage Wall[5] [5] ”国デコImage Wall”. NDLラボ. http://lab.ndl.go.jp/dhii/kunidicoview/, (accessed 2016-10-07) 62 71
  63. 63.  2つのAPIからなるデジタルアーカイブの国際規格 – 画像を表示する際にURIで表示の仕方を指定するルール (image API) – Image APIを前提として,画像のメタデータを共有する ルール(presentation API) – 「画像の表示や操作、アノテーションなどの仕方を 世界中で共通化できるように支援」  ビューワとデータの分離  今後,国際的なトレンドになる……? International Image Interoperability Framework(IIIF)[17] 63 71 [17] ”International Image Interoperability Framework ”.http://iiif.io/, (accessed 2016-10-07)
  64. 64. 国デコ資料の文字起こしを行う L-Crowd 64 71
  65. 65. ● 画像でしか公開されていないコレクション (例えば国デコ)が文字起こしされれば, 様々な恩恵が得られる – Googleなどのサーチエンジンから発見が可能に – 単語の使用頻度のような定量的な分析が可能に – 読み上げをするためにも全文データは必要 ● 一方,文字起こしは非常に高コスト – 欧米と比べ日本語は文字が膨大であり, OCRの適合率にも限界がある 背景|文字起こし 65 71
  66. 66. ● OCRが認識した領域と,認識した候補を 表示させその正誤を判定 タスク設計 66 71
  67. 67. ● 20,644タスクを実施し, 3,979文字が校正結果として得られた ● OCRをしただけの結果のF値が76.2だったことに 対し,タスク結果は89.6まで向上 – 残りは旧字体・異体字・新字体間での誤りや, 「あ」と「ぁ」のような同形間での誤り – タスク数に対する校正文字数を大幅に増やすことが 今後の課題 タスク結果[18] 67 71 [18] 池田光雪, 林亮太, 永崎研宣, 森嶋厚行. “翻デジにおけるマイクロタスク活用の試み”. 人文科学とコンピュータ研究会第110回発表会. 7p, 2016.
  68. 68. 今後の展開・まとめ 68 71
  69. 69. ● マイクロタスク型クラウドソーシングにより, NDLの所蔵データについては 誤同定の発見ができた ● 課題: – 地域資料のようなNDLが持たないデータは範囲外 – ISBNを持たない図書は対象外 – NDLの所蔵データと,都道府県立図書館が持つ 所蔵データの比較は困難 今後の展開|これまでの成果と課題 69 71
  70. 70. 「都道府県総合目録の将来像に関する 研究プロジェクト」 ● 京都府域で収集したメタデータとNDLが持つ メタデータについて,同定ロジックで一致 しているが完全には一致していないものを比較 するマイクロタスク型クラウドソーシングを行う – 同志社大学の原田隆史先生が主導 – 正確な書誌同定を行うための基礎データの生成, 同定ロジックの高度化などが期待される 今後の展開 70 71
  71. 71. ● 新しい図書館検索システムを指向した NDLラボサーチ – アプリ・API・リソースの分離 ● マイクロボランティアとクラウドソーシング による図書館領域の問題解決を図るL-Crowd – Crowd4Uチームに是非参加を! – 第18回図書館総合展(2016/11/8-11/10)でも デモを交えたポスター発表を行います! まとめ 71 71 本スライドではいらすとや( http://www.irasutoya.com/ )さんの イラスト素材を使いました.

×