Code4Lib 2013参加報告

Code4Lib 2013参加報告
（セッション聴講を中心に）
2013年3月24日（土）
Code4Lib Conference 2013参加報告会
高久雅生
@tmasao

1

自己紹介：高久雅生
• 所属：物質・材料研究機構科学情報室エンジニア
– 研究所専門図書館におけるWeb系サービスの研究開発・運
用を担当
• 図書館管理システム, 研究者総覧, 機関リポジトリ
• 専門分野：図書館情報学
– 情報検索、情報行動、電子図書館
• コミュニティ活動
– Code4Lib JAPANコアメンバー (2010-)
– saveMLAKシステム担当 (2011-)
– 情報科学技術協会『情報の科学と技術』編集委員 (2009-)，
諮問委員 (2012-)
– 情報知識学会理事 (2008-)
– ジャパンリンクセンター運営委員会システム技術分科会委
員 (2012-)
2

Code4Libのコミュニティ
• 北米の図書館エンジニアを中心としたコミュニティ
– オープンソースソフトウェア (Open Source Software; OSS)
– 大学図書館や議会図書館、図書館関連団体、企業等に
勤める図書館員やITエンジニア
• 普段はメーリングリスト、IRC（チャット）での交流
• 地域コミュニティも
– Code4Lib Midwest, NYC, New England,
Maryland/Washington DC., Northwest, etc.
– Code4Lib JAPAN

3

Code4Libカンファレンスの概要
• 2006年から開始
• 毎年2月に開催
• 参加者：250名～400名
– 半数以上は初参加。
• 朝食、ランチを提供
• 発表：シングルトラックセッション
– 基調講演（60分～）
– 通常発表（15～20分）: コミュニティの投票で選ばれる。
– ライトニングトーク（5分）：カンファレンス当日にWikiで。
• 分科会（ブレイクアウトセッション）
• プレカンファレンス（Tutorial, Workshops) 4

今年のカンファレンス
- Code4Lib Conference 2013 -
• 初めての大規模開催：250名→400名へ！
• 大都市シカゴでの開催！
• ストリーミングビデオ
– https://archive.org/search.php?query=code4lib+
2013

• （私自身は2010年から4年連続の参加）

5

セッション技術レビュー
（情報検索分野という観点から）

• 検索技術や検索ツールの話題
– 文献検索での関連度順ランキング手法
– 大量電子書籍の全文検索のチューニング
– あいまい検索
• 広く情報探索の話題
– 検索ログ/アクセスログの分析
– モバイル環境や統合検索の新しい検索インタフェース
– 書架ブラウジングツール

6

今回の発表セッションから
• 検索ツール系（2/12午前のセッション）
– 新しい検索手法の提案や事例報告がまとまっていた
– Practical Relevance Ranking for 10 million books
• （全文検索結果の関連度ランキング法）
– n Characters in Search of an Author
• （著者名のあいまい検索法）
– Citation search in SOLR and second-order operators
• （引用文献検索の方法）
• 情報探索・利用行動系（2/13午後のセッション）
– De-sucking the Library User Experience
• （OPACのユーザインタフェースの改良とその考え方）
– Google Analytics, Event Tracking and Discovery Tools
• （アクセスログの詳細分析；OPAC上でのイベント追跡）
– Actions speak louder than words: Analyzing large-scale query logs
to improve the research experience
• （Summonでのサーバログ分析用フレームワークの事例報告）
7

今回の発表セッションから
• 検索ツール系（2/12午前のセッション）
– 新しい検索手法の提案や事例報告がまとまっていた
– Practical Relevance Ranking for 10 million books
• （全文検索結果の関連度ランキング法）
– n Characters in Search of an Author
• （著者名のあいまい検索法）
– Citation search in SOLR and second-order operators
• （引用文献検索の方法）
• 情報探索・利用行動系（2/13午後のセッション）
– De-sucking the Library User Experience
• （OPACのユーザインタフェースの改良とその考え方）
– Google Analytics, Event Tracking and Discovery Tools
• （アクセスログの詳細分析；OPAC上でのイベント追跡）
– Actions speak louder than words: Analyzing large-scale query logs
to improve the research experience
• （Summonのログ分析環境の事例報告）
8

Towards Practical Relevance Ranking
for 10 million books (1)
• 発表者：Tom Burton-West（ミシガン大学図書館）
• HathiTrustでの全文検索エンジンSolrを使った全文検
索サービスからの事例報告
– 70機関以上の図書館が収集した電子書籍リポジトリ
– 約1,050万冊
– 450TB（画像：JPEG2000+TIFF, OCRテキスト, メタデータ）
• 検索における課題
– 超大規模な文書群に対する全文検索
– 多言語（400言語超）
– OCR性能のばらつき
– 全文検索の関連度ランキングの性能評価
– （INEXでの参加報告） 9

Towards Practical Relevance Ranking
for 10 million books (2)
• Solr標準のキーワード重み付け評価法
– TF*IDF
– 文書長による正規化が効きすぎている。
• 既存のランキング評価イニシアティブとの比較、経験
– 書籍の文書長：760KB（10万語）
– 多言語： “die hard” vs (ドイツ語)“die”
• 検索対象：
– 書籍全体？章？節？ページ？
• 全文検索における最適化、テスト：
– より自動化したい…
– 求む、テストコレクション…
10

n Characters in Search of an Author (1)
• 発表者：Jay Luker（ハーバード・スミソニアン天体
物理学センター）
• 著者名検索の課題（あいまい検索）
– ノイズを増やさず、できるだけヒットさせたい
– 異体字（ウムラウト等）
– 読み変え；改姓；…
• Solrインデックス用のフィルタを開発！

11

（自分の経験から）
• 研究者総覧SAMURAIにおけるキーワード検索
– http://samurai.nims.go.jp/search.html
– Solrベース
– キーワードの重み付け
• 文書長の正規化は止めた
– 氏名検索用に異体字展開
• 高⇔髙, 﨑⇔崎, etc.
– Cf. http://kanji-database.sourceforge.net/

12

まとめにかえて
• トピック
– 次世代目録システム, OPAC 2.0的な話題は少なめに…
– 技術的により深く先進的な（より狭い？）手法の開発
• 学術研究レベルの技術評価や実装も
– コミュニティの深化、多様性の強調 (Code of Conduct)
– エモーション：Aaron Swartz
• 来年は？
– 現在、開催都市の選考中（来月中には決定）
• オースティン (TX), ノースカロライナ (NC)
– 発表採択方式：プログラム委員会方式へ？
• JAPANからの貢献を
– 日本での様々な試みも紹介を！反応はすごいです！
– 国内でもカンファレンスを！ 13

Code4Lib 2013参加報告

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (18)

Similar to Code4Lib 2013参加報告

Similar to Code4Lib 2013参加報告 (20)

More from Masao Takaku

More from Masao Takaku (20)

Recently uploaded

Recently uploaded (11)

Code4Lib 2013参加報告