Your SlideShare is downloading. ×
0
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Code4Lib 2013参加報告

506

Published on

Code4Lib 2013参加報告会での発表スライドです。 …

Code4Lib 2013参加報告会での発表スライドです。
https://www.facebook.com/events/312000325589268/

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
506
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Code4Lib 2013参加報告 (セッション聴講を中心に) 2013年3月24日(土)Code4Lib Conference 2013参加報告会 高久雅生 @tmasao 1
  • 2. 自己紹介:高久雅生• 所属:物質・材料研究機構科学情報室 エンジニア – 研究所専門図書館におけるWeb系サービスの研究開発・運 用を担当 • 図書館管理システム, 研究者総覧, 機関リポジトリ• 専門分野:図書館情報学 – 情報検索、情報行動、電子図書館• コミュニティ活動 – Code4Lib JAPANコアメンバー (2010-) – saveMLAKシステム担当 (2011-) – 情報科学技術協会『情報の科学と技術』編集委員 (2009-), 諮問委員 (2012-) – 情報知識学会 理事 (2008-) – ジャパンリンクセンター運営委員会システム技術分科会委 員 (2012-) 2
  • 3. Code4Libのコミュニティ• 北米の図書館エンジニアを中心としたコミュニティ – オープンソースソフトウェア (Open Source Software; OSS) – 大学図書館や議会図書館、図書館関連団体、企業等に 勤める図書館員やITエンジニア• 普段はメーリングリスト、IRC(チャット)での交流• 地域コミュニティも – Code4Lib Midwest, NYC, New England, Maryland/Washington DC., Northwest, etc. – Code4Lib JAPAN 3
  • 4. Code4Libカンファレンスの概要• 2006年から開始• 毎年2月に開催• 参加者:250名~400名 – 半数以上は初参加。• 朝食、ランチを提供• 発表:シングルトラックセッション – 基調講演(60分~) – 通常発表(15~20分): コミュニティの投票で選ばれる。 – ライトニングトーク(5分):カンファレンス当日にWikiで。• 分科会(ブレイクアウトセッション)• プレカンファレンス(Tutorial, Workshops) 4
  • 5. 今年のカンファレンス - Code4Lib Conference 2013 -• 初めての大規模開催:250名→400名へ!• 大都市シカゴでの開催!• ストリーミングビデオ – https://archive.org/search.php?query=code4lib+ 2013• (私自身は2010年から4年連続の参加) 5
  • 6. セッション技術レビュー (情報検索分野という観点から)• 検索技術や検索ツールの話題 – 文献検索での関連度順ランキング手法 – 大量電子書籍の全文検索のチューニング – あいまい検索• 広く情報探索の話題 – 検索ログ/アクセスログの分析 – モバイル環境や統合検索の新しい検索インタフェース – 書架ブラウジングツール 6
  • 7. 今回の発表セッションから• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books • (全文検索結果の関連度ランキング法) – n Characters in Search of an Author • (著者名のあいまい検索法) – Citation search in SOLR and second-order operators • (引用文献検索の方法)• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience • (OPACのユーザインタフェースの改良とその考え方) – Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡) – Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonでのサーバログ分析用フレームワークの事例報告) 7
  • 8. 今回の発表セッションから• 検索ツール系(2/12午前のセッション) – 新しい検索手法の提案や事例報告がまとまっていた – Practical Relevance Ranking for 10 million books • (全文検索結果の関連度ランキング法) – n Characters in Search of an Author • (著者名のあいまい検索法) – Citation search in SOLR and second-order operators • (引用文献検索の方法)• 情報探索・利用行動系(2/13午後のセッション) – De-sucking the Library User Experience • (OPACのユーザインタフェースの改良とその考え方) – Google Analytics, Event Tracking and Discovery Tools • (アクセスログの詳細分析;OPAC上でのイベント追跡) – Actions speak louder than words: Analyzing large-scale query logs to improve the research experience • (Summonのログ分析環境の事例報告) 8
  • 9. Towards Practical Relevance Ranking for 10 million books (1)• 発表者:Tom Burton-West(ミシガン大学図書館)• HathiTrustでの全文検索エンジンSolrを使った全文検 索サービスからの事例報告 – 70機関以上の図書館が収集した電子書籍リポジトリ – 約1,050万冊 – 450TB(画像:JPEG2000+TIFF, OCRテキスト, メタデータ)• 検索における課題 – 超大規模な文書群に対する全文検索 – 多言語(400言語超) – OCR性能のばらつき – 全文検索の関連度ランキングの性能評価 – (INEXでの参加報告) 9
  • 10. Towards Practical Relevance Ranking for 10 million books (2)• Solr標準のキーワード重み付け評価法 – TF*IDF – 文書長による正規化が効きすぎている。• 既存のランキング評価イニシアティブとの比較、経験 – 書籍の文書長:760KB(10万語) – 多言語: “die hard” vs (ドイツ語)“die”• 検索対象: – 書籍全体?章?節?ページ?• 全文検索における最適化、テスト: – より自動化したい… – 求む、テストコレクション… 10
  • 11. n Characters in Search of an Author (1)• 発表者:Jay Luker(ハーバード・スミソニアン天体 物理学センター)• 著者名検索の課題(あいまい検索) – ノイズを増やさず、できるだけヒットさせたい – 異体字(ウムラウト等) – 読み変え;改姓;…• Solrインデックス用のフィルタを開発! 11
  • 12. (自分の経験から)• 研究者総覧SAMURAIにおけるキーワード検索 – http://samurai.nims.go.jp/search.html – Solrベース – キーワードの重み付け • 文書長の正規化は止めた – 氏名検索用に異体字展開 • 高⇔髙, 﨑⇔崎, etc. – Cf. http://kanji-database.sourceforge.net/ 12
  • 13. まとめにかえて• トピック – 次世代目録システム, OPAC 2.0的な話題は少なめに… – 技術的により深く先進的な( より狭い?)手法の開発 • 学術研究レベルの技術評価や実装も – コミュニティの深化、多様性の強調 (Code of Conduct) – エモーション:Aaron Swartz• 来年は? – 現在、開催都市の選考中(来月中には決定) • オースティン (TX), ノースカロライナ (NC) – 発表採択方式:プログラム委員会方式へ?• JAPANからの貢献を – 日本での様々な試みも紹介を!反応はすごいです! – 国内でもカンファレンスを! 13

×