Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
学術コンテンツサービスでの活用事例
国立情報学研究所
大向 一輝
@i2k
自己紹介
•  対象
•  ソーシャルメディア:ブログ・SNS・Twitter…
•  学術情報サービス・ビブリオメトリクス
•  技術
•  セマンティックウェブ・Linked Open Data(LOD)
•  ネットワーク分析・データマイ...
自己紹介
国立情報学研究所(NII)
NIIの2つのミッション
学術基盤推進部
「研究と事業を車の両輪として情報学による未来価値を創成」
NIIの略史
年 月 事 項
昭和51(1976)年5月 東京大学情報図書館学研究センター発足
昭和58(1983)年4月
東京大学文献情報センター設置(情報図書館学研究
センターを改組)
昭和61(1986)年4月 学術情報センター(NACS...
図書館文化と検索技術
•  少なくとも2000年以上の歴史
•  大量の情報を「探す」「見つける」不変のミッション
•  コンピュータ以前の検索
•  冊子体目録(カタログ)
•  カード目録
•  1960s∼:電算化とOPAC
•  専門技...
図書館文化と検索技術
•  形態素解析?N-Gram?
•  分かち書き
•  分かち書きは、検索語となる自立語を対象とする。日
本語の場合は、日本語として不自然でない意味のまと
まりで分かち書きを行う。
•  例外多数
•  地名に付属する「...
図書館文化と検索技術
•  かな漢字変換?
•  読みの付与
•  ウェブらしさを考える本
•  →ウェブ△ラシサ△ヲ△カンガエル△ホン
•  三國志
•  →サンゴクシ?san guo zhi?
•  多言語対応
•  翻字と包摂
•  ß→...
包摂の例
図書館文化と検索技術
•  各言語の取り扱いは国ごと・言語圏ごとに大きく異なる
•  グローバルに1つの検索エンジンは可能か?
•  初学者の存在
•  文化受容の歴史(和製英語・和製漢語)
•  大学図書館・研究図書館における再現率の重視
•...
NIIの学術コンテンツサービス
論文
  CiNii Articles
  NII-ELS / REO
図書・雑誌
  CiNii Books
  NACSIS-CAT
報告書
  KAKEN
機関リポジトリ
  JAIRO
  JAIRO C...
2つのCiNii
1800万件の
日本語論文データを検索
800万件はダウンロード可能
大学図書館1200館の
1100万種類・1億2000万冊の
本のデータを検索
Articles Books
Articles
Books
Articles API
Books API
OpenSearch
100,946,269
RDF
182,235,701
OpenSearch
9,902,483
RDF
8,512,362
2つ(3つ)のCiNii
•  CiNiiArticles(2009∼)論文
•  検索エンジン:某社某パッケージ+Solr
•  DB:PostgreSQL
•  CiNii Books(2011∼)図書
•  検索エンジン:Solr
•  ...
CiNii BooksとSolr
•  Articlesは2007年仕様策定、当時はOSS採用への抵抗感あり
•  Booksは2009年開発開始、事例の増加と商用パッケージはエ
ンタープライズ検索に特化傾向
•  図書館文化との親和性
•  ...
CiNii BooksとSolr
•  搭載データ
•  書誌:11,055,402
•  著者:1,656,648
•  週次で全件を再投入(業務プロセス簡略化のため)
•  安定稼働
•  リリース以来Solr起因のトラブルは皆無
•  法...
KAKEN/SEIKA
•  KAKEN:科学研究費補助金の成果報告書データベース
•  年間2000億円超の研究費の説明責任と成果のショーケース
•  研究費獲得のための先行研究調査
•  データ:課題78万件・報告書138万件
•  アクセ...
科研費の細目
新KAKEN/SEIKA
•  Riakベース
•  分散KVS
•  分類体系の変更に追従しやすい
•  スケーラビリティ・可用性への配慮
•  Version 2.0から検索エンジンにSolrを採用
•  疎結合のアーキテクチャにより責任分...
まとめ
•  図書館文化と検索技術
•  ウェブの母体
•  自然言語処理と意味処理の融合体
•  確率モデルとグラフモデルによる次世代の検索へ
学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)
学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)
学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)
学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)
Upcoming SlideShare
Loading in …5
×

学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)

5,843 views

Published on

学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)

Published in: Internet
  • Be the first to comment

学術コンテンツサービスでの活用事例@Lucene/Solr勉強会(2015.5.13)

  1. 1. 学術コンテンツサービスでの活用事例 国立情報学研究所 大向 一輝 @i2k
  2. 2. 自己紹介 •  対象 •  ソーシャルメディア:ブログ・SNS・Twitter… •  学術情報サービス・ビブリオメトリクス •  技術 •  セマンティックウェブ・Linked Open Data(LOD) •  ネットワーク分析・データマイニング •  クラウドソーシング •  オープンデータ •  内閣官房 電子行政オープンデータ実務者会議 公開支援WG •  経済産業省 IT融合フォーラム 公共データWG •  オープン&ビッグデータ活用・地方創生推進機構 利活用・普及委員会 •  NPOリンクト・オープン・データ・イニシアティブ
  3. 3. 自己紹介
  4. 4. 国立情報学研究所(NII)
  5. 5. NIIの2つのミッション 学術基盤推進部 「研究と事業を車の両輪として情報学による未来価値を創成」
  6. 6. NIIの略史 年 月 事 項 昭和51(1976)年5月 東京大学情報図書館学研究センター発足 昭和58(1983)年4月 東京大学文献情報センター設置(情報図書館学研究 センターを改組) 昭和61(1986)年4月 学術情報センター(NACSIS)設置 平成12(2000)年4月 国立情報学研究所(NII)設置(学術情報センターの 廃止・転換) 平成16(2004)年4月 大学共同利用機関法人 情報・システム研究機構  国立情報学研究所設置
  7. 7. 図書館文化と検索技術 •  少なくとも2000年以上の歴史 •  大量の情報を「探す」「見つける」不変のミッション •  コンピュータ以前の検索 •  冊子体目録(カタログ) •  カード目録 •  1960s∼:電算化とOPAC •  専門技能としての検索 •  厳密な記述規則と組織化 •  教育システム 出典:ndl.go.jp
  8. 8. 図書館文化と検索技術 •  形態素解析?N-Gram? •  分かち書き •  分かち書きは、検索語となる自立語を対象とする。日 本語の場合は、日本語として不自然でない意味のまと まりで分かち書きを行う。 •  例外多数 •  地名に付属する「史」「誌」は地名との複合形をもっ て一語とする。また、地名に行政単位等を示す語が付 属する場合は、行政単位等を示す語と「史」「誌」と の複合形をもって一語とし、地名を分割する。 •  例:日本史 仙台史 愛知△県史
  9. 9. 図書館文化と検索技術 •  かな漢字変換? •  読みの付与 •  ウェブらしさを考える本 •  →ウェブ△ラシサ△ヲ△カンガエル△ホン •  三國志 •  →サンゴクシ?san guo zhi? •  多言語対応 •  翻字と包摂 •  ß→ss Д→d 谷→穀 •  ローマ字入力:ヘボン式?訓令式?
  10. 10. 包摂の例
  11. 11. 図書館文化と検索技術 •  各言語の取り扱いは国ごと・言語圏ごとに大きく異なる •  グローバルに1つの検索エンジンは可能か? •  初学者の存在 •  文化受容の歴史(和製英語・和製漢語) •  大学図書館・研究図書館における再現率の重視 •  引用・被引用関係に基づく確からしさの評価 •  見逃しは許されない •  情報システムとしての要求の変化 •  専門家のための道具から一般向けのサービスへ •  インターネット・ウェブ
  12. 12. NIIの学術コンテンツサービス 論文   CiNii Articles   NII-ELS / REO 図書・雑誌   CiNii Books   NACSIS-CAT 報告書   KAKEN 機関リポジトリ   JAIRO   JAIRO Cloud
  13. 13. 2つのCiNii 1800万件の 日本語論文データを検索 800万件はダウンロード可能 大学図書館1200館の 1100万種類・1億2000万冊の 本のデータを検索 Articles Books
  14. 14. Articles Books
  15. 15. Articles API Books API OpenSearch 100,946,269 RDF 182,235,701 OpenSearch 9,902,483 RDF 8,512,362
  16. 16. 2つ(3つ)のCiNii •  CiNiiArticles(2009∼)論文 •  検索エンジン:某社某パッケージ+Solr •  DB:PostgreSQL •  CiNii Books(2011∼)図書 •  検索エンジン:Solr •  DB:MySQL •  CiNii Dissertations(2015∼)博士論文 •  検索・DB:ElasticSearch •  UI/UXは統一、中身は別物 •  データ構造の違い・潜在的ユーザ数の違い(A>>B>>D) •  適材適所の技術導入・楽しく開発!
  17. 17. CiNii BooksとSolr •  Articlesは2007年仕様策定、当時はOSS採用への抵抗感あり •  Booksは2009年開発開始、事例の増加と商用パッケージはエ ンタープライズ検索に特化傾向 •  図書館文化との親和性 •  多言語が同一フィールドに混在する •  アルファベットはスペース区切り、他の文字はN-Gram としたい→CJKTokenizerの拡張 •  漢字統合を含む多段的な包摂・正規化処理が必要 •  業務で作られたルールセットをそのまま利用可能に •  https://github.com/atware/lucene-tokenizers-for-multilang •  ルールセットは未公開…
  18. 18. CiNii BooksとSolr •  搭載データ •  書誌:11,055,402 •  著者:1,656,648 •  週次で全件を再投入(業務プロセス簡略化のため) •  安定稼働 •  リリース以来Solr起因のトラブルは皆無 •  法定停電時はパブリッククラウドでサービス継続 •  継続的課題 •  スケーラビリティ:大ヒットしてもコストがかけられない •  可用性:3.11の教訓・お役所的勤務体系 •  ElasticSearchのテスト・KAKEN/SEIKAの挑戦
  19. 19. KAKEN/SEIKA •  KAKEN:科学研究費補助金の成果報告書データベース •  年間2000億円超の研究費の説明責任と成果のショーケース •  研究費獲得のための先行研究調査 •  データ:課題78万件・報告書138万件 •  アクセス:検索400万・詳細表示2200万・PDFダウン ロード80万 •  要求の変化 •  毎年変更される分類体系への追従 •  他省庁の補助金制度への対応 •  現行システムはHyper Estraier+MySQL •  スケーラビリティ・可用性
  20. 20. 科研費の細目
  21. 21. 新KAKEN/SEIKA •  Riakベース •  分散KVS •  分類体系の変更に追従しやすい •  スケーラビリティ・可用性への配慮 •  Version 2.0から検索エンジンにSolrを採用 •  疎結合のアーキテクチャにより責任分界とメンテナン スが容易 •  Solrコミュニティの成果を生かしやすい •  10月リリース予定
  22. 22. まとめ •  図書館文化と検索技術 •  ウェブの母体 •  自然言語処理と意味処理の融合体 •  確率モデルとグラフモデルによる次世代の検索へ

×