SlideShare a Scribd company logo
1 of 20
Download to read offline
九州大学附属図書館eリソースサービス室
機関リポジトリ推進委員会技術ワーキンググループ
林 豊 / HAYASHI, Yutaka
hayashi.yutaka.927 at m.Kyushu-u.ac.jp
NII 2015
Day 2 Contents Session (2015.6.12)
http://www.nii.ac.jp/csi/openforum2015/
学術情報基盤オープンフォーラム
機関リポジトリと researchmap の連携
~ IRDB マッチングプロジェクト報告~
もくじ
∘ おさらい:機関リポジトリと研究者データベースの連携
参考)http://www.nii.ac.jp/irp/event/2014/OA_summit/docs/2_02.pdf
∘ 進捗報告(1):researchmap→IRDBマッチング
∘ 進捗報告(2):researchmapコンテンツインポート機能
2015/06/12
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
2
機関リポジトリと
研究者データベースの連携
1
連携パターン①
本文リンク(研究者DB→IR)
2015/06/12 4
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
連携パターンの例
① 研究者DB→機関リポジトリへの本文リンク
• 研究者DBにはコンテンツがない
• 機関リポジトリ(など)へリンクするとユーザが嬉しい
② 機関リポジトリ→研究者DBへの著者名リンク
• 機関リポジトリには著者プロフィールや網羅的な業績情報がない
• 研究者DBへリンクするとユーザが嬉しい
③ 研究者DB経由でセルフアーカイブ
• 研究者DBはデータ入力に強制力がある
• ついでにコンテンツも登録してもらえたら……
2015/06/12
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
5
∘ 日本最大の研究者DB
• JST運営/NII開発
• 無料
• 登録者数:24.3万人(2015.6)
• メタデータ取込機能:CiNii, J-GLOBAL,
PubMed, Amazon, Scopus
• 外部連携:e-Rad, JREC-IN Portal
• API提供
∘ 機関のDBとしての活用
• 北海道大学(API)
• 札幌医科大学(API)
• 京都大学(API)
• 近畿大学、など
2015/06/12
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
6
自動業績収集
エンジン
大学
CSV
n アクセス
外部
DB
業績登録
エンジン
hoge教授
業績
1. ○○○の分析
(m アクセス)
2. ×××の研究
(n アクセス)
hoge 著
①通知
②登録
③リンク
×
IR連携
エンジン
OpenDepo
リポジトリ ④リンク
⑤統計表示
易:①②③
難:④⑤
×××の研究
進捗報告(1)
researchmap→IRDBマッチング
2
プロジェクト概要
∘ researchmapの業績データ(paper)
→IRDBのメタデータのマッチング手法の開発
∘ 機関リポジトリ推進委員会技術WG(の一部)
• 佐藤主査、山地先生、青山先生、前田係長、林
∘ 2015年1月~5月
∘ テレビ会議 x 6回
∘ 筑波大学のデータをもとに
トライ&エラーでアルゴリズムをチューニング
2015/06/12 9
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
research
map(paper)
1,582,149件
IRDB
(本文あり)
1,525,592件
?件マッチ?
技術的課題
2015/06/12
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
11
問題点 対応策
①DOIの少なさ
②完全一致率の低さ • あいまい検索(後述)
• バイグラム一致率の閾値:日本語=8割、英語=9割
③掲載誌名略称 • SHERPA/RoMEO APIで正式名称に変換
④書誌情報表記の揺れ 正規化処理
• 全角文字→半角文字
• 大文字→小文字
• ギリシャ文字、キリル文字→アルファベット
• カッコなどの記号
• 冠詞の除去(the, a, an)
• 数字のみに(No.16→16)
• 14-24 → 開始ページ: 14, 終了ページ: 24 など
⑤マッチング処理速度
(当初は1件あたり1分以上!)
• researchmapの業績データを重複除去
• IRDBを出版年で分割(前後含めた3年のみマッチング)
あいまい検索(バイグラム一致率)
① 比較する文字列をそれぞれバイグラムで分解する
• cats => ' c', 'ca', 'at', 'ts', 's '
• castles => ' c', 'ca', 'as', 'st', 'tl', 'le', 'es', 's '
② 全要素(重複除く)をベースにしたベクトルを考える
• (' c', as, at, ca, es, le, 's ', st, tl, ts) をベースに
• cats = (1, 0, 1, 1, 0, 0, 1, 0, 0, 1)
• castles = (1, 1, 0, 1, 1, 1, 1, 1, 1, 0)
③ ともに≠0の割合を求める
• catsとcastlesのバイグラム一致率は3/10 →不一致
2015/06/12
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム
12
マッチング成功
DOIの一致検索
正規化処理
タイトルで
バリデーション
掲載誌名・巻・号
ページの一致検索
タイトルの
あいまい検索
タイトルで
バリデーション
掲載誌名・巻・号・
ページでバリデーション
マッチング失敗
○
×
×
×
○
×
○
×
○
○
○×
今回はパス
rmap
(paper、重複除去)
1,080,556件
IRDB
(本文あり)
1,525,592件20,000件/時
(6スレッド)
65,859件(6.1%)
マッチ成功!
- DOI: 6,612 件
- 掲載誌名等: 13,553 件
- タイトル: 45,694 件
0.00%
2.00%
4.00%
6.00%
8.00%
10.00%
12.00%
14.00%
1980 1982 1984 1986 1988 1990 1992 1994 1996 1998 2000 2002 2004 2006 2008 2010 2012 2014
WoS Articles Open Access Ratio 1980-2015 (InCites)
Hokkaido University Kyoto University Kyushu University Nagoya University
Osaka University Tohoku University University of Tokyo
researchmap
1,080,556件
IRDB
1,525,592件
マッチ成功 マッチ成功
マッチすべき
なのに失敗
OAに
できるもの
OAに
できないもの
researchmap
にないもの
マッチすべき
なのに失敗
65,859件
?件
リポジトリへの登録
を促す!
65,859件
CiNii
Articles
15,930,423 件
2,400件/時
(6スレッド)
45,502件(19.1%)
マッチ成功!
rmap
(paper、重複除去)
1,080,556件
238,037件(22.0%)
処理完了
- DOI: 2,704 件
- 掲載誌名等: 14,460 件
- タイトル: 28,238 件
進捗報告(2)
researchmapコンテンツインポート機能
3
1
2
3
JAIRO Cloudで
条件を設定しておくと
researchmapに
該当の業績が登録されたら
メールが届くように
選択してボタンを押すだけで
(SWORDプロトコルで)
JAIRO Cloudにインポート!
※今はメタデータのみ
オープンサイエンスとresearchmap
∘ 「技術の力で100% OAを!」―100%って?
• リポジトリでは分からない
• メタデータを網羅できるのは業績DB ⇒日本最大のresearchmap
∘ researchmap×リポジトリの可能性
• researchmapに業績登録→リポジトリに登録というワークフロー?
• OA方針の実施結果のモニタリングに?
• 日本の研究成果(OA含む)を網羅した分野/タイプを限定しないポータル?
∘ やるべきこと
• researchmap自体の利用促進
• 確実なリンキングのための識別子の普及(JaLC DOI、ORCIDなど)
• 研究者が手軽にきれいなメタデータを入力する方法(PDF抽出など)
• きれいなメタデータをresearchmapに戻す? ……など。
2015/06/12 20
NII 2015
Day 2 Contents Session
学術情報基盤オープンフォーラム

More Related Content

Similar to 機関リポジトリとresearchmapの連携〜IRDBマッチングプロジェクト報告〜

20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業kulibrarians
 
リテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ssリテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ssEriko Amano
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)Ikki Ohmukai
 
学術資源リポジトリ協議会 第14回勉強会資料
学術資源リポジトリ協議会 第14回勉強会資料学術資源リポジトリ協議会 第14回勉強会資料
学術資源リポジトリ協議会 第14回勉強会資料Masaharu Hayashi
 
#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方Yasushi Hara
 
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...Yasushi Hara
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析yamahige
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper. challenge
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネスMie Mori
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストMasao Takaku
 
Ogura LOD at code4lib_20180901
Ogura LOD at code4lib_20180901Ogura LOD at code4lib_20180901
Ogura LOD at code4lib_20180901Nanako Takahashi
 
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーションMasao Takaku
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表verskdmai
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドMasaharu Munetomo
 
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)Tomoyoshi YOSHINO
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索uedayou
 

Similar to 機関リポジトリとresearchmapの連携〜IRDBマッチングプロジェクト報告〜 (20)

20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
 
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
20031001 ku-librarians勉強会 #49 : レファレンス協同データベース実験事業
 
リテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ssリテラシー研修 Amano 201210_ss
リテラシー研修 Amano 201210_ss
 
つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)つながる目録、つながるサービス@図書館総合展(2015.11.12)
つながる目録、つながるサービス@図書館総合展(2015.11.12)
 
学術資源リポジトリ協議会 第14回勉強会資料
学術資源リポジトリ協議会 第14回勉強会資料学術資源リポジトリ協議会 第14回勉強会資料
学術資源リポジトリ協議会 第14回勉強会資料
 
#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方
 
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
 
コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析コンピューターの整列処理におけるデータ操作の時間的共起分析
コンピューターの整列処理におけるデータ操作の時間的共起分析
 
cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演cvpaper.challenge チームラボ講演
cvpaper.challenge チームラボ講演
 
Big data解析ビジネス
Big data解析ビジネスBig data解析ビジネス
Big data解析ビジネス
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
Code4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェストCode4Lib 2010報告会・発表ダイジェスト
Code4Lib 2010報告会・発表ダイジェスト
 
Ogura LOD at code4lib_20180901
Ogura LOD at code4lib_20180901Ogura LOD at code4lib_20180901
Ogura LOD at code4lib_20180901
 
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション「ふわっと関連検索」 CiNii APIを使ったアプリケーション
「ふわっと関連検索」 CiNii APIを使ったアプリケーション
 
Infosta実習 発表ver
Infosta実習 発表verInfosta実習 発表ver
Infosta実習 発表ver
 
Xspaの5年間
Xspaの5年間Xspaの5年間
Xspaの5年間
 
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
 
ビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウドビッグデータ時代のアカデミッククラウド
ビッグデータ時代のアカデミッククラウド
 
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
1日で学ぶ図書館業務基礎知識(ステップアップ・ライブラリアン Part-1)
 
汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索汎用Web API“SPARQL”でオープンデータ検索
汎用Web API“SPARQL”でオープンデータ検索
 

More from Yutaka HAYASHI

オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)
オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)
オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)Yutaka HAYASHI
 
オープンアクセスと機関リポジトリ
オープンアクセスと機関リポジトリオープンアクセスと機関リポジトリ
オープンアクセスと機関リポジトリYutaka HAYASHI
 
みんなで情報発信すれば世界はハッピーになる(仮)
みんなで情報発信すれば世界はハッピーになる(仮)みんなで情報発信すれば世界はハッピーになる(仮)
みんなで情報発信すれば世界はハッピーになる(仮)Yutaka HAYASHI
 
Discovery is not enough: from an experience of a research university in Japan
Discovery is not enough: from an experience of a research university in JapanDiscovery is not enough: from an experience of a research university in Japan
Discovery is not enough: from an experience of a research university in JapanYutaka HAYASHI
 
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心にYutaka HAYASHI
 
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせる
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせるJAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせる
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせるYutaka HAYASHI
 
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心にYutaka HAYASHI
 
国内の公共図書館における電子書籍サービスの動向
国内の公共図書館における電子書籍サービスの動向国内の公共図書館における電子書籍サービスの動向
国内の公共図書館における電子書籍サービスの動向Yutaka HAYASHI
 
クリックしないリンクリゾルバの作り方
クリックしないリンクリゾルバの作り方クリックしないリンクリゾルバの作り方
クリックしないリンクリゾルバの作り方Yutaka HAYASHI
 

More from Yutaka HAYASHI (10)

Open Access: A Primer
Open Access: A PrimerOpen Access: A Primer
Open Access: A Primer
 
オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)
オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)
オープンアクセスモニタリングと欧州のOpenAIREプロジェクト(ドイツ出張報告)
 
オープンアクセスと機関リポジトリ
オープンアクセスと機関リポジトリオープンアクセスと機関リポジトリ
オープンアクセスと機関リポジトリ
 
みんなで情報発信すれば世界はハッピーになる(仮)
みんなで情報発信すれば世界はハッピーになる(仮)みんなで情報発信すれば世界はハッピーになる(仮)
みんなで情報発信すれば世界はハッピーになる(仮)
 
Discovery is not enough: from an experience of a research university in Japan
Discovery is not enough: from an experience of a research university in JapanDiscovery is not enough: from an experience of a research university in Japan
Discovery is not enough: from an experience of a research university in Japan
 
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に
国立国会図書館出向報告―カレントアウェアネス-Eの編集経験を中心に
 
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせる
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせるJAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせる
JAIRO Cloud & researchmap:機関リポジトリと研究者DBの連携をクラウドへリフトさせる
 
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に
最近のOPACの動向―次世代OPAC、ディスカバリーサービスを中心に
 
国内の公共図書館における電子書籍サービスの動向
国内の公共図書館における電子書籍サービスの動向国内の公共図書館における電子書籍サービスの動向
国内の公共図書館における電子書籍サービスの動向
 
クリックしないリンクリゾルバの作り方
クリックしないリンクリゾルバの作り方クリックしないリンクリゾルバの作り方
クリックしないリンクリゾルバの作り方
 

機関リポジトリとresearchmapの連携〜IRDBマッチングプロジェクト報告〜