More Related Content
More from Yuka Egusa (20)
教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)
- 2. 背景
• 様々な論文データベース
– 作成方針が様々
• シームレスにつなげて利用したいニーズの高まり
• 解決策:例えば、リンクリゾルバ
– なかなかうまくできない現実
– 表記の揺れがあり、そのままの書誌データではうまくつなげられな
い
– 統一的なIDがない(IDがあればつなげるのは簡単)
• すべてにIDが付与されているわけではない。
– 過去に作成した膨大なデータをどうするか?
• (新しい論文はIDがついている(DOIなど)、付けられるとしてよいとしても)
- 3. 目的
• モチベーション:
– 異なる作成方針のデータベースをシームレスに
つなげたい
• 基礎的な調査として
– 2つの異なる作成方針のデータベースの重複率
の調査
– 調査手法の確立
- 4. 対象データベース(1)
‐‐ 教育研究論文索引(EPI) ‐‐
• 国立教育政策研究所教育研究情報センター教育図
書館(以降は教育図書館と呼ぶ)が作成
• 教育分野の研究論文や記事のみを収録
• 収録対象誌
– 教育図書館が受け入れた大学紀要すべて
– 教育関係雑誌(学協会、商業誌)約300誌
• 181,294件(2011年3月時点)
- 5. 対象データベース(2)
‐‐ CiNii(サイニィ) ‐‐
• 国立情報学研究所(NII)が作成
• 複数のデータベース作成機関より提供されたデータ
ベースを統合したデータベース
– 引用文献索引データベース(NII)
自然科学分野の論文の引用文献
– NACSIS‐ELS(NII)
大学紀要や学協会誌など
– 雑誌記事索引(国立国会図書館)
学協会誌、商業誌なども含む
– J‐STAGE(科学技術振興機構)など
学協会誌
• 14,727,980件(2011/05/22 現在)
- 6. 調査結果
• EPI(教育研究論文索引)
• CiNii (サイニィ)
重複率(EPIのうち、
CiNiiにもあるレコード)は:
CiNii
59% ~ 64%
※EPI とCiNii に重複しているレコードは,
EPIの164,643 件中,
少なくとも97,166 件(59%)は ある。
サンプル調査の結果では、64%であった。 EPI
- 7. 調査方法と調査時期
• 調査方法
– 全数調査:全てのレコードを対象
– サンプル調査:サンプル1000件のレコードを対象
• 調査時期
– 第1期・・・2009年2月20日~2010年3月19日
– 第2期・・・2010年3月30日~2011年2月4日
- 8. 全データ
調査方法(全数調査)
を抽出
TSV
論文書誌
論文書誌 同じ論文をさす
EPI CiNii
論文書誌
論文書誌 かどうか
・
・ 人手判定
・
相澤のiLinkageによる
レコード同定の手法 候補検出
プログラム
類 TSV
似
度 論文書誌EPI01 候補論文書誌CiNii01 正解
順 論文書誌EPI02 候補論文書誌CiNii02 不正解 本当にCiNiiに
論文書誌EPI03 候補論文書誌CiNii03 不正解 ないかは不明
・
・
・ 一致率が著しく低下したら中止する
- 9. 候補論文出力例
• EPI書誌ID: EA00000770
• EPIの書誌データ: 松本昭彦 中古・中世文学に見る
「七歳」の意味 小学校満六歳入学制の淵源として
三重大学教育学部研究紀要 教育科学 三重大学
教育学部 59 311 320 2008
• CiNiiの書誌データ: 著者: 松本 昭彦 Matsumoto
Akihiko;論題: 中古 中世文学に見る 七歳 の意味
小学校満六歳入学制の淵源として; 掲載誌: 三重
大学教育学部紀要 自然 人文 社会 教育科学;巻
号: 59;ページ: 1‐10;発行年: 2008
• CiNiiのURL: http://ci.nii.ac.jp/naid/120001164708
• 類似度: 0.150938
- 10. 調査方法(サンプル調査)
ランダムに
1000件抽出
TSV
論文書誌
同じ論文をさす
EPI 論文書誌 CiNii
論文書誌
論文書誌 かどうか
人手判定
相澤のiLinkageによる
レコード同定の手法 候補検出
プログラム CiNiiにある
かどうか
TSV 人手調査
論文書誌EPI01 候補論文書誌CiNii01 正解
論文書誌EPI02 候補論文書誌CiNii02 不正解 CiNiiにあり
論文書誌EPI03 候補論文書誌CiNii03 不正解 CiNiiになし
- 11. EPIレコード数(予稿集:表2)
削除レコード1件を除き
1期分をすべて含む 候補がな
かったもの
手順 第1期 第2期
データ取得 154,624 164,643
‐1,378
候補検出 154,624 163,265
‐94,309
人手判定候補 154,624 68,956
人手判定 99,500 17,000
第1期ですでに判定済みのもの
(当該候補CiNii 論文データが不一致と判明しているもの,もしくは
すでに,EPI 論文データと一致CiNii 論文データが判明しているの)
- 13. サンプル調査結果(p.128 表7)
138 = 355 =
639 = 361 =
つまり、レコード1000件中639件
CiNiiにもあるレコードである。
63.9%が重複する
- 14. 361
本文の有無
有料 定額公開 オープンアクセス
639 8, 7% 6, 6%
重複論文
重複なし
108,
17% 95,
87%
528, ※CiNiiのAPIのうち、
83% 2011年5月23日に
追加された項目:
本文の有無 「CiNii本文有無と提供条件」
本文あり 本文なし を使用して調査した
- 15. まとめ
• 全数調査(類似度の高いものから全て):
– 第1期は99,500レコードの人手判定
– 第2期は17,000レコードの人手判定
– EPI:164643件中少なくとも98,222件(59.7%)はCiNiiにもある
重複したレコード
• サンプル調査(1000件のランダム抽出):
– EPI:1000件のうち、639件(63.9%)はCiNiiにもある重複した
レコード
– うち、本文があるものは108件であり、1000件のうち10.8%
は本文があった。
• この結果は教育図書館の実サービスに反映
– EPIからCiNiiへのリンクが実現
- 18. 調査時期(予稿集:表1)
手順 第1期 第2期
データ取得 ’09年2月20日 ’10年3月30日
候補検出 ’09年3月15日 ’10年4月22日
’09年12月7日 ’10年11月25日
人手判定 ~ ~
’10年3月19日 ’11年2月4日
- 21. EPIレコード例
• 書誌ID: EA00000770
• 論題名: 中古・中世文学に見る「七歳」の意味―
小学校満六歳入学制の淵源として
• 掲載誌名: 三重大学教育学部研究紀要
• 巻号: 59
• 著者: 松本昭彦
• 発行日付: 2008.3
• ISSN: 0389925X
• 掲載ページ: 311-320
- 27. レコードの人手判定
• 論文書誌情報が単に同一のものであるか否か
を見るだけではない
• 粒度や,いくつかの情報源を参照しながら判定
を行う
• 書誌レコードの粒度が異なる場合は異なるレ
コードと判定
– 例:
• 特集号全体を1つのレコードとしたものと,
• 特集号の中の1 論文が1 つのレコードとなっているもの
→ 異なるレコードとして判定する