SlideShare a Scribd company logo
1 of 27
Download to read offline
教育研究論文索引とCiNii
   の重複率
江草由佳(国立教育政策研究所)
高久雅生(物質・材料研究機構)
背景
• 様々な論文データベース
 – 作成方針が様々
• シームレスにつなげて利用したいニーズの高まり


• 解決策:例えば、リンクリゾルバ
 – なかなかうまくできない現実
 – 表記の揺れがあり、そのままの書誌データではうまくつなげられな
   い
 – 統一的なIDがない(IDがあればつなげるのは簡単)
   • すべてにIDが付与されているわけではない。
 – 過去に作成した膨大なデータをどうするか?
   • (新しい論文はIDがついている(DOIなど)、付けられるとしてよいとしても)
目的
• モチベーション:
 – 異なる作成方針のデータベースをシームレスに
   つなげたい


• 基礎的な調査として
 – 2つの異なる作成方針のデータベースの重複率
   の調査
 – 調査手法の確立
対象データベース(1)
    ‐‐ 教育研究論文索引(EPI) ‐‐
• 国立教育政策研究所教育研究情報センター教育図
  書館(以降は教育図書館と呼ぶ)が作成
• 教育分野の研究論文や記事のみを収録
• 収録対象誌
 – 教育図書館が受け入れた大学紀要すべて
 – 教育関係雑誌(学協会、商業誌)約300誌
• 181,294件(2011年3月時点)
対象データベース(2)
           ‐‐ CiNii(サイニィ) ‐‐
• 国立情報学研究所(NII)が作成
• 複数のデータベース作成機関より提供されたデータ
  ベースを統合したデータベース
  – 引用文献索引データベース(NII)
        自然科学分野の論文の引用文献
  – NACSIS‐ELS(NII)
        大学紀要や学協会誌など
  – 雑誌記事索引(国立国会図書館)
        学協会誌、商業誌なども含む
  – J‐STAGE(科学技術振興機構)など
        学協会誌
• 14,727,980件(2011/05/22 現在)
調査結果
  • EPI(教育研究論文索引)
  • CiNii (サイニィ) 
     重複率(EPIのうち、
     CiNiiにもあるレコード)は:
                                  CiNii
         59% ~ 64% 
※EPI とCiNii に重複しているレコードは,
  EPIの164,643 件中,
  少なくとも97,166 件(59%)は ある。
  サンプル調査の結果では、64%であった。      EPI
調査方法と調査時期
• 調査方法
 – 全数調査:全てのレコードを対象
 – サンプル調査:サンプル1000件のレコードを対象
• 調査時期
 – 第1期・・・2009年2月20日~2010年3月19日
 – 第2期・・・2010年3月30日~2011年2月4日
全データ
                 調査方法(全数調査)
       を抽出
                          TSV
                        論文書誌
                        論文書誌                                 同じ論文をさす
      EPI                                   CiNii
                                                              論文書誌
                        論文書誌                                  かどうか
                          ・
                          ・                                   人手判定
                          ・
    相澤のiLinkageによる
    レコード同定の手法            候補検出
                         プログラム


類                       TSV
似
度           論文書誌EPI01       候補論文書誌CiNii01              正解
順           論文書誌EPI02       候補論文書誌CiNii02              不正解    本当にCiNiiに
            論文書誌EPI03       候補論文書誌CiNii03              不正解    ないかは不明
                        ・
                        ・
                        ・                           一致率が著しく低下したら中止する
候補論文出力例
• EPI書誌ID: EA00000770
• EPIの書誌データ: 松本昭彦 中古・中世文学に見る
  「七歳」の意味 小学校満六歳入学制の淵源として
  三重大学教育学部研究紀要 教育科学 三重大学
  教育学部 59 311 320 2008
• CiNiiの書誌データ: 著者: 松本 昭彦 Matsumoto 
  Akihiko;論題: 中古 中世文学に見る 七歳 の意味
  小学校満六歳入学制の淵源として; 掲載誌: 三重
  大学教育学部紀要 自然 人文 社会 教育科学;巻
  号: 59;ページ: 1‐10;発行年: 2008
• CiNiiのURL: http://ci.nii.ac.jp/naid/120001164708
• 類似度: 0.150938
調査方法(サンプル調査)
   ランダムに
  1000件抽出
                      TSV
                    論文書誌
                                                同じ論文をさす
  EPI               論文書誌          CiNii
                                                 論文書誌
                    論文書誌                         かどうか
                                                 人手判定
相澤のiLinkageによる
レコード同定の手法            候補検出
                     プログラム                       CiNiiにある
                                                  かどうか
                     TSV                          人手調査

        論文書誌EPI01     候補論文書誌CiNii01       正解
        論文書誌EPI02     候補論文書誌CiNii02       不正解      CiNiiにあり
        論文書誌EPI03     候補論文書誌CiNii03       不正解      CiNiiになし
EPIレコード数(予稿集:表2)
         削除レコード1件を除き
          1期分をすべて含む                     候補がな
                                        かったもの
    手順            第1期        第2期
データ取得           154,624 164,643
                                       ‐1,378
候補検出            154,624 163,265
                                       ‐94,309
人手判定候補 154,624 68,956
人手判定            99,500      17,000
             第1期ですでに判定済みのもの
(当該候補CiNii 論文データが不一致と判明しているもの,もしくは
すでに,EPI 論文データと一致CiNii 論文データが判明しているの)
第1期,第2期調査のまとめ(p.128 表6)



     全164,643件中(少なくとも)98,222件
     CiNiiと重複したレコードがある
     つまり 98,222 ÷ 164,643 = 59.7%
サンプル調査結果(p.128 表7)



     138 =     355 =

     639 =     361 =
  つまり、レコード1000件中639件
  CiNiiにもあるレコードである。
  63.9%が重複する
361
                              本文の有無
                             有料   定額公開     オープンアクセス

               639                        8, 7%   6, 6%
重複論文
重複なし

                     108, 
                     17%           95, 
                                   87%


             528,                 ※CiNiiのAPIのうち、
             83%                  2011年5月23日に
                                  追加された項目:
             本文の有無                「CiNii本文有無と提供条件」
             本文あり    本文なし         を使用して調査した
まとめ
• 全数調査(類似度の高いものから全て):
 – 第1期は99,500レコードの人手判定
 – 第2期は17,000レコードの人手判定
 – EPI:164643件中少なくとも98,222件(59.7%)はCiNiiにもある
   重複したレコード
• サンプル調査(1000件のランダム抽出):
 – EPI:1000件のうち、639件(63.9%)はCiNiiにもある重複した
   レコード
 – うち、本文があるものは108件であり、1000件のうち10.8%
   は本文があった。
• この結果は教育図書館の実サービスに反映
 – EPIからCiNiiへのリンクが実現
謝辞
• 調査に使用した教育研究論文索引レコードに
  対するCiNii 論文候補検出は,相澤彰子教授
  (国立情報学研究所)が開発したレコード同
  定システムとその同定結果をご提供いただい
  たものです.深く感謝いたします.
ここからは予備スライド
調査時期(予稿集:表1)
 手順       第1期         第2期
データ取得   ’09年2月20日   ’10年3月30日
候補検出    ’09年3月15日   ’10年4月22日
        ’09年12月7日 ’10年11月25日
人手判定        ~          ~
        ’10年3月19日 ’11年2月4日
第1期判定分の結果(予稿集:表4)
第2期分の判定結果(予稿集:表5)
EPIレコード例
• 書誌ID: EA00000770
• 論題名: 中古・中世文学に見る「七歳」の意味―
  小学校満六歳入学制の淵源として
• 掲載誌名: 三重大学教育学部研究紀要
• 巻号: 59
• 著者: 松本昭彦
• 発行日付: 2008.3
• ISSN: 0389925X
• 掲載ページ: 311-320
候補検出論文の項目
• EPIの論文書誌レコードデータ
• 対応するCiNiiの候補論文書誌レコードデー
  タ,URL
• EPI論文とCiNii候補論文の類似度
類似度の分布(予稿集:表3)
サンプル調査結果(図3)
  1
0.8
0.6
0.4
0.2
  0
‐0.2 0   100   200   300   400   500   600   700   800   900   1000

‐0.4
         1:CiNiiにある 0:CiNiiにない
‐0.6
         類似度(‐1は未検出)
‐0.8
 ‐1
CiNiiに未収録の具体例   (表8)
判定の判断が難しかったレコード
• 書誌レコードを作成する際の入力ミスと推定
  されるもの
• EPI とCiNii のレコードの記述規則による違い
  によるもの
• 特集号全体と特集号の一論文など収録粒度
  の違いに起因するもの
レコードの人手判定
• 論文書誌情報が単に同一のものであるか否か
  を見るだけではない
• 粒度や,いくつかの情報源を参照しながら判定
  を行う
• 書誌レコードの粒度が異なる場合は異なるレ
  コードと判定
 – 例:
   • 特集号全体を1つのレコードとしたものと,
   • 特集号の中の1 論文が1 つのレコードとなっているもの
     → 異なるレコードとして判定する

More Related Content

More from Yuka Egusa

2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとはYuka Egusa
 
2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―Yuka Egusa
 
2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館Yuka Egusa
 
2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライドYuka Egusa
 
2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習Yuka Egusa
 
2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会Yuka Egusa
 
2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会Yuka Egusa
 
2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習Yuka Egusa
 
2013-02-04_FRBR&RDA勉強会復習
2013-02-04_FRBR&RDA勉強会復習2013-02-04_FRBR&RDA勉強会復習
2013-02-04_FRBR&RDA勉強会復習Yuka Egusa
 
2013-02-03_Wikimedia_Conference_Japan_2013
2013-02-03_Wikimedia_Conference_Japan_20132013-02-03_Wikimedia_Conference_Japan_2013
2013-02-03_Wikimedia_Conference_Japan_2013Yuka Egusa
 
2013-01-16_FRBR&RDA勉強会復習
2013-01-16_FRBR&RDA勉強会復習2013-01-16_FRBR&RDA勉強会復習
2013-01-16_FRBR&RDA勉強会復習Yuka Egusa
 
2012-12-04_saveMLAKと名取市図書館支援
2012-12-04_saveMLAKと名取市図書館支援2012-12-04_saveMLAKと名取市図書館支援
2012-12-04_saveMLAKと名取市図書館支援Yuka Egusa
 
2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウムYuka Egusa
 
2012-09-25_dlw_街並みの今をアーカイブする
2012-09-25_dlw_街並みの今をアーカイブする2012-09-25_dlw_街並みの今をアーカイブする
2012-09-25_dlw_街並みの今をアーカイブするYuka Egusa
 
2012-09-14_第10回までのFRBR&RDA勉強会復習
2012-09-14_第10回までのFRBR&RDA勉強会復習2012-09-14_第10回までのFRBR&RDA勉強会復習
2012-09-14_第10回までのFRBR&RDA勉強会復習Yuka Egusa
 
2012-09-07_第9回までのFRBR&RDA勉強会復習
2012-09-07_第9回までのFRBR&RDA勉強会復習2012-09-07_第9回までのFRBR&RDA勉強会復習
2012-09-07_第9回までのFRBR&RDA勉強会復習Yuka Egusa
 

More from Yuka Egusa (20)

2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド2013-11-28_FRBR&RDA勉強会復習スライド
2013-11-28_FRBR&RDA勉強会復習スライド
 
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
2013-10-30saveMLAKフォーラム:saveMLAKメソッドとは
 
2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド2013-10-01_FRBR&RDA勉強会復習スライド
2013-10-01_FRBR&RDA勉強会復習スライド
 
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
2013-09-01_Wiki協同入力を阻害する3つの恐怖症とその対策―saveMLAKを例として―
 
2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド2013-08-01_FRBR&RDA勉強会復習スライド
2013-08-01_FRBR&RDA勉強会復習スライド
 
2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館2013-06-30_saveMLAK2013報告会_図書館
2013-06-30_saveMLAK2013報告会_図書館
 
2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド2013-06-13_FRBR&RDA勉強会復習スライド
2013-06-13_FRBR&RDA勉強会復習スライド
 
2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド2013-05-29_FRBR&RDA勉強会復習スライド
2013-05-29_FRBR&RDA勉強会復習スライド
 
2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習2013-04-17_FRBR&RDA勉強会復習
2013-04-17_FRBR&RDA勉強会復習
 
2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会2013-04-02_FRBR&RDA勉強会
2013-04-02_FRBR&RDA勉強会
 
2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会2013-03-24_code4lib2013報告会
2013-03-24_code4lib2013報告会
 
2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習2013-02-19_FRBR&RDA勉強会復習
2013-02-19_FRBR&RDA勉強会復習
 
2013-02-04_FRBR&RDA勉強会復習
2013-02-04_FRBR&RDA勉強会復習2013-02-04_FRBR&RDA勉強会復習
2013-02-04_FRBR&RDA勉強会復習
 
2013-02-03_Wikimedia_Conference_Japan_2013
2013-02-03_Wikimedia_Conference_Japan_20132013-02-03_Wikimedia_Conference_Japan_2013
2013-02-03_Wikimedia_Conference_Japan_2013
 
2013-01-16_FRBR&RDA勉強会復習
2013-01-16_FRBR&RDA勉強会復習2013-01-16_FRBR&RDA勉強会復習
2013-01-16_FRBR&RDA勉強会復習
 
2012-12-04_saveMLAKと名取市図書館支援
2012-12-04_saveMLAKと名取市図書館支援2012-12-04_saveMLAKと名取市図書館支援
2012-12-04_saveMLAKと名取市図書館支援
 
2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム2012-10-07_2012年度大橘会交流会・公開シンポジウム
2012-10-07_2012年度大橘会交流会・公開シンポジウム
 
2012-09-25_dlw_街並みの今をアーカイブする
2012-09-25_dlw_街並みの今をアーカイブする2012-09-25_dlw_街並みの今をアーカイブする
2012-09-25_dlw_街並みの今をアーカイブする
 
2012-09-14_第10回までのFRBR&RDA勉強会復習
2012-09-14_第10回までのFRBR&RDA勉強会復習2012-09-14_第10回までのFRBR&RDA勉強会復習
2012-09-14_第10回までのFRBR&RDA勉強会復習
 
2012-09-07_第9回までのFRBR&RDA勉強会復習
2012-09-07_第9回までのFRBR&RDA勉強会復習2012-09-07_第9回までのFRBR&RDA勉強会復習
2012-09-07_第9回までのFRBR&RDA勉強会復習
 

教育研究論文索引とCiNiiの重複率(情報知識学会 第19 回(2011年度)年次大会)

  • 1. 教育研究論文索引とCiNii の重複率 江草由佳(国立教育政策研究所) 高久雅生(物質・材料研究機構)
  • 2. 背景 • 様々な論文データベース – 作成方針が様々 • シームレスにつなげて利用したいニーズの高まり • 解決策:例えば、リンクリゾルバ – なかなかうまくできない現実 – 表記の揺れがあり、そのままの書誌データではうまくつなげられな い – 統一的なIDがない(IDがあればつなげるのは簡単) • すべてにIDが付与されているわけではない。 – 過去に作成した膨大なデータをどうするか? • (新しい論文はIDがついている(DOIなど)、付けられるとしてよいとしても)
  • 3. 目的 • モチベーション: – 異なる作成方針のデータベースをシームレスに つなげたい • 基礎的な調査として – 2つの異なる作成方針のデータベースの重複率 の調査 – 調査手法の確立
  • 4. 対象データベース(1) ‐‐ 教育研究論文索引(EPI) ‐‐ • 国立教育政策研究所教育研究情報センター教育図 書館(以降は教育図書館と呼ぶ)が作成 • 教育分野の研究論文や記事のみを収録 • 収録対象誌 – 教育図書館が受け入れた大学紀要すべて – 教育関係雑誌(学協会、商業誌)約300誌 • 181,294件(2011年3月時点)
  • 5. 対象データベース(2) ‐‐ CiNii(サイニィ) ‐‐ • 国立情報学研究所(NII)が作成 • 複数のデータベース作成機関より提供されたデータ ベースを統合したデータベース – 引用文献索引データベース(NII) 自然科学分野の論文の引用文献 – NACSIS‐ELS(NII) 大学紀要や学協会誌など – 雑誌記事索引(国立国会図書館) 学協会誌、商業誌なども含む – J‐STAGE(科学技術振興機構)など 学協会誌 • 14,727,980件(2011/05/22 現在)
  • 6. 調査結果 • EPI(教育研究論文索引) • CiNii (サイニィ)  重複率(EPIのうち、 CiNiiにもあるレコード)は: CiNii 59% ~ 64%  ※EPI とCiNii に重複しているレコードは, EPIの164,643 件中, 少なくとも97,166 件(59%)は ある。 サンプル調査の結果では、64%であった。 EPI
  • 7. 調査方法と調査時期 • 調査方法 – 全数調査:全てのレコードを対象 – サンプル調査:サンプル1000件のレコードを対象 • 調査時期 – 第1期・・・2009年2月20日~2010年3月19日 – 第2期・・・2010年3月30日~2011年2月4日
  • 8. 全データ 調査方法(全数調査) を抽出 TSV 論文書誌 論文書誌 同じ論文をさす EPI CiNii 論文書誌 論文書誌 かどうか ・ ・ 人手判定 ・ 相澤のiLinkageによる レコード同定の手法 候補検出 プログラム 類 TSV 似 度 論文書誌EPI01 候補論文書誌CiNii01 正解 順 論文書誌EPI02 候補論文書誌CiNii02 不正解 本当にCiNiiに 論文書誌EPI03 候補論文書誌CiNii03 不正解 ないかは不明 ・ ・ ・ 一致率が著しく低下したら中止する
  • 9. 候補論文出力例 • EPI書誌ID: EA00000770 • EPIの書誌データ: 松本昭彦 中古・中世文学に見る 「七歳」の意味 小学校満六歳入学制の淵源として 三重大学教育学部研究紀要 教育科学 三重大学 教育学部 59 311 320 2008 • CiNiiの書誌データ: 著者: 松本 昭彦 Matsumoto  Akihiko;論題: 中古 中世文学に見る 七歳 の意味 小学校満六歳入学制の淵源として; 掲載誌: 三重 大学教育学部紀要 自然 人文 社会 教育科学;巻 号: 59;ページ: 1‐10;発行年: 2008 • CiNiiのURL: http://ci.nii.ac.jp/naid/120001164708 • 類似度: 0.150938
  • 10. 調査方法(サンプル調査) ランダムに 1000件抽出 TSV 論文書誌 同じ論文をさす EPI 論文書誌 CiNii 論文書誌 論文書誌 かどうか 人手判定 相澤のiLinkageによる レコード同定の手法 候補検出 プログラム CiNiiにある かどうか TSV 人手調査 論文書誌EPI01 候補論文書誌CiNii01 正解 論文書誌EPI02 候補論文書誌CiNii02 不正解 CiNiiにあり 論文書誌EPI03 候補論文書誌CiNii03 不正解 CiNiiになし
  • 11. EPIレコード数(予稿集:表2) 削除レコード1件を除き 1期分をすべて含む 候補がな かったもの 手順 第1期 第2期 データ取得 154,624 164,643 ‐1,378 候補検出 154,624 163,265 ‐94,309 人手判定候補 154,624 68,956 人手判定 99,500 17,000 第1期ですでに判定済みのもの (当該候補CiNii 論文データが不一致と判明しているもの,もしくは すでに,EPI 論文データと一致CiNii 論文データが判明しているの)
  • 12. 第1期,第2期調査のまとめ(p.128 表6) 全164,643件中(少なくとも)98,222件 CiNiiと重複したレコードがある つまり 98,222 ÷ 164,643 = 59.7%
  • 13. サンプル調査結果(p.128 表7) 138 = 355 = 639 = 361 = つまり、レコード1000件中639件 CiNiiにもあるレコードである。 63.9%が重複する
  • 14. 361 本文の有無 有料 定額公開 オープンアクセス 639 8, 7% 6, 6% 重複論文 重複なし 108,  17% 95,  87% 528,  ※CiNiiのAPIのうち、 83% 2011年5月23日に 追加された項目: 本文の有無 「CiNii本文有無と提供条件」 本文あり 本文なし を使用して調査した
  • 15. まとめ • 全数調査(類似度の高いものから全て): – 第1期は99,500レコードの人手判定 – 第2期は17,000レコードの人手判定 – EPI:164643件中少なくとも98,222件(59.7%)はCiNiiにもある 重複したレコード • サンプル調査(1000件のランダム抽出): – EPI:1000件のうち、639件(63.9%)はCiNiiにもある重複した レコード – うち、本文があるものは108件であり、1000件のうち10.8% は本文があった。 • この結果は教育図書館の実サービスに反映 – EPIからCiNiiへのリンクが実現
  • 16. 謝辞 • 調査に使用した教育研究論文索引レコードに 対するCiNii 論文候補検出は,相澤彰子教授 (国立情報学研究所)が開発したレコード同 定システムとその同定結果をご提供いただい たものです.深く感謝いたします.
  • 18. 調査時期(予稿集:表1) 手順 第1期 第2期 データ取得 ’09年2月20日 ’10年3月30日 候補検出 ’09年3月15日 ’10年4月22日 ’09年12月7日 ’10年11月25日 人手判定 ~ ~ ’10年3月19日 ’11年2月4日
  • 21. EPIレコード例 • 書誌ID: EA00000770 • 論題名: 中古・中世文学に見る「七歳」の意味― 小学校満六歳入学制の淵源として • 掲載誌名: 三重大学教育学部研究紀要 • 巻号: 59 • 著者: 松本昭彦 • 発行日付: 2008.3 • ISSN: 0389925X • 掲載ページ: 311-320
  • 24. サンプル調査結果(図3) 1 0.8 0.6 0.4 0.2 0 ‐0.2 0 100 200 300 400 500 600 700 800 900 1000 ‐0.4 1:CiNiiにある 0:CiNiiにない ‐0.6 類似度(‐1は未検出) ‐0.8 ‐1
  • 26. 判定の判断が難しかったレコード • 書誌レコードを作成する際の入力ミスと推定 されるもの • EPI とCiNii のレコードの記述規則による違い によるもの • 特集号全体と特集号の一論文など収録粒度 の違いに起因するもの
  • 27. レコードの人手判定 • 論文書誌情報が単に同一のものであるか否か を見るだけではない • 粒度や,いくつかの情報源を参照しながら判定 を行う • 書誌レコードの粒度が異なる場合は異なるレ コードと判定 – 例: • 特集号全体を1つのレコードとしたものと, • 特集号の中の1 論文が1 つのレコードとなっているもの → 異なるレコードとして判定する