SlideShare a Scribd company logo
1 of 43
Download to read offline
著者の同定・識別について
- JAIRO著者名検索プロジェクトへ -	

         蔵川圭
      国立情報学研究所
 学術コンテンツサービス研究開発センター	

           平成23年度CSI委託事業(領域2)
           ワークショップ「研究者と論文とを結びつけるために~研究者IDサミット2~」
           日時:平成24年2月14日(火) 13:30-17:00 場所:大阪市立大学
①  なぜ研究者の名寄せが必要か
②  研究者リゾルバーとJAIRO著者名検索	




                      2
名前の曖昧性の問題
       (Name Ambiguity Problem)	
•    同姓同名
•    旧姓
•    ペンネーム
•    漢字異体字
•    ジャーナルごとに異なる姓名表記フォーマット
     –  姓名の順
     –  イニシャル表記
     –  大文字・小文字
                                    3
名前の翻字(transliterate)	
•  ラテン文字への翻字によって、同姓同名が増
   える	

王伟,王薇,王维,王蔚,汪卫,汪玮,汪威,汪巍	


         Wei Wang	

       “Which Wei Wang?”,Phys. Rev. Lett. 99, 230001 (2007)
       DOI:10.1103/PhysRevLett.99.230001	
               4
名寄せ(Name Disambiguation)	
•  名前の問題を解決して、同一性を判定することを「名
   寄せ」という
•  研究者の名寄せによって、
 –  研究者ごとに正確に論文やその他研究成果をリスト化で
    き、リストは知識体系への貢献度を正確に測る情報源と
    なる
 –  正確な論文や研究成果のリストから、ある研究者の研究
    の展開を追認できる
 –  研究者が正確に過去の業績によってプロファイルされる
    ことで、そのプロファイルは新たな研究チームを構成する
    際の正確な情報源として活用できる
 –  学術コミュニケーションにおける様々な場面において、研
    究者を特定した情報交換が可能となる	
                                 5
日本の図書館目録	
•    NACSIS-CAT
     –    国立情報学研究所の運営
     –    日本の大学図書館の所蔵する図書・雑誌の総合目録
     –    洋書が多く含まれる
     –    USMARC準拠
     –    日本目録規則,およびAACR2
•    JAPAN/MARC
     –  国立国会図書館の運営
     –  国会図書館の所蔵する,日本で刊行された出版物および外国で刊行された日本語出版物
        の目録	
     –  UNIMARC準拠
     –  日本目録規則
                                     目録	
•    TRC/MARC
     –    図書館流通センターの運営                           参照する	
     –    日本で刊行される出版物の目録
                                     参照する	
     –    UNIMARC準拠
     –    日本目録規則              書誌	
            典拠	


                                      著者名	
     (統一)書名	
                                                           6
図書館目録の著者名典拠	
•    NACSIS-CAT著者名典拠ファイル
      –  個人名,団体名の典拠
      –  個人名1,263,685件(西洋人著者名含む, 2008年12月18日)
•    JAPAN/MARC典拠ファイル
      –  個人名,家名,団体名,および統一書名の典拠
      –  個人名681,924件(西洋人著者名含む, 2008年7月5日)
•    TRC/MARC著者名典拠ファイル
      –  個人名,機関名の典拠
      –  個人名566,249件(西洋人著者名含む, 2009年3月29日)
     人名データベース	
              登録件数 同一姓名が 同一姓名が 同一姓名に 同一姓名が
                          (漢字圏の東洋 複数存在す 複数存在す 対する最大 複数存在す
                         人の統一形標目 る登録件数	
  る異なり姓    登録件数	
  る登録件数
                              を抜粋)	
         名数	
            の割合	
 
     NACSIS-CAT
     著者名典拠ファイル               329,864	
    32,034	
    13,344	
    20	
     9.71%	
 
      (2008年12月18日)	
 
        JAPAN/MARC
         典拠ファイル              572,638	
    73,138	
    28,067	
    29	
    12.77%	
 
        (2008年7月5日)	
 
     TRC/MARC
     著者名典拠ファイル               464,962	
    58,979	
    22,969	
    27	
    12.68%	
 
       (2009年3月29日)	
 
                                                                                      7
登録件数
                登録件数                                                   登録件数




                                              件




            0
                5
                    10
                           15
                                     20
                                             25
                                                  30
                                                                   0
                                                                       5
                                                                           10
                                                                                15
                                                                                        20
                                                                                                 25
                                                                                                       件 30
                                                                                                                        0
                                                                                                                            5
                                                                                                                                10
                                                                                                                                     15
                                                                                                                                             20
                                                                                                                                                   25
                                                                                                                                                             件 30
    1                                                      1                                                 1
  501                                                    501                                               501
 1001                                                   1001                                              1001
 1501                                                   1501                                              1501
 2001                                                   2001                                              2001
 2501                                                   2501                                              2501




                                             27
                                                                                                       29
                                                                                                                                             20
 3001                                                   3001                                              3001
 3501                                                   3501                                              3501
 4001                                                   4001                                              4001
 4501                                                   4501                                              4501
 5001                                                   5001                                              5001
 5501                                                   5501                                              5501
 6001                                                   6001                                              6001
 6501                                                   6501                                              6501
 7001                                                   7001                                              7001
 7501                                                   7501                                              7501
 8001                                                   8001                                              8001
 8501                                                   8501                                              8501
 9001                                                   9001                                              9001
 9501                                                   9501                                              9501
10001                                                  10001                                             10001
                                                                                                         10501
                                                                                                                                     13,344



10501                                                  10501
11001                                                  11001                                             11001
11501                                                  11501                                             11501
12001                                                  12001                                             12001
12501                                                  12501                                             12501
13001                                                  13001                                             13001
13501                                                  13501
14001                                                  14001
14501                                                  14501
15001                                                  15001
15501                                                  15501
16001                                                  16001
16501                                                  16501
                                                       17001
                                                                                                              異なり姓名順位




17001
17501                                                  17501
                                                                                                                                              NACSIS-CAT	




                                                                                        JAPAN/MARC	




18001                                                  18001
18501                                                  18501
19001                                                  19001
19501                                                  19501
20001                    TRC/MARC	
 22,969             20001
20501                                                  20501
21001                                                  21001
21501                                                  21501
22001                                                  22001
22501                                                  22501
                                                       23001
                                                       23501
                                                                                                                                 311,174	




                                                       24001
                                                       24501
                                                       25001
                                                       25501
                                                                                28,067




                                                       26001
                                                                                                                                                                       著者名典拠における




                                                       26501
  異なり姓名順位




                                                       27001
                                                       27501
                                                       28001
                     428,952	
                                                         異なり姓名順位




8
                                                                                                                                                                    異なり姓名ごとの登録件数の分布	



                                                                            527,567
著者名典拠における
                       異なり姓名順位トップ20	
       NACSIS--CAT	
                JAPAN/MARC	
                TRC/MARC	

順位	
   姓名	
        登録件数	
           姓名	
       登録件数	
           姓名	
         登録件数	

1	
    高橋徹	
                20	
    鈴木博	
               29	
    鈴木博	
                 27	
 
2	
    鈴木博	
                17	
    田中実	
               29	
    田中実	
                 26	
 
3	
    佐藤進	
                17	
    伊藤博	
               28	
    小林茂	
                 24	
 
4	
    田中実	
                16	
    小林茂	
               26	
    高橋徹	
                 23	
 
5	
    伊藤博	
                16	
    鈴木一郎	
              24	
    鈴木実	
                 22	
 
6	
    高橋進	
                13	
    高橋一郎	
              22	
    佐藤進	
                 21	
 
7	
    高橋清	
                13	
    佐藤正	
               22	
    渡辺誠	
                 19	
 
8	
    鈴木一郎	
               13	
    高橋徹	
               21	
    佐藤正	
                 19	
 
9	
    小林茂	
                13	
    鈴木実	
               21	
    伊藤博	
                 19	
 
10	
   吉田豊	
                13	
    田中豊	
               21	
    田中稔	
                 18	
 
11	
   高橋誠	
                12	
    (李〓)	
              21	
    小林一郎	
                18	
 
12	
   田中宏	
                12	
    鈴木茂	
               20	
    鈴木隆	
                 17	
 
13	
   渡辺誠	
                12	
    吉田稔	
               20	
    鈴木茂	
                 17	
 
14	
   渡辺茂	
                12	
    田中宏	
               19	
    田中宏	
                 17	
 
15	
   小林哲夫	
               12	
    佐藤進	
               19	
    吉田豊	
                 17	
 
16	
   田中明	
                11	
    高橋和子	
              18	
    佐藤博	
                 17	
 
17	
   佐藤正	
                11	
    渡辺誠	
               18	
    高橋進	
                 16	
 
18	
   中村宏	
                11	
    渡辺宏	
               18	
    田中豊	
                 16	
 
19	
   高橋豊	
                10	
    高橋清	
               17	
    田中茂	
                 9
                                                                                      16	
 
20	
   高橋正明	
               10	
    (陳〓)	
              17	
    田中一郎	
                16
母集団の大きさに依存する
    同姓同名の割合	
•  文献によると
 –  田中康仁,同姓同名の発生頻度,計算言語学
    10-1,1977
 –  昭和51年当時の日本人の漢字姓名107万人の
    名簿を用いて機械的に数え上げ
          同姓同名がいる人の割合(%)	
 	
 %	
40
    30
    20
    10
     0                         母集団	
         0   50   100   150
                        万人	
                                       10
研究者の名寄せの方法	
•  図書館の目録のように、閉じたデータベースの中では
   人手で著者に英数字記号の識別子(Identity: ID)を付
   けて区別した
•  学術論文のデータベースでは、2つの方法がとられて
   きた
 –  計算機による名寄せ
 –  手動で登録
•  新たな名寄せの潮流
 –  ORCID (Open Researcher and Contributor ID)
 –  学術コミュニケーションに関与するすべてのステークホル
    ダーを包含した、研究者にIDを付与するコミュニティを形
    成する	

                                             11
学術論文データベースにおける
       これまでの2つのアプローチ	
•  計算機による名寄せ
 –  論文書誌を対象に著者でまとめる
 –  論文情報システムの著者名検索結果として機能
 –  プロダクションシステムとして必要な99%以上の精度を求める
    には程遠い
 –  例
      •  Scopus Author Identifier
          (Elsevier社のScopusに実装)
      •  Distinct Author Identification System
         (Thomson Reuters社のWeb of Scienceに実装)
•  手動で登録
 –    著者を対象に論文書誌を集める
 –    研究者業績ショーケースとして機能
 –    簡単に著者と論文書誌を網羅できない
 –    例
                                                 12
      •  ResearcherID (Thomson Reuters社)
研究者ID付与コミュニティORCID	
•  Open Researcher and Contributor ID
   –    Open : 公開された
   –    Researcher : 研究者
   –    Contributor : 貢献者
   –    ID : 本人証明	
•  設立趣旨(Mission Statement)
   –  ORCIDは、学術コミュニケーションにおける著者/貢献者の名
      前の曖昧性の問題を解決することを目的とし、個々の研究者
      に対する固有の識別子の中央レジストリと、ORCIDと現存する
      他の著者IDスキームとの間のオープンで透過的なリンクメカニ
      ズムを構築することによって実現する。これらの識別子及び識
      別子間の関係は研究者のアウトプットにリンクすることが可能
      であり、科学的発見プロセスを拡大させ、研究コミュニティにお
      ける研究助成や協働の効率性を改善する。
•  http://www.orcid.org/	
                                        13
ORCIDの参加組織	
•  2011年10月31日では273機関。
 –  学術機関114、出版者40、企業41、学会27、政府10、
    NPO 31、その他10
 –   また、地理的には、米国109、英国45、ドイツ20、カナダ
    11、オーストラリア9、インド7、ブラジル6、スペイン5、フラ
    ンス4、アイルランド4、スウェーデン4、スイス4、オーストリ
    ア3、中国3、イタリア3、日本3、オランダ3、ベルギー2、コ
    ロンビア2、韓国2、ニュージーランド2、ポルトガル 2、シン
    ガポール2、トルコ2、1組織の参加の国は、アルゼンチン、
    エジプト、エチオピア、フィンランド、ギリシャ、イラン・イス
    ラム共和国、イスラエル、リトアニア、マレーシア、パキス
    タン、カタール、ルーマニア、サウジアラビア、セルビア、
    スロベニア、南アフリカ

                                 14
ORCID IDシステム	
•  アイデンティティとして扱う基本的な情報
 –  著者/貢献者自身の記述
 –  著者/貢献者とその出版物間の関係の記述
•  ハイブリッド型による登録
 –  著者/貢献者による登録           プロファイル	

 –  組織による登録	
     ORCID
                   ID	

                          出版物申告	




                                     15
ORCID IDシステムのシナリオ	

       エンド                             パートナー
      ユーザー	
                           システム	

                                     たとえば、原稿追跡システム
だれが文書Xを書いたか?                         (MTS : Manuscript Tracking
                                     System)にシングルサインオン
ID Yの人が書いた、                          (SSO)して、編集事務局、マー
または査読した文書はどれか?	
                     ケティング部門、ロイヤルティ支
                                     払いシステムなどと連絡先情報
                                     を共有
                    コアシステム           	
               (ORCID identity system)	

                                                          16
プロファイルの交換とマッチング	
                                                                                            可能なマッチングアルゴリズム
                                                                                            •  VIAF(OCLC)
                                                                                            •  Author Resolver (ProQuest)
                                                                                            •  OKKAM




                                                                ORCID
                                                         F67572010




(By Howard Ratner, ORCID Update, Slides at CrossRef Annual Meeting, in London, 16 Nov. 2010)	
                        17
著作者にIDを付ける活動	
•  バーチャル国際典拠ファイル VIAF (Virtual International Authority
   File),
   –    米国OCLC
   –    LC
   –    ドイツDNB
   –    フランスBnF
•  国際標準名前識別子 ISNI (International Standard Name Identifier),
   ISO27729
   –  International Confederation of Societies of Authors and Composers
      (CISAC) www.cisac.org
   –  International Federation of Reproduction Rights Organisations
      (IFRRO)www.ifrro.org
   –  International Performers’ Database Association (ipda.sami.se)
   –  Bowker (www.bowker.com )
   –  Online Computer Library Center (OCLC) (www.oclc.org)
   –  Bibliotheque Nationale de France
   –  The British Library	
                                                                          18
VIAF	
  •  各国の名前典拠ファイルをリンク
  •  今は個人名のみ

•  1050万件(2010-03)
   の名前レコード
•  抽出元
  –  1300万件名前レコード
  –  8000万件の引用レコード
                              19
ISNI	

・16ケタの数字
・クリエーター一般
・少なくとも2000万件のIDを想定	
            ブリッジ識別子	




                   20
機関リポジトリを対象とした
      著者にIDを付ける活動	
•  DAI (Digital Author Identifier), オランダ
   SURF財団
•  Names Project, 英国 Mimas, JISC funded
•  arXiv.org Author Identifiers, 米国コーネル
   大学
•  Networking Names, 米国OCLC
•  研究者リゾルバー,NII	

                                           21
①  なぜ研究者の名寄せが必要か
②  研究者リゾルバーとJAIRO著者名検索	




                      22
JAIRO著者名検索のシステム関連図	
•  JAIROの著者名典拠としての研究者リゾルバー
•  金沢大学、静岡大学、NIMSと実証実験中で、参加者募集中	

                           研究者のグローバルIDと
                                            Na#onal	
  level	
                           ローカルIDを参照	


     Researcher Name Resolver	

                         グローバル研究者IDを参照
                                            ローカル研究者IDが記述された
     名前典拠ファイル
                                            書誌メタデータをハーベスト	
   (ローカル研究者IDと
 外部識別子との対応表)を
        アップロード	

                           ローカル研究者IDを参照	
    Ins#tu#onal	
  level	
    機関リポジトリの著者名典拠
    (研究者ディレクトリ)	
                    機関リポジトリ	

                                                                      23
JAIROで著者名検索	
•  JAIROは、学術成果としての知識を探索するサイトの一例
•  知識探索の2つのモード
  –  キーワードで検索するのが基本
  –  ときどき著者名で検索したくなる
•  著者名で検索
  –  本当に同一人物の論文が列挙されてほしい
  –  同一の人物であれば、ある一人の研究者の研究の展開を追
     認することができる
•  新しいUI
  –  さらに同一人物が列挙されたら、専用の検索結果一覧が欲しく
     なる
    •  著者IDありの検索結果一覧
    •  著者IDなしの検索結果一覧

                                  24
著者で検索	



      著者ID付きで、サジェスト	




                        25
検索結果一覧(分類表示)	

         分類表示を選択
         (資料種別、機関名)
                  	


          例えば、資料種別を選択して	




                       26
研究者リゾルバーの目的	
•  基本機能
  –  日本の研究者を対象としたWeb上の識別子
     •  あわせて、日本の研究組織を対象とした識別子
  –  Web上の研究者リソースのリンキングハブ                     http://rns.nii.ac.jp	

•  取り扱う情報                                 登録主体による位置づけ	
  –  研究者の基本情報と研究業績リストを          \業績      機関によるとりまと        研究者による           機械による
                                 \       め	
              とりまとめ	
          自動処理	
     ベースとしたリンクマネージメント	
            \
                                研究者	
•  応用                           機関によ     研究者ディレクトリ        機関にある
                                る登録	
    IR               ホームページ	
  –  Linked Data Webのための、                KAKEN
                                          研究者
     日本の研究者と組織のURI表現                      リゾルバー	
                                                 ReaD	
  –  名前解決するWebサービス
                                研究者に                      Researchmap
  –  NIIの学術関連サービスへの             よる登録	
                    ResearcherID	

     密接なデータ連携                   機械によ     CiNii 著者検索                        Google
                                る自動処                                       Google
  –  Web上の名前典拠としての利用            理	
                                        scholar	

                                                                              27
研究者識別子スキーム	
•  13ケタの番号によって研究者を表す
•  研究者リゾルバーIDと呼ぶ
ID (13ケタの番号)	
         説明	
 
    10000xxxxxxxx	
    科研費研究者番号登録者のID割り当て
                       xxxxxxxx は、科研費研究者番号 (8 桁)	
 
   200xxxxxxxxxx	
     ReaD研究者コード登録者のID割り当て
                       xxxxxxxxxx	
 は、ReaD研究者コード (10桁)	
 
   3xxxxxxxxxxxx	
     それ以外のID割り当て	
 

  –  一人の研究者に対して、複数の研究者リゾルバーID
     が登録された場合、いずれかのIDを代表させて、エ
     イリアスを張る
•  URIによる表現
       •  http://rns.nii.ac.jp/nr/xxxxxxxxxxxxx
       •  xxxxxxxxxxxxxは研究者リゾルバーID                          28
初期登録	
•  呼び水として、科研費データベースKAKENの
   データを利用して研究者を登録
•  データ項目
  –  姓名(漢字、ヨミ、ローマ字)
  –  所属機関(最新)、部局、職名
  –  科研費研究者番号
  –  (科研費研究課題の研究分野)
  –  (科研費研究課題の研究キーワード)
•  2011/10/15現在、192,716件登録	
                               29
研究者リソース	
•  Web上の研究者ID集合をもつデータベース
   たとえば、




                           30
研究者名をリゾルブする	
研究者識別子どうしを接続	




                 研究者識別子のスイッチングボード
クロールによるアプローチ	
•  大学の研究者ディレクトリをクロール
  –  研究者ページのURLを特定
  –  それぞれのURLに対して研究者名を特定
•  ここでは簡単に、以下を同時に満たすとき、同一人物
   と判定
   –  漢字氏名の一致
   –  機関の一致                   本年度、
   –  機関内でユニーク名(同姓同名がいない) 226大学
•  クロールとリンクの実際                に対象を拡大	
   –  226大学の研究者ディレクトリに対してクロール
   –  102,949件のURLを取得
   –  23,252件のリンク(リンク率23%、登録全体の12%)
                                    32
機関のデータアップロードによる
       アプローチ	
•  データ
  –  研究者の基本情報と研究業績リストを収集
  –  ResearcherID (Thomson Reuters)で利用される
     データアップロードXMLスキーマを日本語化して独自
     拡張
•  応用
                                   研究者リゾルバー	
  –  研究者リゾルバーIDと           NII	
     外部サービス識別子との
     マッピングテーブルを構築
  –  外部の研究者リソースとの              研究者総覧・IR著者名典拠
                                (研究者ディレクトリ)	
     同定処理               機関	




                                                33
研究者ページ	
       研究者姓名 (漢字,カタカナ,ローマ字)	
研究者リゾルバーID	
   研究者URI	
                 研究者基本情報	


                 ダイレクトリンク	



                 検索リンク	


                 科研費研究課題の研究分野	

                 科研費研究課題のキーワード	

                 この文書のURI	
                                34
ダイレクトリンク	


ダイレクトリンク




                        35
検索リンク	


検索(日本語姓名および所属による)
検索(日本語姓名による)
検索(ローマ字姓名による)	




                         36
JAIRO著者名検索への応用	
•  研究者リゾルバーをJAIROの著者名典拠として
   位置づけることによって、JAIRO著者名検索を
   実現する
•  リポジトリ側で対応してほしいこと
 –  JAIRO(IRDB)がハーベストするフォーマット(junii2)
    のcreatorフィールドに、id(anyURI)属性を入れる
 –  2通りのID付与
   •  研究者リゾルバーのURIをidとして付与する
   •  独自のIDをもとにURI化し、idとする。そして、idと、たとえば
      科研費研究者番号などの対応表を研究者リゾルバーへ
      アップロードする

                                        37
著者ID(anyURI)が付与された
     書誌メタデータ(junii2の拡張)	
         <?xml version="1.0" encoding="UTF-8" ?>
         <OAI-PMH
           xmlns="http://www.openarchives.org/OAI/2.0/"
           xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
           xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
           <responseDate>2011-05-26T13:34:09Z</responseDate>
           <request metadataPrefix="junii2" verb="GetRecord" identifier="oai:ir.lib.shizuoka.ac.jp:10297/5644">http://
         ir.lib.shizuoka.ac.jp/dspace-oai/request</request>
           <GetRecord>
             <record>
               <header>
                  <identifier>oai:ir.lib.shizuoka.ac.jp:10297/5644</identifier>
                  <datestamp>2011-05-22T08:02:22Z</datestamp>
                  <setSpec>hdl_10297_24</setSpec>
               </header>
               <metadata>
                  <junii2
                    xmlns="http://irdb.nii.ac.jp/oai"
                    xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
                    xsi:schemaLocation="http://irdb.nii.ac.jp/oai http://irdb.nii.ac.jp/oai/junii2.xsd">
                    <title>Orientation-dependent epitaxial growth of GaAs by current-controlled liquid phase epitaxy</title>
                    <creator>Mouleeswaran, D.</creator>
                    <creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator>
                    <creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator>
                    <NDC>459</NDC>
                    <description>The orientation dependence of the selective epitaxial growth of Gallium Arsenide (GaAs) has been
         investigated to achieve a thick epitaxial layer for application to X-ray detectors. Selective epitaxial growth was carried out
         on patterned GaAs with [0 1 1], [0 1 2], [0 1 0], [0 1 −2], [0 1 −1] and their equivalent seed orientations by current-
         controlled liquid phase epitaxy (CCLPE). SiO2 was used as a mask layer to fabricate the various seed orientations on the Si-




                                                                                                                                            	
         doped GaAs (1 0 0) substrate and various growth periods and current densities were considered. Solute transport in the solution
<creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator>
         was enhanced by the electromigration of solute by an applied DC electric current, which caused an incremental growth in vertical
         and lateral directions in all orientations. The highest vertical thickness of 268 µm in the [0 1 −1] orientation and the largest
<creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator>
         lateral growth of 318 µm in the [0 1 2] orientation were achieved at 7.5 A cm−2 current density for 6 h. The seed aligned in the
         [0 1 2] orientation was favorable for high lateral growth of GaAs. The [0 1 1], [0 1 0] and [0 1 −2] seed orientations were
         suitable for application in a GaAs X-ray detector.</description>
                    <publisher>Elsevier</publisher>
                    <NIItype>Journal Article</NIItype>
                    <format>application/pdf</format>
                    <URI>http://hdl.handle.net/10297/5644</URI>
                    <fullTextURL>http://ir.lib.shizuoka.ac.jp/bitstream/10297/5644/1/110520001.pdf</fullTextURL>
                    <jtitle>Journal of Crystal Growth</jtitle>
                    <issn>00220248</issn>
                    <NCID>AA00696341</NCID>
                    <volume>321</volume>
                    <issue>1</issue>
                    <spage>85</spage>
                    <epage>90</epage>
                    <dateofissued>2011-04-15</dateofissued>
                    <language>eng</language>
                    <doi>info:doi/10.1016/j.jcrysgro.2011.02.026</doi>
                    <rights>Copyright © 2011 Elsevier B.V. All rights reserved.</rights>
                    <textversion>author</textversion>
                  </junii2>                                                                                                                      38	
               </metadata>
             </record>
           </GetRecord>
         </OAI-PMH>
データの個人情報保護とプライバシー	
   •  データの種類
         –  書誌メタデータ
         –  研究者基本情報と業績リスト
   •  実務のフェーズ
         –  学術研究(実証実験)
         –  事業                                             http://www.caa.go.jp/seikatsu/kojin/houtaikei.pdf	


   •  関連法案(参考)	
                                                       個人情報の保護に関する法律
                                                                       第一章 総則
                                                                        (定義)	
                                                                       第二条この法律において「個人情報」とは、生存する個人に関する情報であって、当該情報に含まれる	
                                                                       氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合	
                                                                       することができ、それにより特定の個人を識別することができることとなるものを含む。)をいう。	
                                                                       2 この法律において「個人情報データベース等」とは、個人情報を含む情報の集合物であって、次に掲	
区分	
        国立大学	
       公立大学	
       私立大学	
         大学共同利用機関	
        げるものをいう。	
                                                                       一 特定の個人情報を電子計算機を用いて検索することができるように体系的に構成したもの	
                                                                       二 前号に掲げるもののほか、特定の個人情報を容易に検索することができるように体系的に構成した	
                                                                       ものとして政令で定めるもの	
                                                                       3 この法律において「個人情報取扱事業者」とは、個人情報データベース等を事業の用に供している者	
適用法令	
      独立行政法人の保     個人情報保護条例	
   個人情報の保護に       独立行政法人の保          をいう。ただし、次に掲げる者を除く。	
            有する個人情報の                  関する法律	
        有する個人情報の          一国の機関	
                                                                       二地方公共団体	
            保護に関する法律	
                               保護に関する法律	
        三 独立行政法人等(独立行政法人等の保有する個人情報の保護に関する法律(平成十五年法律第五十	
                                                                       九号)第二条第一項に規定する独立行政法人等をいう。以下同じ。)	
                                                                       四 地方独立行政法人(地方独立行政法人法(平成十五年法律第百十八号)第二条第一項に規定する地	
適用除外規定	
    第11条第2項	
    条例による	
      第50条第1項第3号	
   第11条第2項	
         方独立行政法人をいう。以下同じ。)	
                                                                       五その取り扱う個人情報の量及び利用方法からみて個人の権利利益を害するおそれが少ないものとし	
                                                                       て政令で定める者	
                                                                       4 この法律において「個人データ」とは、個人情報データベース等を構成する個人情報をいう。	
                                                                       5 この法律において「保有個人データ」とは、個人情報取扱事業者が、開示、内容の訂正、追加又は削	
個人情報の区分	
   個人情報、保有個     個人情報、(保有個    個人情報、個人        個人情報、保有個          除、利用の停止、消去及び第三者への提供の停止を行うことのできる権限を有する個人データであって、	
                                                                       その存否が明らかになることにより公益その他の利益が害されるものとして政令で定めるもの又は一年	
            人情報	
        人情報)	
       データ、保有個人       人情報	
             以内の政令で定める期間以内に消去することとなるもの以外のものをいう。	
                                                                       6 この法律において個人情報について「本人」とは、個人情報によって識別される特定の個人をいう。	
                                      データ	
                                                                                                             39
リポジトリの著者検索を実現するさきがけ	




                   40
グラスゴー大学の例	
•  自機関の著者にIDを付与
•  IDによる検索も可能になっている	

 http://eprints.gla.ac.uk/	




                               41
NARCIS	
•  オランダのリポジトリ横断検索サイト	
http://www.narcis.nl/	




                                     42
まとめ	
•  名前には曖昧性があるので、研究者を識別子によって区
   別する必要がある
•  研究者識別子は、新しいサービスの基礎
•  JAIRO著者名検索を実現するためには
 –  研究者リゾルバーをJAIROの著者名典拠として位置づける
 –  リポジトリ側で対応してほしいこと
   •  JAIRO(IRDB)がハーベストするフォーマット(junii2)のcreatorフィー
      ルドに、id(anyURI)属性を入れる
   •  2通りのID付与
      –  研究者リゾルバーのURIをidとして付与する
      –  独自のIDをもとにURI化し、idとする。そして、idと、たとえば科研費研究者番
         号などの対応表を研究者リゾルバーへアップロードする	
•  そのさきに、研究者リゾルバーを通して、様々な国内外の
   学術情報データベースが著者でリンクされる	

                                                     43

More Related Content

More from National Institute of Informatics

Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...National Institute of Informatics
 
Emerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksEmerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksNational Institute of Informatics
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較National Institute of Informatics
 
離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出National Institute of Informatics
 
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出National Institute of Informatics
 
レコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングレコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングNational Institute of Informatics
 
科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用National Institute of Informatics
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -National Institute of Informatics
 
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出National Institute of Informatics
 
科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析National Institute of Informatics
 
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...National Institute of Informatics
 
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...National Institute of Informatics
 
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張National Institute of Informatics
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向National Institute of Informatics
 

More from National Institute of Informatics (15)

Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...
 
Emerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksEmerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networks
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
 
研究者識別子の重要性とORCIDアップデート
研究者識別子の重要性とORCIDアップデート研究者識別子の重要性とORCIDアップデート
研究者識別子の重要性とORCIDアップデート
 
離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出
 
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
 
レコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングレコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピング
 
科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
 
機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出機械学習を用いたWeb上の産学連携関連文書の抽出
機械学習を用いたWeb上の産学連携関連文書の抽出
 
科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析
 
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
 
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
 
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
 

著者の同定・識別について- JAIRO著者名検索プロジェクトへ -

  • 1. 著者の同定・識別について - JAIRO著者名検索プロジェクトへ - 蔵川圭 国立情報学研究所 学術コンテンツサービス研究開発センター 平成23年度CSI委託事業(領域2) ワークショップ「研究者と論文とを結びつけるために~研究者IDサミット2~」 日時:平成24年2月14日(火) 13:30-17:00 場所:大阪市立大学
  • 3. 名前の曖昧性の問題 (Name Ambiguity Problem) •  同姓同名 •  旧姓 •  ペンネーム •  漢字異体字 •  ジャーナルごとに異なる姓名表記フォーマット –  姓名の順 –  イニシャル表記 –  大文字・小文字 3
  • 4. 名前の翻字(transliterate) •  ラテン文字への翻字によって、同姓同名が増 える 王伟,王薇,王维,王蔚,汪卫,汪玮,汪威,汪巍 Wei Wang “Which Wei Wang?”,Phys. Rev. Lett. 99, 230001 (2007) DOI:10.1103/PhysRevLett.99.230001 4
  • 5. 名寄せ(Name Disambiguation) •  名前の問題を解決して、同一性を判定することを「名 寄せ」という •  研究者の名寄せによって、 –  研究者ごとに正確に論文やその他研究成果をリスト化で き、リストは知識体系への貢献度を正確に測る情報源と なる –  正確な論文や研究成果のリストから、ある研究者の研究 の展開を追認できる –  研究者が正確に過去の業績によってプロファイルされる ことで、そのプロファイルは新たな研究チームを構成する 際の正確な情報源として活用できる –  学術コミュニケーションにおける様々な場面において、研 究者を特定した情報交換が可能となる 5
  • 6. 日本の図書館目録 •  NACSIS-CAT –  国立情報学研究所の運営 –  日本の大学図書館の所蔵する図書・雑誌の総合目録 –  洋書が多く含まれる –  USMARC準拠 –  日本目録規則,およびAACR2 •  JAPAN/MARC –  国立国会図書館の運営 –  国会図書館の所蔵する,日本で刊行された出版物および外国で刊行された日本語出版物 の目録 –  UNIMARC準拠 –  日本目録規則 目録 •  TRC/MARC –  図書館流通センターの運営 参照する –  日本で刊行される出版物の目録 参照する –  UNIMARC準拠 –  日本目録規則 書誌 典拠 著者名 (統一)書名 6
  • 7. 図書館目録の著者名典拠 •  NACSIS-CAT著者名典拠ファイル –  個人名,団体名の典拠 –  個人名1,263,685件(西洋人著者名含む, 2008年12月18日) •  JAPAN/MARC典拠ファイル –  個人名,家名,団体名,および統一書名の典拠 –  個人名681,924件(西洋人著者名含む, 2008年7月5日) •  TRC/MARC著者名典拠ファイル –  個人名,機関名の典拠 –  個人名566,249件(西洋人著者名含む, 2009年3月29日) 人名データベース 登録件数 同一姓名が 同一姓名が 同一姓名に 同一姓名が (漢字圏の東洋 複数存在す 複数存在す 対する最大 複数存在す 人の統一形標目 る登録件数 る異なり姓 登録件数 る登録件数 を抜粋) 名数 の割合 NACSIS-CAT 著者名典拠ファイル 329,864 32,034 13,344 20 9.71% (2008年12月18日) JAPAN/MARC 典拠ファイル 572,638 73,138 28,067 29 12.77% (2008年7月5日) TRC/MARC 著者名典拠ファイル 464,962 58,979 22,969 27 12.68% (2009年3月29日) 7
  • 8. 登録件数 登録件数 登録件数 件 0 5 10 15 20 25 30 0 5 10 15 20 25 件 30 0 5 10 15 20 25 件 30 1 1 1 501 501 501 1001 1001 1001 1501 1501 1501 2001 2001 2001 2501 2501 2501 27 29 20 3001 3001 3001 3501 3501 3501 4001 4001 4001 4501 4501 4501 5001 5001 5001 5501 5501 5501 6001 6001 6001 6501 6501 6501 7001 7001 7001 7501 7501 7501 8001 8001 8001 8501 8501 8501 9001 9001 9001 9501 9501 9501 10001 10001 10001 10501 13,344 10501 10501 11001 11001 11001 11501 11501 11501 12001 12001 12001 12501 12501 12501 13001 13001 13001 13501 13501 14001 14001 14501 14501 15001 15001 15501 15501 16001 16001 16501 16501 17001 異なり姓名順位 17001 17501 17501 NACSIS-CAT JAPAN/MARC 18001 18001 18501 18501 19001 19001 19501 19501 20001 TRC/MARC 22,969 20001 20501 20501 21001 21001 21501 21501 22001 22001 22501 22501 23001 23501 311,174 24001 24501 25001 25501 28,067 26001 著者名典拠における 26501 異なり姓名順位 27001 27501 28001 428,952 異なり姓名順位 8 異なり姓名ごとの登録件数の分布 527,567
  • 9. 著者名典拠における 異なり姓名順位トップ20 NACSIS--CAT JAPAN/MARC TRC/MARC 順位 姓名 登録件数 姓名 登録件数 姓名 登録件数 1 高橋徹 20 鈴木博 29 鈴木博 27 2 鈴木博 17 田中実 29 田中実 26 3 佐藤進 17 伊藤博 28 小林茂 24 4 田中実 16 小林茂 26 高橋徹 23 5 伊藤博 16 鈴木一郎 24 鈴木実 22 6 高橋進 13 高橋一郎 22 佐藤進 21 7 高橋清 13 佐藤正 22 渡辺誠 19 8 鈴木一郎 13 高橋徹 21 佐藤正 19 9 小林茂 13 鈴木実 21 伊藤博 19 10 吉田豊 13 田中豊 21 田中稔 18 11 高橋誠 12 (李〓) 21 小林一郎 18 12 田中宏 12 鈴木茂 20 鈴木隆 17 13 渡辺誠 12 吉田稔 20 鈴木茂 17 14 渡辺茂 12 田中宏 19 田中宏 17 15 小林哲夫 12 佐藤進 19 吉田豊 17 16 田中明 11 高橋和子 18 佐藤博 17 17 佐藤正 11 渡辺誠 18 高橋進 16 18 中村宏 11 渡辺宏 18 田中豊 16 19 高橋豊 10 高橋清 17 田中茂 9 16 20 高橋正明 10 (陳〓) 17 田中一郎 16
  • 10. 母集団の大きさに依存する 同姓同名の割合 •  文献によると –  田中康仁,同姓同名の発生頻度,計算言語学 10-1,1977 –  昭和51年当時の日本人の漢字姓名107万人の 名簿を用いて機械的に数え上げ 同姓同名がいる人の割合(%) % 40 30 20 10 0 母集団 0 50 100 150 万人 10
  • 11. 研究者の名寄せの方法 •  図書館の目録のように、閉じたデータベースの中では 人手で著者に英数字記号の識別子(Identity: ID)を付 けて区別した •  学術論文のデータベースでは、2つの方法がとられて きた –  計算機による名寄せ –  手動で登録 •  新たな名寄せの潮流 –  ORCID (Open Researcher and Contributor ID) –  学術コミュニケーションに関与するすべてのステークホル ダーを包含した、研究者にIDを付与するコミュニティを形 成する 11
  • 12. 学術論文データベースにおける これまでの2つのアプローチ •  計算機による名寄せ –  論文書誌を対象に著者でまとめる –  論文情報システムの著者名検索結果として機能 –  プロダクションシステムとして必要な99%以上の精度を求める には程遠い –  例 •  Scopus Author Identifier (Elsevier社のScopusに実装) •  Distinct Author Identification System (Thomson Reuters社のWeb of Scienceに実装) •  手動で登録 –  著者を対象に論文書誌を集める –  研究者業績ショーケースとして機能 –  簡単に著者と論文書誌を網羅できない –  例 12 •  ResearcherID (Thomson Reuters社)
  • 13. 研究者ID付与コミュニティORCID •  Open Researcher and Contributor ID –  Open : 公開された –  Researcher : 研究者 –  Contributor : 貢献者 –  ID : 本人証明 •  設立趣旨(Mission Statement) –  ORCIDは、学術コミュニケーションにおける著者/貢献者の名 前の曖昧性の問題を解決することを目的とし、個々の研究者 に対する固有の識別子の中央レジストリと、ORCIDと現存する 他の著者IDスキームとの間のオープンで透過的なリンクメカニ ズムを構築することによって実現する。これらの識別子及び識 別子間の関係は研究者のアウトプットにリンクすることが可能 であり、科学的発見プロセスを拡大させ、研究コミュニティにお ける研究助成や協働の効率性を改善する。 •  http://www.orcid.org/ 13
  • 14. ORCIDの参加組織 •  2011年10月31日では273機関。 –  学術機関114、出版者40、企業41、学会27、政府10、 NPO 31、その他10 –   また、地理的には、米国109、英国45、ドイツ20、カナダ 11、オーストラリア9、インド7、ブラジル6、スペイン5、フラ ンス4、アイルランド4、スウェーデン4、スイス4、オーストリ ア3、中国3、イタリア3、日本3、オランダ3、ベルギー2、コ ロンビア2、韓国2、ニュージーランド2、ポルトガル 2、シン ガポール2、トルコ2、1組織の参加の国は、アルゼンチン、 エジプト、エチオピア、フィンランド、ギリシャ、イラン・イス ラム共和国、イスラエル、リトアニア、マレーシア、パキス タン、カタール、ルーマニア、サウジアラビア、セルビア、 スロベニア、南アフリカ 14
  • 15. ORCID IDシステム •  アイデンティティとして扱う基本的な情報 –  著者/貢献者自身の記述 –  著者/貢献者とその出版物間の関係の記述 •  ハイブリッド型による登録 –  著者/貢献者による登録 プロファイル –  組織による登録 ORCID ID 出版物申告 15
  • 16. ORCID IDシステムのシナリオ エンド パートナー ユーザー システム たとえば、原稿追跡システム だれが文書Xを書いたか? (MTS : Manuscript Tracking System)にシングルサインオン ID Yの人が書いた、 (SSO)して、編集事務局、マー または査読した文書はどれか? ケティング部門、ロイヤルティ支 払いシステムなどと連絡先情報 を共有 コアシステム (ORCID identity system) 16
  • 17. プロファイルの交換とマッチング 可能なマッチングアルゴリズム •  VIAF(OCLC) •  Author Resolver (ProQuest) •  OKKAM ORCID F67572010 (By Howard Ratner, ORCID Update, Slides at CrossRef Annual Meeting, in London, 16 Nov. 2010) 17
  • 18. 著作者にIDを付ける活動 •  バーチャル国際典拠ファイル VIAF (Virtual International Authority File), –  米国OCLC –  LC –  ドイツDNB –  フランスBnF •  国際標準名前識別子 ISNI (International Standard Name Identifier), ISO27729 –  International Confederation of Societies of Authors and Composers (CISAC) www.cisac.org –  International Federation of Reproduction Rights Organisations (IFRRO)www.ifrro.org –  International Performers’ Database Association (ipda.sami.se) –  Bowker (www.bowker.com ) –  Online Computer Library Center (OCLC) (www.oclc.org) –  Bibliotheque Nationale de France –  The British Library 18
  • 19. VIAF •  各国の名前典拠ファイルをリンク •  今は個人名のみ •  1050万件(2010-03) の名前レコード •  抽出元 –  1300万件名前レコード –  8000万件の引用レコード 19
  • 21. 機関リポジトリを対象とした 著者にIDを付ける活動 •  DAI (Digital Author Identifier), オランダ SURF財団 •  Names Project, 英国 Mimas, JISC funded •  arXiv.org Author Identifiers, 米国コーネル 大学 •  Networking Names, 米国OCLC •  研究者リゾルバー,NII 21
  • 23. JAIRO著者名検索のシステム関連図 •  JAIROの著者名典拠としての研究者リゾルバー •  金沢大学、静岡大学、NIMSと実証実験中で、参加者募集中 研究者のグローバルIDと Na#onal  level ローカルIDを参照 Researcher Name Resolver グローバル研究者IDを参照 ローカル研究者IDが記述された 名前典拠ファイル 書誌メタデータをハーベスト (ローカル研究者IDと 外部識別子との対応表)を アップロード ローカル研究者IDを参照 Ins#tu#onal  level 機関リポジトリの著者名典拠 (研究者ディレクトリ) 機関リポジトリ 23
  • 24. JAIROで著者名検索 •  JAIROは、学術成果としての知識を探索するサイトの一例 •  知識探索の2つのモード –  キーワードで検索するのが基本 –  ときどき著者名で検索したくなる •  著者名で検索 –  本当に同一人物の論文が列挙されてほしい –  同一の人物であれば、ある一人の研究者の研究の展開を追 認することができる •  新しいUI –  さらに同一人物が列挙されたら、専用の検索結果一覧が欲しく なる •  著者IDありの検索結果一覧 •  著者IDなしの検索結果一覧 24
  • 25. 著者で検索 著者ID付きで、サジェスト 25
  • 26. 検索結果一覧(分類表示) 分類表示を選択 (資料種別、機関名) 例えば、資料種別を選択して 26
  • 27. 研究者リゾルバーの目的 •  基本機能 –  日本の研究者を対象としたWeb上の識別子 •  あわせて、日本の研究組織を対象とした識別子 –  Web上の研究者リソースのリンキングハブ http://rns.nii.ac.jp •  取り扱う情報 登録主体による位置づけ –  研究者の基本情報と研究業績リストを \業績 機関によるとりまと 研究者による 機械による \ め とりまとめ 自動処理 ベースとしたリンクマネージメント \ 研究者 •  応用 機関によ 研究者ディレクトリ 機関にある る登録 IR ホームページ –  Linked Data Webのための、 KAKEN 研究者 日本の研究者と組織のURI表現 リゾルバー ReaD –  名前解決するWebサービス 研究者に Researchmap –  NIIの学術関連サービスへの よる登録 ResearcherID 密接なデータ連携 機械によ CiNii 著者検索 Google る自動処 Google –  Web上の名前典拠としての利用 理 scholar 27
  • 28. 研究者識別子スキーム •  13ケタの番号によって研究者を表す •  研究者リゾルバーIDと呼ぶ ID (13ケタの番号) 説明 10000xxxxxxxx 科研費研究者番号登録者のID割り当て xxxxxxxx は、科研費研究者番号 (8 桁) 200xxxxxxxxxx ReaD研究者コード登録者のID割り当て xxxxxxxxxx は、ReaD研究者コード (10桁) 3xxxxxxxxxxxx それ以外のID割り当て –  一人の研究者に対して、複数の研究者リゾルバーID が登録された場合、いずれかのIDを代表させて、エ イリアスを張る •  URIによる表現 •  http://rns.nii.ac.jp/nr/xxxxxxxxxxxxx •  xxxxxxxxxxxxxは研究者リゾルバーID 28
  • 29. 初期登録 •  呼び水として、科研費データベースKAKENの データを利用して研究者を登録 •  データ項目 –  姓名(漢字、ヨミ、ローマ字) –  所属機関(最新)、部局、職名 –  科研費研究者番号 –  (科研費研究課題の研究分野) –  (科研費研究課題の研究キーワード) •  2011/10/15現在、192,716件登録 29
  • 31. 研究者名をリゾルブする 研究者識別子どうしを接続 研究者識別子のスイッチングボード
  • 32. クロールによるアプローチ •  大学の研究者ディレクトリをクロール –  研究者ページのURLを特定 –  それぞれのURLに対して研究者名を特定 •  ここでは簡単に、以下を同時に満たすとき、同一人物 と判定 –  漢字氏名の一致 –  機関の一致 本年度、 –  機関内でユニーク名(同姓同名がいない) 226大学 •  クロールとリンクの実際 に対象を拡大 –  226大学の研究者ディレクトリに対してクロール –  102,949件のURLを取得 –  23,252件のリンク(リンク率23%、登録全体の12%) 32
  • 33. 機関のデータアップロードによる アプローチ •  データ –  研究者の基本情報と研究業績リストを収集 –  ResearcherID (Thomson Reuters)で利用される データアップロードXMLスキーマを日本語化して独自 拡張 •  応用 研究者リゾルバー –  研究者リゾルバーIDと NII 外部サービス識別子との マッピングテーブルを構築 –  外部の研究者リソースとの 研究者総覧・IR著者名典拠 (研究者ディレクトリ) 同定処理 機関 33
  • 34. 研究者ページ 研究者姓名 (漢字,カタカナ,ローマ字) 研究者リゾルバーID 研究者URI 研究者基本情報 ダイレクトリンク 検索リンク 科研費研究課題の研究分野 科研費研究課題のキーワード この文書のURI 34
  • 37. JAIRO著者名検索への応用 •  研究者リゾルバーをJAIROの著者名典拠として 位置づけることによって、JAIRO著者名検索を 実現する •  リポジトリ側で対応してほしいこと –  JAIRO(IRDB)がハーベストするフォーマット(junii2) のcreatorフィールドに、id(anyURI)属性を入れる –  2通りのID付与 •  研究者リゾルバーのURIをidとして付与する •  独自のIDをもとにURI化し、idとする。そして、idと、たとえば 科研費研究者番号などの対応表を研究者リゾルバーへ アップロードする 37
  • 38. 著者ID(anyURI)が付与された 書誌メタデータ(junii2の拡張) <?xml version="1.0" encoding="UTF-8" ?> <OAI-PMH xmlns="http://www.openarchives.org/OAI/2.0/" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd"> <responseDate>2011-05-26T13:34:09Z</responseDate> <request metadataPrefix="junii2" verb="GetRecord" identifier="oai:ir.lib.shizuoka.ac.jp:10297/5644">http:// ir.lib.shizuoka.ac.jp/dspace-oai/request</request> <GetRecord> <record> <header> <identifier>oai:ir.lib.shizuoka.ac.jp:10297/5644</identifier> <datestamp>2011-05-22T08:02:22Z</datestamp> <setSpec>hdl_10297_24</setSpec> </header> <metadata> <junii2 xmlns="http://irdb.nii.ac.jp/oai" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://irdb.nii.ac.jp/oai http://irdb.nii.ac.jp/oai/junii2.xsd"> <title>Orientation-dependent epitaxial growth of GaAs by current-controlled liquid phase epitaxy</title> <creator>Mouleeswaran, D.</creator> <creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator> <creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator> <NDC>459</NDC> <description>The orientation dependence of the selective epitaxial growth of Gallium Arsenide (GaAs) has been investigated to achieve a thick epitaxial layer for application to X-ray detectors. Selective epitaxial growth was carried out on patterned GaAs with [0 1 1], [0 1 2], [0 1 0], [0 1 −2], [0 1 −1] and their equivalent seed orientations by current- controlled liquid phase epitaxy (CCLPE). SiO2 was used as a mask layer to fabricate the various seed orientations on the Si- doped GaAs (1 0 0) substrate and various growth periods and current densities were considered. Solute transport in the solution <creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator> was enhanced by the electromigration of solute by an applied DC electric current, which caused an incremental growth in vertical and lateral directions in all orientations. The highest vertical thickness of 268 µm in the [0 1 −1] orientation and the largest <creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator> lateral growth of 318 µm in the [0 1 2] orientation were achieved at 7.5 A cm−2 current density for 6 h. The seed aligned in the [0 1 2] orientation was favorable for high lateral growth of GaAs. The [0 1 1], [0 1 0] and [0 1 −2] seed orientations were suitable for application in a GaAs X-ray detector.</description> <publisher>Elsevier</publisher> <NIItype>Journal Article</NIItype> <format>application/pdf</format> <URI>http://hdl.handle.net/10297/5644</URI> <fullTextURL>http://ir.lib.shizuoka.ac.jp/bitstream/10297/5644/1/110520001.pdf</fullTextURL> <jtitle>Journal of Crystal Growth</jtitle> <issn>00220248</issn> <NCID>AA00696341</NCID> <volume>321</volume> <issue>1</issue> <spage>85</spage> <epage>90</epage> <dateofissued>2011-04-15</dateofissued> <language>eng</language> <doi>info:doi/10.1016/j.jcrysgro.2011.02.026</doi> <rights>Copyright © 2011 Elsevier B.V. All rights reserved.</rights> <textversion>author</textversion> </junii2> 38 </metadata> </record> </GetRecord> </OAI-PMH>
  • 39. データの個人情報保護とプライバシー •  データの種類 –  書誌メタデータ –  研究者基本情報と業績リスト •  実務のフェーズ –  学術研究(実証実験) –  事業 http://www.caa.go.jp/seikatsu/kojin/houtaikei.pdf •  関連法案(参考) 個人情報の保護に関する法律 第一章 総則  (定義) 第二条この法律において「個人情報」とは、生存する個人に関する情報であって、当該情報に含まれる 氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合 することができ、それにより特定の個人を識別することができることとなるものを含む。)をいう。 2 この法律において「個人情報データベース等」とは、個人情報を含む情報の集合物であって、次に掲 区分 国立大学 公立大学 私立大学 大学共同利用機関 げるものをいう。 一 特定の個人情報を電子計算機を用いて検索することができるように体系的に構成したもの 二 前号に掲げるもののほか、特定の個人情報を容易に検索することができるように体系的に構成した ものとして政令で定めるもの 3 この法律において「個人情報取扱事業者」とは、個人情報データベース等を事業の用に供している者 適用法令 独立行政法人の保 個人情報保護条例 個人情報の保護に 独立行政法人の保 をいう。ただし、次に掲げる者を除く。 有する個人情報の 関する法律 有する個人情報の 一国の機関 二地方公共団体 保護に関する法律 保護に関する法律 三 独立行政法人等(独立行政法人等の保有する個人情報の保護に関する法律(平成十五年法律第五十 九号)第二条第一項に規定する独立行政法人等をいう。以下同じ。) 四 地方独立行政法人(地方独立行政法人法(平成十五年法律第百十八号)第二条第一項に規定する地 適用除外規定 第11条第2項 条例による 第50条第1項第3号 第11条第2項 方独立行政法人をいう。以下同じ。) 五その取り扱う個人情報の量及び利用方法からみて個人の権利利益を害するおそれが少ないものとし て政令で定める者 4 この法律において「個人データ」とは、個人情報データベース等を構成する個人情報をいう。 5 この法律において「保有個人データ」とは、個人情報取扱事業者が、開示、内容の訂正、追加又は削 個人情報の区分 個人情報、保有個 個人情報、(保有個 個人情報、個人 個人情報、保有個 除、利用の停止、消去及び第三者への提供の停止を行うことのできる権限を有する個人データであって、 その存否が明らかになることにより公益その他の利益が害されるものとして政令で定めるもの又は一年 人情報 人情報) データ、保有個人 人情報 以内の政令で定める期間以内に消去することとなるもの以外のものをいう。 6 この法律において個人情報について「本人」とは、個人情報によって識別される特定の個人をいう。 データ 39
  • 43. まとめ •  名前には曖昧性があるので、研究者を識別子によって区 別する必要がある •  研究者識別子は、新しいサービスの基礎 •  JAIRO著者名検索を実現するためには –  研究者リゾルバーをJAIROの著者名典拠として位置づける –  リポジトリ側で対応してほしいこと •  JAIRO(IRDB)がハーベストするフォーマット(junii2)のcreatorフィー ルドに、id(anyURI)属性を入れる •  2通りのID付与 –  研究者リゾルバーのURIをidとして付与する –  独自のIDをもとにURI化し、idとする。そして、idと、たとえば科研費研究者番 号などの対応表を研究者リゾルバーへアップロードする •  そのさきに、研究者リゾルバーを通して、様々な国内外の 学術情報データベースが著者でリンクされる 43