More Related Content More from National Institute of Informatics More from National Institute of Informatics (15) 著者の同定・識別について- JAIRO著者名検索プロジェクトへ -3. 名前の曖昧性の問題
(Name Ambiguity Problem)
• 同姓同名
• 旧姓
• ペンネーム
• 漢字異体字
• ジャーナルごとに異なる姓名表記フォーマット
– 姓名の順
– イニシャル表記
– 大文字・小文字
3
5. 名寄せ(Name Disambiguation)
• 名前の問題を解決して、同一性を判定することを「名
寄せ」という
• 研究者の名寄せによって、
– 研究者ごとに正確に論文やその他研究成果をリスト化で
き、リストは知識体系への貢献度を正確に測る情報源と
なる
– 正確な論文や研究成果のリストから、ある研究者の研究
の展開を追認できる
– 研究者が正確に過去の業績によってプロファイルされる
ことで、そのプロファイルは新たな研究チームを構成する
際の正確な情報源として活用できる
– 学術コミュニケーションにおける様々な場面において、研
究者を特定した情報交換が可能となる
5
6. 日本の図書館目録
• NACSIS-CAT
– 国立情報学研究所の運営
– 日本の大学図書館の所蔵する図書・雑誌の総合目録
– 洋書が多く含まれる
– USMARC準拠
– 日本目録規則,およびAACR2
• JAPAN/MARC
– 国立国会図書館の運営
– 国会図書館の所蔵する,日本で刊行された出版物および外国で刊行された日本語出版物
の目録
– UNIMARC準拠
– 日本目録規則
目録
• TRC/MARC
– 図書館流通センターの運営 参照する
– 日本で刊行される出版物の目録
参照する
– UNIMARC準拠
– 日本目録規則 書誌
典拠
著者名
(統一)書名
6
7. 図書館目録の著者名典拠
• NACSIS-CAT著者名典拠ファイル
– 個人名,団体名の典拠
– 個人名1,263,685件(西洋人著者名含む, 2008年12月18日)
• JAPAN/MARC典拠ファイル
– 個人名,家名,団体名,および統一書名の典拠
– 個人名681,924件(西洋人著者名含む, 2008年7月5日)
• TRC/MARC著者名典拠ファイル
– 個人名,機関名の典拠
– 個人名566,249件(西洋人著者名含む, 2009年3月29日)
人名データベース
登録件数 同一姓名が 同一姓名が 同一姓名に 同一姓名が
(漢字圏の東洋 複数存在す 複数存在す 対する最大 複数存在す
人の統一形標目 る登録件数
る異なり姓 登録件数
る登録件数
を抜粋)
名数
の割合
NACSIS-CAT
著者名典拠ファイル 329,864
32,034
13,344
20
9.71%
(2008年12月18日)
JAPAN/MARC
典拠ファイル 572,638
73,138
28,067
29
12.77%
(2008年7月5日)
TRC/MARC
著者名典拠ファイル 464,962
58,979
22,969
27
12.68%
(2009年3月29日)
7
8. 登録件数
登録件数 登録件数
件
0
5
10
15
20
25
30
0
5
10
15
20
25
件 30
0
5
10
15
20
25
件 30
1 1 1
501 501 501
1001 1001 1001
1501 1501 1501
2001 2001 2001
2501 2501 2501
27
29
20
3001 3001 3001
3501 3501 3501
4001 4001 4001
4501 4501 4501
5001 5001 5001
5501 5501 5501
6001 6001 6001
6501 6501 6501
7001 7001 7001
7501 7501 7501
8001 8001 8001
8501 8501 8501
9001 9001 9001
9501 9501 9501
10001 10001 10001
10501
13,344
10501 10501
11001 11001 11001
11501 11501 11501
12001 12001 12001
12501 12501 12501
13001 13001 13001
13501 13501
14001 14001
14501 14501
15001 15001
15501 15501
16001 16001
16501 16501
17001
異なり姓名順位
17001
17501 17501
NACSIS-CAT
JAPAN/MARC
18001 18001
18501 18501
19001 19001
19501 19501
20001 TRC/MARC
22,969 20001
20501 20501
21001 21001
21501 21501
22001 22001
22501 22501
23001
23501
311,174
24001
24501
25001
25501
28,067
26001
著者名典拠における
26501
異なり姓名順位
27001
27501
28001
428,952
異なり姓名順位
8
異なり姓名ごとの登録件数の分布
527,567
9. 著者名典拠における
異なり姓名順位トップ20
NACSIS--CAT
JAPAN/MARC
TRC/MARC
順位
姓名
登録件数
姓名
登録件数
姓名
登録件数
1
高橋徹
20
鈴木博
29
鈴木博
27
2
鈴木博
17
田中実
29
田中実
26
3
佐藤進
17
伊藤博
28
小林茂
24
4
田中実
16
小林茂
26
高橋徹
23
5
伊藤博
16
鈴木一郎
24
鈴木実
22
6
高橋進
13
高橋一郎
22
佐藤進
21
7
高橋清
13
佐藤正
22
渡辺誠
19
8
鈴木一郎
13
高橋徹
21
佐藤正
19
9
小林茂
13
鈴木実
21
伊藤博
19
10
吉田豊
13
田中豊
21
田中稔
18
11
高橋誠
12
(李〓)
21
小林一郎
18
12
田中宏
12
鈴木茂
20
鈴木隆
17
13
渡辺誠
12
吉田稔
20
鈴木茂
17
14
渡辺茂
12
田中宏
19
田中宏
17
15
小林哲夫
12
佐藤進
19
吉田豊
17
16
田中明
11
高橋和子
18
佐藤博
17
17
佐藤正
11
渡辺誠
18
高橋進
16
18
中村宏
11
渡辺宏
18
田中豊
16
19
高橋豊
10
高橋清
17
田中茂
9
16
20
高橋正明
10
(陳〓)
17
田中一郎
16
10. 母集団の大きさに依存する
同姓同名の割合
• 文献によると
– 田中康仁,同姓同名の発生頻度,計算言語学
10-1,1977
– 昭和51年当時の日本人の漢字姓名107万人の
名簿を用いて機械的に数え上げ
同姓同名がいる人の割合(%)
%
40
30
20
10
0 母集団
0 50 100 150
万人
10
11. 研究者の名寄せの方法
• 図書館の目録のように、閉じたデータベースの中では
人手で著者に英数字記号の識別子(Identity: ID)を付
けて区別した
• 学術論文のデータベースでは、2つの方法がとられて
きた
– 計算機による名寄せ
– 手動で登録
• 新たな名寄せの潮流
– ORCID (Open Researcher and Contributor ID)
– 学術コミュニケーションに関与するすべてのステークホル
ダーを包含した、研究者にIDを付与するコミュニティを形
成する
11
12. 学術論文データベースにおける
これまでの2つのアプローチ
• 計算機による名寄せ
– 論文書誌を対象に著者でまとめる
– 論文情報システムの著者名検索結果として機能
– プロダクションシステムとして必要な99%以上の精度を求める
には程遠い
– 例
• Scopus Author Identifier
(Elsevier社のScopusに実装)
• Distinct Author Identification System
(Thomson Reuters社のWeb of Scienceに実装)
• 手動で登録
– 著者を対象に論文書誌を集める
– 研究者業績ショーケースとして機能
– 簡単に著者と論文書誌を網羅できない
– 例
12
• ResearcherID (Thomson Reuters社)
13. 研究者ID付与コミュニティORCID
• Open Researcher and Contributor ID
– Open : 公開された
– Researcher : 研究者
– Contributor : 貢献者
– ID : 本人証明
• 設立趣旨(Mission Statement)
– ORCIDは、学術コミュニケーションにおける著者/貢献者の名
前の曖昧性の問題を解決することを目的とし、個々の研究者
に対する固有の識別子の中央レジストリと、ORCIDと現存する
他の著者IDスキームとの間のオープンで透過的なリンクメカニ
ズムを構築することによって実現する。これらの識別子及び識
別子間の関係は研究者のアウトプットにリンクすることが可能
であり、科学的発見プロセスを拡大させ、研究コミュニティにお
ける研究助成や協働の効率性を改善する。
• http://www.orcid.org/
13
14. ORCIDの参加組織
• 2011年10月31日では273機関。
– 学術機関114、出版者40、企業41、学会27、政府10、
NPO 31、その他10
– また、地理的には、米国109、英国45、ドイツ20、カナダ
11、オーストラリア9、インド7、ブラジル6、スペイン5、フラ
ンス4、アイルランド4、スウェーデン4、スイス4、オーストリ
ア3、中国3、イタリア3、日本3、オランダ3、ベルギー2、コ
ロンビア2、韓国2、ニュージーランド2、ポルトガル 2、シン
ガポール2、トルコ2、1組織の参加の国は、アルゼンチン、
エジプト、エチオピア、フィンランド、ギリシャ、イラン・イス
ラム共和国、イスラエル、リトアニア、マレーシア、パキス
タン、カタール、ルーマニア、サウジアラビア、セルビア、
スロベニア、南アフリカ
14
16. ORCID IDシステムのシナリオ
エンド パートナー
ユーザー
システム
たとえば、原稿追跡システム
だれが文書Xを書いたか? (MTS : Manuscript Tracking
System)にシングルサインオン
ID Yの人が書いた、 (SSO)して、編集事務局、マー
または査読した文書はどれか?
ケティング部門、ロイヤルティ支
払いシステムなどと連絡先情報
を共有
コアシステム
(ORCID identity system)
16
17. プロファイルの交換とマッチング
可能なマッチングアルゴリズム
• VIAF(OCLC)
• Author Resolver (ProQuest)
• OKKAM
ORCID
F67572010
(By Howard Ratner, ORCID Update, Slides at CrossRef Annual Meeting, in London, 16 Nov. 2010)
17
18. 著作者にIDを付ける活動
• バーチャル国際典拠ファイル VIAF (Virtual International Authority
File),
– 米国OCLC
– LC
– ドイツDNB
– フランスBnF
• 国際標準名前識別子 ISNI (International Standard Name Identifier),
ISO27729
– International Confederation of Societies of Authors and Composers
(CISAC) www.cisac.org
– International Federation of Reproduction Rights Organisations
(IFRRO)www.ifrro.org
– International Performers’ Database Association (ipda.sami.se)
– Bowker (www.bowker.com )
– Online Computer Library Center (OCLC) (www.oclc.org)
– Bibliotheque Nationale de France
– The British Library
18
19. VIAF
• 各国の名前典拠ファイルをリンク
• 今は個人名のみ
• 1050万件(2010-03)
の名前レコード
• 抽出元
– 1300万件名前レコード
– 8000万件の引用レコード
19
21. 機関リポジトリを対象とした
著者にIDを付ける活動
• DAI (Digital Author Identifier), オランダ
SURF財団
• Names Project, 英国 Mimas, JISC funded
• arXiv.org Author Identifiers, 米国コーネル
大学
• Networking Names, 米国OCLC
• 研究者リゾルバー,NII
21
25. 著者で検索
著者ID付きで、サジェスト
25
27. 研究者リゾルバーの目的
• 基本機能
– 日本の研究者を対象としたWeb上の識別子
• あわせて、日本の研究組織を対象とした識別子
– Web上の研究者リソースのリンキングハブ http://rns.nii.ac.jp
• 取り扱う情報 登録主体による位置づけ
– 研究者の基本情報と研究業績リストを \業績 機関によるとりまと 研究者による 機械による
\ め
とりまとめ
自動処理
ベースとしたリンクマネージメント
\
研究者
• 応用 機関によ 研究者ディレクトリ 機関にある
る登録
IR ホームページ
– Linked Data Webのための、 KAKEN
研究者
日本の研究者と組織のURI表現 リゾルバー
ReaD
– 名前解決するWebサービス
研究者に Researchmap
– NIIの学術関連サービスへの よる登録
ResearcherID
密接なデータ連携 機械によ CiNii 著者検索 Google
る自動処 Google
– Web上の名前典拠としての利用 理
scholar
27
28. 研究者識別子スキーム
• 13ケタの番号によって研究者を表す
• 研究者リゾルバーIDと呼ぶ
ID (13ケタの番号)
説明
10000xxxxxxxx
科研費研究者番号登録者のID割り当て
xxxxxxxx は、科研費研究者番号 (8 桁)
200xxxxxxxxxx
ReaD研究者コード登録者のID割り当て
xxxxxxxxxx
は、ReaD研究者コード (10桁)
3xxxxxxxxxxxx
それ以外のID割り当て
– 一人の研究者に対して、複数の研究者リゾルバーID
が登録された場合、いずれかのIDを代表させて、エ
イリアスを張る
• URIによる表現
• http://rns.nii.ac.jp/nr/xxxxxxxxxxxxx
• xxxxxxxxxxxxxは研究者リゾルバーID 28
29. 初期登録
• 呼び水として、科研費データベースKAKENの
データを利用して研究者を登録
• データ項目
– 姓名(漢字、ヨミ、ローマ字)
– 所属機関(最新)、部局、職名
– 科研費研究者番号
– (科研費研究課題の研究分野)
– (科研費研究課題の研究キーワード)
• 2011/10/15現在、192,716件登録
29
32. クロールによるアプローチ
• 大学の研究者ディレクトリをクロール
– 研究者ページのURLを特定
– それぞれのURLに対して研究者名を特定
• ここでは簡単に、以下を同時に満たすとき、同一人物
と判定
– 漢字氏名の一致
– 機関の一致 本年度、
– 機関内でユニーク名(同姓同名がいない) 226大学
• クロールとリンクの実際 に対象を拡大
– 226大学の研究者ディレクトリに対してクロール
– 102,949件のURLを取得
– 23,252件のリンク(リンク率23%、登録全体の12%)
32
33. 機関のデータアップロードによる
アプローチ
• データ
– 研究者の基本情報と研究業績リストを収集
– ResearcherID (Thomson Reuters)で利用される
データアップロードXMLスキーマを日本語化して独自
拡張
• 応用
研究者リゾルバー
– 研究者リゾルバーIDと NII
外部サービス識別子との
マッピングテーブルを構築
– 外部の研究者リソースとの 研究者総覧・IR著者名典拠
(研究者ディレクトリ)
同定処理 機関
33
34. 研究者ページ
研究者姓名 (漢字,カタカナ,ローマ字)
研究者リゾルバーID
研究者URI
研究者基本情報
ダイレクトリンク
検索リンク
科研費研究課題の研究分野
科研費研究課題のキーワード
この文書のURI
34
37. JAIRO著者名検索への応用
• 研究者リゾルバーをJAIROの著者名典拠として
位置づけることによって、JAIRO著者名検索を
実現する
• リポジトリ側で対応してほしいこと
– JAIRO(IRDB)がハーベストするフォーマット(junii2)
のcreatorフィールドに、id(anyURI)属性を入れる
– 2通りのID付与
• 研究者リゾルバーのURIをidとして付与する
• 独自のIDをもとにURI化し、idとする。そして、idと、たとえば
科研費研究者番号などの対応表を研究者リゾルバーへ
アップロードする
37
38. 著者ID(anyURI)が付与された
書誌メタデータ(junii2の拡張)
<?xml version="1.0" encoding="UTF-8" ?>
<OAI-PMH
xmlns="http://www.openarchives.org/OAI/2.0/"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://www.openarchives.org/OAI/2.0/ http://www.openarchives.org/OAI/2.0/OAI-PMH.xsd">
<responseDate>2011-05-26T13:34:09Z</responseDate>
<request metadataPrefix="junii2" verb="GetRecord" identifier="oai:ir.lib.shizuoka.ac.jp:10297/5644">http://
ir.lib.shizuoka.ac.jp/dspace-oai/request</request>
<GetRecord>
<record>
<header>
<identifier>oai:ir.lib.shizuoka.ac.jp:10297/5644</identifier>
<datestamp>2011-05-22T08:02:22Z</datestamp>
<setSpec>hdl_10297_24</setSpec>
</header>
<metadata>
<junii2
xmlns="http://irdb.nii.ac.jp/oai"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://irdb.nii.ac.jp/oai http://irdb.nii.ac.jp/oai/junii2.xsd">
<title>Orientation-dependent epitaxial growth of GaAs by current-controlled liquid phase epitaxy</title>
<creator>Mouleeswaran, D.</creator>
<creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator>
<creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator>
<NDC>459</NDC>
<description>The orientation dependence of the selective epitaxial growth of Gallium Arsenide (GaAs) has been
investigated to achieve a thick epitaxial layer for application to X-ray detectors. Selective epitaxial growth was carried out
on patterned GaAs with [0 1 1], [0 1 2], [0 1 0], [0 1 −2], [0 1 −1] and their equivalent seed orientations by current-
controlled liquid phase epitaxy (CCLPE). SiO2 was used as a mask layer to fabricate the various seed orientations on the Si-
doped GaAs (1 0 0) substrate and various growth periods and current densities were considered. Solute transport in the solution
<creator id=“http://rns.nii.ac.jp/nr/1000001133354”>Koyama, T.</creator>
was enhanced by the electromigration of solute by an applied DC electric current, which caused an incremental growth in vertical
and lateral directions in all orientations. The highest vertical thickness of 268 µm in the [0 1 −1] orientation and the largest
<creator id=“http://rns.nii.ac.jp/nr/1000048520242”>Hayakawa, Yasuhiro</creator>
lateral growth of 318 µm in the [0 1 2] orientation were achieved at 7.5 A cm−2 current density for 6 h. The seed aligned in the
[0 1 2] orientation was favorable for high lateral growth of GaAs. The [0 1 1], [0 1 0] and [0 1 −2] seed orientations were
suitable for application in a GaAs X-ray detector.</description>
<publisher>Elsevier</publisher>
<NIItype>Journal Article</NIItype>
<format>application/pdf</format>
<URI>http://hdl.handle.net/10297/5644</URI>
<fullTextURL>http://ir.lib.shizuoka.ac.jp/bitstream/10297/5644/1/110520001.pdf</fullTextURL>
<jtitle>Journal of Crystal Growth</jtitle>
<issn>00220248</issn>
<NCID>AA00696341</NCID>
<volume>321</volume>
<issue>1</issue>
<spage>85</spage>
<epage>90</epage>
<dateofissued>2011-04-15</dateofissued>
<language>eng</language>
<doi>info:doi/10.1016/j.jcrysgro.2011.02.026</doi>
<rights>Copyright © 2011 Elsevier B.V. All rights reserved.</rights>
<textversion>author</textversion>
</junii2> 38
</metadata>
</record>
</GetRecord>
</OAI-PMH>
39. データの個人情報保護とプライバシー
• データの種類
– 書誌メタデータ
– 研究者基本情報と業績リスト
• 実務のフェーズ
– 学術研究(実証実験)
– 事業 http://www.caa.go.jp/seikatsu/kojin/houtaikei.pdf
• 関連法案(参考)
個人情報の保護に関する法律
第一章 総則
(定義)
第二条この法律において「個人情報」とは、生存する個人に関する情報であって、当該情報に含まれる
氏名、生年月日その他の記述等により特定の個人を識別することができるもの(他の情報と容易に照合
することができ、それにより特定の個人を識別することができることとなるものを含む。)をいう。
2 この法律において「個人情報データベース等」とは、個人情報を含む情報の集合物であって、次に掲
区分
国立大学
公立大学
私立大学
大学共同利用機関
げるものをいう。
一 特定の個人情報を電子計算機を用いて検索することができるように体系的に構成したもの
二 前号に掲げるもののほか、特定の個人情報を容易に検索することができるように体系的に構成した
ものとして政令で定めるもの
3 この法律において「個人情報取扱事業者」とは、個人情報データベース等を事業の用に供している者
適用法令
独立行政法人の保 個人情報保護条例
個人情報の保護に 独立行政法人の保 をいう。ただし、次に掲げる者を除く。
有する個人情報の 関する法律
有する個人情報の 一国の機関
二地方公共団体
保護に関する法律
保護に関する法律
三 独立行政法人等(独立行政法人等の保有する個人情報の保護に関する法律(平成十五年法律第五十
九号)第二条第一項に規定する独立行政法人等をいう。以下同じ。)
四 地方独立行政法人(地方独立行政法人法(平成十五年法律第百十八号)第二条第一項に規定する地
適用除外規定
第11条第2項
条例による
第50条第1項第3号
第11条第2項
方独立行政法人をいう。以下同じ。)
五その取り扱う個人情報の量及び利用方法からみて個人の権利利益を害するおそれが少ないものとし
て政令で定める者
4 この法律において「個人データ」とは、個人情報データベース等を構成する個人情報をいう。
5 この法律において「保有個人データ」とは、個人情報取扱事業者が、開示、内容の訂正、追加又は削
個人情報の区分
個人情報、保有個 個人情報、(保有個 個人情報、個人 個人情報、保有個 除、利用の停止、消去及び第三者への提供の停止を行うことのできる権限を有する個人データであって、
その存否が明らかになることにより公益その他の利益が害されるものとして政令で定めるもの又は一年
人情報
人情報)
データ、保有個人 人情報
以内の政令で定める期間以内に消去することとなるもの以外のものをいう。
6 この法律において個人情報について「本人」とは、個人情報によって識別される特定の個人をいう。
データ
39
43. まとめ
• 名前には曖昧性があるので、研究者を識別子によって区
別する必要がある
• 研究者識別子は、新しいサービスの基礎
• JAIRO著者名検索を実現するためには
– 研究者リゾルバーをJAIROの著者名典拠として位置づける
– リポジトリ側で対応してほしいこと
• JAIRO(IRDB)がハーベストするフォーマット(junii2)のcreatorフィー
ルドに、id(anyURI)属性を入れる
• 2通りのID付与
– 研究者リゾルバーのURIをidとして付与する
– 独自のIDをもとにURI化し、idとする。そして、idと、たとえば科研費研究者番
号などの対応表を研究者リゾルバーへアップロードする
• そのさきに、研究者リゾルバーを通して、様々な国内外の
学術情報データベースが著者でリンクされる
43