Submit Search
Upload
HUSCAPのログ分析:真のアクセスログから
•
0 likes
•
4 views
Y
Yuji Nonaka
Follow
機関リポジトリアウトプット評価プロジェクト合同ワークショップ 2009-10-02, 千葉大学
Read less
Read more
Presentations & Public Speaking
Report
Share
Report
Share
1 of 53
Download now
Download to read offline
Recommended
「図書館情報入門」の再プログラム
「図書館情報入門」の再プログラム
Yuji Nonaka
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
Ikki Ohmukai
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
より読まれるように、より読まれやすく するための技術的サポート
より読まれるように、より読まれやすく するための技術的サポート
Yuji Nonaka
機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上
Yuji Nonaka
データ共有基盤の構築に向けて
データ共有基盤の構築に向けて
National Institute of Informatics (NII)
Recommended
「図書館情報入門」の再プログラム
「図書館情報入門」の再プログラム
Yuji Nonaka
Code4Lib 2013参加報告
Code4Lib 2013参加報告
Masao Takaku
Linked Open Dataで市民協働と情報技術者をつなげる試み
Linked Open Dataで市民協働と情報技術者をつなげる試み
Shun Shiramatsu
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
CiNiiのメタデータ・デザイン@LinkedData勉強会(2012.01.18)
Ikki Ohmukai
Infosta実習 発表ver
Infosta実習 発表ver
skdmai
より読まれるように、より読まれやすく するための技術的サポート
より読まれるように、より読まれやすく するための技術的サポート
Yuji Nonaka
機関リポジトリ収録文献のビジビリティ向上
機関リポジトリ収録文献のビジビリティ向上
Yuji Nonaka
データ共有基盤の構築に向けて
データ共有基盤の構築に向けて
National Institute of Informatics (NII)
100622 学術情報セミナー
100622 学術情報セミナー
Shuhei Otani
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
Masahito Nose
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
National Institute of Informatics
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
National Institute of Informatics (NII)
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
Yasushi Hara
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Sgepss2013 koyama
Sgepss2013 koyama
Yukinobu Koyama
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
National Institute of Informatics (NII)
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
Kouji Kozaki
20151029 CODATA
20151029 CODATA
Taro misumi
電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か
min2fly
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
Shun Shiramatsu
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
Takanori Hayashi
サブカルのためのWord2vec
サブカルのためのWord2vec
DeNA
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
yamahige
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
Kazuhiro Hayashi
Web API入門
Web API入門
Masao Takaku
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
Kouji Kozaki
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
Shintaro Fukushima
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
National Institute of Informatics
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
Yuji Nonaka
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
Yuji Nonaka
More Related Content
Similar to HUSCAPのログ分析:真のアクセスログから
100622 学術情報セミナー
100622 学術情報セミナー
Shuhei Otani
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
Masahito Nose
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
National Institute of Informatics
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
National Institute of Informatics (NII)
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
Yasushi Hara
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
harmonylab
Sgepss2013 koyama
Sgepss2013 koyama
Yukinobu Koyama
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
National Institute of Informatics (NII)
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
Kouji Kozaki
20151029 CODATA
20151029 CODATA
Taro misumi
電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か
min2fly
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
Shun Shiramatsu
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
Takanori Hayashi
サブカルのためのWord2vec
サブカルのためのWord2vec
DeNA
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
yamahige
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
Kazuhiro Hayashi
Web API入門
Web API入門
Masao Takaku
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
Kouji Kozaki
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
Shintaro Fukushima
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
National Institute of Informatics
Similar to HUSCAPのログ分析:真のアクセスログから
(20)
100622 学術情報セミナー
100622 学術情報セミナー
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Sgepss2013 koyama
Sgepss2013 koyama
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
オープンデータとLinked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸R
20151029 CODATA
20151029 CODATA
電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
サブカルのためのWord2vec
サブカルのためのWord2vec
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
Web API入門
Web API入門
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
More from Yuji Nonaka
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
Yuji Nonaka
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
Yuji Nonaka
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
Yuji Nonaka
係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告
Yuji Nonaka
大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいこと
Yuji Nonaka
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
Yuji Nonaka
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
Yuji Nonaka
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
Yuji Nonaka
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
Yuji Nonaka
学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援
Yuji Nonaka
よりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のために
Yuji Nonaka
usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...
Yuji Nonaka
Two heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshop
Yuji Nonaka
学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)
Yuji Nonaka
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
Yuji Nonaka
研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすもの
Yuji Nonaka
我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?
Yuji Nonaka
More from Yuji Nonaka
(17)
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告
大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいこと
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援
よりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のために
usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...
Two heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshop
学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすもの
我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?
HUSCAPのログ分析:真のアクセスログから
1.
HUSCAP のログ分析 - 真のアクセスログから
- 北海道大学附属図書館学術システム課 野中雄司 機関リポジトリアウトプット評価プロジェクト合同ワークショップ 平成 21 年 10 月 2 日(金)
2.
本日の題目 1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
3.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
4.
ZS プロジェクト(目的) • 機関リポジトリによるオープン・アク セス(OA)の効果を検証する。 機関リポジトリに登録する ことで新たな引用を引き起 こすか?
5.
ZS プロジェクト(方法) 1. 日本動物学会発行の国際ジャーナルである “
Zoological Science” 誌に掲載されている論 文のうち,北海道大学,京都大学の所属研 究者の発表論文をそれぞれの機関リポジト リに搭載する。 2. 機関リポジトリにおけるアクセスログ及び BioOne のアクセスログを分析(論文がどれ だけ読まれたかの調査) 3. Web of Science 上の被引用カウントの変化を 整理し,上記の利用記録と照合しつつ引用 状況の変化の特性を抽出する。 現在はだいたいこのあたり
6.
ZS プロジェクト(イメージ) 北大所属研 究者 京大所属研 究者 投稿 北海道大学学術成果 コレクション 京都大学学術機関リ ポジトリ 登録 ZS プロ ジェクト ZS
プロ ジェクト ログ Web of Science 正式 EJ プラットフォーム ( BioOne )のログ 採録 被引用データ
7.
ZS プロジェクト • リポジトリの利用状況分析も行っている 。 •
ROAT と同様の真のアクセスログ抽出ロ ジックを使用。 (出典:佐藤義則 . 動向レビュー:機関リポジトリの 利用統計のゆくえ . カレントアウェアネス . 2008, (296), p.12-16. ( http://current.ndl.go.jp/ca1666, 2009-09-30 参照))
8.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
9.
ZS プロジェクトの過程で • せっかく皮むきしたので使い道を考えてみた 。 1.
より可視性を高めるための戦略立案のために – まずは現状を調べてみよう – 本当に OAI-PMH でのデータ提供は有効なの? – 利用数に影響している要因はあるか? 1. 研究者の登録意欲を高めるために – 個別訪問・ポスター・チラシとは別にもっと実感 できる広報として • とりあえず数字 • とりあえず目に見えて実感できるものを提供してみよ
10.
1.より可視性を高めるための戦 略立案のために 1. アクセス経路(来着経路)は? – だれが,何を,どこから? –
足りない部分や力を入れるべき部分がわかる か? 1. 利用者層ごとのアクセス経路は? – 特に研究者の情報探索行動にマッチしている か? – 研究者 or NOT
11.
2.研究者の登録意欲が少しでも 高まるように何ができるか • 読まれているんだという実感や • こんな人がこんなところから読んでいる んだ といったことを目に 見えるようにしてみ よう
12.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
13.
分析補助ツール • 皮むきしたり(人間のアクセスを極力抽 出) – ごく簡単な仕組み –
ロボットリストが重要 • ロボットの排除が一番大変 – ROAT プロジェクトに期待 • ホスト名解決したり • 検索語を抽出したり • 分析を容易にするためのフラグを付加し たり 皮むきは ROAT プ ロジェクトと同じ ロジックを使わせ ていただいて
14.
分析の対象とするログ • コンテンツ本体へのアクセス • 簡略書誌ページ –
アクセス経路を極力把握したいので – HANDLE システム登録ページ(パーマリンク 先) – OAI-PMH でも簡略書誌ページをコンテンツの ありかとして表明 – Google sitemap でも 可視性を高める戦略のために 研究者への情報提供のために もちろんこれ がベースにな るが 簡略書誌ページ が着地点となる ことが多い
15.
ログの意味(おさらい) 133.87.26.171 - -
[28/Sep/2009:20:36:28 +0900] "GET /dspace/handle/2115/34975 HTTP/1.1" 200 14639 "http://ci.nii.ac.jp/naid/110007005996" "Mozilla/5.0 (Windows; U; Windows NT 5.1; ja; rv:1.9.1.3) Gecko/20090824 Firefox/3.5.3 GTB5 (.NET CLR 3.5.30729)" 誰が どこから何を いつ Apache combined 形式の場合
16.
簡略書誌ページへのアクセスログ を対象とする意味 <参照元> http://ci.nii.ac.jp/naid/110007 005996 <参照元> http://eprints.lib.hokuda i.ac.jp/dspace/handle/2 115/34975 コンテンツ (PDF) へのアクセスログだけで は,アクセス経路の把握は十分ではない。 (せっかく
OAI-PMH でデータ提供しているのにそこか ら( CiNii 等)のアクセスであることが把握できない)
17.
補助ツール詳細 • PHP スクリプト •
出力は 1 ログ 1 行,各項目をタブ区切りテキ スト形式で – 後で Postgresql , MS Access 等のデータベース ソフトに一括登録しやすいように • 対象アイテムの指定も可能 • 一応公開もしている – DRF サイトの「 Zoological Science meets Institutional Repositories/ ログ解析補助ツール」 ページ – http://drf.lib.hokudai.ac.jp/drf/index.php?Zoological%20Science%20mee
18.
出力項目 項目名 グループ
備考 1 IP アドレス ログ分解 2 アクセス日時 3 アクセス先 4 HTTP ステータス 5 バイト数 6 リファラ 7 UserAgent 8 ハンドル 対象コンテンツ アクセス先から切り出し 9 特徴的なアクセス元 おまけ(予備的) 設定ファイルからマッチしたら 10 特徴的なアクセス元グループ 11 リファラルート URL リファラ リファラから切り出し 12 リファラ名 設定ファイルからマッチしたら 13 リファラグループ 14 検索語 検索語 特定(大手サーチエンジン)のサイトのみ 15 TLD (トップレベルドメイン) アクセスした人の情報 16 SLD (セカンドレベルドメイン) 17 TLD+SLD 18 指定ホスト 設定ファイルからマッチしたら19 指定ホスト名 20 指定ホストグループ 21 ホスト名 IP アドレスから解決できたもののみ 22 日時( DB 用) 日時 DB 投入用
19.
出力例 (1) …例えば <アクセス経路分析をより容易にするために> リファラをグルーピングするための項目を付加し たり(設定ファイルより) …例えば サーチエンジンか らどんな検索語で 来ている? 項目 名
20.
出力例 (2) …例えば <誰がアクセスしたかの分析を容易にするために> TLD や
SLD を切り出したり アクセス元をグルーピングするための項目を付加したり(設定 ファイルより)
21.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
22.
視点 1. アクセス経路(どこからどうやって論文 を読みに来たか)は? – 利用者層ごとに違いはあるのか? •
研究者 or NOT 1. コンテンツそのものの性質等,利用数に 影響がある要因はあるか? – 疑問があったものについてはログを調べてみ る。
23.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
24.
アクセス経路分析(対象コンテンツ) 文献タイプ 言語 アイテム数
JP ドメイン から JP ドメイン 以外から 雑誌論文 英語 2,797 5,483 13,184 日本語 596 13,954 1,669 紀要 英語 8128 7,137 15,464 日本語 15,852 109,001 17,833 学位論文 英語 136 343 392 日本語 215 3,164 471
25.
アクセス経路分析(対象ログ) • 2009 年
1 月~ 8 月までのログ • アクセス経路分析のため,リファラがないもの を除外 • コンテンツ(主に PDF )のダウンロードログ のリファラから • ただし HUSCAP 内ページ(書誌ページ)から のダウンロードは,簡略書誌ページ(コンテン ツをダウンロードしたと思われるもののみ)ロ グのリファラに置き換え。 • もちろんそれでも HUSCAP 内ページからのダ ウンロードログは残るがアクセス経路が不明の ため除外 • 教育機関(ホスト名から可能な範囲で判別)と それ以外に分けてみた。
26.
コンテンツへのアクセスログだけ ではアクセス経路把握は不十分 HUSCAP 内からのアクセスの 後ろには CiNii
がいるかもしれ ないけど,コンテンツ本体へ のアクセスログだけではわか らない。 ここに簡略書誌ページへのア クセスログから,簡略書誌 ページへのアクセス経路(リ ファラ)をセットしてみたら いいかな でも簡略書誌ページに着地し た人すべてがコンテンツをダ ウンロードしたとは限らない 。 コンテンツ (PDF) へのアクセスログのリファラ をグルーピングしたもの
27.
問題点(アクセス経路) <簡略書誌ページログのリファラ> http://ci.nii.ac.jp/naid/110007005996 < PDF ダウンロードログのリ ファラ> http://eprints.lib.hokudai.ac.jp/ dspace/handle/2115/34975 HUSCAP
内からの アクセスであると いうことしかわか らない。 そのひとつ前のリ ファラを知りたい 。
28.
問題点(アクセス経路) <参照元> http://ci.nii.ac.jp/naid/110007 005996 <参照元> http://eprints.lib.hokuda i.ac.jp/dspace/handle/2 115/34975 ここを繋げたい。 簡略書誌ページに来てから,本 当にコンテンツを読んだか(ダ ウンロードしたか)がわからな い。 本当にコンテンツをダウンロー ドしたと思われる簡略書誌ペー ジへのアクセスログのみ抽出し たい。
29.
とりあえずの対応策 <参照元> http://ci.nii.ac.jp/naid/110007 005996 <参照元> http://eprints.lib.hokuda i.ac.jp/dspace/handle/2 115/34975 簡略書誌ページへのアク セスから 300 秒(
5 分)以内に PDF をダウン ロードしたものだけを抽 出(同一人物かどうかは IP アドレスで判断)
30.
簡略書誌ページからコンテンツをダウ ンロードしたと思われる率 雑誌論文<英語> JP ドメイン以外か ら 教育機 関以外 教育機 関 サーチエンジン (Google) 21%
32% サーチエンジン (Google JAPAN) 17% 12% サーチエンジンその他 11% 9% その他のサイト 29% 53% ScientificCommons 60% 71% Scirus 40% 46% biblioteca.net 52% 60% CiNii 56% 64% 合計 34% 47% 紀要<日本語> JP ドメインから 教育機関 以外 教育機 関 サーチエンジン (Google JAPAN) 22% 32% サーチエンジン (Google) 22% 34% サーチエンジンその他 15% 22% WikiPedia 41% 69% コミュニティサイト 45% 62% ブログ 41% 54% その他のサイト 48% 59% CiNii 76% 74% ScientificCommons 74% 81% biblioteca.net 67% 74% 学術サーチその他 70% 72% 合計 36% 56%
31.
雑誌論文<英語> JP ドメイン以外から(主に国外から) 教育機関以外から Google からのアクセスが圧倒的 それ以外のサーチエンジンがほとんどない
32.
教育機関から 教育機関以外のアクセス経路に比べデータ提供サイトから の比率が高い
33.
紀要<日本語> JP ドメインから(主に国内から) 教育機関以外から Google は多いが,それ以外のサーチエンジンからも 多様なアクセス経路 データ提供サイトからのアクセスも多い
34.
教育機関から データ提供サイト(学術資料検索サイト)からのアクセスが Google JAPAN を上回っている。
35.
Biblioteca.Net Biblioteca.Net CiNii HUSCAP そもそもは Google な気も するけど SEO で上位表 示される
SP に ハーベストさ れるのも悪く …もないか
36.
結果からの対策 <セルフアーカイブもの 1 > •
Google 強し – Google Sitemap は重要かも。 SEO への影響は不 明だが。 • サーチエンジンからの英語文献へのアクセス は Google 独壇場 – …なぜだかわからない 。 – 他のサーチエンジンでも Google Sitemap のよう な仕組みがあれば対応すべきか?
37.
結果からの対策 <セルフアーカイブもの 2 > •
Google からのルートにほぼ限定されている 。 – 他に有望なルートはあるか? – 海外リポジトリのアクセス経路を調べるか? • 研究者からのアクセスはデータ提供している サービス(主に学術目的)からのアクセスが 一般に比べ多い – やはり研究者にこそ読んでほしいと思ってしまう ので,地道に適切なサービスにデータ提供するこ とがよいか( NDLTD へのデータ提供検討中)
38.
結果からの対策 <出版物的なもの(主に紀要)> • まがりなりにも紀要のEJプラットフォーム • 商用文献データベースに収録されている紀要 論文でも,商用文献データベースからアクセ スできない。 –
AIRway で解決?→いやいやこれは搦め手だし弱い – 各DBに直接 HUSCAP へのリンクを追加しても らう? – 各リゾルバベンダーのナレッジベースに収録され るように? • どうやって? DOI つけたほうがいいか? CrossRef ?
39.
JJVR: Japanese Journal
of Veterinary Research (北大獣医学部発行) WoS,Scopus,PubM ed にも収録されて いるけれ ど, HUSCAP への リンクはなし リゾルバの KB に も収録されていな いため,リゾルバ でもリンク解決し てくれない
40.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
41.
その他の要因はあるか? • 同一論文で(紀要としての登録,紀要論 文をセルフアーカイブとして登録)利用 数の差異があるものを発見。 • PDF
への透明テキスト有無? Google は解 決してくれるというけれど。 MIYASHITA Yayo. Juliet's Acquisition of Independence and Patriarchy in Romeo and Juliet. 北海道大学文学研究科紀要 . 2002, Vol.106, p. 35-48 セルフアーカイブ 紀要(スキャン画像) 327 ダウンロード 19 ダウンロード
42.
透明テキスト付与 or NOT 検索単語種類数 セルフアーカイブ
紀要(スキャン画像) 449 単語 19 単語 やはり透明テキスト付与の影響か?
43.
全体を調べてみた • まずは出版年ごとのダウンロード数 • ほぼ全ての
PDF に透明テキストを付与し ている KURENAI と比較。 1900- 1915- 1930- 1945- 1960- 1975- 1990- 2005- 5 )出版年(年区切り 10 20 30 40 50 ()ダウンロード数平均 HUSCAP(N=25,542) 1900- 1915- 1930- 1945- 1960- 1975- 1990- 2005- 5 )出版年(年区切り 10 20 30 40 50 ()ダウンロード数平均 KURENAI(N=28,356) 古いものはほとん ど紀要 (スキャン PDF : 透明テキストな し) 「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会 研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
44.
テキスト化の有無と利用数:テキスト化の有無と利用数: HUSCAPHUSCAP 収録紀要論文の場合収録紀要論文の場合 リポジト リ内 サーチ エンジン 全体 全体 テキストなし ( N=20,597 ) 3.4
2.0 6.4 テキストあり ( N=1,396 ) 17.2 34.7 60.7 2005 年以降 発行分 テキストなし ( N=746 ) 14.3 2.5 19.5 テキストあり ( N=911 ) 22.9 43.6 77.7 “Eurasian Journal of Forest Research” 2006 年発行分 テキストなし ( N=5 ) 3.8 2.4 7.8 テキストあり ( N=5 ) 10.4 101.0 136.6 「北海道大学文学 研究科紀要」 2006 年発行分 テキストなし ( N=9 ) 5.3 0.9 8.0 テキストあり ( N=13 ) 18.2 18.8 44.8「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会 研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
45.
テキスト化の有無と利用数:テキスト化の有無と利用数: HUSCAPHUSCAP 収録紀要論文の場合収録紀要論文の場合 45 リポジト リ内 サーチ エンジン 全体 全体 テキストなし ( N=20,597 ) 3.4
2.0 6.4 テキストあり ( N=1,396 ) 17.2 34.7 60.7 2005 年以降 発行分 テキストなし ( N=746 ) 14.3 2.5 19.5 テキストあり ( N=911 ) 22.9 43.6 77.7 “Eurasian Journal of Forest Research” 2006 年発行分 テキストなし ( N=5 ) 3.8 2.4 7.8 テキストあり ( N=5 ) 10.4 101.0 136.6 「北海道大学文学研 究科紀要」 2006 年発行分 テキストなし ( N=9 ) 5.3 0.9 8.0 テキストあり ( N=13 ) 18.2 18.8 44.8 ・テキスト化の有無で 4倍~17倍の差 ・サーチエンジンに 限定すれば最大 40倍以上の差 「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会 研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
46.
ここまで見せられたら • やらない訳にはいかない。 • やってみた。 •
一昨日に終了。(約20,000件に透 明テキストを付与) • 結果が楽しみです。
47.
1. ZS プロジェクトとは? 2.
ログ分析をする理由 3. 使用ツールと分析方法 4. より可視性を高める戦略立案のために – アクセス経路の把握 – その他利用数に影響があると思われる要因 1. 研究者の登録を促すために
48.
研究者の登録意欲が少しでも高ま …ればいいな • 読まれているんだという実感や • こんな人がこんなところから読んでいる んだ といったことを目に見え るようにしてみよう 1.毎月ダウンロード数をメールで通知 •いつ,だれが,どれくらいダウンロードしたのか(前月分) 2.
HUSCAP 上での統計ページ(著者のみ閲覧可能) •いつ,だれが,どれくらいダウンロードしたのか(全期間) •どこから論文にたどり着いたのか,またどんな検索語で?
49.
メールの例 ○○ ○○ 先生 日頃より附属図書館の事業にご協力頂きまして誠にありがとうございます。 附属図書館では、「北海道大学学術成果コレクション
(HUSCAP) 」に著作を提供下さったみなさまへ、月1 回、閲覧状況をお知らせしています。 以下は、文献ごとのドメイン別の閲覧回数です。 .edu( 米国教育機関 ) から何回、 .hokudai.ac.jp( 北大学内 ) から何回、のようにお読み下さい。 ドメイン名の意味については、下記サイトに説明があります。 http://www.nic.ad.jp/ja/dom/types.html また以下の URL から全期間の閲覧回数や参照元(どこを通ってきたか)等を確認することもできます。 http://eprints.lib.hokudai.ac.jp/dspace/statslist.jsp?statsurl=XXXXXXXXXXXXXXXXXXX 【 2009-08 文献別被閲覧回数】 論文名:機関リポジトリへのアクセス経路 12 ダウンロード :unknown 2 ダウンロード :search.msn.com 1 ダウンロード :ap122.ftth.ucom.ne.jp 1 ダウンロード :gate.nec.co.jp 1 ダウンロード :hkid.nt.ftth.ppp.infoweb.ne.jp 1 ダウンロード :kiep.go.kr 1 ダウンロード :lib.hokudai.ac.jp 共著者へも 送信可能 著作一覧ページへのリンク XXXX 部分は乱数。他の人からアク セスされないように。また,ログ インしないでアクセスできるよう に。
50.
著作一覧ページ
51.
統計ページ(通常版)
52.
統計ページ(参照元と検索語) 学術系検索サイトから のアクセス数と,それ 以外の参照元ページリ スト 検索語タグク ラウド
53.
終わり 引き続きログ分析は定期的に行って ,より可視性の高いリポジトリ,よ り研究者が文献を登録したいと思う リポジトリを目指していきたいと思 います。
Editor's Notes
一方、HUSCAPの方では利用が最新のものに偏っていたわけですが、その理由についは担当者に聞いたところ、紀要論文をスキャン・登録する際に画像のみのPDFとしたためにサーチエンジンから探せないのではないかとのことでした。 そこで実際にHUSCAPに収録された紀要のうち本文ダウンロードに成功した21,993件について、テキスト化の有無とアクセス数の関係を分析したものがこちらです。 全体ではテキストがないものは平均6.4回のダウンロードなのに対しテキストありは60回以上と10倍近い差があります。特にサーチエンジンからのアクセスの差が顕著です。 また、2005年以降に出版された最近の論文に区切った場合、さらに同じ雑誌の同一年発行分に掲載された論文の中でもテキストがあるものとないものの差を見てみましたが、いずれもテキスト有の方が大きく利用が多い結果になりました。
アクセス数の差は4倍から最大17倍、サーチエンジンからのアクセスに限定すれば最大40倍の差がありました。
Download now