SlideShare a Scribd company logo
1 of 53
Download to read offline
HUSCAP のログ分析
- 真のアクセスログから -
北海道大学附属図書館学術システム課
野中雄司
機関リポジトリアウトプット評価プロジェクト合同ワークショップ
平成 21 年 10 月 2 日(金)
本日の題目
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
ZS プロジェクト(目的)
• 機関リポジトリによるオープン・アク
セス(OA)の効果を検証する。
機関リポジトリに登録する
ことで新たな引用を引き起
こすか?
ZS プロジェクト(方法)
1. 日本動物学会発行の国際ジャーナルである
“ Zoological Science” 誌に掲載されている論
文のうち,北海道大学,京都大学の所属研
究者の発表論文をそれぞれの機関リポジト
リに搭載する。
2. 機関リポジトリにおけるアクセスログ及び
BioOne のアクセスログを分析(論文がどれ
だけ読まれたかの調査)
3. Web of Science 上の被引用カウントの変化を
整理し,上記の利用記録と照合しつつ引用
状況の変化の特性を抽出する。
現在はだいたいこのあたり
ZS プロジェクト(イメージ)
北大所属研
究者
京大所属研
究者
投稿
北海道大学学術成果
コレクション
京都大学学術機関リ
ポジトリ
登録
ZS プロ
ジェクト
ZS プロ
ジェクト
ログ
Web of
Science
正式 EJ プラットフォーム
( BioOne )のログ
採録
被引用データ
ZS プロジェクト
• リポジトリの利用状況分析も行っている
。
• ROAT と同様の真のアクセスログ抽出ロ
ジックを使用。
(出典:佐藤義則 . 動向レビュー:機関リポジトリの
利用統計のゆくえ . カレントアウェアネス . 2008,
(296), p.12-16. ( http://current.ndl.go.jp/ca1666,
2009-09-30 参照))
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
ZS プロジェクトの過程で
• せっかく皮むきしたので使い道を考えてみた
。
1. より可視性を高めるための戦略立案のために
– まずは現状を調べてみよう
– 本当に OAI-PMH でのデータ提供は有効なの?
– 利用数に影響している要因はあるか?
1. 研究者の登録意欲を高めるために
– 個別訪問・ポスター・チラシとは別にもっと実感
できる広報として
• とりあえず数字
• とりあえず目に見えて実感できるものを提供してみよ
1.より可視性を高めるための戦
略立案のために
1. アクセス経路(来着経路)は?
– だれが,何を,どこから?
– 足りない部分や力を入れるべき部分がわかる
か?
1. 利用者層ごとのアクセス経路は?
– 特に研究者の情報探索行動にマッチしている
か?
– 研究者 or NOT
2.研究者の登録意欲が少しでも
高まるように何ができるか
• 読まれているんだという実感や
• こんな人がこんなところから読んでいる
んだ
といったことを目に
見えるようにしてみ
よう
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
分析補助ツール
• 皮むきしたり(人間のアクセスを極力抽
出)
– ごく簡単な仕組み
– ロボットリストが重要
• ロボットの排除が一番大変
– ROAT プロジェクトに期待
• ホスト名解決したり
• 検索語を抽出したり
• 分析を容易にするためのフラグを付加し
たり
皮むきは ROAT プ
ロジェクトと同じ
ロジックを使わせ
ていただいて
分析の対象とするログ
• コンテンツ本体へのアクセス
• 簡略書誌ページ
– アクセス経路を極力把握したいので
– HANDLE システム登録ページ(パーマリンク
先)
– OAI-PMH でも簡略書誌ページをコンテンツの
ありかとして表明
– Google sitemap でも
可視性を高める戦略のために
研究者への情報提供のために
もちろんこれ
がベースにな
るが
簡略書誌ページ
が着地点となる
ことが多い
ログの意味(おさらい)
133.87.26.171 - - [28/Sep/2009:20:36:28 +0900] "GET
/dspace/handle/2115/34975 HTTP/1.1" 200 14639
"http://ci.nii.ac.jp/naid/110007005996" "Mozilla/5.0 (Windows;
U; Windows NT 5.1; ja; rv:1.9.1.3) Gecko/20090824
Firefox/3.5.3 GTB5 (.NET CLR 3.5.30729)"
誰が
どこから何を
いつ
Apache combined 形式の場合
簡略書誌ページへのアクセスログ
を対象とする意味
<参照元>
http://ci.nii.ac.jp/naid/110007
005996
<参照元>
http://eprints.lib.hokuda
i.ac.jp/dspace/handle/2
115/34975
コンテンツ (PDF) へのアクセスログだけで
は,アクセス経路の把握は十分ではない。
(せっかく OAI-PMH でデータ提供しているのにそこか
ら( CiNii 等)のアクセスであることが把握できない)
補助ツール詳細
• PHP スクリプト
• 出力は 1 ログ 1 行,各項目をタブ区切りテキ
スト形式で
– 後で Postgresql , MS Access 等のデータベース
ソフトに一括登録しやすいように
• 対象アイテムの指定も可能
• 一応公開もしている
– DRF サイトの「 Zoological Science meets Institutional Repositories/ ログ解析補助ツール」
ページ
– http://drf.lib.hokudai.ac.jp/drf/index.php?Zoological%20Science%20mee
出力項目
  項目名 グループ 備考
1 IP アドレス
ログ分解  
2 アクセス日時
3 アクセス先
4 HTTP ステータス
5 バイト数
6 リファラ
7 UserAgent
8 ハンドル 対象コンテンツ アクセス先から切り出し
9 特徴的なアクセス元
おまけ(予備的) 設定ファイルからマッチしたら
10 特徴的なアクセス元グループ
11 リファラルート URL
リファラ
リファラから切り出し
12 リファラ名
設定ファイルからマッチしたら
13 リファラグループ
14 検索語 検索語 特定(大手サーチエンジン)のサイトのみ
15 TLD (トップレベルドメイン)
アクセスした人の情報
 16 SLD (セカンドレベルドメイン)
17 TLD+SLD
18 指定ホスト
設定ファイルからマッチしたら19 指定ホスト名
20 指定ホストグループ
21 ホスト名 IP アドレスから解決できたもののみ
22 日時( DB 用) 日時 DB 投入用
出力例 (1)
…例えば
<アクセス経路分析をより容易にするために>
リファラをグルーピングするための項目を付加し
たり(設定ファイルより)
…例えば
サーチエンジンか
らどんな検索語で
来ている?
項目
名
出力例 (2)
…例えば
<誰がアクセスしたかの分析を容易にするために>
TLD や SLD を切り出したり
アクセス元をグルーピングするための項目を付加したり(設定
ファイルより)
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
視点
1. アクセス経路(どこからどうやって論文
を読みに来たか)は?
– 利用者層ごとに違いはあるのか?
• 研究者 or NOT
1. コンテンツそのものの性質等,利用数に
影響がある要因はあるか?
– 疑問があったものについてはログを調べてみ
る。
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
アクセス経路分析(対象コンテンツ)
文献タイプ 言語 アイテム数 JP ドメイン
から
JP ドメイン
以外から
雑誌論文
英語 2,797 5,483 13,184
日本語 596 13,954 1,669
紀要
英語 8128 7,137 15,464
日本語 15,852 109,001 17,833
学位論文
英語 136 343 392
日本語 215 3,164 471
アクセス経路分析(対象ログ)
• 2009 年 1 月~ 8 月までのログ
• アクセス経路分析のため,リファラがないもの
を除外
• コンテンツ(主に PDF )のダウンロードログ
のリファラから
• ただし HUSCAP 内ページ(書誌ページ)から
のダウンロードは,簡略書誌ページ(コンテン
ツをダウンロードしたと思われるもののみ)ロ
グのリファラに置き換え。
• もちろんそれでも HUSCAP 内ページからのダ
ウンロードログは残るがアクセス経路が不明の
ため除外
• 教育機関(ホスト名から可能な範囲で判別)と
それ以外に分けてみた。
コンテンツへのアクセスログだけ
ではアクセス経路把握は不十分
HUSCAP 内からのアクセスの
後ろには CiNii がいるかもしれ
ないけど,コンテンツ本体へ
のアクセスログだけではわか
らない。
ここに簡略書誌ページへのア
クセスログから,簡略書誌
ページへのアクセス経路(リ
ファラ)をセットしてみたら
いいかな
でも簡略書誌ページに着地し
た人すべてがコンテンツをダ
ウンロードしたとは限らない
。
コンテンツ (PDF) へのアクセスログのリファラ
をグルーピングしたもの
問題点(アクセス経路)
<簡略書誌ページログのリファラ>
http://ci.nii.ac.jp/naid/110007005996
< PDF ダウンロードログのリ
ファラ>
http://eprints.lib.hokudai.ac.jp/
dspace/handle/2115/34975
HUSCAP 内からの
アクセスであると
いうことしかわか
らない。
そのひとつ前のリ
ファラを知りたい
。
問題点(アクセス経路)
<参照元>
http://ci.nii.ac.jp/naid/110007
005996
<参照元>
http://eprints.lib.hokuda
i.ac.jp/dspace/handle/2
115/34975
ここを繋げたい。
簡略書誌ページに来てから,本
当にコンテンツを読んだか(ダ
ウンロードしたか)がわからな
い。
本当にコンテンツをダウンロー
ドしたと思われる簡略書誌ペー
ジへのアクセスログのみ抽出し
たい。
とりあえずの対応策
<参照元>
http://ci.nii.ac.jp/naid/110007
005996
<参照元>
http://eprints.lib.hokuda
i.ac.jp/dspace/handle/2
115/34975
簡略書誌ページへのアク
セスから 300 秒( 5
分)以内に PDF をダウン
ロードしたものだけを抽
出(同一人物かどうかは
IP アドレスで判断)
簡略書誌ページからコンテンツをダウ
ンロードしたと思われる率
雑誌論文<英語>  JP ドメイン以外か
ら
教育機
関以外
教育機
関
サーチエンジン
(Google)
21% 32%
サーチエンジン (Google
JAPAN)
17% 12%
サーチエンジンその他 11% 9%
その他のサイト 29% 53%
ScientificCommons 60% 71%
Scirus 40% 46%
biblioteca.net 52% 60%
CiNii 56% 64%
合計 34% 47%
紀要<日本語>  JP ドメインから
教育機関
以外
教育機
関
サーチエンジン
(Google JAPAN)
22% 32%
サーチエンジン
(Google)
22% 34%
サーチエンジンその他 15% 22%
WikiPedia 41% 69%
コミュニティサイト 45% 62%
ブログ 41% 54%
その他のサイト 48% 59%
CiNii 76% 74%
ScientificCommons 74% 81%
biblioteca.net 67% 74%
学術サーチその他 70% 72%
合計 36% 56%
雑誌論文<英語>
JP ドメイン以外から(主に国外から)
教育機関以外から
Google からのアクセスが圧倒的
それ以外のサーチエンジンがほとんどない
教育機関から
教育機関以外のアクセス経路に比べデータ提供サイトから
の比率が高い
紀要<日本語>
JP ドメインから(主に国内から)
教育機関以外から
Google は多いが,それ以外のサーチエンジンからも
多様なアクセス経路
データ提供サイトからのアクセスも多い
教育機関から
データ提供サイト(学術資料検索サイト)からのアクセスが
Google JAPAN を上回っている。
Biblioteca.Net
Biblioteca.Net
CiNii
HUSCAP
そもそもは
Google な気も
するけど
SEO で上位表
示される SP に
ハーベストさ
れるのも悪く
…もないか
結果からの対策
<セルフアーカイブもの 1 >
• Google 強し
– Google Sitemap は重要かも。 SEO への影響は不
明だが。
• サーチエンジンからの英語文献へのアクセス
は Google 独壇場
– …なぜだかわからない 。
– 他のサーチエンジンでも Google Sitemap のよう
な仕組みがあれば対応すべきか?
結果からの対策
<セルフアーカイブもの 2 >
• Google からのルートにほぼ限定されている
。
– 他に有望なルートはあるか?
– 海外リポジトリのアクセス経路を調べるか?
• 研究者からのアクセスはデータ提供している
サービス(主に学術目的)からのアクセスが
一般に比べ多い
– やはり研究者にこそ読んでほしいと思ってしまう
ので,地道に適切なサービスにデータ提供するこ
とがよいか( NDLTD へのデータ提供検討中)
結果からの対策
<出版物的なもの(主に紀要)>
• まがりなりにも紀要のEJプラットフォーム
• 商用文献データベースに収録されている紀要
論文でも,商用文献データベースからアクセ
スできない。
– AIRway で解決?→いやいやこれは搦め手だし弱い
– 各DBに直接 HUSCAP へのリンクを追加しても
らう?
– 各リゾルバベンダーのナレッジベースに収録され
るように?
• どうやって? DOI つけたほうがいいか? CrossRef ?
JJVR: Japanese Journal of Veterinary
Research (北大獣医学部発行)
WoS,Scopus,PubM
ed にも収録されて
いるけれ
ど, HUSCAP への
リンクはなし
リゾルバの KB に
も収録されていな
いため,リゾルバ
でもリンク解決し
てくれない
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
その他の要因はあるか?
• 同一論文で(紀要としての登録,紀要論
文をセルフアーカイブとして登録)利用
数の差異があるものを発見。
• PDF への透明テキスト有無? Google は解
決してくれるというけれど。
MIYASHITA Yayo. Juliet's Acquisition of Independence and Patriarchy in
Romeo and Juliet. 北海道大学文学研究科紀要 . 2002, Vol.106, p. 35-48
セルフアーカイブ 紀要(スキャン画像)
327 ダウンロード 19 ダウンロード
透明テキスト付与 or NOT
検索単語種類数
セルフアーカイブ 紀要(スキャン画像)
449 単語 19 単語
やはり透明テキスト付与の影響か?
全体を調べてみた
• まずは出版年ごとのダウンロード数
• ほぼ全ての PDF に透明テキストを付与し
ている KURENAI と比較。
1900-
1915-
1930-
1945-
1960-
1975-
1990-
2005-
5 )出版年(年区切り
10
20
30
40
50
()ダウンロード数平均
HUSCAP(N=25,542)
1900-
1915-
1930-
1945-
1960-
1975-
1990-
2005-
5 )出版年(年区切り
10
20
30
40
50
()ダウンロード数平均
KURENAI(N=28,356)
古いものはほとん
ど紀要
(スキャン PDF :
透明テキストな
し)
「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会
研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
テキスト化の有無と利用数:テキスト化の有無と利用数:
HUSCAPHUSCAP 収録紀要論文の場合収録紀要論文の場合
リポジト
リ内
サーチ
エンジン
全体
全体
テキストなし
( N=20,597
)
3.4 2.0 6.4
テキストあり
( N=1,396 ) 17.2 34.7 60.7
2005 年以降
発行分
テキストなし
( N=746 ) 14.3 2.5 19.5
テキストあり
( N=911 ) 22.9 43.6 77.7
“Eurasian Journal
of Forest
Research”
2006 年発行分
テキストなし
( N=5 ) 3.8 2.4 7.8
テキストあり
( N=5 ) 10.4 101.0 136.6
「北海道大学文学
研究科紀要」
2006 年発行分
テキストなし
( N=9 ) 5.3 0.9 8.0
テキストあり
( N=13 ) 18.2 18.8 44.8「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会
研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
テキスト化の有無と利用数:テキスト化の有無と利用数:
HUSCAPHUSCAP 収録紀要論文の場合収録紀要論文の場合
45
リポジト
リ内
サーチ
エンジン
全体
全体
テキストなし
( N=20,597
)
3.4 2.0 6.4
テキストあり
( N=1,396 ) 17.2 34.7 60.7
2005 年以降
発行分
テキストなし
( N=746 ) 14.3 2.5 19.5
テキストあり
( N=911 ) 22.9 43.6 77.7
“Eurasian Journal
of Forest
Research”
2006 年発行分
テキストなし
( N=5 ) 3.8 2.4 7.8
テキストあり
( N=5 ) 10.4 101.0 136.6
「北海道大学文学研
究科紀要」
2006 年発行分
テキストなし
( N=9 ) 5.3 0.9 8.0
テキストあり
( N=13 ) 18.2 18.8 44.8
・テキスト化の有無で
 4倍~17倍の差
・サーチエンジンに
 限定すれば最大
 40倍以上の差
「佐藤翔 , 逸村裕 . " 機関リポジトリ収録コンテンツにおける利用数とアクセス元、アクセス方法、コンテンツ属性の関係 " 2009 年度三田図書館・情報学会
研究大会研究発表 . 東京 , 2009-09-26, 慶應義塾大学三田キャンパス北館ホール」より
ここまで見せられたら
• やらない訳にはいかない。
• やってみた。
• 一昨日に終了。(約20,000件に透
明テキストを付与)
• 結果が楽しみです。
1. ZS プロジェクトとは?
2. ログ分析をする理由
3. 使用ツールと分析方法
4. より可視性を高める戦略立案のために
– アクセス経路の把握
– その他利用数に影響があると思われる要因
1. 研究者の登録を促すために
研究者の登録意欲が少しでも高ま
…ればいいな
• 読まれているんだという実感や
• こんな人がこんなところから読んでいる
んだ
といったことを目に見え
るようにしてみよう
1.毎月ダウンロード数をメールで通知
•いつ,だれが,どれくらいダウンロードしたのか(前月分)
2. HUSCAP 上での統計ページ(著者のみ閲覧可能)
•いつ,だれが,どれくらいダウンロードしたのか(全期間)
•どこから論文にたどり着いたのか,またどんな検索語で?
メールの例
○○ ○○ 先生
日頃より附属図書館の事業にご協力頂きまして誠にありがとうございます。
附属図書館では、「北海道大学学術成果コレクション (HUSCAP) 」に著作を提供下さったみなさまへ、月1
回、閲覧状況をお知らせしています。
以下は、文献ごとのドメイン別の閲覧回数です。 .edu( 米国教育機関 ) から何回、 .hokudai.ac.jp( 北大学内 )
から何回、のようにお読み下さい。
ドメイン名の意味については、下記サイトに説明があります。
http://www.nic.ad.jp/ja/dom/types.html
また以下の URL から全期間の閲覧回数や参照元(どこを通ってきたか)等を確認することもできます。
http://eprints.lib.hokudai.ac.jp/dspace/statslist.jsp?statsurl=XXXXXXXXXXXXXXXXXXX
【 2009-08 文献別被閲覧回数】
論文名:機関リポジトリへのアクセス経路
12 ダウンロード :unknown
2 ダウンロード :search.msn.com
1 ダウンロード :ap122.ftth.ucom.ne.jp
1 ダウンロード :gate.nec.co.jp
1 ダウンロード :hkid.nt.ftth.ppp.infoweb.ne.jp
1 ダウンロード :kiep.go.kr
1 ダウンロード :lib.hokudai.ac.jp
共著者へも
送信可能
著作一覧ページへのリンク
XXXX 部分は乱数。他の人からアク
セスされないように。また,ログ
インしないでアクセスできるよう
に。
著作一覧ページ
統計ページ(通常版)
統計ページ(参照元と検索語)
学術系検索サイトから
のアクセス数と,それ
以外の参照元ページリ
スト
検索語タグク
ラウド
終わり
引き続きログ分析は定期的に行って
,より可視性の高いリポジトリ,よ
り研究者が文献を登録したいと思う
リポジトリを目指していきたいと思
います。

More Related Content

Similar to HUSCAPのログ分析:真のアクセスログから

100622 学術情報セミナー
100622 学術情報セミナー100622 学術情報セミナー
100622 学術情報セミナーShuhei Otani
 
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けてMasahito Nose
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -National Institute of Informatics
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-Yasushi Hara
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...harmonylab
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜National Institute of Informatics (NII)
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸RKouji Kozaki
 
電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何かmin2fly
 
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進Shun Shiramatsu
 
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例としてTakanori Hayashi
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vecDeNA
 
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成yamahige
 
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPAKazuhiro Hayashi
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻Kouji Kozaki
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組みShintaro Fukushima
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向National Institute of Informatics
 

Similar to HUSCAPのログ分析:真のアクセスログから (20)

100622 学術情報セミナー
100622 学術情報セミナー100622 学術情報セミナー
100622 学術情報セミナー
 
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
研究活動の新たな常識としてのデータ出版・データ引用の実現に向けて
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
 
研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは研究データ流通を支える情報基盤とは
研究データ流通を支える情報基盤とは
 
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-IRC セミナー数字が教えてくれないこと-特許/論文データベース分析入門-
IRC セミナー 数字が教えてくれないこと -特許/論文データベース分析入門-
 
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
Generating Better Search Engine Text Advertisements with Deep Reinforcement L...
 
Sgepss2013 koyama
Sgepss2013 koyamaSgepss2013 koyama
Sgepss2013 koyama
 
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
共通語彙の構築の基本的な考え方と方法 〜研究データのために語彙・スキーマを作るには〜
 
オープンデータと Linked Open Data(LOD)@神戸R
オープンデータとLinked Open Data(LOD)@神戸RオープンデータとLinked Open Data(LOD)@神戸R
オープンデータと Linked Open Data(LOD)@神戸R
 
20151029 CODATA
20151029 CODATA20151029 CODATA
20151029 CODATA
 
電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か電子ジャーナルへのアクセスとは何か
電子ジャーナルへのアクセスとは何か
 
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
リンクトオープンデータ(LOD)の紹介と、その先にある参画・協働・復興促進
 
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
「つながるデータ」へ向けた研究情報の提供 : 農業情報を事例として
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成オープンデータで実現する作文測定分析のシステム構成
オープンデータで実現する作文測定分析のシステム構成
 
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
学術情報XML推進協議会 第5回総会・講演会(2016) : XML Scholarly Publishing Association; XSPA
 
Web API入門
Web API入門Web API入門
Web API入門
 
オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻オープンデータをLOD化するデータソン in 高槻
オープンデータをLOD化するデータソン in 高槻
 
機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み機械学習品質管理・保証の動向と取り組み
機械学習品質管理・保証の動向と取り組み
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
 

More from Yuji Nonaka

大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~Yuji Nonaka
 
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~Yuji Nonaka
 
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~Yuji Nonaka
 
係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告Yuji Nonaka
 
大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいこと大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいことYuji Nonaka
 
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるためにYuji Nonaka
 
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論Yuji Nonaka
 
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論Yuji Nonaka
 
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援Yuji Nonaka
 
学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援Yuji Nonaka
 
よりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のためによりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のためにYuji Nonaka
 
usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...Yuji Nonaka
 
Two heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshopTwo heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshopYuji Nonaka
 
学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)Yuji Nonaka
 
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙いYuji Nonaka
 
研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすもの研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすものYuji Nonaka
 
我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?Yuji Nonaka
 

More from Yuji Nonaka (17)

大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
大学図書館をDX(ヘンカク)する:~全国的な活動と自組織での試行錯誤から成長(ヘンカク)していける環境構築を考える~
 
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
大学図書館職員とは何者なのか? : ~ある地方国立大学図書館職員のつぶやきと実践~
 
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
対話による創造が可能なコミュニティへ : ~ システム委員会のもう一つの挑戦 ~
 
係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告係レベルで企画する機動力の高いプチ研修会実施報告
係レベルで企画する機動力の高いプチ研修会実施報告
 
大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいこと大学ランキング向上に 図書館が貢献したいこと
大学ランキング向上に 図書館が貢献したいこと
 
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
~大学図書館初心者のための~ 大学図書館における「学習支援」を考えるために
 
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成22年度 NIIポータル研修 機関リポジトリのメタデータ概論
 
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
平成21年度 NIIポータル研修 機関リポジトリのメタデータ概論
 
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
平成27年度 北海道大学附属図書館 新任職員SD研修 学習支援
 
学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援学習支援企画担当奮闘記&これからの学習支援
学習支援企画担当奮闘記&これからの学習支援
 
よりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のためによりよいeリソース 利用環境整備のために
よりよいeリソース 利用環境整備のために
 
usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...usage log analysis of the contents of institutional repositories user domains...
usage log analysis of the contents of institutional repositories user domains...
 
Two heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshopTwo heads are better than one a report p on the drf technical workshop
Two heads are better than one a report p on the drf technical workshop
 
学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)学外から電子ジャーナル?!(データベースも)
学外から電子ジャーナル?!(データベースも)
 
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
「本は脳を育てる~北大教員による新入生への推薦図書~」企画立ち上げとその狙い
 
研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすもの研究成果発信が大学にもたらすもの
研究成果発信が大学にもたらすもの
 
我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?我々がなすべき学習支援とはなにか?
我々がなすべき学習支援とはなにか?
 

HUSCAPのログ分析:真のアクセスログから

Editor's Notes

  1. 一方、HUSCAPの方では利用が最新のものに偏っていたわけですが、その理由についは担当者に聞いたところ、紀要論文をスキャン・登録する際に画像のみのPDFとしたためにサーチエンジンから探せないのではないかとのことでした。 そこで実際にHUSCAPに収録された紀要のうち本文ダウンロードに成功した21,993件について、テキスト化の有無とアクセス数の関係を分析したものがこちらです。 全体ではテキストがないものは平均6.4回のダウンロードなのに対しテキストありは60回以上と10倍近い差があります。特にサーチエンジンからのアクセスの差が顕著です。 また、2005年以降に出版された最近の論文に区切った場合、さらに同じ雑誌の同一年発行分に掲載された論文の中でもテキストがあるものとないものの差を見てみましたが、いずれもテキスト有の方が大きく利用が多い結果になりました。
  2. アクセス数の差は4倍から最大17倍、サーチエンジンからのアクセスに限定すれば最大40倍の差がありました。