1. 웹보메트릭스와 계량정보학
영남대학교 문과대학 언론정보학과
교수 박한우
14주차 디지털 사회의 계량정보학
1강. 디지털 사회의 계량정보학 (1)
2강. 디지털 사회의 계량정보학 (2)
2. 1. 디지털 사회의 계량정보학에 대해 이해한다.
1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
2. 빅데이터 시대! SNS의 진화
3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과
가능성
3. 가. Citebase
1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
Citebase
• Citebase(2001년 12월)는 arXiv, PubMed Central, BioMed Central,
CogPrints를 포함하여 정해진 몇 개의 오픈액세스 리퍼지토리를
자동색인하는 시스템으로, 사우샘프턴 대학교(University of
Southampton)의 팀 브로디(Tim Brody)연구팀에 의해 개발
• Citebase는 OAI(Open Access Initiative,1999)와 공개 인용 프로젝트
OpCit(Open Citation Project, 1999~2002)의 최고점.
4. 가. Citebase
1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
OAI
오픈 아카이브의 상호운용성에 중점을 두며, 분산되어 있는 많은
리퍼지토리에서 메타데이터를 수집하여 중앙에서 검색 가능한
데이터저장소에 통합하게 하는 기술 솔루션인 OAI-Protocol for
Metadata Harvesting(OAI-PMH)을 널리 공유하게 만듦.
OpCit
arXiv 디지털 리퍼지토리에서 참고문헌과 참고문헌의 원문 간에
하이퍼링크를 자동적으로 생성.
Citebase 소프트웨어는 서버에 호스팅된 논문의 원문에서 참고문헌을
파싱. 그리고 이 참고문헌이 같은 리퍼지토리에 기탁된 다른 논문의
원문으로 식별될 때마다 링크를 생성.
5. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
출처 -
http://books.google.co.kr/books?id=1wtmvu49g0YC&printsec=frontcover&dq=open+access%22&hl=
en&sa=X&ei=jtPUUvjrO872oATOxYGYDw&ved=0CCoQ6AEwAA#v=onepage&q=asia&f=false
6. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
* 전통적 인용색인의 이용자들에게 익숙한 일련의 작업을 다음과 같이
수행할 수 있음.
해당 논문에서 인용된 (무료로 이용 가능한)모든 문헌을 또는 해당 논문을
인용하고 있는 모든 문헌을 검색
1
피인용횟수에 따라 순위를 매겨 해당 논문을 인용하고 있는 상위 5개의
논문을 보여줌
2
이 해당 논문과 동시 인용된 모든 논문을 검색하고 동시 인용된 상위 5개의
논문을 검색
3
해당 논문과 하나 이상의 참고문헌을 공유하고 있는 논문을 검색4
일정 기간에 걸쳐 논문 당 인용점수와 다운로드 횟수의 추세 그래프를 출력.5
7. 나. CiteSeer
1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
CiteSeer
• CiteSeer는 디지털 도서관 검색 관리 자동화 시스템으로 1990년 후반,
프린스턴 NEC 연구소(Princeton NEC Reserach Institute(현 NEC
Lab)의 스티브 로렌스, 리 자일스(Lee Giles), 커트 볼라커(Kurt
Bollacker)가 개발.
• Citebase와는 달리 저자들이 지정된 중앙 e-프린트 서버에 셀프
아카이빙한 논문을 파싱하지 않음.
• 그러나 오픈액세스 웹 상에 있는 몇몇 분산된 노드로부터 출판 전
논문과 심사 후 논문을 수집.
• 컴퓨터 과학 분야 학술대회 논문의 경우 심사 후 또는 pdf 파일
포맷으로 된 적합한 문헌을 출판사 웹 사이트에 있는 학술지를
색인하거나 저자가 직접 탑재하는 것과 같은 대안을 시스템이 처리할
수 있긴 하지만 주로 웹 크롤링 기법을 사용.
8. 나. CiteSeer
1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
CiteSeer
• 일단 한 문헌을 다운로드 하면 CiteSeer는 저자명, 논문 제목, 초록,
단어출현빈도, 참고문헌을 포함하여 관련된 데이터를 알아내기 위해
그 텍스트 원문을 파싱.
• 그리고 이러한 정보단위를 색인하고 로컬 데이터베이스에 저장
• 이를통해 전통적 키워드 검색을 제공.
• 단어 동시출현, 동시인용, 서지결합을 통한 유사성 기준에 기초하여
유사문헌 또는 관련문헌 검색뿐만 아니라 인용검색, 인용링크
브라우징도 가능하게 함.
• 계량정보학 도구로서 CiteSeer의 자동 인용색인 소프트웨어는
데이터베이스에서 인용된 각각의 문헌에 대해 “쉴 새 없이” 대략적인
인용빈도와 동시인용빈도를 집계.
• 자기인용을 찾아내고, 자동적으로 논문 본문에서 인용하는 곳 주변에
있는 문맥을 자동으로 추출.
9. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
출처 - http://citeseerx.ist.psu.edu/index;jsessionid=F42639EC78E05AA400AB561DC08E1873
10. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
[박한우의 소통 비타민] 학문 종속 부추기는 한국연구재단
(2013.09.14.)
얼마 전 영남대에서 작은 국제 세미나가 열렸다. 영남대에서 작은 국제
세미나가 열렸다. 필자가 공동 편집인으로 활동하는 JCEA(Journal of
Contemporary Eastern Asia)의 Scopus 등재 절차를 논의하기 위한 행사였다.
Scopus는 국제적으로 알려진 A&I(Abstracting & Indexing) 서비스인데, 이
Scopus에 다수의 저널을 등재시키고 있는 스프링거(Springer)의 아시아
담당자가 영남대를 방문한 것이 계기가 되어 이 세미나를 열게 된 것이다.
그런데 우연찮게도 같은 날 한국연구재단에서도 국내 학술지의 Scopus 등재를
위한 특별 세미나를 열었다.
Scopus가 제공하는 서비스는 엄청나다. 저널을 발행하는 학회 및 출판사가
5천여 곳에 이르고, 여기에서 발행하는 저널은 2만 종, 논문은 5천만 건에
이르며, 수록된 논문의 초록과 참고 문헌, 인용 정보 등을 온라인으로 제공한다.
어떤 저널이 A&I 시스템에 등재되면 세계 어느 곳에 있더라도 그 저널에서
발행하는 다양한 서지 정보에 접근할 수 있어 매우 편리하다. 물론 Scopus
외에도 다른 A&I 서비스들이 있지만, 그중에서도 Scopus는 WoS(Web of
Science)와 더불어 가장 유명하다.(참고로 Wos는 과학기술 분야의 SCI, 인문학
및 사회과학의 A&HCI, SSCI 등을 운영한다.)
11. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
A&I 서비스의 이런 장점에도 불구하고 최근 우리나라에서 일어나고 있는
Scopus와 WoS(SCI) 등재 열풍은 바람직한 현상이라고 볼 수 없다. 특히
과학기술과 학문의 발전을 위해 설립한 공공기관인 한국연구재단이 외국
기업이 운영하는 민간 서비스 등재를 위해 발 벗고 나서는 것은 납득되지
않는다. 이날 특별 세미나에서 재단은 Scopus 한국 저널 선정위원회의 운영
경과에 대해 발표하고 엘스비어(Elsevier) 본사로부터 한국 저널의 Scopus 선정
현황에 대한 의견을 들었다고 한다. 재단은 이러한 행사가 우리나라 연구개발
기반의 진흥과 학술지의 국제화에 기여한다고 주장한다. 하지만 이런 주장에는
의문이 따른다. 특정 상업적 A&I 서비스에 등재되는 것을 두고 공공기관이 직접
나서서 한국 저널의 공과(功過)를 말하는 것은 누구를 위한 것일까?
이러한 정책은 ‘연구 지원 글로벌 리더’로 발전하고자 하는 한국연구재단의
비전에도 부합하지 않는다. 재단 홈페이지를 보면, 한국연구재단은
미국연구재단(NSF), 독일연구재단(DFG) 등 세계적 R&D 지원 기관을 능가하는
전문 기관으로 도약하겠다는 포부를 밝히고 있다. 한국연구재단의 정책을 세계
각국이 벤치마킹할 만큼 성장하여 글로벌 리더가 되겠다는 것이다. 하지만
Scopus 등재 정책은 이런 포부를 무색하게 한다. 스스로 세계를 개척하지 않고,
또 모험을 두려워하지 않는 정신이 없이 어떻게 글로벌 리더가 될 수 있다는
말인가?
12. 1. Citebase, CiteSeer: 오픈액세스 인용색인으로 가는 길
연구재단이 경쟁자로 언급한 미국 NSF는 상업적 A&I 서비스의 대안으로
펜실베이니아주립대가 개발한 Open Access 기반의 CiteSeer 운영을 지원하고
있다. 독일을 비롯하여 유럽, 북미, 일본의 공공기관들도 코넬 대학교와
컨소시엄을 구성하여 arXiv.org를 운영하면서 새로운 A&I 플랫폼을 선보였다.
선진국의 이러한 노력은 학문 연구가 상업적 A&I 서비스에 종속될 수 있는
위험성을 막고, 학문 연구의 공공성을 확보하면서 개방적 연구 기반을 조성하는
데 긍정적 역할을 할 수 있다.
해외의 우수한 기관들이 이러한 공익적 정책을 추진하는 반면, 한국연구재단은
자국에서 발행되는 학술지와 논문을 특정 A&I에 등재하기 위해 동분서주하고
있다. 재단이 연구공동체를 잘못된 방향으로 이끌고 있는 것이다. 이번 영남대
세미나에 참여한 연구자들도 이 문제에 대해 크게 공감했다. “JCEA의 독자층을
넓히기 위해서 Scopus 등재된다면 좋은 일이다. 그렇다고 정부가 직접 나서서
특정한 A&I 서비스에 과도한 권위를 부여하는 것은 다국적 출판 기업의 논리에
한국 학술지의 생사여탈권을 맡기는 어리석은 일이다.” Scopus 등재 정책이
한국 학술지의 환경과 학문의 풍토를 더 황폐화시킬까 우려스럽다.
출처 - http://www.imaeil.com/sub_news/sub_news_view.php?news_id=46154&yy=2013
13. 2. 빅데이터 시대! SNS의 진화
가. 데이터 생성 환경의 변화
초기 정보화 사회는 업무의 시스템화, 지식의 디지털화, 가상공간의
인적 네트워크로서 목적성을 띤 정보의 흐름이 존재
스마트폰 등 모바일 환경으로 변화와 개인의 감성 공유 및 M2M
환경으로의 변화는 의도되지 않은 데이터가 양산
의도되지 않은 데이터가 크기(Volume), 속도(velocity), 종류(variety),
복잡성(complexity)측면에서 기하급수적으로 생산되고 이에 대한
수집·저장·분석·활용 가능성을 새롭게 인지
14. 2. 빅데이터 시대! SNS의 진화
나. 데이터 빅뱅의 근원
트위터, 페이스북, 카카오톡 등과 사람과
사람이 소통함으로써 발생하는 SNS 데이터
사람과 사람간의
관계
출처 - www.facebook.com
15. 2. 빅데이터 시대! SNS의 진화
나. 데이터 빅뱅의 근원
아마존·구글의 클릭, 금융·보험 거래, GPS
이용, Genome, Bio 신호 등 생체 신호
사람과 기계간의
관계
출처 - http://amzn.to/1ce8Ahd
16. 2. 빅데이터 시대! SNS의 진화
나. 데이터 빅뱅의 근원
M2M, 물류, RFID, 기상센서 처리, 전력 계통
신호, 첩보 센서, 과학 실험 데이터 등과 같은
각종 신호
기계와 기계간의
관계
출처 - http://www.skyetek.com/Solutions/TechnicalSolutions/MobileRFID/tabid/477/Default.aspx
17. 다. SNS의 진화
1세대 SNS: 오프라인 관계를 온라인으로
• 1999년 세계에서 처음으로 아이러브스쿨과 싸이월드 등 기존 인맥
관계를 강화하는 형태로 1세대 소셜 네트워크 서비스가 탄생
• 싸이월드는 ‘1촌 맺기’를 통해 사적인 인맥을 넓혀가며 2009년
2,400만명의 가입자를 확보한 SNS 분야의 절대강자로 성장
2. 빅데이터 시대! SNS의 진화
18. 2. 빅데이터 시대! SNS의 진화
출처 - http://pr.yu.ac.kr/01/view.php?BOARD=news&PAGE=41&SEARCH1=&SEARCH2=&IDX=229
19. 2. 빅데이터 시대! SNS의 진화
출처 - http://pr.yu.ac.kr/01/view.php?BOARD=news&PAGE=41&SEARCH1=&SEARCH2=&IDX=229
20. 다. SNS의 진화
2세대 SNS: 불특정 다수간의 참여와 공개
• 공개와 공유를 특징으로 하는 웹2.0 정신을 반영한 서비스로서,
콘텐츠를 중심으로 불특정 다수간의 네트워크로 확장
• 2010년 아이폰의 등장으로 스마트 모바일 환경과 합쳐지면서
마이크로블로깅에 의한 트위터 등 2세대 SNS가 폭발적으로 증가
2. 빅데이터 시대! SNS의 진화
21. 2. 빅데이터 시대! SNS의 진화
출처 - http://www.slideshare.net/Webometrics/introduction-to-webometrics13-mar2011-7329787
22. 다. SNS의 진화
3세대 SNS: 큐레이션과 제한적 네트워크
• 3세대 SNS는 1,2세대의 관계에서 커뮤니케이션을 기본으로 함과
동시에 더욱 가치있는 정보를 수집하고 더 많은 사람들과 가치를
공유하는 ‘디지털 큐레이션 서비스’를 대두시킴
• 3세대 SNS는 빅 플렛폼에서 작은 단위의 소셜 플랫폼으로
이동함으로써, 파편화되지만 모두 연결된 생태계로 재편
2. 빅데이터 시대! SNS의 진화
23. 3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성
가. 세계는 빅데이터 시대의 패권을 쥐기 위한 데이터사이언티스트 확보 전쟁 중
빅데이터는 과학적 의사 결정으로 기업과 국가의 생산성 향상에 기여하는
혁신도구로 각광
1
빅데이터의 가능성 실현을 위해서는 데이터 이면의 의미를 해석해내는
인재인 데이터 사이언티스트가 필수: 데이터 사이언티스트는 데이터의
다각적 분석을 통해 조직의 전략방향을 제시하는 기획자이자 전략가
2
빅데이터 시대의 선도 국가로의 도약을 위하여 데이터 사이언티스트 육성을
위한 준비와 노력이 시급한 시점
3
24. 나. 우수한 데이터 사이언티스트란
빅데이터에 대한 이론적 지식과 분석 기술에 대한 숙련을 바탕으로
통찰력, 전달력, 협동 능력을 발휘할 수 있는 전문 인력
3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성
HARD Skill
• 빅데이터에 대한 이론적 지식:
관련 기법에 대한 이해와 방법론
습득
• 분석 기술에 대한 숙련: 최적의
분석 설계 및 노하우 축적
SOFT Skill
• 통찰력 있는 분석: 창의적 사고,
호기심, 논리적 비판
• 설득력 있는 전달: 스토리텔링,
비주얼라이제이션
• 다분야간 협력: 커뮤니케이션
25. 3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성
다. 우수한 데이터 사이언티스트의 육성은 빅데이터의 국가적 성패를 좌우하는 핵심전략
데이터 사이언티스트는 데이터를 통해 고부가가치를 창출하는
지식기반사회의 고급인력이자 국가경쟁력 강화를 위한 인재
체계적이고 전략적인 데이터 사이언티스트 육성 전략을 위해서는
다음과 같은 준비가 필요
가) 산-학-연-관 협력의 빅데이터 인력양성 체계 마련
나) 빅데이터 전담조직의 마련 및 위상 강화
다) 빅데이터를 접할 수 있는 다양한 기회 제공
• 국가 주도의 빅데이터 R&D 프로젝트 추진 시, 다양한 분야의 참여주체간
협력체계를 구축
26. 3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성
다. 우수한 데이터 사이언티스트의 육성은 빅데이터의 국가적 성패를 좌우하는 핵심전략
데이터 사이언티스트는 데이터를 통해 고부가가치를 창출하는
지식기반사회의 고급인력이자 국가경쟁력 강화를 위한 인재
체계적이고 전략적인 데이터 사이언티스트 육성 전략을 위해서는
다음과 같은 준비가 필요
가) 산-학-연-관 협력의 빅데이터 인력양성 체계 마련
나) 빅데이터 전담조직의 마련 및 위상 강화
다) 빅데이터를 접할 수 있는 다양한 기회 제공
• 빅데이터에 대한 지속적인 투자와 노력을 경주하기 위한 구조적 토대 마련
• 데이터 사이언티스트 육성 시장의 활성화를 지원
27. 3. 빅데이터 시대의 인재, 데이터 사이언티스트의 역할과 가능성
다. 우수한 데이터 사이언티스트의 육성은 빅데이터의 국가적 성패를 좌우하는 핵심전략
데이터 사이언티스트는 데이터를 통해 고부가가치를 창출하는
지식기반사회의 고급인력이자 국가경쟁력 강화를 위한 인재
체계적이고 전략적인 데이터 사이언티스트 육성 전략을 위해서는
다음과 같은 준비가 필요
가) 산-학-연-관 협력의 빅데이터 인력양성 체계 마련
나) 빅데이터 전담조직의 마련 및 위상 강화
다) 빅데이터를 접할 수 있는 다양한 기회 제공
• 공공 데이터의 확대 공개를 통한 분석 역량 강화 지원
• 데이터 사이언티스트에 대한 사회적 관심도 제고
28. QUIZ.
CiteSeer는 arXiv, PubMed Central, BioMed Central, CogPrints를 포함하여
정해진 몇 개의 오픈액세스 리퍼지토리를 자동색인하는 시스템으로,
사우샘프턴 대학교(University of Southampton)의 팀 브로디(Tim
Brody)연구팀에 의해 개발되었다.
정답 : X
29. 정리하기.
Citebase는 2001년 12월에 arXiv, PubMed Central, BioMed Central,
CogPrints를 포함하여 정해진 몇 개의 오픈액세스 리퍼지토리를
자동색인하는 시스템으로, 사우샘프턴 대학교(University of Southampton)의
팀 브로디(Tim Brody)연구팀에 의해 개발되었다.
Citebase 소프트웨어는 서버에 호스팅된 논문의 원문에서 참고문헌을
파싱하고 이 참고문헌이 같은 리퍼지토리에 기탁된 다른 논문의 원문으로
식별될 때마다 링크를 생성한다.
CiteSeer는 디지털 도서관 검색 관리 자동화 시스템으로 1990년 후반,
프린스턴 NEC 연구소(Princeton NEC Reseach Institute(현 NEC Lab)의 스티브
로렌스, 리 자일스Lee Giles, 커트 볼라커Kurt Bollacker가 개발하였다.
일단 한 문헌을 다운로드 하면 CiteSeer는 저자명, 논문 제목, 초록,
단어출현빈도, 참고문헌을 포함하여 관련된 데이터를 알아내기 위해 그
텍스트 원문을 파싱한다.
SNS는 1세대 SNS: 오프라인 관계를 온라인으로 끌어들인 1세대부터 불특정
다수간의 참여와 공개를 가능하게 한 2세대, 큐레이션과 제한적 네트워크인
3세대로 진화한다.
세계는 빅데이터 시대의 패권을 쥐기 위한 데이터사이언티스트 확보 전쟁
중이며, 우수한 데이터 사이언티스트의 육성은 빅데이터의 국가적 성패를
좌우하는 핵심전략이다.