계량서지학과 인용분석
Upcoming SlideShare
Loading in...5
×
 

계량서지학과 인용분석

on

  • 942 views

이 자료는 영남대 2013년 2학기 <뉴미디어론2> 대학원 수업시간에 발표된 자료를 합침 ...

이 자료는 영남대 2013년 2학기 <뉴미디어론2> 대학원 수업시간에 발표된 자료를 합침

언론정보학과 최성철,박지원, 김종섭, Xanat V. Meza, 이준영

Statistics

Views

Total Views
942
Views on SlideShare
942
Embed Views
0

Actions

Likes
0
Downloads
4
Comments
1

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • http://www.highlycited.com/
  • Postscript is a document that lets you print visually rich documentsreliably.

계량서지학과 인용분석 계량서지학과 인용분석 Presentation Transcript

  • 계량서지학과 인용분석 “SCI에서 사이버메트릭스까지” 언론정보학과 최성철,박지원, 김종섭, Xanat V. Meza, 이준영 이 자료는 영남대 2013년 2학기 <뉴미디어론2> 대학원 수업시간에 발표된 자료를 합침
  • 1장 계량서지학/과학계량학/계량정보학 2장 계량 서지학의 실증적 기반 4장 계량서지학의 수학적 기반 영남대학교 언론정보학과 석사4기 최성철
  • 계량서지학/과학계량학/계량정 보학 용어상 쟁점과 초기 역사적 발전
  • 서론 • 과학 지식은 수학적 도구를 활용하여 단행 본 또는 학술 논문과 같은 최종 산출물이나 정량 데이터와 같은 과학적 성과물을 측정 할 수 있다 • 사회활동을 탄환의 궤적이나 천체의 회전 처럼 정량적 법칙으로 정리 가능 • 실증주의적 사회학
  • 서론 • 1885 드캉돌 “과학과 과학자의 역사” • 국제 학회에 소속된 과학자들의 국가별 분 포를 이용하여 과학적 탁월성을 나타내는 핵심지표를 정확하게 수학적인 방법으로 연구한 첫 번째 시도
  • 서론 • 계량서지학은 과학자들이 직접 저술한 과 학 문헌 네트워크에 대한 정량적 패턴을 분 석하는데 출발 • 계량서지학은 외부의 힘이나 물질적 원인 과 관계없이, 로트카 법칙,브래드퍼드 법칙, 지프 법칙 등 이론적인 근거를 두고 있다. • 동료평가제도와 함께 사용가능
  • 얼마나 많은 계량학문이 있는가? • • • • • • 계량서지학(Bibliometrics) 과학계량학(Scientometrics) 계량정보학(Informetrics) 웨보메트릭스(Webometrics) 네토메트릭스(Netometrics) 사이버메트릭스(Cybermetrics)
  • 얼마나 많은 계량학문이 있는가? • 계량서지학 • 1960년대 후반 앨런 프리처드(Alan Pritchard) • 기록된 정보를 통계적으로 유의미하게 표 현하는 방식 • 자료적 측면을 강조
  • 얼마나 많은 계량학문이 있는가? • 과학계량학 • 과학기술 지식의 생산과 유통에 관련된 모 든 정량적인 측면과 모형을 다룬다 • 지식의 진보를 위한 과학자.단체.기관.국가 의 기여도에 대한 정량적이고도 상대적인 평가를 다룬다.
  • 얼마나 많은 계량학문이 있는가? • 계량정보학 • 정보의 정량적 측면을 다루는 연구 • 모든 사회 집단에서 단순한 기록이나 서지 정보뿐 아니라 각 시점 별로 어떤 형태로든 현재나 미래의 커뮤니케이션에 적합한 기 록 모두를 다룸 • 너무 광범위한 정의
  • 얼마나 많은 계량학문이 있는가? • 웨보메트릭스, 사이버메트릭스, 네토메트 릭스 • 렌나르트 뵈르네보른, 피터잉베르센 • 웹 자원에 관한 계량 분석과 모든 인터넷 활 용에 대한 일반적인 계량분석을 구별해야 한다고 주장
  • 계량서지학에 대한 초기 접근: 통계 서지학 • 확률기법의 발전(17세기) • 통계서지학 : • 도서와 기록물을 정량적 평가 대상
  • 계량서지학에 대한 초기 접근: 통계 서지학 • 계량서지학의 연구 대상은 출판물 – 책이나 학술지의 논문에서 저자가 주장하는 추 론값을 측정할 수 없기에 배제 • 성과 평가와 과학 영역의 지도 작성 – 당대의 관심사와 활동을 보여주는 확실한 단서 • 근시안적이라는 한계 – 과학 문헌의 가치에 대한 독립적이고 정성적인 평가가 보완되어야 함
  • 계량서지학에 대한 초기 접근: 통계 서지학 • 단순이 목록 표제어를 훑어보기 • 목록을 작성하는 것 • 그로스(P. Gross)와 그로스(E. M. Gross) • 미국화학회지에 한 해 동안 수록된 3,633개 의 참고문헌을 표로 만들고 상대적으로 중 요도를 확인할 수 있는 방법을 모색 • 피인용횟수를 기준으로 순위
  • 계량서지학에 대한 초기 접근: 통계 서지학 • 폴 오트릿(Paul Otlet) • 도큐멘테이션론 • 계량서지학은 텍스트의 내면적 측면과 텍 스트가 사람과 사회에 끼치는 영향력에 중 점
  • 평가적 계량서지학의 탄생 • 정보의 양이 늘어남에 따라 정보를 효율적 으로 통제하고 조작, 지배하기 위해 연구소 등을 조직하게 됨 • 조직의 대표자 등 여러 정치적인 문제 등에 의해 효율적인 인선 및 연구수행을 하지 못 함
  • 평가적 계량서지학의 탄생 • SCI의 등장과 1961년 이후 다 학문 분야를 다루고 인용에 기반하여 과학 논문을 색인 하는 이 프로젝트가 가능해짐에 따라 정치 적인 요구와 문화적인 신뢰를 이루게 됨
  • 자료를 유형에 따라 분류 • • • • • • 학술지 편람 및 권위 있는 단행본(링크분석) 리뷰,서지,사전 학회와 국제 학술대회(COLLNET) 토론 목록 상 (데릭 드 솔라 프라이스 메달)
  • 계량서지학의 실증적 기반 과학인용색인
  • 서론 • SCI(SCIENCE CITATION INDEX)의 기원 • 가필드(Eugene Garfield) • 과학 연구를 촉진 시키고 과학 커뮤니케이 션을 발전 시키기 위해 인용 색인을 고안
  • Shepard’s Citation • 선례 구속성의 원리(Stare decisis) • 어떠한 사건에 대하여 판결을 내리는 상급 법원의 판결은 그 이후 발생하는 동일하거 나 유사한 사건에 대하여 구속력을 가진다 는 원리 • 1860년 캘리포니아 주 판결문에 대한 인용 색인(Shepard’s Citation)이 등장
  • Shepard’s Citation(vs SCI) Shepard’s Citation SCI 대상 판례 (과학)문헌 인용 네트워크 인용 네트워크를 구축할 수 있 는 단서를 제공하지 않는다 인용색인은 더하기 또는 빼기 부호로 판결문을 단순히 연결 과학논문은 사회인지적 링크 로 연결 문헌의 유효성 자체적인 문맥 분석을 통하여 시간이 지나면서 각 판례가 유 효한지 여부를 분명하게 표시 학술 문헌과 달리 선급 판례는 이후 판결에 따라 확증되거나 기각 유효한지 여부를 분명하게 표 시하지 않음
  • SCI의 맥락화: 정보검색과 “언어적 연결” • 문헌(Document) • 정보 순환이 가진 위험 속에서 지식이 기록 되고 전달되는 물리적 표현 • 서술과 묘사로 여겨지는 대상을 포함하는 “정보”에 대한 폭넓은 정의에 충실 • 간단히 이야기하면 문헌에 담긴 모든 것을 포괄하는 분류의 유일한 부분집합, 즉 기록 된 원문을 포함하는 문헌에 집중하자는 것 이다.
  • 문헌 정보 검색 시스템 • 특정 문헌에 대한 지시자의 역할을 하는 문 헌 대리자 또는 색인어를 생성해서 별도의 아카이브에 저장해야 한다.
  • 문헌 대리자 • 저자명이나 주제명 표목(Subject heading) 과 같은 표제어 • 동일 저자가 저술한 모든 도서 또는 특정 주 제에 관한 모든 도서처럼 이 표제어가 지정 하는 특정 속성을 공유하는 물리적 형태를 가진 모든 도서를 가리킨다.
  • 색인 • 수작업이든 자동화된 정보검색이든 상관없 이 정보검색을 구성하는 기본 요소이다. • 문헌 자체(전문,초록,제목)에서 색인어를 추출하거나 수작업으로 색인자가 텍스트를 해석하여 색인어를 부여할 수 있다.
  • 색인어 • 색인어를 텍스트 자제로부터 추출한다면, 저자와 이용자가 동일하거나 유사한 개념 을 표현하는데 전혀 다른 단어를 사용할 수 있기 때문에 거의 쓸모가 없을 수 있다. • 반면에 사람이 색인자로서 중재한다면 색 인어의 균일성과 일관성은 개선된다.
  • 색인어 • 전문검색 시스템(Full-text retrieval system) • 컴퓨터는 언어적 내용을 분석 • 이용자의 요구를 기계적으로 읽을 수 있게 식별 • 서로간의 비교를 통해 검색
  • 자동색인 • 역파일(Inverted file) • 검색 가능한 모든 텍스트에 대한 모든 색인 어를 포함 • 카드 천공기(Key punching) 방식 • 텍스트를 기계 가독형으로 변환하기 위해 선호하던 방식
  • 자동색인 • IBM의 연구원 한스 피터룬(Hans Peter Luhn) • 1. 통계적 확률에 기초하여 단어를 이용하 여 생각을 전달한다. • 2. 논문에서 단어발생빈도는 단어의 유의도 (Word significance)를 측정할 수 있는 유용 한 도구를 제공한다.
  • SMART와 크랜필드의 실험 • Salton’s Magic Automatic Retriever of Text) & 크랜필드(Cranfield)의 실험 • 어구(phrase)는 색인 도구로서 단일어보다 훨씬 덜 우수하며, 지나치게 복잡한 분석도 구는 기대했던 것보다 효과적이지 않다 라 는 것을 보여주었다.
  • 어휘분석 • 어휘 분석을 통해 잘 구현된 시스템이라면 • Encyclopedia 와 Encyclopaedia의 구별하 지 않고 동일한 어휘로 본다.
  • 구문 분석 • 자연어로 된 텍스트 단어는 구문 규칙에 따 라 구, 절, 문장과 연결되어있다. • 따라서 효과적인 자동 색인 시스템은 유의 한 텍스트 조각에 문법 구조를 부여함으로 써 단순히 단어 출현빈도를 계산하는 것 이 상의 능력을 갖춘 “파서(parser)”라는 모듈 을 구현해야한다. • Transformational parser
  • 의미 분석 • 구문적으로 정렬된 문장으로 체계화된 단 어는 각기 본래의 개념을 가지고 있지만 이 들 개념은 본래 단어나 문장 안에서 동일한 의미를 “내포하지는” 않는다. • 동일한 약품에 대해 화학명과 제품명이 다 른 경우
  • SCI의 맥락화: 정보검색과 “언어적 연결” • 인용색인은 정보검색 연구의 전통에 뒤섞 여 있는 과학 문헌을 조직화하는데 개념적 으로 혁신적인 도구뿐만 아니라 적합성에 관한 새로운 아이디어를 제공했다.
  • SCI의 고안과 실현 • 가필드는 초기 웰치 의학도서관 색인 프로 젝트에 합류하면서 정보학 분야에 발을 내 딛음 • 문헌의 색인을 자동화하는데 컴퓨터를 사 용할 수 있을지에 대한 여부와 가능하다면 어떻게 가능한지에 대한 고찰
  • SCI의 고안과 실현 • 1940년 로베르토 부사 신부(Roberto Busa) • IBM 계산기에 펀치카드를 작성하여 성 토 마스 아퀴나스의 전집 색인을 작성함 • 컴퓨터를 통해 자동색인과 자동 번역 시스 템을 구축하려고 하였지만 여러 가지 어려 움을 겪고 있었음.
  • SCI의 고안과 실현 • 통계적으로 한번이라도 색인어가 위치했으 며 가장 접근하기 좋은 지점에서 색인어를 자동으로 추출하는 것 • 웰치 프로젝트 팀이 선호했던 방식으로 처 리시간과 비용 측면에서 많은 강점을 지녔 다 • 하지만 제목과 초록에는 적당하지 않음
  • 자동색인의 해법으로 가필드의 연구 에 대한 영향 • 1. 언어와 구조 • 반복 가능한 순차적 연산을 이용하여 과학적 언어가 가진 복잡성을 기초적 구성요소 수준 으로 축소시키고자 한 초기노력을 담음 • 학술 논문에 내재된 다양한 주제가 이 논문이 인용한 다른 논문에 따라 달라진다면 기본적 으로 예측 불가능한 텍스트 생성과정을 생대 적으로 더 예측가능하며 인용 생성을 지배하 는 규칙으로 교체함으로써 과학 문헌을 알고 리즘으로 효과적으로 색인 할 수 있다는 것이 다.
  • 자동색인의 해법으로 가필드의 연구 에 대한 영향 • 2. 인용정보와 텍스트 분석 통합 • 순열주제색인(PSI)Permuterm Subject Index • 논문 제목에서 추출한 주제를 이용함 • 키워드 핵심구문 주제색인(KWPSI) Key words/Phrase Subject Index • 논문의 제목에서 추출한 주제명을 이용함
  • SCI의 고안과 실현 • 3.메타텍스트 • 거의 모든 문장에 참고문헌을 달며, 이 문장 의 주요 기능은 인용한 문헌의 개념적 내용 을 보통과는 달리 결정적 색인문으로 소개 하고 부분적으로 예측하는 것이다.
  • SCI의 고안과 실현 • 문맥상 인용색인은 과학적 언어가 가진 복 잡성을 다룰 수 있을 정도로 작은 단위로 축 소시키고 이용자가 인용 네트워크를 앞뒤 로 이동할 수 있음을 강조함으로써 인용색 인을 수면 아래에 있는 구조 언어학 패러다 임과 연결하고, 사회학과 정치학에서 인용 색인에 있는 서지정보를 특별하게 이용하 는 것과 연결했다.
  • SCI의 고안과 실현 • SCI는 상징적인 힘을 얻게 됨 • 노벨상 급 과학자들의 논문은 피인용 횟수가 높음 • 1972 SSCI • 1978 A&HCI • Web of Science & Current Contents • -> ISI Web of Knowledge
  • “다문학적”연구: 정보검색 도구로서 SCI • • • • SCI 전자형, 온라인 형으로 전환 출처색인 인용색인 순열주제색인 -> 키워드 플러스 • 특허인용색인 • 기관명색인
  • “다문학적”연구: 정보검색 도구로서 SCI • 출처색인 • 형태와 연도에 있어서 그 깊이가 제한됨 • ISI 학술지 선정 정책을 충족시키는 핵심 학 술지에 발표된 논문만을 포함
  • “다문학적”연구: 정보검색 도구로서 SCI • 인용색인 • 광범위하여 문헌의 형태 또는 발행일을 기 준으로 문헌을 제한하지 않음 • 대다수 문헌이 그 이전 년도에 발표되었으 며, 인용링크를 통해 과거 문헌과 연결
  • “다문학적”연구: 정보검색 도구로서 SCI • 순열주제색인 • 논문 제목의 단어를 가능한 모두 순열하여 활용 • 어빙셔(?) – 키워드 플러스 • 참고문헌의 제목에 출현하는 추가 용어를 이용하여 논문 색인 레코드의 품질 향상
  • “다문학적”연구: 정보검색 도구로서 SCI • 키워드 검색 • 단순하면서도 가장 좋은 출발점 • 중요한 문헌을 식별하고 인용색인에서 이 레코드를 찾으면 이 문헌을 인용하고 있는 논문 리스트에 즉각 접근할 수 있다. • 인용색인은 키워드 검색 시스템이나 주제 검색 시스템에서 흔히 다량의 작업을 필요 로 하는 탐색 전략을 더 쉽게 작성
  • “다문학적”연구: 정보검색 도구로서 SCI • 1. 방법론 탐색 – 전통적인 주제 색인에서 나타나지 않는 특수한 방법론적 기법을 언급하기 위해 문헌을 언급 • 2. 후속 또는 “최신”탐색 – 문헌 전체에 나타난 개념이나 기법의 변형을 추적하고자 할 때
  • “다문학적”연구: 정보검색 도구로서 SCI • 3. 다문학적 그리고 학제적 탐색 – 전통적인 경계를 넘어 주제간 연계 • 4. 유사도 탐색 – 두 개 이상의 참고문헌을 공유하는 문헌 – 두 개 이상의 참고문헌에서 인용하는 문헌
  • “다문학적”연구: 정보검색 도구로서 SCI • 1960년대 중반 이후 • 마이어 케슬러(Myer Kessler) • -> 서지결합법 : 하나이상의 참고문헌을 공유하는 논문 사이를 간접적으로 연결함으로써 이들 논문 주제가 서로 밀접하게 유사하다는 실증적 증거를 최초로 제시 • 제라드 솔턴(Gerard salton) & 마이클 레스크(Michael Lesk) • -> SMART 검색시스템에 인용이 추가되었을 때 얻 을 수 있는 잠재적 가치를 경험
  • “다문학적”연구: 정보검색 도구로서 SCI • 스티븐스(M.E.Stevens)와 어번(G.H.Urban) • SADSACT 자동 시스템에서 색인 작업을 수행하여 인용 데이터 품질 상향 • 그레이(W.A.Gray)와 할리(A.J.Harley) • 인용 연광성에 의해 유지되는 MEDLARS레 코드에 대해 컴퓨터를 이용해 색인하는 실 험
  • “다문학적”연구: 정보검색 도구로서 SCI • 1980년대 SCI의 온라인 접근 가능 • 솔턴의 통찰력 입증 • 인용정보와 키워드를 함께 사용하면 정보 검색 시스템의 성능을 향상시킬 수 있다
  • 계량서지학과 인용분석 “SCI에서 사이버메트릭스까지” 제3장 계량서지학의 철학적 기반 _ 버널, 머튼, 프라이스, 가필드, 스몰 일반대학원 언론정보학과 언론정보학전공 석박통합2기 박지원
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학 • 1937년부터 런던 버크벡 칼리지Birkveck College of London에서 물리학 교수를 역임 했던 버널은 여러 관점으로 볼 때 과학사에 서 선도적인 인물. • 물리학자로서 X-선 결정학X-ray crystallography과 분자생물학 분야에서 선 구적업적을 남김. • 교육자로서 사회적 시각에서 과학탐구, 글쓰 는 방법을 과학사학자들에게 가르침. • 철학적으로 마르크스주의자, 정치적으로 공 산주의자(이 두가지는 정보학에 대한 버널의 혁명적 접근방식과 소련체제에 있던 과학자 들이 선전했던 바보같은 짓에 대한 버널의 맹목적인 태도를 이해할 수 있게하는 중요한 특징)
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학 • 마르크스주의자로서 엥겔Engel의 변증법적 유물 론을 고집. • 버널은 과학은 사회적 활동이며, 네트워크로 연결 된 국제적 연구자 커뮤니테에 의해 수행, 광범위한 인간 활동과 직접적으로 연결되어 있다고 믿음. • “연결된 유기체”에 대해 전적인 신뢰를 보였지만, 사소한 것에 대해 성급한 태도를 보이기도 함. • 이러한 성향은 과학기술이 가진 인지적, 사회적, 정 치적 잠재력을 모두 발휘할 수 있도록 물리적 환경 을 발전시키는데 시간과 노력을 바치겠다는 그의 결심에 영향을 줌.
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학 • 노벨상을 수상하기 어렵다는 말을 하며 연구실에만 있으려 하지 않 음. • 보수적인 마르크스주의자들과 달리, 자본주의 이데올로기에 뿌리를 둔 원칙으로 기존의 과학 이론을 기계적으로 축소시키려 하지 않음. • 과학의 사회적 기능The Social Function of Science(1939)은 19세기 말과 20세기 초 소련 연방에서 수행된 과학 연구의 사회적 측면에 관 한 초기 연구를 추적하였고, 동양과 서양의 과학계량학적 전통이 상 호 교류하는 연쇄 효과를 불러일으키는 기폭제가 됨. • 데릭 프라이스가 주장한 “열역학thermodynamics”적 특성은 과학 산 출물에 대한 객관화와 “행정분야에도 과학을 적용할 필요가 있다는” 버널의 주장 결정적인 영향을 받음. • 1939년 출판된 버널의 과학의 사회적 기능은 제2차 세계대전 당시와 전후 “좌익 성향 과학Red Science”의 필독서라는 명성을 얻음
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학 • “과학자들이 아이디어를 전달하는 방식은 방문, 개인 적 만남, 서신에 의해서도 이루어진다.” • “시각적으로 보지않고는 전달하기 어려운 기술과 글로 작성하면 모호해져서 개인적인 접촉을 통해 전달 가능 한 아이디어” • 논문 내용을 실제 연구 활동에 적용하기 위해서 • 버널은 중앙유통 서비스의 형태를 미리 예견했으며 왓 슨 데이비스는 1940년 미국정보시스템사에 중앙 집중 형 서비스 모델인 과학정보연구소를 제안. • 버널이 구상했던 과학 아카이브 영역은 과학 논문뿐만 아니라 다음과 같은 구조와 기능을 가진 네가지 종류의 기록물을 포함
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학
  • 3.1 존 데즈먼드 버널의 좌익 성향 정보학 • 과학 분야 학술지 폐지라는 버널의 파괴적 계획은 결코 이루어지지 않음 • 20년이 지난 후 가필드는 이것을 상업적으로 재발명, • 가필드는 인용 색인에 중점을 둔 알리미 서비스와 별쇄본reprint 배 포 서비스를 고안. • 이 서비스는 정보의 선택적 배포(SDI)Selective Dissemination of Information를 촉진시키고 과학자기 자신의 논문에서 인용했던 논문 의 저자들에게 별쇄본을 보내는 보편적 관례를 체계화하는데 그 목 적이 있었음. • SCI 초기 단계에 버널은 SCI 편집 자문위원회의 일원으로 참여. • 가필드의 색인에 관한 리뷰발표 • “SCI는 과학의 진보를 다차원 그래프로 처음으로 그릴 수 있게 했으 며, 지도를 작성하는 것은 과학연구를 위한 전략을 도출하거나 계획 할 때 필수적인 단계이다” SCI가 과학사와 과학사회학을 위한 잠재 력을 가지고 있음을 인정.
  • 3.2 사회적 보상으로서 인용: 로버트 머튼 • • • • • • • 1942년 당시 컬럼비아 대학교 사회학 교수 로 재직. 보편적인 과학적 에토스의 핵심에 놓여진 규범 집합을 발표 규범집합- 과학자의 활동을 구속하는 규정, 금지, 가치로 이루어진 복합체 보편주의(미리 정해진 객관적 기준에 의해 평가해야 함) 공유주의(과학적 결과는 커뮤니티에 구속 되는 공공재) 불편부당성(경제적 동기나 개인적 동기에 연연하지 않고 지식을 추구하는 것) 조직화된 회의주의(논리적, 경험적 증거에 의해 그 타당성을 검증하도록 방법론적 의 심에 대한 견해나 소신을 밝히도록 의무화 한 것. 검증 못한 것은 과학의 영역에서 추 방)
  • 3.2 사회적 보상으로서 인용: 로버트 머튼 • 머튼은 근대 과학이 자연 법칙을 발견함으로써 이룩한 엄청난 성공이 규범적 구조 덕분에 다양한 수준의 연구 활동 사이에 기본이 되는 동질성과 연속성이 존재할 경우에만 설명될 수 있 다고 주장함.
  • 3.2 사회적 보상으로서 인용: 로버트 머튼 • 머튼은 과학자들이 여전히 보편주의, 공유주의, 불편부당성, 조직화된 회의주의라는 규범에 따라 움직인다고 주장함. • 과학자들이 이러한 규범을 반드시 믿을 필요는 없음. 규범은 과학자들의 행동에 따라 달라짐. 따라서 과학시스템이 도달한 기능적 평형 상태가 권력과 자원은 상대적으로 소수의 개인에 게 집중되어 있는 과학 커뮤니티가 가진 특징인 분업이라고 규 정. • 이 규범은 다른 사회적 제도와 달리 과학에서 나타나는 계층화 와 과학적 불평등이 보편적 기준을 적용함에 따라 증가하기 때 문에 가장 중요한 공헌자가 최고의 보상을 받아야 한다고 약속 함.
  • 3.2 사회적 보상으로서 인용: 로버트 머튼 • 머튼은 과학자의 부익부 빈익빈 현상을 “마태효과Matthew Effect"라 부름 • 더욱 관련있는 무명의 저자보다 경외심을 불러일으키는 저자의 문헌 을 인용하는 성향을 조사 • 이와 마찬가지로 과학자들의 일탈행위 발생을 연구했던 조너선 콜 Jonathan Cole과 스티븐 콜Stephen Cole은 “과학은 보편주의 이상 에 매우 근접해 있다. 그러나 그 이상에서 벗어나면 거의 모든 경우 마태효과가 작용하고 있다.”라 결론(처음에 성공을 해 본 사람은 이 후 보상을 위한 경쟁에서 우위를 차지하게 됨) • 평가적 측면에서 만프레드 보니츠Manfred Bonitz는 한 쪽으로 치우 친 “마태 세계”를 건립하는 데 관여. 마태 세계에서 과학 분야 영재들 을 양성하는데 있어서 성공 정도와 과학적 지도력을 확보하기 위한 국가 간 경쟁은 국제 커뮤니케이션 시스템을 측정할 수 있게 하는 속 성이 됨.
  • 3.2 사회적 보상으로서 인용: 로버트 머튼 • 가필드의 학술지 영향력 지수에서 나온 많은 파생물 덕분에, 학술지 한 종당 수록된 논문 수에 대한 평균 이용률은 인용 영향력에 대한 표준적이고 이상적인“기대치„로써 작용. 이것과 대조적으로 인용 영 향력에 대한 각 국가별 관측치에서 긍정적 또는 부정적 편차, 즉 동 일한 학술지를 참조한 ”마태 인용citation"비율을 측정할 수 있음. • 머튼은 새로운 사회학적 도구로써 인용색인의 잠재력을 높이 평가, 가필드의 창조물인 SCI의 완성을 위해 멘토이자 조력자로서 일관된 역할을 담당. • 그러나 개인적으로 인용이론이나 인용분석 분야에서 연구를 수행한 적이 한 번도 없음. • 머튼은 인용정보를 이용한 과학계량학 지표가 초보적 특성을 가지고 있음을 강조, 인용분석에서 “결합에 의한 소멸(중요한 데이터가 손실 되는 현상)”이 일어날 수 있다고 주장.(연구 분야에서 중요한 핵심 문 헌이 출현하면 이것은 기존의 지식 덩어리에 흡수되어 더 이상 참고 문헌으로 인용되지 않음)-지적 영향력이 깊어질수록 참고문헌에서 는 찾아 볼 수 없게 된다.
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 • 가필드 1955년에 작성한 논문 “ 과학을 위한 인용색인Citation Indexes for Science"은 정보학 자들이 지식 생산과정에서 서지 인용의 역할을 개념화하는 방식 에서 하나의 전환점이 됨. • 커뮤니케이션 구조가 기존의 주 제명 표목보다 인용을 더 잘 반 영하는 구성요소라는 아이디어 가 중심. 반면 학문 분야별 연구 에 의해 결정된 변환규칙에 따 라 과거 문헌을 재해석. • 기존의 주제명 색인보다 더 정 밀하고 유연하다고 생각했던 과 거 문헌의 주제별 범주화를 성 취.
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 • 과학자 동료집단에 의해 인용되는 것이 더 많은 의미를 가짐. • 문헌간 연결관계를 체계적으로 재수립하는 것은 지적 배경을 밝히는 단서가 되며 저자의 소속기 관과 협력 네트워크를 추적할 수 있는 단서가 되 기도 함. 인용은 평가와 평가적 판단을 받기 쉬운 사회인지적 네트워크에서 인용저자와 피인용저 자를 연결. • “누군가 특정 저작물이 가진 중요성과 이 저작물 이 당대 문헌과 사고에 끼친 영향력을 평가하고 자 할 때” 인용색인은 유용성을 갖게 됨.
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 • 1970년대 ISI 연구팀의 일원이었던 헨리 스몰은 인용 이 더욱 정형화된 형태의 언어로 아이디어를 전달하 고 흡수하는 것을 모방할 수 있는 능력을 가지고 있다 는 가필드의 통찰력을 더욱 발전시킴. • 스몰은 서지인용이 가진 기본적인 인지적 기능을 주 장. 서지 인용은 인용자가 특정 상황에서 문헌에 의존 하고자 한 결정을 설명하는 아이디어나 개념을 결합 시키기 때문. 이 아이디어는 인용자의 생각과 일치할 수도, 아닐수도 있음. 과학 논문에서처럼 참고문헌 자 체는 이 아이디어를 간단하고 비교적 안정적으로 나 타내는 상징, 개념상징으로 여겨질 수 있음.
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 • 스몰은 영국의 인류학자인 에드먼드 리치Edmund Leach의 개념상징 이론을 차용했다. 리치는 [문화와 커뮤니케이션 Culture and Communication](1976)에서 사회인류학에 구 조주의적 분석을 적용. 언어처럼 문화는 해독될 수 있는 부 호로 이루어진 체계이며, 각 문화 현상은 다소 의식적인 의 사소통 과정. • 노엄 촘스키Noam Chomsky의 영향을 받은 리치는 인간 생 활의 물질적 측면조차 문법구조를 밝혀내기 위해 분석할 수 있다고 생각.
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 복식형태, 마을의 배치, 건축, 가구, 음식, 요리, 음악, 몸짓, 자세와 같은 비언어적 영역은 자연어의 단어와 문구, 그리고 소리와 유사한 방식으로 암호화된 정보를 결 합시키도록 짜여진 집합으로 조직된다.... 음성발음을 지배하는 문법 규칙에 관한 것처럼 옷을 입는 방식을 지배하는 문법 규칙에 관해 말하는 것이 의미있다. • 리치는 "기호Signs"와 “상징Symbols"간의 근본적인 차이를 구분 • “기호”측면에서 보면 어떤 실체에 대한 기호로 작동하는 색인이나 객체는 의미하는 바와 연결된다(환유관계). 즉, 왕관은 유럽의 정 치적 전통이라는 맥락에서 통치권을 상징하는 “기호”다. “a-p-p-l-e" 는 ”기호“. 맥주 양조장 상표인 왕관은 ”상징“. 에덴동산에서 뱀은 ” 상징“ • 시적 이미지에서 나타내는 개인적이고 임의적인 “상징”과 공공 영 역에서 정보를 전달하고 비교적 안정된 의미를 소통하는 표준화된 “상징”사이에는 커다란 차이가 존재
  • 3.3 개념적 상징으로서 인용: 유진 가필드와 헨리 스몰 • 스몰은 서지 공간에서 위에서 언급한 기호와 상징 체계를 바 꿈. • 참고문헌은 “기호”인 동시에 “상징”이다. • 참고문헌은 저자-학술지명-권-페이지-연도순으로 작성된 “기호”.(형식적 특징을 공유하는 물리적 객체, 즉 피인용 문 헌을 가리킴)->환유관계 • 참고문헌은 피인용문헌이 설명하는 개념에 대한 “상징”.(은 유관계) • “선행문헌은 늘 재해석 상태에 놓여있으며, 그 분야 내에서 일어나는 지식의 변화와에 순응한다.” • “표준상징standard symbols”(리치가 제시)은 “일정 시간동안 수많은 이들이 토론하고 선택한 과정에서 얻어진 산물”
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 왜 우리는 과학 자체에 관한 연구에 과 학적 도구를 사용할 수 없는가?왜 가 설을 설정하고 측정하고 일반화할 수 없으며 결론을 도출 할 수 없는가?... 과학의 형상과 크기가 지니고 있는 일 반적 문제점과 대체적으로 과학의 성 장과 행태를 지배하는 기초적인 규칙 을 수학적 방식이 아닌 통계적인 접근 방식으로 다룰 것이다.... 여기서 사용 되는 방법론은 다양한 온도와 압력이 주어졌을 때 기체 반응을 논하는 열역 학 방법론과 유사하다. - 데릭프라이스[작은 과학, 거대 과학]
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 • • 1959년부터 예일대학교위 교수로 재직, 물리-수학적 지식을 가진 영국 출 신의 과학자. 그의 견해는 “계량서지학적 환원주의bibliometrics reductionism"로 모아짐. 기본전제 • 1. 과학은 경험적 데이터의 관측과 조작에서 채택하는 객관적 기준으로 인 해 다른 학문 분야와는 본질적으로 다름. “과학은 벽돌을 쌓는 것처럼 연구 업적들이 누적되어 쌓여가는 분야이다. 기본적 토대 위에서 기술적으로 구 축된 지적 구성물처럼 영구적으로 남는다.” • 2. 비조직적인 실험실 생활뿐만 아니라 사회,심리,철학적 요인까지 궁극적 으로 새로운 아이디어와 기법을 형성하는데 적극적으로 함께 사용한다. 동 료집단이 읽고 인정한 과학 문헌을 일생동안 최소한 한번이라도 출판한 적 이 있다는 사실에 의해 과학자로 인정받음.
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 • • • 프라이스는 [Philosophical Transactions of the Royal Society of London]에 수록된 논문과 1961년판 가필드의 색인에 수록된 참고문헌을 포함해서, 과 학사와 관련된 방대한 분량의 자료를 계수하고 분류하면서 “과학 분석에 관 한 기본 법칙”에 도달. 학술지의 종수, 논문이나 초록의 수, 또는 대학, 과학자, 기술자의 수처럼 숫 자로 된 지표로 무엇을 취하든 간 정상적인 성장률이 동일한 시기에 상수에 의해 지수함수적으로 증가함. 프라이스의 제곱근 법칙Square-Root Law은 모수로 설정된 과학자들이 생 산한 전체 논문 중 절반가량이 매우 생산성이 높은 출처로부터 나온것이며, 이것은 전체 저자수의 제곱근과 동일하다고 가정한다. “과학자 수는 매 10 년마다 두배로 증가한다. 그러나 주목할 가치가 있는 과학자 수는 매 20년 마다 두배로 증가한다.” 따라서 과학 문헌수가 지수함수적으로 증가한다면, 가장 생산성이 높은 과학자가 두드러기게 나타난다고 결론지을 수 있음. 즉, 과학의 진보는 특정 기간 동안 활동하는 연구자 수에 일차적으로 의존하지 않으며, 생산성이 높은 “우수한” 과학자 수에 의존한다.
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 • • • • • 프라이스는 생산성인 높은 과학자들이 보통은 인명 사전에서 별표가 있는 표목으로 나타나며, 다른 나태한 동료보다 상대적으로 훨씬 더 많은 명예와 보상을 받는다는 점을 지적. 자본이라는 것은 이미 이것을 다량 보유하고 있는 소수에게 흘러들어가 집 중되는 경향을 보임. 출판된 논문 수 이외에 누적 이득 과젇ㅇ의 견고한 작용에 대한 정성적 통 찰력은 인용데이터와 도서관 이용통계에서 시작. 도널드 우르쿠하르트Donald rquhart의 1956년 과학박물관Science Museum의 상호대차 기록에 대한 분석과 가필드의 SCI 탄생에 숨겨진 인 용패턴은 도서관에 보유 중인 학술지 중 이용자가 요청한 논문 분포와 SCI 에 수록된 논문 중 인용정보의 분포가 유사한 쌍곡선 패턴을 보인다는 것을 밝혀냄. 이것은 거듭제곱 분포를 가진 척도없는 네트워크Scale-free network의 초 기 사례 중 하나로 이후에 인정받음.
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 • • • • 프라이스의 시각에서 보면 사회과학이나 인문과학과 같은 다른 학술 활동 과 과학을 구분하는 것 이외에 오래된 논문 대신에 최신 논문을 과도하게 인용하는 성향을 나타내는 “즉시성 요소immediacy factor"는 과학의 누적성 과 진보성을 설명하며 활발한 선도 연구 영역이 존재함을 보증. 1970년 프라이스는 경성과학, 연성과학, 기술, 비과학에서 다양한 구조를 가진 지식 생산 모형의 즉시성 정도를 탐지하기 위해 “프라이스지수Price's Index"를 제안하였고, 이는 인용한 문헌의 발행년도를 기준으로 참고문헌 중 5년 이내에 출판된 문헌이 차지하는 비율을 나타냄. 프라이스는 “어떤 한 분야에서 실제로 누군가가 모든 것”을 구성하는 이들 비공식 클러스터를 “비공식 연구집단(또는 보이지 않는 동료집단)invisible college"라고 명명. 프라이스는 상호 연결된 대다수의 저자들이 생산성이 높은 저자와 유동적 으로 협력함으로ㅆ 해당 분야에서 기여도가 미미하며, 독립된 상대적으로 서로 연결될 수 없는 집합은 단일 비공식 연구집단으로 존재할 수 있다는 것을 알게됨.
  • 3.4 과학 네트워크의 구성: 데릭 존 드 솔라 프라이스 • 프라이스는 정치적으로 바람직하고 기술적으로 실현가능한 목표로서 계량 서지학적 과학지도map of science를 종합적으로 작성하는 것을 구상. 인용 행렬을 적절하게 다룰 수 있다면, 모든 연구 분야에서 “최고 수준의” 그리고 “가장 최고 수준의” 논문을 자동으로 식별할 수 있으리라고 생각. • “이와 같은 지형도가 작성되면, 지도 내에 차지한 위치에 따라 학술지,국가, 저자,개별 논문의 상대적 중요도와 중복성을 분명히 지적할 수 있다”고 프 라이스는 주장함.
  • 계량서지학의 수학적 기반
  • 계량서지학의 수학적 기반 • 1. 경쟁모형과 비교할 수 있고 투명성을 높 이기 위해 부정확한 실험공식을 정확한 수 학적 개념으로 바꾸어준다. “완전한 계량서 지학 이론”으로 발전하기 위한 제 1단계에 불과하다
  • 계량서지학의 수학적 기반 • 2. 특정데이터 집합을 분석하기 위해 표준 적인 통계 도구를 사용하기 위한 조건을 명 시함으로써 정보흐름을 측정할 때 발생하 는 무작위 오차를 추정하는데 도움이 된다.
  • 계량서지학의 수학적 기반 • 3. 계량서지학적 과정의 수학적 구조와 비 계량서지학적 현상의 수학적 구조를 연결 함으로써 공통된 특징을 규명하고 공통적 으로 사용할 수 있는 방법론을 개발할 수 있 다. 비계량서지학적 현상이란 경제적, 생물 학적으로 복잡한 시스템에 대한 연구결과 로 나타난 특정한 패턴을 의미한다.
  • 수학적 치우침: “정성적”통찰 • 로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에 있는 관계를 표현 하기 위해서 간단한 수학적 표현법과 그래 프를 사용했다. • 이러한 관찰 과정에서 얻어진 공통된 결과 는 정보의 패턴이 한쪽으로 치우치는 불균 형이 두드러지게 발견되었다는 것이다.
  • 수학적 치우침: “정성적”통찰 • 1) 소수의 저자가 발표한 문헌이 특정 연구 분야에서 대부분을 차지 • 2)이용자 요구를 충족시키는데 필요한 문 헌이 소수의 학술지에 집중적으로 수록 • 3)상대적으로 소수의 단어가 반복적으로 나타남
  • 수학적 치우침: “정성적”통찰 • 정보의 특징이 평균으로 중심으로 한 정규 분포를 따르지 않는다는 공통점으로 가짐 • 생산성이 낮은 다수의 학술지가 생산성이 높은 소수의 학술지와 공존하기 때문에 전 체 ‘학술지-논문’에 대한 빈도분포 곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수 법칙(Power law)으로 설명 가능한 쌍곡선 패턴을 따름
  • 수학적 치우침: “정성적”통찰
  • 수학적 치우침: “정성적”통찰
  • 수학적 치우침: “정성적”통찰 • 칼 프리드리히 가우스(Carl Friedrich Gauss)와 피에르 시몽 라플라스(Pierre Simon Laplace)에 의해 • 보편타당하고 쉽게 이해할 수 있으며 계산 하기 쉬운 종모양의 그래프를 제시 • 종모양의 그래프에서는 평균값이 다른 값 보다 중앙에 위치할 확률이 높으며 나머지 변량은 평균을 중심으로 대칭적으로 분포 한다.
  • 수학적 치우침: “정성적”통찰 • 물리량을 측정할 때마다 산술평균은 다른 어떤 값보다 데이터의 특성을 잘 표현한다 는 가정 아래에 있기 때문에 통계학 교과서 에서는 이러한 분포의 특징을 “오차법칙 (Law of error)”이라 한다.
  • 상관분석 • 두 변수 사이에 선형관계가 성립될 때 두 변 수 사이에는 상관관계가 있다고 한다. 즉 하 나의 변수가 커지면 다른 변수도 일정한 비 율로 커지거나 작아지는 것이다. • 직선에 가까운 정로를 나타내는 값으로 상 관계수로 표현한다. • 일반적으로 피어슨(Pearson)의 r값을 사용 하는 것이 일반적이며 -1~1사이의 값으로 표현된다.
  • 상관분석 • 상관관계는 인과관계를 나타내지 않는다. • 두 개의 변수가 양의 상관관계에 있다고 해 서 하나의 변수가 다른 변수의 변화를 초래 하는 것은 아니며, 두 변수는 알려져 있지 않은 제 3의 요인에 의해 영향을 받을 수 있 다. • 인과관계에 대한 충분한 근거가 없을지라 도 상관관계는 인과관계가 존재함을 암시 하는 것으로 해석된다.
  • 회귀분석 • 상관관계가 가진 예측 능력의 한계는 사회 과학 및 행동과학에서 널리 사용되고 있는 기법인 회귀분석을 도입함으로써 부분적으 로 극복할 수 있다. • 현실에서는 많은 설명변수가 존재하며 이 들 변수를 선형으로 결합하여 하나의 결과 를 만들어 낼 수 있다. • 따라서 단순선형회귀보다는 다중회귀를 사 용한다.
  • 회귀분석 • 다중회귀분석 기법을 통해 해당 논문집합 의 피인용횟수를 예측하기 위해 저자의 명 성, 학술지의 영향력, 참고문헌 수 등과 같 이 서로 다른 요인의 상대적 중요도를 평가 하고자 했다.
  • 정규분포의 패러다임 • 스티븐 벤스만(Stephen Bensman) • 정규분포의 패러다임 이라고 일컫던 것을 뒤엎고 왜곡된 세계를 다룰 수 있는 새로운 수학적 방법론과 개념을 제시했다. • 꼬리확률(probability tail)
  • 파레토(Vilfredo Pareto)의 법칙 • 80/20 법칙 • 경험적으로 20%의 사람들이 전체 부의 약 80%를 차지한다는 부의 분포에 대한 특성 • 하지만 중간수준의 부를 누리고 있는 사람 들에 대한 적절한 모형을 제시하는데 실패 하여, 경제학자들이 받아들이기까지는 오 랜 시간이 걸림
  • 사회과학분야 • 데이터 집합의 양극화는 빈도분포의 머리 부분은 표준통계기법으로 해석할 수 있지 만, 꼬리 부분에서 발생빈도가 낮은 사건 (극단값;extreme value)이 일어나므로 다른 기법을 적용해야한다고 제시 • 대부분의 표준통계기법에서는 극단값을 이 상값(Outlier)으로 간주
  • 수학적 치우침: “정성적”통찰 • 전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서 강화된 대칭 성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용한다. • 가장 기초적인 방법은 로그변형으로 표본 의 분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 하는 것
  • 수학적 치우침: “정성적”통찰 • 서열척도로 측정된 두 변수의 상관계수를 구할 경우 명확한 수치 해석이 불가능하기 때문에 스피어만(Spearman)의 순위 상관 계수 또는 켄들의 타우(Kendall의 τ)와 같은 순위 상관계수를 이용한다.
  • 수학적 치우침: “정성적”통찰 • 회귀분석 방법에서는 구체적으로 일반화된 선형회귀모형에서 파생된 이분형 결과를 다루는 로지스틱 회귀모형, 횟수를 모형화 하기 위한 포아송, 이항 회귀모형과 비선형 회귀모형이 있다. 또한 종속변수가 독립변 수에 종속되어 있다면 선형이든 비선형이 든 특정한 함수로 표현이 불가능하기 때문 에 비모수 회귀모형을 적용해야 한다.
  • 포아송 모형 • 확률과정은 특정 시점 t까지 발생한 사건 수 전체를 집계하는 과정이다. • 계량서지학에서는 음이항 분포(negative binominal distribution), 웨어링 분포 (Waring distribution), 일반화된 역 가우스포아송 분포(GIGPD, generalized inverseGaussian-Poisson distribution)
  • 성공이 성공을 낳는다. • 포아송 과정은 특정 순간에 어떤 사건이 발 생할 기회가 이미 발생한 사건의 수에 따라 결정되는 방식으로 자연스럽게 일반화되었 다. 이를 확률적 탄생(stochastic birth)라 부 르며 살아있는 유기체의 재생산을 통해 완 벽하게 실증할 수 있다.
  • 성공이 성공을 낳는다. • 게오르게 폴리야(George Polya)와 플로리 안 에겐버거(Florian Eggenberger)의 항아 리 모형(Um model) • 프라이스(?) - 누적이득분포(CAD, Cumulative Advantage Distribution)
  • 로트카 법칙 • 로트카는 과학 커뮤니케이션의 선두에서 분투하고 있는 우수한 과학자들이 지식의 진보에 어느 정도나 공헌했는지 알아내고 자 했다. • 한 주제분야에서 100명중 60명이 논문 한 편을 기고한다고 가정한다면 100명중 15명 은 두 편의 논문을 100명중 7명은 세편을 기고한다고 할 수 있다.
  • 로트카 법칙 • 윌리엄포터(William Potter) • 로트카가 사용한 소스 자체까지 추적하여 결함을 밝혀내 1981년 리뷰 논문으로 발표 하였다. • 로트카가 사용한 데이터에 적합성 검정을 실시한 결과 역제곱법칙이 이들 데이터 중 일부분에서만 적용된다는 것을 밝혀냈다.
  • 브래드퍼드의 분산법칙 • 특정 주제와 관련된 논문을 담고 있는 학술 지를 생산성을 기준으로 내림차순 정렬하 여 순위를 매기고 각 학술지에 발표된 논문 수를 집계한다면, 이 주제에 대한 논문의 대 부분이 실린 소수 학술지군이 핵심 학술지 군을 이룬다. 그 다음 핵심 학술지군에 포함 된 논문 수와 동일한 논문 수를 포함하고 있 는 다른 학술지군이 뒤따른다.
  • 브래드퍼드의 분산법칙 • 1. 첫 번째 핵심 학술지군에 9종의 학술지, 429편의 논문이 포함되었다. • 2. 두 번째 학술지군에 59종의 학술지, 499 편의 논문이 포함되었다. • 3. 세 번째 학술지군에 258종의 학술지, 404편의 논문이 포함되었다.
  • 브래드퍼드의 분산법칙 • 1. 가장 생산적인 핵심 학술지군에 속하는 9종의 학술지 • 2. 두 번째 학술지군으로 9 x 5종의 학술지 (45종이지만 대략 59종의 학술지까지 적용 할 수 있음) • 3. 세 번째 학술지군으로 9 x 5²종의 학술지 (225종이지만 대략 258종의 학술지까지 적 용할 수 있음)
  • 브래드퍼드의 분산법칙 • 핵심영역과 그 다음 영역에서 동일 논문 수 를 포함하는 학술지군의 비율은 • 9 : 9 x 5 : 9 x 5² -> 1 : m : m² : … • M은 브래드퍼드 승수(multiplier)
  • 브래드퍼드의 분산법칙
  • 초기이론의 발전 • 곡선현상(Groos Drop) • 브래드포드 곡선의 상단 끝에서 아래로 굴 곡되는 것 • 리웬 추(Liwen Qiu)는 브래드퍼드의 법칙에 관한 기존 모형들을 통계적으로 실험했으 며, 가장 좋은 모형일지라도 곡선현상이 나 타나는 데이터 집합에는 적합하지 않다는 것을 증명하였다
  • 가필드의 집중법칙 • 다른 데이터 집단 간 비교를 쉽게 할 수 있 기 때문에 계량서지학자들은 정확한 수학 적 용어로 학술지 사이의 논문 분포를 정의 하기 위해 사회 안에서 부와 수입의 불평등 한 분배를 측정하기 위해 경제학자들이 사 용했던 것과 유사하게 가장 많이 사용된 것 은 지니지수(Gini Index)와 프래트지수 (Pratt Index)다.
  • 가필드의 집중법칙 • 지니지수는 1900년대 초기에 이 지수를 소개 한 이탈리아 경제학자의 이름을 땄다. • 프래트지수는 지니지수에 대응하는 계량서지 학적 지수로 1977년 앨런 프래트(Allan Pratt) 에 의해 소개되었다. • 두 지수는 모두 어떤 대상이라도 측정할 수 있 으며 로렌츠 곡선(Lorenz curve)를 따른다.
  • 가필드의 집중법칙 • 로렌츠 곡선은 모집단을 동일하게 분할하 여 각 영역이 차지하는 자원의 양에 점을 찍 어 얻게 되는 곡선이다. • 지니계수는 0과 1사이값을 가진다 • 0은 완전 평등한 상태 • 1은 불평등한 상태
  • 지프 법칙과 만델브로의 재해석 • 지프의 법칙은 텍스트나 말이라는 언어적 표현을 생성하고 형성하는 다소 이해할 수 없는 내부적인 행위와 관련 있다. • 단어의 출현빈도가 비대칭적으로 나타나는 원인에 다음과 같이 설명했다. • 경제의 원리나 “최소 노력의 원리”를 따르 는 성향으로 이어져 원인으로 작용한다는 것이다.
  • 지프 법칙과 만델브로의 재해석 • 지프의 법칙은 • 섀넌(Shannon)의 정보 이론에 대한 만델브 로의 이해 • 브루스 힐(Bruce Hill)의 보스–아인슈타인 (Bose-Einstein) 통계의 변형 • 등등..
  • 지프 법칙과 만델브로의 재해석 • 만델브로의 식은 섀넌의 커뮤니케이션 이 론에 따라 커뮤니케이션 비용을 최소화한 다는 측면에서 지프의 최소 노력의 원리를 해석하는 것에서 비롯되었다. • 언어는 가장 다양한 신호를 즉시 전달하는 것으로 목적으로 한다. • 한 단어에 투입되는 비용은 그것을 구성하 는 철자수로 확정할 수 있다.
  • 과학 문헌의 성장 • 과학은 멱함수 분포를 따르는 많은 자기 유 사 하위시스템이나 연구 분야를 포괄하면 서 복잡하고 자기조직적이며 생물학적으로 성장하는 시스템으로 묘사된다. • 규모의 거대함에 관계없이 새로운 아이디 어와 연구 분야는 이전 연구자로부터 거의 선형적으로 발전한다.
  • 과학 문헌의 노화 • 어떤 문헌이 나이가 들면서 일반적으로 사 용되는 기회가 감소하는 과정을 노후화 (Obsolescence) 혹은 노화(aging)라고 부른 다. • 문헌과 함께 쇠락해가는 문헌에 포함된 정 보의 유효성이나 유용성의 지표로 사용된 다.
  • 과학 문헌의 노화 • 노화의 전형적인 “방사성”붕괴와 같은 패턴 은 사용 빈도수의 기하급수적 붕괴로 나타 난다. 즉 피인용문헌의 평균 피인용횟수는 매년 동일한 노화계수(aging factor)로 감소 한다.
  • 과학 문헌의 노화 • 1. 현재 시점에서 고정된 피인용문헌집합에 대한 인용문헌의 연령분포를 살펴보는 것 (통시적 노후화) • 2. 주어진 문헌 집합 안에서 인용된 참고문 헌의 연령분포를 되돌아보는 것(동시적 노 후화)
  • 과학 문헌의 노화; 문제점 • 1. 출판물 유형 : 연구논문은 레터와는 다른 노후화 과정을 거친다. • 2. 추상화 수준 • 많은 실증적 사례연구가 잊혀졌을지라도 갈릴레오 갈릴레이의 저작처럼 방법론적으 로 기여한 논문은 오랫동안 인용된다.
  • 과학 문헌의 노화; 문제점 • 3. 저자의 명성과 사회적 지위 • 어떤 분야에서 선임저자이면서 교수의 종 신 재직권을 심사하는 위원이 될 사람이 있 다면 그 사람이 30년 전 쓴 사소한 논문이 라도 그 논문을 인용하지 않을 사람은 거의 없을 것이다.
  • 과학 문헌의 노화; 문제점 • 4. 학술지 중심성 • 저명한 학술지에는 높은 품질의 영구적인 논문이 투고된다. 그러나 그 반대로 저명한 학술지에서 발표된 논문은 단지 부가적인 마태 효과 때문에 노화속도가 느리다. • 5. 주제에 대한 관심도 또는 유행 • 논문이 유효성을 갖고 있는지 여부에 관계 없이 시대에 뒤쳐진 주제는 거의 인용되지 않는다.
  • 계량서지학 법칙의 통합 • 에게(2005) – “정보 생산과정에서 멱함수 (Power Laws in the Information Production Process)” • 로트카의 법칙에서 정보생산과정의 수학적 모형을 완벽하게 개발하기 위한 출발점
  • 계량서지학 법칙의 통합 • 로트카의 계량정보학의 골격에는 다음과 같은 두 개의 추가적인 공리가 필요하다. • 1. 모든 정보 생산과정은 크기 빈도분포 f로 간략화 될 수 있다. 이 함수는 n=1,2,…,이 라면 n개의 항목을 가진 소스의 개수는 f(n) 이다. 따라서 만약 소스가 학술지이고 항목 이 그들이 출판하는 논문이면 f(n)은 n개의 논문을 출판한 학술지의 종수이다.
  • 계량서지학 법칙의 통합 • 2. 크기 빈도 분포 f는 (감소하는)멱함수이 고 로트카 법칙의 일반화이며, 다음과 같아. • f(n) = C/nª
  • 계량서지학 법칙의 통합 • 지프가 이미 명명한 “최소 노력의 원리”와 만델브로의 초기 저서에 채택됐던 섀넌의 정보이론 • 1970년 말 푸리에(Fourier)의 열전도 처리 를 기반으로 한 정보확산이론을 통해 계량 서지 법칙의 확립을 추구하였던 루마니아 의 공학자 아우렐 아브라메스쿠(Aurel Avramescu)가 발표한 모형.
  • 계량서지학 법칙의 통합 • 계량서지학적 분포의 수학적 구조를 1990 년 게오르기 스탄코트(georgi Stankov)가 제안한 “과학 일반 이론”의 공리로부터 추 론하고자하는 노력에서 브룩스와 하이툰의 정보 처리의 비 가우스 특성에 대한 집념을 소생시킨 불가리아의 정보학자 루트 밀라 이반헤바(Ludmila Ivancheva)의 다소 이론 적 접근
  • 계량서지학 법칙의 통합 • 마이클 카올론(Michel Caollon)과 브루노 라투르(Bruno Latour)의 행위자-네트워크 이론의 철학적 기초 위에 라파엘 바이론 모 레노(Rafael Bailon Moreno)가 최근 개발한 통합적인 과학계량학적 모형
  • 계량서지학 법칙의 통합 • 전체적으로 앞서 말한 저자들이 성공이 성 공을 낳는 원칙을 매우 광범위한 서지학적/ 비서지학적 상황에서 데이터 생산을 뒷받 침하는 기제를 설명할 수 있는 함수로 설명 하였다는 것은 부정할 수 없는 사실
  • 계량서지학 법칙의 통합 • 통합을 추구하는 목적을 달성하려는 같은 계량서지의 법칙에는 다양한 가정을 따르 려는 성향과 편재성을 통해 그 확고함을 입 증할 수도 브룩스타인이 주장하듯 “탄력적 중이성(resilience to ambiguity)”를 지닐 수 있다.
  • Iij Cij min( ci, cj )
  • Pij Cij xN CiCj
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • ㈜ 빅아이디어 연구 소
  • Chapter 6 Impact Factor and the Evaluation of Scientists: Bibliographic Citations at t he Service of Science Policyby Xanat V. Meza and Management Presentation for the New Media class
  • Introduction • Scientific progress rests on the recognition and legitimization of individual contribution s by a research community sharing notion s, methodologies, practices and values. • Scientific quality: the assessment of the no velty of a contribution through the evaluati on of scientific publications.
  • Introduction • Peer reviewing: examination of scientific publi cation‟s content by a group of acknowledged experts. • Born in XVIIth century Europe against knowle dge fragmentation caused by scientific specia lties. • The evaluation should be: – Encoded. – Impersonal. – Convergent of judgment criteria from different exp erts.
  • Introduction • Kuhn: there is a resistance to change, but co nservatism is also the staple of scientific chan ge. Pg. 182 • From 1970‟s the use of citation analysis attra cted the attention of politicians and science m anagers, as it is convenient, quickly understo od, easily applied, and easy to calculate than ks to ISI databases. • The problem is with unpublished material, whi ch has to rely on qualitative judgment of a loc al character.
  • Introduction • Scientometricians have adopted a dual str ategy to make sure that quality equals citat ion impact: – 1. Why the medicine is supposed to work: stat istical evidence points to the fact that excellen t scientists often publish citation classics. – 2. How to avoid rejections: by anticipating the ambiguous role of self-citations and delayed r ecognition.
  • Introduction • On self-citation: Tagliacozzo (1997). They ar e not an evil in themselves, but they are susp ected of deceitfully inflating the citation impac t of the unit under assessment. Nevertheless, they can be used as an impact-reinforcing me chanism by triggering a chain reaction. • Another problem might be the historical recur rence of premature discoveries (pg. 185).
  • The shortcut: The Journal Impact Factor • The Impact Factor (IF) is a journal citation me asure devised in the early 60‟s by Garfield an d Sher for Current Contents and the SCI. • It is an estimation of a journal‟s average articl e‟s citation score over a relatively short time s pan. • It is computed for a given year through a divis ion between a numerator and a denominator.
  • The shortcut: The Journal Impact Factor • The numerator is the number of citations r eceived in the processing year by the item s published in that journal during the previ ous two years. • The denominator is the overall number of citable items (research articles, reviews, a nd notes) issued by the journal during the same two years. • X is the name of the journal. IF(X) = 100 + 150 = 3.57 70
  • The shortcut: The Journal Impact Factor • The proportional increase in the IF score bec ame a prelude to marketing success, to an in creased commercial and symbolic visibility, a nd occasionally to a more profitable sale of a dvertising spaces. • Arguments against the IF: – Skewness of citation distribution: the poor statistical correl ation existing between the citedness of individual articles a nd the IF of the journals wherein they appeared is well doc umented. – The several conceptual and technical limitations bearing u pon the significance of the IF.
  • The shortcut: The Journal Impact Factor • Concerns about the stability and reliability of cita tion rankings were expressed in 1970 within the American and the European (specifically Dutch) bibliometrics subculture. • Narin‟s Evaluative Bibliometrics and Dennis Diek s and Hans Chang‟s 1976 paper (pg. 189). • Nancy Geller estimated the lifetime citation rate of a paper under a series of suppositions about t he regularity of citation patterns and the growth r ate of scientific literature.
  • The shortcut: The Journal Impact Factor • Allison attempted to provide a scale-invariant me asure of inequality in publication/citation counts i n 1980. • Schubert and Glanzel designed a reliability test for determining the statistical significa nce of the observed differences in citation i mpact in 1983. • Bensman performed an exploratory investi gation of the 2005 JCR‟s probabilistic struc ture (pg. 190).
  • The shortcut: The Journal Impact Factor • The confirmations are: – Total citation count and IF capture different facets of j ournal importance, – The former is better than the latter as a global measur e of importance, but the gap narrows if only a better cl assification is introduced in the sample sorting journal s from research journals. – Both measures are surprisingly stable over time at the higher level of citation rankings.
  • The shortcut: The Journal Impact Factor • The objections to the IF: – Classification of citable items: the number of citable items does not take into account letters, editorials or conference abstracts. – Accuracy issues: journals are complex entities that can ch ange, split, merge, etc. The ISI doesn‟t combine citation da ta on the basis of lineage, nor for sections of the same jour nal (pg. 192). – Density and age of cited references. The more one cites, t he more can be cited. Density and age of cited references emphasize the variability of citation cultures among discipli nes and research fields. – The Journal format and article type: the speed and intensit y with which different types of articles attract citations affec ts the IF.
  • Fixing the accuracy of the IF • Modification of the time window for either the cited o r the citing years. • Creation of a normalized measure, taking into accou nt the (sub)field citation practices, types of documen ts published by the journal, and age of cited papers: – Graeme Hirst measured the number of times a journal is ci ted by the core literature of a single subfield in the 1970‟s. – Pinski and Narin made a Google-like algorithm for journal r anking. – The Journal to Field Impact Score introduced by van Leeu wen and Moed.
  • Fixing the accuracy of the IF: The Journal to Field Impact Score • It counts the same items than the IF both at the num erator and denominator. • It is field-specific, in the sense that the impact of the individual journal is compared to the world citation a verage in the corresponding research fields. • It differentiates the normalized impact for the various document types. • It employs variable citation and publication windows for the count depending on the communicative patte rns of the research field under evaluation.
  • 6.2 Design and application of adva nced scientometric indicators • In order to improve the ISI, Leiden bibliometricians a t the CWTS completed a pilot study in 2006. They e xpanded the ISI indexes with source papers from ref ereed proceedings of computer science international conferences in view of developing field-specific bibli ometric indicators. • Grant Lewison envisioned the expansion of analytic al tools necessary to trace the routes along which bi omedical research influences health decisions. This includes patents, clinical guidelines and newspapers .
  • 6.2 Design and application of adva nced scientometric indicators • The opponents of quantitative methods get rid of bib liometric indicators because nothing appears as relia ble as an accurate peer review. • But some place so much trust in quantitative analysi s that claim that properly weighted indicators should be implemented by expert systems and computer-as sisted procedures to help determine career progress ion and university chair assignment. • Bibliometricians recognize the importance of peer re view and the implementation of additional, less subj ective analytical tools.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • Rarity is a structural property of the citation netw ork. • After the launching of the SCI, statistical surveys revealed that the ratio between references proce ssed each year and the number of unique items cited by those references was nearly constant a nd approximately equal to 1.7 (the Garfield‟s con stant). • It means that in a single year, each paper was cit ed on average only 1.7 times and 25% of the pa pers were never cited.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • Citation data are not intended to replace informe d peer review and, to be correctly interpreted, ou ght to be adjusted by taking into consideration th e wide variability of citation practices across rese arch fields and disciplines. • Examination of the content and context of citatio ns is also required.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • Normalization is usually attained by relating the citedness of a set of papers to a conventional st andard that may be either relative or absolute: • A relative standard is the citation score of a “cont rol group” of papers allegedly similar to those un der evaluation. Co-citation analysis or bibliograp hic coupling can be used. • An absolute standard is the expected number of citations per paper in the research (sub)field enc ompassing the papers under scrutiny.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • Schubert and Braun introduced a relative citatio n rate indicator for papers published in the same journal that relates the number of citations actual ly settled on them to the mean citation rate of all papers appearing in that journal. • H-index was proposed by Jorge Hirsch in 2005. • It means to provide a joint characterization of bot h productivity and cumulative research impact.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • A scientist has index h if h of the papers he or she h as (co)authored have at least h citations each, while the rest have fewer than h citations each. • The subset of medium-highly cited papers bearing o n the calculation of the h has been dubbed “h core” by Rousseau. • The author of many low-cited papers will get as wea k an h-index as the one who publishes only a few “bl ockbusters”. • The Journal of Informetrics devoted a special issue t o h-type indexes in 2007.
  • 6.2.1 Devaluation of Individual Scientists: From Cit ation Counting to the Hirsch Index • But! – H-values cannot exceed the number of a scientist‟s p ublications and don‟t decrease for those who give up publishing or don‟t get citations from a certain point o n. – That‟s why Hirch‟s seminal paper also suggested divi ding h by the years of academic activity. – It overlooks publication type and age, citation age, sel f-citation rate, and number of coauthors. • Variations and corrections to the h-index: pg. 20 4.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • Bibliometricians believe that citation analysis applied to t he corpus of publications produced over a certain period of time by the members of a collective entity deals with a number of items large enough to allow a fairly safe applic ation of standard statistical tools.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • Issues: comparing output and impact data of resear ch organizations with sharply dissimilar organization al profiles, missions, managerial culture, financial re sources, and research facilities. • Cross-country and cross-field comparison. • Systematic errors: – Limitation of citation indexing to the first author in the case of multiauthored papers – The decision to not provide unified citation counts for journ als undergoing complex editorial changes – The criteria applied to the selection of source journals
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • They also don‟t pay too much attention to non-A nglo-American journals, non-English-language jo urnals, and nonjournal materials. • Since 1907 local databases and in-house softwa re for storing and processing ISI citation data ha s been created on these regards: – National Science Foundation‟s Science Literature Indi cators Database – ISSRU at the Library of the Hungarian Academy of Sc iences – CWTS at Leiden University.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The most authoritative research on how field-sp ecific and reliable bibliometric measures ought t o be defined: • “Googling” citation networks: Pinski and Narin. T he influence methodology introduced a journal r anking algorithm inspired by the basic principle o f social networking: citations are not all equal, th eir weight being adjustable as a function of the p restige of the citers.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The influence weight is a size-dependent measu re of the weighted number of citations a journal r eceives normalized by the number of references it gives to other journals. • The influence per publication for a journal is the weighted number of citations each of its articles r eceives from other journals. • Google‟s pagerank, Eigenfactor algorithm, recen tly proposed variants of the IF.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • Big science bibliometrics: Martin and Irvine. The met hodology of converging partial indicators appeals to combine several bibliometric and non-bibliometric in dicators, including publication counts, citation analys is, and an extensive for of peer review fed by direct i nterviews with scientists. It is relative and comparati ve. • The Hungarian way. Scientometricians devised a set of relative indicators of publication output and citatio n impact that allow cross-field comparisons among c ountries, research institutes, departments and scient ific societies in a mathematical fashion.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The Hungarian way. Indicators for countries: • Activity Index (AI): it is the ratio between the cou ntry‟s share in the world‟s publication output in th e field and the country‟s share in the world‟s publ ication output in all science fields combined. • Attractivity Index (AAI): it is the ratio between the country‟s share in citations attracted y publicatio ns in the field and the country‟s share in citations attracted by publications in all science fields com bined.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The Hungarian way. Indicators for countries: • Activity Relative Citation Rate (RCR): the ratio b etween a summation of observed values and a s ummation of expected values for all the papers p ublished by a country in a given research field: RCR = Sum Observed citation rate Sum Expected Citation rate
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The Leiden School. Their methodology disregard s the analysis at the macro-level of the country, c harged with being too generic to characterize re search performance in a politically relevant fashi on, and traces the roots of scientific excellence t o the university and its operative units. • The hallmark of scientific interest is based on pu blishing and highly cited papers.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • The world average is the ratio between the aver age number of citations per publication (correcte d for self-citations) and a field-specific world aver age based on the citation rate of all papers appe aring in all journals belonging to the same field i n which the unit under evaluation has been publi shing. • After a series of papers by Martin and Irvine on t he 1980‟s regarding the decline of British scienc e, other authors resorted to alternative versions of ISI databases.
  • 6.2.2 Evaluations of Countries, Institutions, a nd Research Groups • Leydesdorff found a relative stability followed by a re markable increase on British science. • Braun, Glanzel and Schubert argued that there were only random fluctuations. • The issue was on how to handle the raw data: – Fixed journal set or dynamic set use. – Computing annual publication totals on the basis of tape-y ears, the date a publication entered the SCI, or the publishi ng date. – Limiting countable output to specific publication types. – Adopting a fractional author count in the case of multiautho red papers.
  • 6.3 Citations of patents between science, te chnology, and law. • The Internet and the World Wide Web introduction w ere sign of the emergence of a global and “knowled ge-based” economy. • Business competition is exercised through the contr ol of natural resources, commodity markets, low-cos t manpower and deployment of investable intellectu al capital. • Knowledge-drive innovation is now integral to comm ercial success • Products stimulate innovation but inhibit diffusion thr ough intellectual property restrictions: patents.
  • 6.3 Citations of patents between science, te chnology, and law. • Patent: legal document issued by the government. I n exchange for the public disclosure of the technical details of an invention, grants the inventor or any pe rson or organization to whom the inventor‟s prerogat ives have been transferred, the monopoly on its pro duction and commercial exploitation. • Since most inventions are built upon previous object s or techniques, the verification of patentability requi res an in-depth analysis of the invention‟s technical specifications by a skilled examiner.
  • 6.3 Citations of patents between science, te chnology, and law. • A typical U.S. patent is composed of: – A title page with bibliographic data and practical informatio n to identify the document unambiguously. – The description of the invention explaining how to make an d use it. – The claims defining the scope or boundaries of the patent. • Only a small fraction of research output is patented. • An invention should be novel, nontrivial and commer cially exploitable.
  • 6.3 Citations of patents between science, te chnology, and law.
  • 6.3 Citations of patents between science, te chnology, and law. • Patents are though to manage mainly because of the ext ent of their content‟s dependence on scientific knowledg e, bearing on the basic issue of the relationships betwee n technology and science. • We could reduce technology to applied science, but it is not that easy. • Bibliometrics is asked to provide factual evidence to exte nd to technological documents the same analytical techn iques applied to scientific literature, both for quality asse ssment purposes and for mapping the formal connection s between scientific and technological research areas.
  • 6.3 Citations of patents between science, te chnology, and law. • The Gross Domestic Product simply counts and classifies patents, but don‟t tell us the weight of each patent‟s contribution to economic and tech nological advancement. • Using citations as an aid to effective patent sear ches alternative (or complementary) to subject-b ased classification codes was circulating among American patent attorneys since the 1940‟s.
  • 6.3 Citations of patents between science, te chnology, and law. • In 1957, Garfield tested a patent citation index to 4 0 00 chemical patents. • The official version was published in the 1964 and 1 965 editions of the SCI, including all U.S. patents. • It was dropped due to lack of financial support. • Reisner tested a machine-readable citation index to patents as a tool for monitoring the performance of c lassification systems. • It was found that if many patents were build upon an specific citation, this citation was a significant “techn ological spillover”.
  • 6.3 Citations of patents between science, te chnology, and law. • The interest in patent citation analysis has flouris hed since the 1980‟s, when large-scale computa rized patent data became increasingly available for automatic processing. • Narin‟s team extended the core of bibliometric te chniques to technology indicator construction. • Jaffe and Trajtenberg employed patent citations t o quantify the market value of patents and the flo ws of technological knowledge in the heart of ec onomic growth.
  • 6.3 Citations of patents between science, te chnology, and law. • There are a wide range of indicators of technolo gical prominence and diffusion under design: – – – – Knowledge diffusion. Technology and science. Evaluation studies: Narin. Business intelligence: Narin. • In high-tech and fast-moving areas, there is a str iking similarity between the referencing cycles of cientific articles and those of patents.
  • 6.3 Citations of patents between science, te chnology, and law. • Patents have been found emmeshed in sale-free citation networks governed by a power law distri bution that imposes an uneven allocation of sym bolic wealth among units of supposedly different caliber. • Patent references are the result of a social proce ss involving at least three actors: the inventor, th e attorney or agent, and the patent examiner.
  • 계량서지학과 인용분석 제 7장 난쟁이의 어깨 위에서 - 수사적 도구로서 인용과 규범적 모형에 대한 비평 석박사통합3기 이준영
  • 인용분석은 과학 성과 지표를 개발하는데 널리 사용 논문, 저자, 대학, 국가 단위로 산출된 일차원적 순위에 불과한 최종 산출물 에 정성적 의미를 부여 (순위가 높을수록 지식이 진보하는데 기여를 했을것이기 때문) 최종이용자 : 이용빈도순으로 리스트 만드는 사람, 해당 연구분야의 교수를 평가하는 종신 재직권 승진심사위원회 등 2006년 12월 영국 고등교육재정위원회(HEFCE) ‘상위 순위일수록 우수하 다고 평가’ 원칙 수립(대학연구평가와 재정지원의 새로운 지평) 에비던스사, CWTS(네덜란드) 예비보고서 발표 ‘논문 한편당 인용횟수(citations per paper)를 핵심품질 지수(central quality index)로 명시’ 인용이란 현재 연구에 대한 선행문헌의 영향력을 나타내고 측정할 수 있는 유용한 척도라면 문헌이 가진 영향이 클수록 품질은 더 높아지게 됨 “인용영향력이 품질을 나타내는가?” (아이슈타인의 특수상대성과 일반상대 성에 관한 논문)
  • 7.1 인용을 하는 이유 : 인용은 정말 중요한가? 1960~70년 머튼·프라이스·가필드·스몰 인용분석 개념적 기반 정착 머튼 : 과학자들의 참조행위 -> 전문적 “에티켓” 프라이스 : 개별적 인용행태의 집합 -> 공통 패턴을 도출하는데 수학적 추론 적용 가필드 ·스몰 : 인용색인을 통해 판독할 수 있는 전문적 상징적 언어로 인용 데이터 만듬 7.1.1 과학자 분석 인용행위를 조사하는 가장 명확하고 간단한 방법 : 저자에게 인용 이유 질문 (인용전략과 동기) 피터 빈클러 : 헝가리 과학한림원 중앙화학연구소 20명 화학자들을 조사함 (결과 : 주로 기록을 위해 - 머튼 규칙) 두 저자가 출판 논문 투고 전 동일한 논문 인용하지 않을 것 유진가필드(1960년대), 블레즈 크로닌(1981년) – 실험 수행 심리학자들에 따라 보완하는데 필요한 참고문헌의 수와 위치가 상당히 다 름
  • 7.1.1 과학자 분석 테런스 브룩스 : 아이오와 대학 소속 26명의 학자들에게 인용하는 이유 질문. 결과, 설득이 가장 주된 동기로 나타남 1980년대부터 다음과 같은 여러 연구자들이 인용행태 – 저자가 저작물을 인용하도록 판단케하는 특성을 표면적으로 다룬 - 실험을 수행 1. 2. 찬드라 프라바 : 경영학과 구성원들 멍시온 류 : 중국의 물리학자들 (참고문헌 수 와 어떤 참고문헌을 선택했는지는 인용분석자가 생각하는 것만큼 중요하지 않은 것)(참고문헌 수는 저자가 소속된 도서관의 이용과 상관관계 있음) 3. 4. 윌리엄 섀디시와 동료들 : 심리학자들 도널드 케이스와 게오르간 히긴스 : 커뮤니케이션학과의 교수들 (많이 인용되는 논문을 알아 차리는 방법과 관련하여 한가지 중요한 점을 지적, 창조적인 연구보다는 전혁정 참고문헌 적 단순 리뷰 논문) 5. 메릴린 화이트와 페일링 왕 : 농업경제학자들 (인용을 하는 내적, 동기의 중요성을 다시 확립, 인용을 하지 않는 “비인지적” 이유를 강조_오래된or특수적) 6. 롱 탕과 마틴 세이퍼 : 생물학자 및 심리학자들(인용하는 저자와 밀접한 관련을 맺고 있는 자 기인용과 피인용 논문의 저자가 다소 “감정적”일지라도 이성적이고 규율적인 과정에 따라 참 고문헌의 선택과 물리적 위치에 가중치가 부여됨. 저자평가에서 인용 중요도를 강하게 예측 하는 요인 발견)
  • 7.1.2 본문 텍스트가 말하는 것 원문 참고 문헌의 문맥과 인용구절의 개념적 내용을 통해 인용된 참고문헌 의 사용과 기능을 추론할 수 있음 (어떤 부분이 인용한 사람의 주의를 끌었 는지) - > 특정 참고문헌이 인용한 저작물을 완성하는 데 필요한지 측정할 수 있음 * 모라비치크와 무루게산(1975) 연구 결과, 영향력 추적과 학문적 가치 관리에서 인용빈도의 유용성에 대한 심각한 의문 (41% 형 식적) 초기 계량서지학자들의 시각, 내용분석과 맥락분석은 연구성과 지표의 정 교화를 위한 필요 단계에 불과. SCI 등장 이후 원시적 척도 < 인용 영향력 지 수. 최종적으로 인용점수에 대한 평가는 형식적이거나 보조적인 인용에서 적합한 인용만 골라냄으로써 더 강화될 수 있음 인용형태의 분석의 또 다른 방법 – 논문에서 논문의 구성방식을 살펴보는 것 최초 연구를 수행한 피인용 논문을 논의의 장으로 가져옴으로써 원천연구 에서 달성되었던 타당성을 검증. 즉 저자의 논문이 가지는 타당성(참신성, 중요성,진실성)에 관해 과학 커뮤니티를 설득하는데 효과
  • 7.1.3 과학자와 텍스트가 말하는 바와 실제 과학자가 행하는 것을 비교 과학자들이 인용과 과학적 행위 규범을 서로 연결하기에는 기반이 취약. 동료 인정에 대한 부분은 상실한 채 저자의 뜻을 순수히 따르는 자비만 남음 1970년대 중반부터 동시대 과학사회학의 비판적이고 구성주의적 경향을 따 르는 연구의제들이 출현하기 시작 - 피에르 부르디외의 “호모 아카데미쿠스,개인적 분류체계를 따르는 최고의 분류자를 그의 분류 체계 내에 머무르기 하게 위한”프로젝트 - 에든버러 연구소 “강력한 프로그램” - 베스 그룹의 상대주의의 경험적 프로그램 - 민족 계통분류법 - 행위자-네트워크 이론 등 구성주의 과학자들은 사용없는 진실을 만들어내고 포장하는 일터로 여거지 던 연구소에 대한 잘못된 믿음을 뒤엎고자 함 과학에서 오류를 이런 다루는 고전적 방법은 발견의 맥락이라는 비공식 층 과 의견교환을 통해 논리적 상호 연결된 논문 조각을 최종 정리한 정당화의 맥락이라는 층을 개념적으로 명확히 구별하는 것 -> 이를 통해 지식의 진보 에 충분히 기능적인 커뮤니케이션 도구를 형성하는 것
  • 7.1.3 과학자와 텍스트가 말하는 바와 실제 과학자가 행하는 것을 비교 “구성주의 문체” 수사적 문체가 어떻게 완료된 결과에 세련된 구조로 감춰지 는지를 설명하는 데 도움이 됨 *다섯개의 표준 요소 1. 서론 : 결과에 대한 근본적 이유를 설명 (인용한 참고문헌의 강점과 약점을 분명 히 명시하고 전략적으로 논함) 2. 방법론 : 데이터 수집과 처리에 사용한 방법론을 설명 (중재된 자연과 연가자간 상호 작용으로 인한 기계적 산물로 제시) 3. 결과 : 연구의 두드러진 발견 사항을 보고 (사실정보를 논리적으로 배열) 4. 토론 및 결론 : 선행연구결과를 보강하거나 반박하기 위해 선행 연구 분석 측면에 서 실험데이터를 깊이있게 해석 (강점에 대한 비영르 누그러뜨림) 5. 참고문헌 : 논문에서 인용한 문헌 목록을 가장 마지막에 표현 (다른 문헌 보다 더 역량있는 것으로 나타내기 위함) 라투르 “참고문헌 없는 논문은 밤에 낯선 대도시를 혼자 걸어가는 아이와 같 다”
  • 7.1.4 측량할 수 없는 것을 집계 : 계량서지학적 인용행위 모형 인용행위에 대한 구성주의자들의 시각이 유용할 수 있음 크로닌(1984) “과정을 생각할 필요가 있다”, “저자의 성격과 전문적 환경을 반영한다” 긍정적 입장에서 인용률에 서로 다른 특성을 가진 요인이 끼치는 상대적 중 요도를 측정하기 위해 면밀히 설계된 실증적 검증에 의해 유지되는 수학 적 모형을 추구하는 것 1. 어떤 이론도 없음 - 파울 보우테르스 ‘참고행동연구에 의존하는 인용이론의 불가능성을 주장하기 위해 참조 와 인용 사이에서 근본적인 차이가 존재한다고 강력하게 주장’ 2. 인용 과정에 대한 수학적 증거기반 설명 - 슈베르트와 글렌첸 ‘이전에 저자 생산성 유형을 실험하기 위하여 확률적 생성과정에 기반 한 역동적 웨어링 모형을 인용에 적용’ - 베렐 ‘계량정보학적 과정 설명에 적용된 비동질적 포아송 방법의 혼합을 이용하여 인용의 노화에 대한 통계적 모형을 2001년부터 개발’ 존스튜어트(1983) ‘출판된지 3년 후 인용 발생을 결정하는 요인을 연구’ - 발디 ‘스몰의 인용이론에 더 일치되는 “이차원적” 접근법 제시’, “네트워크-분석”모형에서 는 잠재적으로 인용하거나 인용되는 논문이 인용 확률에 영향을 미치는 속성을 형식화 하기 위해 이 속성을 세가지 분명한 변수 집합으로 구분
  • 7.1.4 측량할 수 없는 것을 집계 : 계량서지학적 인용행위 모형 실제로 연구가 발표됨에 따라 인용횟수의 예측자로써 최고이거나 유의미한 예측자들이 확인한 13가지 항목 (310P 참조) 어느 연구도 언제 어디서나 어떤 학문에 대한 인용연구를 하고 실험 설계에 서 초석을 보여준다고 단언할 수 없음 실험적 연구가 보여주는 것은 구성주의적 논제가 계량서지학적 범위의 밖 에 있으며 어떤 과학의 현실적 이해 밖에 있다는 것 과학자가 어떤 행동을 하든 표준은 전통적인 벤치마킹과 때때로 측정될 수 있는 편차의 기대치를 제공함. 벨퍼 그리피스 “두 개의 머튼을 드세요, 그리고 아침에 저를 만나주세요”
  • 7.2 거인과 난쟁이의 사이:인용분석과 과학 연구집단의 계층화 조너선 콜과 스티븐 콜(1972) 의 논란 “오르테가가설” 과학의 진보는 천재적인 저명한 과학자의 기반을 만들어주는 수많은 보통 과학자들의 불분명하고 보잘 것 없는 평범한 연구에 기초하고 있다는 이 론 바바라 맥로버츠와 마이클 맥로버츠 “참고문헌은 저자와 문헌 간의 실제 연 결을 반영해 주는 불완전한 거울일 뿐” 1. 인용은 학문적 영향을 설명하는데 실패했다. 2. 인용은 학문적 영향을 피상적으로 또는 부정확하게 설명한다. 3. 인용은 학문적 영향보다는 인용하는 사람의 특성과 인용 동기를 말한다. 인용을 과학적 공적, 지적 영향력을 나타내는 대용물로도 신뢰할 수 없으며, 과학사회학에서 시민권에 해당하는 인용은 그 한계를 정하고 인용집계 를 시작하기 전에 그 자체가 부정되어 한다고 주장 올리버 로우리(1951) – 용해중인 단백질의 양을 측정하는 방법론에 대한 논 문 “독창적인 내용은 거의 없으며 인용빈도가 저자 자신에게 위대한 학문적 업
  • 7.2 거인과 난쟁이의 사이:인용분석과 과학 연구집단의 계층화 콜은 쿤의 규범 과학이 평범한 연구자의 일반적인 연구환경이라면 “이런 ‘작 은’ 발견을 하는 과학자조차 과학 커뮤니티의 최상위 층에서 온건” 난쟁이의 키를 키우려고 서두르는 충조의 엘리트주의적 주장에 단점이 잠 재하고 있다는 것을 알고 있었음. 가필드는 과학이라는 활동 무대를 꽉 채우고 있는 평범한 보통 과학자들을 향해 관대함을 보여주었음 스티븐 스티글러와 해리엇 주커맨 : 계통오류와 무작위 오류가 잇는 현재 인 용 데이터의 상대적 가중치를 측정하기 위해 통계적 모형을 개발한다면 서지인용 데이터에서 변이성이나 오류를 가진 소스는 기초를 이루고 있 는 커뮤니케이션 과정을 정확하게 측정하는것이 가능 중요한 것은 과학적 발견에 관한 최종 보고서를 작성하는데 인용르 규범적 으로 이용하는 것이 널리 퍼져잇다는 믿음. 통계적 추론의 장점을 이용 할 수 없다면 개인의 특성과 같은 모호성이 발생
  • 7.3 과학 저자로서 삶과 죽음 공저자의 논문은 지역적 국가적 국제적 공동 연구 네트워크 패턴을 추출해 낼 수 있는 계량서지학적 정보의 주요 보고 지난 30년간 연구 협력기관에서 계량서지 커뮤니티에 대한 관심이 증가하 고 과학 정책과 관련이 깊어지면서 힐트룬 크레트슈머(2000)는 학제적 국제 연구 네트워크를 형성하였으며 베를린을 중심으로 과학기술 분야 공동 연구에 중심을 둔 COLLNET를 탄생. 강한 결속력을 보이는 비공식 연구집단의 공저자 네트워크는 실제 사회적 네트워크에서 발생하는 “유유상종” 현상을 보여줌 계량서지학의 서술 측면에서 평가측면으로 넘어가게 되면 상황은 달라짐 (과학정책 결정을 위한 인용분석에서 저자라는 개념이 시작이자 끝) 고전적인(머튼식) 분배정의 모형과 18세기 이후 개인의 창조성을 사적인 지 적 재산권이라는 새장에 가두었던 저작권이라는 자유주의적 이념에 완 벽하게 일치
  • 7.3 과학 저자로서 삶과 죽음 롤랑 바르트(1968) “텍스트는 단순히 일련의 단어로 구성된것이 아니라 신성한 의미를 담 고 있다. 그러나 텍스트는 다양한 차원을 가진 공간이며 여러 가지 유형의 글쓰기가 섞 여 잇어서 그 독창성을 알 수 없다. 따라서 텍스트는 수천 개의 문화적 자원에 기반하고 있으며 인용으로 짠 직물” 미셸 푸코 “저자명은 어떤 담론이 사회 내에서 존재하고 유통된다는 특징을 기술하는데 유 용한 변수에 불과”. “현재 저작은 표현의 필요성이라는 그 자체로 인해 자유로운 것이며 이는 그 자체일 뿐 내면성으로만 제한되지 않는다” 이후 저자의 정체성에 대한 위기는 필연적으로 발생 이상적인 상황에서 특정 분야의 공저 논문에 점수를 부여할 때 3가지 과정 이 포함해야 함 (322P 참조) 계량정보학적 목적에서 복수 저자의 논문을 집계하는 문제를 해결하기 위 해서 다양한 점수 부여 방법이 실험되었음. 어떤 방법을 선택하는가에 따라 최종 평가 결과가 크게 달라질 수 있으므로 다양한 방법을 비교하 여 같이 사용하는 것이 좋음 (1. 전체 빈도, 2. 일반적 빈도, 3.부분점수/ 조정점수) 국제 의학학술지 편집위원회(ICMJE) 가이드라인 저자 자격 명시(324P 참 조)
  • MeasURING SCIENTIFIC COMMUNICATION IN THE TWENTIETH CENTURY: FROM BIBL IOMETRICS TO CYBERMETRICS NICOLA DE BELLIS PRESENTED BY XANAT V. MEZ A
  • Introduction • The web exhibits a citation structure, links between web pages being similar to biblio graphic citations. • Thanks to the markup languages, the infor mation units composing a text can be mar ked and made recognizable by a label that facilitates their automatic connection with t he full text of the cited document.
  • Introduction • Disciplinary databases: – Chemical Abstract Service (CAS) – SAO/NASA Astrophysics Data System (ADS) – SPIRES HEP database – MathSciNet – Citeseer – Ieee Xploree – Citebase – Citations in Economics
  • Introduction • Multidisciplinary databases: – Web of Science – Google scholar – Scopus • The relevance of a webpage to a user que ry can be estimated by looking at the link r ates and topology of the other pages pointi ng to it.
  • Introduction • Pagerank: – Google‟s ranking algorithm. – It assigns different “prestige” scores to individual page s according to their position in the overall network. – More weight is assigned to the pages receiving more l inks. • An “authority” is a page that receives many links fr om quality “hubs” (like a citation classic). • A quality “hub” is a page providing many links to “a uthorities” (like a good review paper).
  • citations in e-journals and open archives • Advantages: – The immediacy of scientific literature implied an in formation revolution. – The web significantly helps to increase citation im pact, and local online usage became one of the b est predictors of future citations. – Less gate-keeping. • Disadvantages: – Fewer distinct articles are cited more. – Citations tend to concentrate on more recent publ ications.
  • citations in e-journals and open archives • How to quantify the Web-wide cognitive and s ocial life of scientific literature? • The impact of a set of documents outside the ISI circuit can be estimated by: – Counting, by means of usage mining techniques, the number of document views or downloads over a certain period of time – Interviewing a significant sample of readers – Counting, by means of search engines‟ facilities, t he number of links to the website hosting the doc uments
  • citations in e-journals and open archives • Standards and protocols have been devel oped in the context of national and internat ional projects to make uniform the recordin g and reporting of online usage statistics: – COUNTER (Counting Online Usage of Networ ked Electronic Resources) – SUSHI (Standarized Usage Harvesting Initiati ve) – MESUR (Metrics from Scholarly Usage of Res ources)
  • citations and open access • Peer-reviewed open access journals appe ared in the 1980‟s, for example New Horiz ons in Adult Education, Psycholoquy, Post modern Culture and Surfaces. • In the 1990‟s RePEc-Research Papers in Economics, Medline/PubMed Central and CogPrints were started or opened to public . • In 1991 Ginsparg setted up arXiv, a prepri nt and postprint central repository initially o
  • citations and open access • Under the slogan “Public access to publicly funded research”, the Open Acce ss movement has publish ed theoretical and busine ss models along with tech nical infrastructure, to sup port the free online disse mination of peer-reviewed
  • citations and open access • There are two options for authors following this way of publication: – Submit a paper directly to an OA journal. • IT peer-reviews and makes freely available all of it s contents for all users while shifting editorial costs onto the author of the funding institution. • There are over 3,200 OA journals in the Directory o f Open Access Journals (www.doaj.org) – Keep publishing in traditional journals, but arc hive a peer-reviewed version of the same cont ent into an open accessible repository.
  • citations and open access • A goal of the OA movements has been to demonstrate that open access substantiall y increases research impact: – In 2001, Lawrence provided evidence that cita tion rates in a sample of computer science co nference articles appeared significantly correl ated with their level of accessibility. – In 2007, Harnad and Brody‟s team has been d etecting OA citation advantage across all disci plines in a twelve-year sample of ISI articles ( 1992-2003). The citation impact was 25 to 25
  • citations and open access • Counter-arguments: – Subjectivity factor in the selection of postable i tems – Increased visibility – Readership – Shelf-exposition – Best authors tend to be overrepresented – Self-selection bias postulate
  • citations and open access • In 2007 a paper by Moed performs a citation analysis of papers posted to the arXiv‟s cond ensed matter section before being published i n scientific journals and compares the results with those of a parallel citation analysis for un posted articles published in the same journals . • Articles posted to the preprint server are actu ally more cited than unposted ones, but the ef fect varies with the papers‟ age. • The citation advantage of many OA papers fa
  • citations and open access • Two studies on the citation impact of OA jour nals indexed on the Web of Science appeare d in 2004. The impact factor of ISA OA journa ls was lower than no OA journals. • Despite the evidence, there are important rea sons to support OA journals: – Shortening the paths between invisible colleges a nd turn them into real time collaboration network will increase the speed and effectiveness of scien tific communication. – In the non-big research areas, it increases the op portunity of pursuing research goals.
  • citations and open access • Harnad is proposing a multidimensional, fi eld-sensitive, and carefully validated open access scientometrics, taken advantage of open access materials. The key is… • Metadata: set of encoded data attached to information units processed by the automa tic indexing system to help identify, retriev e, and manage them in an effective fashio n. • But there needs to be a metadata standar
  • Citebase, Citeseer: the road toward an open acces s citation index • www.citebase.org is an indexing system of O A repositories. It was developed by Brody‟s te am in US in 2001. It uses the OAI-Protocol fo r Metadata Harvesting. • The Citebase software parses the bibliograph ic references of the fulltext papers hosted by t he servers and, every time a reference match es the full text of another paper in the same r epository, it creates a link. • A usage/Citation Impact Correlator produces a correlation table comparing the number of ti mes an article has been cited with the approx
  • Citebase, Citeseer: the road toward an open acces s citation index • CiteSeer, formerly ResearchIndex (citesee r.ist.psu.edu), is a digital library search and management system developed in US. • It gathers together research article preprint s and postprints from several distributed n odes of the open access Web through web crawling techniques. • It extracts the context surrounding the citat ion in the body of the paper.
  • Citebase, Citeseer: the road toward an open acces s citation index • The new Web Citation Index, based on CiteS eer technology, was launched officially in 200 5. • It covers materials from OA repositories that meet quality criteria, such as: – arXiv. – The Caltech Collection of Open Digital Archives. – The Australian National University Eprints Reposit ory. – The NASA Langley Technical Library Digital Repo sitory. – The open access content in Digital Commons.
  • the citation as hyperlink and the current trends in quantitative web studies. • The probability of a webpage to be include d into a search engine database increases as the web crawler fetches other pages lin king to it. • But! – Links do not acknowledge intellectual debts. – They lack peer review. – Links are not indelible footprints in the landsc ape of recorded scholarly activity.
  • the citation as hyperlink and the current trends in quantitative web studies. • Their study is divided in: – 1. Complex network analysis, which investigat es the topological properties of the Internet an d the Web as particular cases of an evolving c omplex network. – 2. Hyperlink network analysis, which interpret s the connections between websites as techn ological symbols of social ties among individu als, groups, organizations and nations. – 3. Webometrics, which extends to the web sp ace concepts and methods originally develop
  • bibliometrics laws in the cyberworld: complex network analysis. • The web topological structure, i.e. the num ber and distribution of links between the n odes, initially played the crucial role of und erstanding a wide range of issues: – The way users surf the Web. – The ease with which they gather information. – The formation of Web communities as cluster s of highly interacting nodes. – The spread of ideas, innovations, hacking atta cks, and computer viruses.
  • bibliometrics laws in the cyberworld: complex network analysis. • Theoretical physicists have recently shifte d the attention to the dynamics of the struc ture by progressive addition or removal of nodes and links. • The key role on the modeling exercise is t he graph: – What kind of graph is the Web? – What pattern, if any, is revealed by the hyperli nk distribution among the nodes? – Do the links tend to be evenly distributed?
  • bibliometrics laws in the cyberworld: complex network analysis. • In the late 1950s, when Erds and Renyi su pplied graph theory with a coherent proba bilistic foundation, the conviction gained gr ound that complex social and natural syste ms could be represented, in mathematical terms, by random graphs. • Each node of a random graph has an equ al probability of acquiring a link, and the fr equency distribution of links among nodes is conveniently described by a probability
  • bibliometrics laws in the cyberworld: complex network analysis. • In random graphs, there is a dominant averag e number of links per node called the network ‟s “scale”. It is an upper threshold that preven ts the system from having nodes with a dispr oportionately higher number of links. • Nodes are not clustered and display statistica lly short distances between each other. • Empirical evidence seemed to contradict this model because the structure of complex netw orks was somewhere between a totally regula r graph and a random graph.
  • bibliometrics laws in the cyberworld: complex network analysis. • In 1998, Watts and Strogartz set a m odel of complex networks using the s mall world. • A small world is said to exist whenev er members of any large group are c onnected to each other through short chains of intermediate acquaintances .
  • bibliometrics laws in the cyberworld: complex network analysis. • The path to small worlds: – Pool and Kochen made mathematical descript ions of social contact based on statistical mec hanics methods, encompassing graph-theoret ic models and Monte Carlo simulations in the 1950‟s – In 1967, Milgram initiated a series of experime nts to test the small world conjecture in real s ocial networks. He found that in average, the acquaintance chain required to connect two ra ndom individuals is composed of about six lin
  • bibliometrics laws in the cyberworld: complex network analysis. – In 1967, Watts and Strogatz showed that a co mplex network is a small world displaying bot h the highly clustered sets of nodes typical of regular graphs and the small path lengths bet ween any two nodes typical of random graphs . • They computarized the clustering coefficient and re cognized the importance of short cuts. • Further experiments confirmed that documents on the web are nineteen clicks away from each other i n average.
  • bibliometrics laws in the cyberworld: complex network analysis. – In 19678, Albert and Barabasi issued an alter native class of models for the large-scale prop erties of complex networks. • Networks grow by the addition of new nodes linkin g to already existing ones. • This addition follows a mechanism of preferential a ttachment that replicates the Matthew Effect. • This means that nodes have a higher probability to link with highly connected nodes than with poorly c onnected or isolated ones.
  • bibliometrics laws in the cyberworld: complex network analysis. P(n) = 1 n a • P(n) is the probability that a node has to est ablish a link. • n is a node. • An experiment in 1999 confirmed the World Wide Web is a scale-free netw ork governed by the power law.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Nowadays, the network came increasingly to represent not simply a communication f acility, but a tool for building online collabo ration platforms where new knowledge can be created, modified, and negotiated, in a sort of virtual laboratory without walls. • Sociologists have been using Social Netw ork Analysis (SNA) in the World Wide Web hyperlink texture since 1997. It is called H yperlink Network Analysis (HNA).
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Objectives: – Check whether the hyperlink network is organi zed around central websites which play the rol e of hubs. – Centrality measures are carried out by countin g the number of ingoing and outgoing links for a given website (indegree and outdegree cent rality). – Centrality has an aspect of “closeness”, inten ded to single out the website with the shortest path to all others. – Betweeness estimates a website‟s frequency
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • OHNA techniques have been promisingly applied in case studies dealing with topics such as e-commerce; social movements; a nd interpersonal, interorganizational, and i nternational communication. • But, can links be used as proxies for scient ific communication flows and as building bl ocks of new, web-inclusive scientometric i ndicators of research prominence?
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • In 1995, Bossy suggested that the digital n etwork layer offered an unprecedented so urce of information on the scholarly socioc ognitive activities that predate publication ouput. • It meant to move from bibliographic citatio n to webpages, websites and links from un iversities, departments, research institutes and individual scientists webpages. • At first, Altavista was used.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • In 1995, Algorythm of co-word mapping by Prabowo and Thellwall was used by Leyde sdorff and Curran to identify the connectivi ty patterns of the Triple-Helix. • The Web Impact Factor (WIF) of a site or area of the Eb, introduced by Ingwersen in 1998 may be defined as a measure of the frequency with which the average webpag e of the site has been linked at a certain ti me.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. WIF(S) = I = 100 =2 P 50 • S is the Site. • I is the total number of link pages (includin g self-link) to the Site. • P is the number of webpages published in S that are indexed by the search engine.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • But where do link data come from? How re liable and valid are the tools for gathering t hem? • Commercial search engines don‟t restore a reliable and consistent picture of global a nd local connectivity rates over time becau se: – Search engines crawl and index only a small portion of the World Wide Web. There is an “i nvisible web”. – Different search engines use distinct crawling algorithms.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • The WIF is also not a very good bibliometri c measure, due to content variability and s tructural instability: – The number of links can be spuriously inflated by a huge number of unlinkable files, and the f ormat of the webpage can be as single or split . – Webpages also lack coding standarization an d their half-life is variable. • For longitudinal studies, www.archive.org c an be used.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Since 2000 the Academic Web Link Datab ase Project has been collecting link data r elative to the academic web spaces of Ne w Zealand, Australia, UK, Spain, China an d Taiwan. • Mike Thelwall‟s Alternative Document Mod els (ADMs) allow modulating link analysis by truncating the linking URLs at a higher l evel than that of the web page: – Directory
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • The Webometrics Ranking of World Univer sities (www.webometrics.info) launched in 2004 in Spain. • It ranks web domains of academic and res earch organizations according to volume, visibility and impact of their content. • They apply WIF to capture ratio between v isibility, measured by inlink rates returned by commercial search engines, and size, measured by number of hosted web pages
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Two additional measures, dubbed Rich file and Scholar Indexes, capture the volume of potentially relevant academic output in s tandard formats: – Adobe Portable Document Format .pdf – Adobe PostScript .ps – Microsoft Word Document .doc – Microsoft Powerpoint .ppt • And the number of papers and citations for each academic domain in Google Scholar.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Thelwall and colleagues‟ methodology of li nk analysis also investigates the patterns of connections between groups of academ ic sites at the national level. • University websites have been found to be relatively more stable than other cyber-trac es in longitudinal studies. • But we have to remember that web visibilit y and academic performance are different affairs.
  • Citation analysis in the cyberworld: hyperlink network analysis, webometrics, and the promise of web scientometric indicators. • Bibliometricians usually resort to direct surve ys of webmasters‟ reasons to link or hyperlink context and content analysis to investigate th e psychological side of the link generation pro cess. • Links usually are meant to facilitate navigatio n toward quarters of loosely structured and g enerically useful information, or to suggest rel ated resources. • But they alone are not sufficient to pin down c ommunication patterns on the Web and their