웹보메트릭스와 계량정보학06 2

718 views

Published on

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
718
On SlideShare
0
From Embeds
0
Number of Embeds
12
Actions
Shares
0
Downloads
1
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

웹보메트릭스와 계량정보학06 2

  1. 1. 웹보메트릭스와 계량정보학 6주차 계량정보학의 수학적 기반 1강. 계량정보학의 수학적 기반(1) 2강. 계량정보학의 수학적 기반(2) 영남대학교 문과대학 언론정보학과 교수 박한우
  2. 2. 1. 계량정보학의 수학적 기반에 대해 이해한다. 1. 로트카 법칙 2. 브래드퍼드의 분산법칙 3. 지프 법칙과 만델브로의 재해석 4. 과학 문헌의 성장 5. 과학 문헌의 노화
  3. 3. 1. 로트카 법칙 로트카 법칙 • 로트카는 과학 커뮤니케이션의 선두에서 분투하고 있는 우수한 과학자들이 지식의 진보에 어느 정도나 공헌했는지 알아내고자 함. • 한 주제분야에서 100명중 60명이 논문 한편을 기고한다고 가정한다면 100명중 15명은 두 편의 논문을 100명중 7명은 세편을 기고한다고 할 수 있음. 윌리엄포터(William Potter) 로트카가 사용한 소스 자체까지 추적하여 결함을 밝혀내 1981년 리뷰 논문으로 발표. 로트카가 사용한 데이터에 적합성 검정을 실시한 결과 역제곱법칙이 이들 데이터 중 일부분에서만 적용된다는 것을 밝혀냄. n개의 논문을 발표한 저자의 수는 1/ n2의 비례 값을 갖는다
  4. 4. 2. 브래드퍼드의 분산법칙 브래드퍼드(Bradford) 영국의 화학박사이자 문헌정보학자 여러 과학잡지에 분산되어 있는 응용지리, 물리학, 윤활유 분야의 논문들이 공통적인 분포양상을 나타내고 있음을 최초로 관찰 브래드퍼드의 법칙 (Bradford’s law ) • 특정 주제분야에 있어서 그 분야의 과학잡지에 분산되어 출판된 여러 논문들은 공통적인 분포 현상을 나타낸다는 관찰 법칙
  5. 5. 2. 브래드퍼드의 분산법칙 브래드퍼드의 법칙 어떤 특정 주제분야의 잡지를 전부 모아 유효한 논문수가 많은 잡지에서 적은 잡지순으로 배열해 보면, 몇몇 잡지에 논문이 집중적으로 게재되어 있음을 발견할 수 있음 브래드퍼드 법칙에 의하면 전세계적으로 100,000여종의 학술지 중에서 2,000여종의 학술지가 과학기술분야의 핵심적인 근원(core journal)이 되는 것으로 알려져 있음. 즉 세계적으로 출판되는 전체 학술지 중에서 극히 적은 2,000여종의 학술지가 전세계 지식정보 인용의 대부분을 차지함. 결국 특정 주제와 관련된 논문을 담고 있는 학술지를 생산성을 기준으로 내림차순 정렬하여 순위를 매기고 각 학술지에 발표된 논문 수를 집계한다면, 이 주제에 대한 논문의 대부분이 실린 소수 학술지군이 핵심 학술지군을 이룸. 그 다음 핵심 학술지군에 포함된 논문 수와 동일한 논문 수를 포함하고 있는 다른 학술지군이 뒤따름
  6. 6. 2. 브래드퍼드의 분산법칙 브래드퍼드가 응용지구물리학 서지목록에서 발견한 결과물 1. 첫 번째 핵심 학술지군에 9종의 학술지, 429편의 논문이 포함되었다. 2. 두 번째 학술지군에 59종의 학술지, 499편의 논문이 포함되었다. 3. 세 번째 학술지군에 258종의 학술지, 404편의 논문이 포함되었다.
  7. 7. 2. 브래드퍼드의 분산법칙 논문수를 확보하는데 필요한 학술지 종수 1. 가장 생산적인 핵심 학술지군에 속하는 9종의 학술지 2. 두 번째 학술지군으로 9 x 5종의 학술지(45종이지만 대략 59종의 학술지까지 적용할 수 있음) 3. 세 번째 학술지군으로 9 x 5²종의 학술지(225종이지만 대략 258종의 학술지까지 적용할 수 있음) 핵심영역과 그 다음 영역에서 동일 논문 수를 포함하는 학술지군의 비율은 9 : 9 x 5 : 9 x 5² -> 1 : m : m² : … <M은 브래드퍼드 승수(multiplier)>
  8. 8. 2. 브래드퍼드의 분산법칙 출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원
  9. 9. 2. 브래드퍼드의 분산법칙 초기이론의 발전 • 곡선현상(Groos Drop): 브래드퍼드 곡선의 상단 끝에서 아래로 굴곡되는 것 • 리웬 추(Liwen Qiu)는 브래드퍼드의 법칙에 관한 기존 모형들을 통계적으로 실험했으며, 가장 좋은 모형일지라도 곡선현상이 나타나는 데이터 집합에는 적합하지 않다는 것을 증명
  10. 10. 2. 브래드퍼드의 분산법칙 가필드의 집중법칙 • 다른 데이터 집단 간 비교를 쉽게 할 수 있기 때문에 계량서지학자들은 정확한 수학적 용어로 학술지 사이의 논문 분포를 정의하기 위해 사회 안에서 부와 수입의 불평등한 분배를 측정하기 위해 경제학자들이 사용했던 것과 유사하게 가장 많이 사용된 것은 지니지수(Gini Index)와 프래트지수(Pratt Index)임. • 지니지수는 1900년대 초기에 이 지수를 소개한 이탈리아 경제학자의 이름을 땀. • 프래트지수는 지니지수에 대응하는 계량서지학적 지수로 1977년 앨런 프래트(Allan Pratt)에 의해 소개. • 두 지수는 모두 어떤 대상이라도 측정할 수 있으며 로렌츠 곡선(Lorenz curve)를 따름. • 로렌츠 곡선은 모집단을 동일하게 분할하여 각 영역이 차지하는 자원의 양에 점을 찍어 얻게 되는 곡선. • 지니계수는 0과 1사이값을 가짐: 0은 완전 평등한 상태, 1은 불평등한 상태
  11. 11. 2. 브래드퍼드의 분산법칙 출처 - http://www.bamnstory.com/2013/06/blog-post.html
  12. 12. 2. 브래드퍼드의 분산법칙 Garfield는 1969년도에 생산된 과학잡지 2,200종에 실린 약 100만건의 인용자료를 분석하여 인용자료의 24%가 25개의 학술지에 집중적으로 실리는 사실을 발견하였다. 이를 Garfield의 인용집중법칙이라하는데, 이를 이용하여 과학기술분야의 연구의 핵심이 되는 잡지를 선정하고 이의 인용정보를 다시 색인하여 핵심잡지 선정의 근거로 삼는 다분히 recursive한 시스템을 개발해내었다. ISI가 약 4만 종의 과학기술 잡지 중 무작위로 약 2,700종의 잡지를 선정하였다면, 그들은 세계에 확산되어 있는 잡지 중 단지 6.7%에 해당하는 극히 일부분의 정보를 취한 것이 된다. 그러나 ISI는 오랜 경험과 정확한 예측에 근거하여 가장 많이 인용되는 핵심 잡지만을 선정한다. 이 경우 잡지의 인용 빈도에 따른 잡지 유용성에 관한 브래드퍼드의 법칙을 적용시키면 2) [프라이스, 1986, p328], ISI가 선정한 잡지가 모든 인용되는 논문의 ¾(log2700/log 40000)을 포함하고 있다는 것을 알게 된다. 이는 단지 전체 잡지의 15분의 1에 해당하는 잡지가 모든 인용의 4분의 3을 포함한다는 뜻이다. 이와 같이 색인된 과학기술 핵심잡지의 인용 정보는 SCI(Scientific Citation Index)라 하여 오늘날 가장 권위 있는 학술관련 잡지를 선정하는 중요 자료로 활용된다. 또한 여기에 게재되는 논문들은 세계 적으로 그 권위를 인정받게 되고, 특히 이 논문에 의해 많이 인용되는 논문이 해당 분야에서 학문적 기여도가 높은 논문으로 인정된다. 출처 - 한선화, 김태희, 김선호 (1999). SCI DB 분석을 통한 기초과학수준 평가체계 수립에 관한 연구. 연구개발정보센터. http://www.stepi.re.kr/module/pubDownFile.jsp?categCd=A0201&ntNo=192
  13. 13. 3. 지프 법칙과 만델브로의 재해석 출처 - http://sojuloveme.egloos.com/1418971
  14. 14. 3. 지프 법칙과 만델브로의 재해석 지프의 법칙 • 지프의 법칙은 텍스트나 말이라는 언어적 표현을 생성하고 형성하는 다소 이해할 수 없는 내부적인 행위와 관련됨. • 지프에 법칙에 따르면 어떠한 자연어 말뭉치 표현에 나타나는 단어들을 그 사용 빈도가 높은 순서대로 나열하였을 때, 모든 단어의 사용 빈도는 해당 단어의 순위에 반비례함. • 따라서 가장 사용빈도가 높은 단어는 두 번째 단어보다 빈도가 약 두 배 높으며, 세 번째 단어보다는 빈도가 세 배 높음 • 예) 브라운대학교 현대 미국 영어 표준 말뭉치의 경우, 가장 사용 빈도가 높은 단어는 정관사 “the”이며 전체 문서의 7%의 빈도(약 백만 개 남짓의 전체 사용 단어 중 69,971회)를 차지하고, 두 번째 높은 단어는 “of”로 약 3.5%남짓(36,411회)한 빈도였고, 세 번째는 “and”(28,852회)로 지프의 법칙에 정확히 들어 맞는다. • 단어의 출현빈도가 비대칭적으로 나타나는 원인은 경제의 원리나 “최소 노력의 원리”를 따르는 성향으로 이어져 원인으로 작용함.
  15. 15. 3. 지프 법칙과 만델브로의 재해석 만델로브의 재해석 • 만델브로는 지프의 법칙을 보다 일반화한 형태로 소개함. • 만델브로의 식은 섀넌(Shannon)의 커뮤니케이션 이론에 따라 커뮤니케이션 비용을 최소화한다는 측면에서 지프의 최소 노력의 원리를 해석하는 것에서 비롯됨. • 즉, 언어는 가장 다양한 신호를 즉시 전달하는 것이 목적이며, 한 단어에 투입되는 비용은 그것을 구성하는 철자수로 확정할 수 있음.
  16. 16. 4. 과학 문헌의 성장 과학은 멱함수 분포를 따르는 많은 자기 유사 하위시스템이나 연구 분야를 포괄하면서 복잡하고 자기조직적이며 생물학적으로 성장하는 시스템으로 묘사. 규모의 거대함에 관계없이 새로운 아이디어와 연구 분야는 이전 연구자로부터 거의 선형적으로 발전.
  17. 17. 5. 과학 문헌의 노화 노후화(Obsolescence) 혹은 노화(aging) • 어떤 문헌이 나이가 들면서 일반적으로 사용되는 기회가 감소하는 과정 • 문헌과 함께 쇠락해가는 문헌에 포함된 정보의 유효성이나 유용성의 지표로 사용됨. • 노화의 전형적인 “방사성”붕괴와 같은 패턴은 사용 빈도수의 기하급수적 붕괴로 나타난다. 즉 피인용문헌의 평균 피인용횟수는 매년 동일한 노화계수(aging factor)로 감소. 통시적 노후화 현재 시점에서 고정된 피인용문헌집합에 대한 인용문헌의 연령분포를 살펴보는 것 동시적 노후화 주어진 문헌 집합 안에서 인용된 참고문헌의 연령분포를 되돌아보는 것.
  18. 18. 5. 과학 문헌의 노화 출판물 유형 연구논문은 레터와는 다른 노후화 과정을 거침. 추상화 수준 많은 실증적 사례연구가 잊혀졌을지라도 갈릴레오 갈릴레이의 저작처럼 방법론적으로 기여한 논문은 오랫동안 인용됨.
  19. 19. 5. 과학 문헌의 노화 저자의 명성과 사회적 지위 어떤 분야에서 선임저자이면서 교수의 종신 재직권을 심사하는 위원이 될 사람이 있다면 그 사람이 30년 전 쓴 사소한 논문이라도 그 논문을 인용하지 않을 사람은 거의 없을 것임. 학술지 중심성 저명한 학술지에는 높은 품질의 영구적인 논문이 투고된다. 그러나 그 반대로 저명한 학술지에서 발표된 논문은 단지 부가적인 마태 효과 때문에 노화속도가 느림.
  20. 20. 5. 과학 문헌의 노화 주제에 대한 관심도 또는 유행 논문이 유효성을 갖고 있는지 여부에 관계없이 시대에 뒤쳐진 주제는 거의 인용되지 않음.
  21. 21. QUIZ. 로트카가 사용한 소스 자체를 추적하여 결함을 밝혀내 1981년 리뷰 논문으로 발표하고, 로트카가 사용한 데이터에 적합성 검정을 실시한 결과 역제곱법칙이 이들 데이터 중 일부분에서만 적용된다는 것을 밝혀낸 인물은 누구인가? 윌리엄포터(William Potter)
  22. 22. 정리하기.  로트카는 과학 커뮤니케이션의 선두에서 분투하고 있는 우수한 과학자들이 지식의 진보에 어느 정도나 공헌했는지 알아내고자 로트카의 법칙을 만들었다.  영국의 화학박사이자 문헌정보학자인 브래드퍼드(Bradford)는 여러 과학잡지에 분산되어 있는 응용지리, 물리학, 윤활유 분야의 논문들이 공통적인 분포양상을 나타내고 있음을 최초로 관찰하였고, 전세계적으로 100,000여종의 학술지 중에서 2,000여종의 학술지가 과학기술분야의 핵심적인 근원(core journal)이 된다는 브래드퍼드 법칙을 만들었다.  만델브로는 커뮤니케이션 비용을 최소화한다는 측면에서 지프의 최소 노력의 원리를 해석함으로써 언어는 가장 다양한 신호를 즉시 전달하는 것이 목적이며, 한 단어에 투입되는 비용은 그것을 구성하는 철자수로 확정할 수 있다고 주장하였다.
  23. 23. 참고문헌. • http://hanpark.net • 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원. • http://website-experts.ca/how-to-use-google-analytics-for-long-tailanalysis/ • http://depressedd.egloos.com/2976242 • http://hanjum.tistory.com/270 • http://godrag77.blogspot.kr/2011/07/poisson-distribution.html • http://www.bamnstory.com/2013/06/blog-post.html • http://sojuloveme.egloos.com/1418971
  24. 24. 차시예고. 7주차 웹보메트릭스 분석기법의 개괄

×