• Save
웹보메트릭스와 계량정보학06 1
Upcoming SlideShare
Loading in...5
×
 

웹보메트릭스와 계량정보학06 1

on

  • 290 views

 

Statistics

Views

Total Views
290
Views on SlideShare
290
Embed Views
0

Actions

Likes
0
Downloads
1
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

웹보메트릭스와 계량정보학06 1 웹보메트릭스와 계량정보학06 1 Presentation Transcript

  • 웹보메트릭스와 계량정보학 6주차 계량정보학의 수학적 기반 1강. 계량정보학의 수학적 기반(1) 2강. 계량정보학의 수학적 기반(2) 영남대학교 문과대학 언론정보학과 교수 박한우
  • 1. 계량정보학의 수학적 기반에 대해 이해한다. 1. 수학적 치우침: “정성적”통찰
  • 1. 수학적 치우침: “정성적”통찰 가. 통계적 분석과 확률적 일반화 장점 1. 경쟁모형과 비교할 수 있고 투명성을 높이기 위해 부정확한 실험공식을 정확한 수학적 개념으로 바꾸어준다. “완전한 계량서지학 이론”으로 발전하기 위한 제 1단계에 불과함 2. 특정데이터 집합을 분석하기 위해 표준적인 통계 도구를 사용하기 위한 조건을 명시함으로써 정보흐름을 측정할 때 발생하는 무작위 오차를 추정하는데 도움이 됨. 3. 계량서지학적 과정의 수학적 구조와 비계량서지학적 현상의 수학적 구조를 연결함으로써 공통된 특징을 규명하고 공통적으로 사용할 수 있는 방법론을 개발할 수 있음. 비계량서지학적 현상이란 경제적, 생물학적으로 복잡한 시스템에 대한 연구결과로 나타난 특정한 패턴을 의미.
  • 1. 수학적 치우침: “정성적”통찰 나. 수학적 치우침 로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에 있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를 사용. 이러한 관찰 과정에서 얻어진 공통된 결과는? 정보의 패턴이 한쪽으로 치우치는 불균형이 두드러지게 발견되었다는 것. 1) 소수의 저자가 발표한 문헌이 특정 연구 분야에서 대부분을 차지 2) 이용자 요구를 충족시키는데 필요한 문헌이 소수의 학술지에 집중적으로 수록 3) 상대적으로 소수의 단어가 반복적으로 나타남
  • 1. 수학적 치우침: “정성적”통찰 나. 수학적 치우침 정보의 특징이 평균을 중심으로 한 정규분포를 따르지 않는다는 공통점으로 가짐 생산성이 낮은 다수의 학술지가 생산성이 높은 소수의 학술지와 공존하기 때문에 전체 „학술지-논문‟에 대한 빈도분포 곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수법칙(Power law)으로 설명 가능한 쌍곡선 패턴을 따름 출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원.
  • 1. 수학적 치우침: “정성적”통찰 출처 - http://website-experts.ca/how-to-usegoogle-analytics-for-long-tail-analysis/ 출처 : 니콜라 드 벨리스(2010), 계량서지학과 인용분석, 한국과학기술정보연구원
  • 1. 수학적 치우침: “정성적”통찰 칼 프리드리히 가우스(Carl Friedrich Gauss)와 피에르 시몽 라플라스(Pierre Simon Laplace)는 보편타당하고 쉽게 이해할 수 있으며 계산하기 쉬운 종모양의 그래프를 제시 종모양의 그래프에서는 평균값이 다른 값보다 중앙에 위치할 확률이 높으며 나머지 변량은 평균을 중심으로 대칭적으로 분포.
  • 1. 수학적 치우침: “정성적”통찰 물리량을 측정할 때마다 산술평균은 다른 어떤 값보다 데이터의 특성을 잘 표현한다는 가정 아래에 있기 때문에 통계학 교과서에서는 이러한 분포의 특징을 “오차법칙(Law of error)”이라 함. 전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서 강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용. 가장 기초적인 방법은 로그변형으로 표본의 분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 하는 것. 서열척도로 측정된 두 변수의 상관계수를 구할 경우 명확한 수치 해석이 불가능하기 때문에 스피어만(Spearman)의 순위 상관계수 또는 켄들의 타우(Kendall의 τ)와 같은 순위 상관계수를 이용.
  • 1. 수학적 치우침: “정성적”통찰 로지스틱 회귀모형 포아송 회귀분석의 방법 일반화된 선형회귀모형에서 파생된 이분형 결과를 다루는 모형 횟수를 모형화하기 위한 방법 이항 회귀모형 비선형회귀모형 비모수 회귀모형 종속변수가 독립변수에 종속되어 있다면 선형이든 비선형이든 특정한 함수로 표현이 불가능하기 때문에 사용
  • 1. 수학적 치우침: “정성적”통찰 상관분석 • 두 변수 사이에 선형관계가 성립될 때 두 변수 사이에는 상관관계가 있다고 함. 즉 하나의 변수가 커지면 다른 변수도 일정한 비율로 커지거나 작아지는 것. • 직선에 가까운 정로를 나타내는 값으로 상관계수로 표현. 일반적으로 피어슨(Pearson)의 r값을 사용하는 것이 일반적이며 -1~1사이의 값으로 표현. • 상관관계는 인과관계를 나타내지 않음: - 두 개의 변수가 양의 상관관계에 있다고 해서 하나의 변수가 다른 변수의 변화를 초래하는 것은 아니며, 두 변수는 알려져 있지 않은 제 3의 요인에 의해 영향을 받을 수 있음. - 인과관계에 대한 충분한 근거가 없을지라도 상관관계는 인과관계가 존재함을 암시하는 것으로 해석.
  • 1. 수학적 치우침: “정성적”통찰 회귀분석 • 상관관계가 가진 예측 능력의 한계는 사회과학 및 행동과학에서 널리 사용되고 있는 기법인 회귀분석을 도입함으로써 부분적으로 극복할 수 있음. • 현실에서는 많은 설명변수가 존재하며 이들 변수를 선형으로 결합하여 하나의 결과를 만들어 낼 수 있음. 따라서 단순선형회귀보다는 다중회귀를 사용. • 다중회귀분석 기법을 통해 해당 논문집합의 피인용횟수를 예측하기 위해 저자의 명성, 학술지의 영향력, 참고문헌 수 등과 같이 서로 다른 요인의 상대적 중요도를 평가하고자 함.
  • 1. 수학적 치우침: “정성적”통찰 정규 분포의 패러다임 • 스티븐 벤스만(Stephen Bensman): 정규분포의 패러다임 이라고 일컫던 것을 뒤엎고 왜곡된 세계를 다룰 수 있는 새로운 수학적 방법론과 개념을 제시. • 꼬리확률(probability tail)
  • 1. 수학적 치우침: “정성적”통찰 파레토(Vilfredo Pareto)의 법칙 • 파레토는 개미를 관찰하는 중, 전체 개미의 20%만 실질적인 일을 하고 나머지 80%는 빈둥댄다는 사실을 발견. • 80/20 법칙, 경험적으로 20%의 사람들이 전체 부의 약 80%를 차지한다는 부의 분포에 대한 특성. • 하지만 중간수준의 부를 누리고 있는 사람들에 대한 적절한 모형을 제시하는데 실패하여, 경제학자들이 받아들이기까지는 오랜 시간이 걸림.
  • 1. 수학적 치우침: “정성적”통찰 출처 - http://depressedd.egloos.com/2976242
  • 1. 수학적 치우침: “정성적”통찰 출처 - http://hanjum.tistory.com/270
  • 1. 수학적 치우침: “정성적”통찰 사회과학분야 • 데이터 집합의 양극화는 빈도분포의 머리 부분은 표준통계기법으로 해석할 수 있지만, 꼬리 부분에서 발생빈도가 낮은 사건(극단값;extreme value)이 일어나므로 다른 기법을 적용해야한다고 제시. • 대부분의 표준통계기법에서는 극단값을 이상값(Outlier)으로 간주.
  • 1. 수학적 치우침: “정성적”통찰 포아송 모형 • 확률과정은 특정 시점 t까지 발생한 사건 수 전체를 집계하는 과정. • 포아송 분포는 연속(continuous) 시간축 상에서 임의로 (또는, random하게) 발생하는 이산(discrete) 사건을 묘사할 때 활용. • 가장많이 사용되는 분포는 음이항 분포(negative binominal distribution), 웨어링 분포(Waring distribution), 일반화된 역 가우스-포아송 분포(GIGPD, generalized inverse-GaussianPoisson distribution)
  • 1. 수학적 치우침: “정성적”통찰 포아송 분포 예제 출처 - http://godrag77.blogspot.kr/2011/07/poisson-distribution.html
  • 1. 수학적 치우침: “정성적”통찰 성공이 성공을 낳는다 • 포아송 과정은 특정 순간에 어떤 사건이 발생할 기회가 이미 발생한 사건의 수에 따라 결정되는 방식으로 자연스럽게 일반화되었다. 이를 확률적 탄생(stochastic birth)라 부르며 살아있는 유기체의 재생산을 통해 완벽하게 실증할 수 있음. • 게오르게 폴리야(George Polya)와 플로리안 에겐버거(Florian Eggenberger)의 항아리 모형(Um model)패턴에 근거해 데릭 프라이스의 성공이 성공을 낳는다는 원칙을 개념화함. • 프라이스(Price) - 누적이득분포(CAD, Cumulative Advantage Distribution): 사이먼/율의 확률분포로부텉 수학식이 어떻게 도출되었는지를 보여줌.
  • QUIZ. 80/20 법칙이라고도 하며, 경험적으로 20%의 사람들이 전체 부의 약 80%를 차지한다는 부의 분포에 대한 특성은 무엇인가? 파레토 법칙
  • 정리하기.  로트카, 브래드퍼드, 지프는 정보의 출처와 그들의 연구 주제 사이에 있는 관계를 표현하기 위해서 간단한 수학적 표현법과 그래프를 사용하였다.  정보의 특징이 평균으로 중심으로 한 정규분포를 따르지 않는다는 공통점으로 가지고, 생산성이 낮은 다수의 학술지가 생산성이 높은 소수의 학술지와 공존하기 때문에 전체 „학술지-논문‟에 대한 빈도분포 곡선이 한쪽으로 현저하게 치우치게 되며, 멱함수법칙(Power law)으로 설명 가능한 쌍곡선 패턴을 따른다.  전반적으로 치우친 형태의 데이터 집합을 추적하는데 전체 분포 중에서 강화된 대칭성을 가리키거나 정규성 가정을 무시하는 여러 기법을 사용하거나, 가장 기초적인 방법으로 로그변형을 통해 표본의 분산을 안정화시켜 비교적 다루기 쉬운 표준 정규분포와 유사하게 할 수 있다.
  • 차시예고. 6주 2차시 계량정보학의 수학적 기반(2)