SlideShare a Scribd company logo
1 of 23
웹보메트릭스와 계량정보학
9주차 정보의 지도화와 패러다임의 전환
1강. 정보의 지도화와 패러다임의 전환 (1)
2강. 정보의 지도화와 패러다임의 전환 (2)

영남대학교 문과대학 언론정보학과
교수 박한우
1. 정보의 지도화와 패러다임의 전환을 이해한다.

1. 지도와 패러다임
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한
동시출현단어 분석

3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한
역사서술과 영향력 지도
1. 지도와 패러다임
과학계량학자의 신뢰할 수 있는 지식 영역에 대한 모형 구축
지리적 유사성에 근거하여 지적 조망을 매핑한 과학 지도를 그리고자 노력.

과학 지도란?

일정 기간 동안 공식 커뮤니케이션에 속하는 과학
문헌에 포함된 학문분야, 전문 영역, 개별 논문 또는
저자들의 관계를 공간 상에 표현한 것.
• 주관적 판단과 기준에 관계없이 연구 영역의 지적
구도를 기술.

과학 지도의
매력

• 사용자 편의적인 인터페이스를 통하여 대규모
데이터로부터 관련정보를 검색하는데 도움을 줄 수
있는 강력한 도구.
• 학문 분야, 전문 분야, 패러다임, 과학 공동체와
같은 추상적인 개념에 대해 실증적인 근거를 제공.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
가. 동시출현단어 추출
두 단어 Wi와 Wj를 모두 포함하는 문헌이 하나 이상 존재할 때,
Wi와 Wj는 그 말뭉치에서 동시에 출현한 것.
Wi와 Wj사이의 연결 강도는 단어 쌍이 나타나는 문헌의 개수
Cij로 결정됨.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
가. 동시출현단어 추출
Krkwic(Korean Key Words In Context)
• 네덜란드 암스테르담 대학교의 Loet Leydesdorff 교수가 개발한 Full
Text 소프트웨어를 박한우 교수가 한국어 분석을 위해 변형

KrKwic

단어 빈도 분석을 통해 핵심어 , 주요 이미 지 , 중요 이슈를 파악함

KrTitle

논문 , 웹사이트 , 기사 , 특허 , 법조문 등의 제목과 요약문 또는
주관식 응답 , 드라마나 영화의 대사 , 조직 목표 , 광고 카피 , 일상
대화 같이 비교 적 짧은 메시지

KrText

KrTitle로 처리하기에 분량이 비교적 많은 메 시지를 독립적인
파일로서 취급하여 분석
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
다운로드는 hanpark.net  Software

출처 - http://www.slideshare.net/hanpark/krkwicnovember2006
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석

출처 - http://www.slideshare.net/hanpark/krkwicnovember2006
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
krkwic windows version
Download  hanpark.net
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
파이썬을 이용한 단어빈도 분석
분석하고자 하는 파일을 읽어와 불필요한 단어를 제거하고 단어빈도수를 구한다음
1모드,2모드 매트릭스를 만듦(중간 과정은 생략).
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
나. 비판적 요소
색인 어휘집의 한계에서 비롯되는 색인자 효과(indexer effect)
학술 언어가 좀처럼 쉽게 바뀌지 않아 나타나는 지체 현상.
문헌 내용에 대한 색인자의 선입관에 기인한 주관적인 분류.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
다. 동시출현단어 분류
동시 출현 링크의 상대적 강도를 기반으로 하여 단어 사이의 포함
관계, 근접 관계, 동등 관계와 같은 분류 기준을 정의해야 하는데
이것은 포함 지수와 근접성 지수를 계산함으로써 이루어짐.
포함 지수(inclusion index)

I ij

C ij
min(c i ,c j )

※ Cij는 단어 쌍(Wi, Wj)가 출현한 문헌 수이며, Ci는 전체 문헌 집합 내에서
Wi가 출현한 문헌 빈도를, C j 는 W j 가 출현한 문헌 빈도를 나타냄.
Min(Ci,Cj)는 Ci와 Cj 중 최소값을 의미한다. 예를 들어 만약 Cj가
최소값이면 포함지수 Iij는 한 문헌 내에서 Wi가 이미 존재할 때 Wi를 발견할
가능성을 측정한 것. Iij=1인 극단적인 경우에는 Wj의 출현은 Wj도 문헌에
존재함을 암시.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
다. 동시출현단어 분류
근접성 지수(proximity index)

P ij

C ij
xN
C iC j

※ 여기서 Ci,Cj,Cij는 포함 지수에서와 같은 의미를 가지며, N은 집합 내 총
문헌 수를 의미. 근접성 지수는 현재 출현 빈도가 작지만 향후 확장될 가능성이
있는 주제임을 알려주는 단어 쌍 빈도를 분별하는데 도움이 됨.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
라. 군집화와 시작적 표시
지수의 값에 따라 단어 쌍을 몇 개의 그룹(군집)으로 모음.
군집은 두 개의 네트워크 지도로 표현이 가능함.
a.포함 지도(inclusion maps): 각 군집의 크기를 제한하는 통상적인 임계 값을
미리 설정해 둔 다음 그 결과로 생성되는 군집을 핵심 주제를 표시.
b.근접성 지도(proximity maps): 이차적인 주제 사이의 연결을 표시.

* 포함 지도의 최상위 수준에 위치하는 단어는 지도로 표현된
영역에서 관심 주제의 중심축이 되며 낮은 수준에 위치한 다른
단어를 비롯해 중심축 아래에서 군집된 단어는 중재 단어이다.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
라. 군집화와 시작적 표시
밀집도 지수(index of density)와 중심성 지수(index of centrality)
밀집도 지수
(index of density)

중심성 지수
(index of centrality)

: 한 군집의 내부 연결 강도.

: 전역적 연구 네트워크에서 서로 다른 주제
영역에 포함된 군집 사이에 연결 강도.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
라. 군집화와 시작적 표시
학술 텍스트 분석
• 민속지학적 연구에서 근본적으로 보완되어야 할 것은 학술 텍스트 분석
• 글 새김은 행위자-과학자의 세계 구축 전략과는 조금 떨어진 거리에서
움직이는데 이 전략에 의해 실험실 너머로 이어지는 사회인지적 연결이
창조되고 확산.
2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석
라. 군집화와 시작적 표시
동시출현단어 분석의 타당성의 문제 제기
• 논문을 구성하는 단어의 분포가 규칙적이어도 문헌 집합의 수준으로
가면 상황이 달라짐.
• ex) 이론적 용어 → 관측 용어 → 방법론적 용어로 사용.
• 동시출현단어는 변화하는 문맥 속에 완전히 종속.
3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도
가. 역사연구에서 인용색인의 유용성 실험방법 개발 (가필드)

1

과학 역사상 중요한 에피소드에 대한 에세이를 준비, 종이 위에 노드와 선으로
지도를 그려서 역사가에 의해 확인된 중요한 사건과 이들 사건과의 관계를
나타낸다.

2

이 사건과 관계에 대해 처음 보고한 노드 논문과 연구자를 규명하기 위하여
문헌 연구를 수행.

3

다른 노드 논문과의 관계를 결정하고 노드 논문 간 서지학적 연결 네트워크를
표현하는 두 번째 지도(역사 그래프)를 그리기 위해 각 노드 논문의 서지정보를
조사.

4

두 지도를 겹쳐서 일치하는 정도를 분석.

5

노드 논문을 인용한 논문에서 출발하여 각 항목에 대한 인용 분석을 수행하여
인용 영향력을 평가하고 새로운 연결이 나타나는지 확인.
3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도
나. 소프트웨어 HistCite
가필드가 알렉산더 푸도스킨, 블라디미르 이스토민과 협력하여 개발.

목적: 핵심 문헌 간 서지학적 연결을 정량적으로 분석하여 특정 주제의 발전을
연대순으로 표현하는 역사그래프를 컴퓨터와 상호작용하면서 자동으로
구축하는 것.
Web of Science에 수록된 소스문헌에 의해 표현된 각 논문의 서지정보 또는
논문 집합에서 출발.
논문이 인용하고 있는 문헌 리스트를 이용하여 그 밑에 깔려있는 인용
네트워크를 재구축하고 분석.
가상 미니-인용색인이 초기 집합에서 생성.
이 색인에 포함된 각 레코드는 핵심 논문을 자동으로 식별하기 위해 사용되는
두 가지 숫자를 기본적으로 가짐.
3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도

출처 - http://warezone.com/HistCite-.9.8.24.zip.149985.html
3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도
다. 핵심 논문을 자동으로 식별하기 위한 두 가지 숫자.
전체 인용점수
(Global Citation Score)

: 한 논문이 Web of Science 내에서 인용된 횟수.

지역 인용점수
(Local Citation Score)

: 한 논문이 초기 서지정보 집합에서 인용된 횟수.

• 위 점수로 순위를 부여하여 개체별로 시각화 가능.
• Web of Science의 검색으로 추가된 “외부” 참고문헌은 네트워크
다이어그램의 복잡성과 완결성을 증대시켜서 분석을 심화.
• 역사그래프는 인용 임계치의 변동에 따라 가장 많이 인용된 핵심 논문에
상응하는 일부 노드를 눈에 띄게 하이라이트로 처리하여 보여 줌.
QUIZ.
네덜란드 암스테르담 대학교의 Loet Leydesdorff 교수가 개발한 Full
Text 소프트웨어를 박한우 교수가 한국어 분석을 위해 변형한
소프트웨어는 무엇인가?
Krkwic(Korean Key Words In Context)
정리하기.
 과학 지도는 일정 기간 동안 공식 커뮤니케이션에 속하는 과학 문헌에
포함된 학문분야, 전문 영역, 개별 논문 또는 저자들의 관계를 공간
상에 표현한 것으로 사용자 편의적인 인터페이스를 통하여 대규모
데이터로부터 관련정보를 검색하는데 도움을 줄 수 있는 강력한
도구이다.
 동시출현단어 추출에서 두 단어 Wi와 Wj를 모두 포함하는 문헌이
하나 이상 존재할 때, Wi와 Wj는 그 말뭉치에서 동시에 출현한
것으로 Wi와 Wj사이의 연결 강도는 단어 쌍이 나타나는 문헌의 개수
Cij로 결정된다.
 동시 출현 링크의 상대적 강도를 기반으로 하여 단어 사이의 포함
관계, 근접 관계, 동등 관계와 같은 분류 기준을 정의해야 하는데
이것은 포함 지수와 근접성 지수를 계산함으로써 이루어진다.
 동시출현단어는 변화하는 문맥 속에 종속되므로 주의해야 한다.
 핵심 논문을 자동으로 식별하기 위한 두 가지 숫자는 전체
인용점수(Global Citation Score)와 지역 인용점수(Local Citation
Score)가 있다.
차시예고.

9주 2차시 정보의 지도화와 패러다임의 전환 (2)

More Related Content

Similar to 웹보메트릭스09 1

웹보메트릭스와 계량정보학09 2
웹보메트릭스와 계량정보학09 2웹보메트릭스와 계량정보학09 2
웹보메트릭스와 계량정보학09 2Han Woo PARK
 
사이버컴과 네트워크분석 11주차 1
사이버컴과 네트워크분석 11주차 1사이버컴과 네트워크분석 11주차 1
사이버컴과 네트워크분석 11주차 1Han Woo PARK
 
웹보메트릭스와 계량정보학12 1
웹보메트릭스와 계량정보학12 1웹보메트릭스와 계량정보학12 1
웹보메트릭스와 계량정보학12 1Han Woo PARK
 
웹보메트릭스05 2
웹보메트릭스05 2웹보메트릭스05 2
웹보메트릭스05 2Inho Cho
 
웹보메트릭스와 계량정보학05 2
웹보메트릭스와 계량정보학05 2웹보메트릭스와 계량정보학05 2
웹보메트릭스와 계량정보학05 2Han Woo PARK
 
웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2Han Woo PARK
 
웹보메트릭스04 2
웹보메트릭스04 2웹보메트릭스04 2
웹보메트릭스04 2Inho Cho
 
웹보메트릭스05 1
웹보메트릭스05 1웹보메트릭스05 1
웹보메트릭스05 1Inho Cho
 
웹보메트릭스와 계량정보학05 1
웹보메트릭스와 계량정보학05 1웹보메트릭스와 계량정보학05 1
웹보메트릭스와 계량정보학05 1Han Woo PARK
 
웹보메트릭스와 계량정보학07 2
웹보메트릭스와 계량정보학07 2웹보메트릭스와 계량정보학07 2
웹보메트릭스와 계량정보학07 2Han Woo PARK
 
웹보메트릭스07 2
웹보메트릭스07 2웹보메트릭스07 2
웹보메트릭스07 2Inho Cho
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'Daemin Park
 
웹보메트릭스와 계량정보학04 1
웹보메트릭스와 계량정보학04 1웹보메트릭스와 계량정보학04 1
웹보메트릭스와 계량정보학04 1Han Woo PARK
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerDaemin Park
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개Chang-yong Jung
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1Han Woo PARK
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDaemin Park
 
논문 리뷰 디지털 방법론과 문학 연구의 신형식주의
논문 리뷰   디지털 방법론과 문학 연구의 신형식주의논문 리뷰   디지털 방법론과 문학 연구의 신형식주의
논문 리뷰 디지털 방법론과 문학 연구의 신형식주의ssuserd42c9a
 
Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Daemin Park
 
KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)Han Woo PARK
 

Similar to 웹보메트릭스09 1 (20)

웹보메트릭스와 계량정보학09 2
웹보메트릭스와 계량정보학09 2웹보메트릭스와 계량정보학09 2
웹보메트릭스와 계량정보학09 2
 
사이버컴과 네트워크분석 11주차 1
사이버컴과 네트워크분석 11주차 1사이버컴과 네트워크분석 11주차 1
사이버컴과 네트워크분석 11주차 1
 
웹보메트릭스와 계량정보학12 1
웹보메트릭스와 계량정보학12 1웹보메트릭스와 계량정보학12 1
웹보메트릭스와 계량정보학12 1
 
웹보메트릭스05 2
웹보메트릭스05 2웹보메트릭스05 2
웹보메트릭스05 2
 
웹보메트릭스와 계량정보학05 2
웹보메트릭스와 계량정보학05 2웹보메트릭스와 계량정보학05 2
웹보메트릭스와 계량정보학05 2
 
웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2웹보메트릭스와 계량정보학04 2
웹보메트릭스와 계량정보학04 2
 
웹보메트릭스04 2
웹보메트릭스04 2웹보메트릭스04 2
웹보메트릭스04 2
 
웹보메트릭스05 1
웹보메트릭스05 1웹보메트릭스05 1
웹보메트릭스05 1
 
웹보메트릭스와 계량정보학05 1
웹보메트릭스와 계량정보학05 1웹보메트릭스와 계량정보학05 1
웹보메트릭스와 계량정보학05 1
 
웹보메트릭스와 계량정보학07 2
웹보메트릭스와 계량정보학07 2웹보메트릭스와 계량정보학07 2
웹보메트릭스와 계량정보학07 2
 
웹보메트릭스07 2
웹보메트릭스07 2웹보메트릭스07 2
웹보메트릭스07 2
 
News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'News Big Data Analytics with 'Big Kinds'
News Big Data Analytics with 'Big Kinds'
 
웹보메트릭스와 계량정보학04 1
웹보메트릭스와 계량정보학04 1웹보메트릭스와 계량정보학04 1
웹보메트릭스와 계량정보학04 1
 
Automated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network AnalyzerAutomated discourse analysis with BigKinds and Semantic Network Analyzer
Automated discourse analysis with BigKinds and Semantic Network Analyzer
 
제1장 정보검색소개
제1장 정보검색소개제1장 정보검색소개
제1장 정보검색소개
 
사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1사이버컴과 네트워크분석 13주차 1
사이버컴과 네트워크분석 13주차 1
 
Debating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network AnalysisDebating Machine: Rule Based News Sentence Network Analysis
Debating Machine: Rule Based News Sentence Network Analysis
 
논문 리뷰 디지털 방법론과 문학 연구의 신형식주의
논문 리뷰   디지털 방법론과 문학 연구의 신형식주의논문 리뷰   디지털 방법론과 문학 연구의 신형식주의
논문 리뷰 디지털 방법론과 문학 연구의 신형식주의
 
Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...Toward a debating machine: A news sentence network analysis algorithm based o...
Toward a debating machine: A news sentence network analysis algorithm based o...
 
KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)KrKwic내용분석특강(november2006)
KrKwic내용분석특강(november2006)
 

More from Inho Cho

웹보메트릭스07 1
웹보메트릭스07 1웹보메트릭스07 1
웹보메트릭스07 1Inho Cho
 
웹보메트릭스06 1
웹보메트릭스06 1웹보메트릭스06 1
웹보메트릭스06 1Inho Cho
 
웹보메트릭스03 2
웹보메트릭스03 2웹보메트릭스03 2
웹보메트릭스03 2Inho Cho
 
웹보메트릭스03 1
웹보메트릭스03 1웹보메트릭스03 1
웹보메트릭스03 1Inho Cho
 
웹보메트릭스02 2
웹보메트릭스02 2웹보메트릭스02 2
웹보메트릭스02 2Inho Cho
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1Inho Cho
 
웹보메트릭스01 2
웹보메트릭스01 2웹보메트릭스01 2
웹보메트릭스01 2Inho Cho
 
웹보메트릭스01 1
웹보메트릭스01 1웹보메트릭스01 1
웹보메트릭스01 1Inho Cho
 
웹보메트릭스13 2
웹보메트릭스13 2웹보메트릭스13 2
웹보메트릭스13 2Inho Cho
 

More from Inho Cho (9)

웹보메트릭스07 1
웹보메트릭스07 1웹보메트릭스07 1
웹보메트릭스07 1
 
웹보메트릭스06 1
웹보메트릭스06 1웹보메트릭스06 1
웹보메트릭스06 1
 
웹보메트릭스03 2
웹보메트릭스03 2웹보메트릭스03 2
웹보메트릭스03 2
 
웹보메트릭스03 1
웹보메트릭스03 1웹보메트릭스03 1
웹보메트릭스03 1
 
웹보메트릭스02 2
웹보메트릭스02 2웹보메트릭스02 2
웹보메트릭스02 2
 
웹보메트릭스02 1
웹보메트릭스02 1웹보메트릭스02 1
웹보메트릭스02 1
 
웹보메트릭스01 2
웹보메트릭스01 2웹보메트릭스01 2
웹보메트릭스01 2
 
웹보메트릭스01 1
웹보메트릭스01 1웹보메트릭스01 1
웹보메트릭스01 1
 
웹보메트릭스13 2
웹보메트릭스13 2웹보메트릭스13 2
웹보메트릭스13 2
 

웹보메트릭스09 1

  • 1. 웹보메트릭스와 계량정보학 9주차 정보의 지도화와 패러다임의 전환 1강. 정보의 지도화와 패러다임의 전환 (1) 2강. 정보의 지도화와 패러다임의 전환 (2) 영남대학교 문과대학 언론정보학과 교수 박한우
  • 2. 1. 정보의 지도화와 패러다임의 전환을 이해한다. 1. 지도와 패러다임 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도
  • 3. 1. 지도와 패러다임 과학계량학자의 신뢰할 수 있는 지식 영역에 대한 모형 구축 지리적 유사성에 근거하여 지적 조망을 매핑한 과학 지도를 그리고자 노력. 과학 지도란? 일정 기간 동안 공식 커뮤니케이션에 속하는 과학 문헌에 포함된 학문분야, 전문 영역, 개별 논문 또는 저자들의 관계를 공간 상에 표현한 것. • 주관적 판단과 기준에 관계없이 연구 영역의 지적 구도를 기술. 과학 지도의 매력 • 사용자 편의적인 인터페이스를 통하여 대규모 데이터로부터 관련정보를 검색하는데 도움을 줄 수 있는 강력한 도구. • 학문 분야, 전문 분야, 패러다임, 과학 공동체와 같은 추상적인 개념에 대해 실증적인 근거를 제공.
  • 4. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 가. 동시출현단어 추출 두 단어 Wi와 Wj를 모두 포함하는 문헌이 하나 이상 존재할 때, Wi와 Wj는 그 말뭉치에서 동시에 출현한 것. Wi와 Wj사이의 연결 강도는 단어 쌍이 나타나는 문헌의 개수 Cij로 결정됨.
  • 5. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 가. 동시출현단어 추출 Krkwic(Korean Key Words In Context) • 네덜란드 암스테르담 대학교의 Loet Leydesdorff 교수가 개발한 Full Text 소프트웨어를 박한우 교수가 한국어 분석을 위해 변형 KrKwic 단어 빈도 분석을 통해 핵심어 , 주요 이미 지 , 중요 이슈를 파악함 KrTitle 논문 , 웹사이트 , 기사 , 특허 , 법조문 등의 제목과 요약문 또는 주관식 응답 , 드라마나 영화의 대사 , 조직 목표 , 광고 카피 , 일상 대화 같이 비교 적 짧은 메시지 KrText KrTitle로 처리하기에 분량이 비교적 많은 메 시지를 독립적인 파일로서 취급하여 분석
  • 6. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 다운로드는 hanpark.net  Software 출처 - http://www.slideshare.net/hanpark/krkwicnovember2006
  • 7. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 출처 - http://www.slideshare.net/hanpark/krkwicnovember2006
  • 8. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 krkwic windows version Download  hanpark.net
  • 9. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 파이썬을 이용한 단어빈도 분석 분석하고자 하는 파일을 읽어와 불필요한 단어를 제거하고 단어빈도수를 구한다음 1모드,2모드 매트릭스를 만듦(중간 과정은 생략).
  • 10. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 나. 비판적 요소 색인 어휘집의 한계에서 비롯되는 색인자 효과(indexer effect) 학술 언어가 좀처럼 쉽게 바뀌지 않아 나타나는 지체 현상. 문헌 내용에 대한 색인자의 선입관에 기인한 주관적인 분류.
  • 11. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 다. 동시출현단어 분류 동시 출현 링크의 상대적 강도를 기반으로 하여 단어 사이의 포함 관계, 근접 관계, 동등 관계와 같은 분류 기준을 정의해야 하는데 이것은 포함 지수와 근접성 지수를 계산함으로써 이루어짐. 포함 지수(inclusion index) I ij C ij min(c i ,c j ) ※ Cij는 단어 쌍(Wi, Wj)가 출현한 문헌 수이며, Ci는 전체 문헌 집합 내에서 Wi가 출현한 문헌 빈도를, C j 는 W j 가 출현한 문헌 빈도를 나타냄. Min(Ci,Cj)는 Ci와 Cj 중 최소값을 의미한다. 예를 들어 만약 Cj가 최소값이면 포함지수 Iij는 한 문헌 내에서 Wi가 이미 존재할 때 Wi를 발견할 가능성을 측정한 것. Iij=1인 극단적인 경우에는 Wj의 출현은 Wj도 문헌에 존재함을 암시.
  • 12. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 다. 동시출현단어 분류 근접성 지수(proximity index) P ij C ij xN C iC j ※ 여기서 Ci,Cj,Cij는 포함 지수에서와 같은 의미를 가지며, N은 집합 내 총 문헌 수를 의미. 근접성 지수는 현재 출현 빈도가 작지만 향후 확장될 가능성이 있는 주제임을 알려주는 단어 쌍 빈도를 분별하는데 도움이 됨.
  • 13. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 라. 군집화와 시작적 표시 지수의 값에 따라 단어 쌍을 몇 개의 그룹(군집)으로 모음. 군집은 두 개의 네트워크 지도로 표현이 가능함. a.포함 지도(inclusion maps): 각 군집의 크기를 제한하는 통상적인 임계 값을 미리 설정해 둔 다음 그 결과로 생성되는 군집을 핵심 주제를 표시. b.근접성 지도(proximity maps): 이차적인 주제 사이의 연결을 표시. * 포함 지도의 최상위 수준에 위치하는 단어는 지도로 표현된 영역에서 관심 주제의 중심축이 되며 낮은 수준에 위치한 다른 단어를 비롯해 중심축 아래에서 군집된 단어는 중재 단어이다.
  • 14. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 라. 군집화와 시작적 표시 밀집도 지수(index of density)와 중심성 지수(index of centrality) 밀집도 지수 (index of density) 중심성 지수 (index of centrality) : 한 군집의 내부 연결 강도. : 전역적 연구 네트워크에서 서로 다른 주제 영역에 포함된 군집 사이에 연결 강도.
  • 15. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 라. 군집화와 시작적 표시 학술 텍스트 분석 • 민속지학적 연구에서 근본적으로 보완되어야 할 것은 학술 텍스트 분석 • 글 새김은 행위자-과학자의 세계 구축 전략과는 조금 떨어진 거리에서 움직이는데 이 전략에 의해 실험실 너머로 이어지는 사회인지적 연결이 창조되고 확산.
  • 16. 2. 텍스트의 힘, 저자의 힘: 과학기술의 역동성을 매핑하기 위한 동시출현단어 분석 라. 군집화와 시작적 표시 동시출현단어 분석의 타당성의 문제 제기 • 논문을 구성하는 단어의 분포가 규칙적이어도 문헌 집합의 수준으로 가면 상황이 달라짐. • ex) 이론적 용어 → 관측 용어 → 방법론적 용어로 사용. • 동시출현단어는 변화하는 문맥 속에 완전히 종속.
  • 17. 3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도 가. 역사연구에서 인용색인의 유용성 실험방법 개발 (가필드) 1 과학 역사상 중요한 에피소드에 대한 에세이를 준비, 종이 위에 노드와 선으로 지도를 그려서 역사가에 의해 확인된 중요한 사건과 이들 사건과의 관계를 나타낸다. 2 이 사건과 관계에 대해 처음 보고한 노드 논문과 연구자를 규명하기 위하여 문헌 연구를 수행. 3 다른 노드 논문과의 관계를 결정하고 노드 논문 간 서지학적 연결 네트워크를 표현하는 두 번째 지도(역사 그래프)를 그리기 위해 각 노드 논문의 서지정보를 조사. 4 두 지도를 겹쳐서 일치하는 정도를 분석. 5 노드 논문을 인용한 논문에서 출발하여 각 항목에 대한 인용 분석을 수행하여 인용 영향력을 평가하고 새로운 연결이 나타나는지 확인.
  • 18. 3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도 나. 소프트웨어 HistCite 가필드가 알렉산더 푸도스킨, 블라디미르 이스토민과 협력하여 개발. 목적: 핵심 문헌 간 서지학적 연결을 정량적으로 분석하여 특정 주제의 발전을 연대순으로 표현하는 역사그래프를 컴퓨터와 상호작용하면서 자동으로 구축하는 것. Web of Science에 수록된 소스문헌에 의해 표현된 각 논문의 서지정보 또는 논문 집합에서 출발. 논문이 인용하고 있는 문헌 리스트를 이용하여 그 밑에 깔려있는 인용 네트워크를 재구축하고 분석. 가상 미니-인용색인이 초기 집합에서 생성. 이 색인에 포함된 각 레코드는 핵심 논문을 자동으로 식별하기 위해 사용되는 두 가지 숫자를 기본적으로 가짐.
  • 19. 3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도 출처 - http://warezone.com/HistCite-.9.8.24.zip.149985.html
  • 20. 3. 컴퓨터는 역사를 쓸 수 있는가? 알고리즘을 이용한 역사서술과 영향력 지도 다. 핵심 논문을 자동으로 식별하기 위한 두 가지 숫자. 전체 인용점수 (Global Citation Score) : 한 논문이 Web of Science 내에서 인용된 횟수. 지역 인용점수 (Local Citation Score) : 한 논문이 초기 서지정보 집합에서 인용된 횟수. • 위 점수로 순위를 부여하여 개체별로 시각화 가능. • Web of Science의 검색으로 추가된 “외부” 참고문헌은 네트워크 다이어그램의 복잡성과 완결성을 증대시켜서 분석을 심화. • 역사그래프는 인용 임계치의 변동에 따라 가장 많이 인용된 핵심 논문에 상응하는 일부 노드를 눈에 띄게 하이라이트로 처리하여 보여 줌.
  • 21. QUIZ. 네덜란드 암스테르담 대학교의 Loet Leydesdorff 교수가 개발한 Full Text 소프트웨어를 박한우 교수가 한국어 분석을 위해 변형한 소프트웨어는 무엇인가? Krkwic(Korean Key Words In Context)
  • 22. 정리하기.  과학 지도는 일정 기간 동안 공식 커뮤니케이션에 속하는 과학 문헌에 포함된 학문분야, 전문 영역, 개별 논문 또는 저자들의 관계를 공간 상에 표현한 것으로 사용자 편의적인 인터페이스를 통하여 대규모 데이터로부터 관련정보를 검색하는데 도움을 줄 수 있는 강력한 도구이다.  동시출현단어 추출에서 두 단어 Wi와 Wj를 모두 포함하는 문헌이 하나 이상 존재할 때, Wi와 Wj는 그 말뭉치에서 동시에 출현한 것으로 Wi와 Wj사이의 연결 강도는 단어 쌍이 나타나는 문헌의 개수 Cij로 결정된다.  동시 출현 링크의 상대적 강도를 기반으로 하여 단어 사이의 포함 관계, 근접 관계, 동등 관계와 같은 분류 기준을 정의해야 하는데 이것은 포함 지수와 근접성 지수를 계산함으로써 이루어진다.  동시출현단어는 변화하는 문맥 속에 종속되므로 주의해야 한다.  핵심 논문을 자동으로 식별하기 위한 두 가지 숫자는 전체 인용점수(Global Citation Score)와 지역 인용점수(Local Citation Score)가 있다.
  • 23. 차시예고. 9주 2차시 정보의 지도화와 패러다임의 전환 (2)