2. 1
디지털인문학 연구
네트워크 분석
Linguistic Inquiry and Word Count (LIWC) 를
활용한 텍스트 분석 사례
3. 2
디지털 인문학 연구 분야와 사례
• 디지털 인문학 연구 분야
• Yale Digital Humanities
➀Text Analysis ➁Visual Analysis
➂Spatial Analysis ➃ Network Analysis
DH 분야
4. 3
• 밀도(density)
• 밀도는 네트워크에서 노드 간의 전반적인 연결정도 수준을 나타냄
• 완벽하게 연결된 네트워크에서는 모든 노드가 서로 이웃
• 각 노드는 네트워크 내의 다른 모드 노드와 직접 연결
• 반면에 완벽하게 단절된 네트워크에서는 모든 노드가 서로 떨어져 있어 어느 노드도 서
로 이웃하지 않음
• 밀도가 높은 네트워크는 응집성이 높음
높은 밀도 낮은 밀도
소셜 네트워크 분석을 위한 주요 용어와 개념
5. 4
• Betweenness Centrality (매개 중심성)
• 인기나 권력, 관심이나 요구는 가지고 있지 않지만, 소수의 연결선만으로 다른 노드 사
이를 매개하는 역할을 하는 위치에 있는 중심성
• 노드와 노드 사이를 최단경로로 연결하는 위치에 있는 노드를 의미
• 최단경로에 위치할수록 노드 사이의 매개중심성 값은 높아진다.
• 다리역할을 하는 중개자를 찾을 때 유용하게 사용
• closeness centrality(근접 중심성)
• 중앙집권적이거나 매개적이지 않지만, 전파의 확산을 돕는 노드
• 네트워크 전체 구조에서 가장 최단경로를 통해 모든 노드들로 연결되는 위치에 있음
• 다른 노드들에게 권력, 영향력 등을 가져다 줄 수 있다. 왜냐하면 노드와 노드 간 최단경
로를 가지기 때문에 정보나 자원을 가장 빠르게 전달할 수 있다
• 반대로 루머나 악플, 전염병도 빨리 전달할 수 있는 양면성을 지니고 있
소셜 네트워크 분석을 위한 주요 용어와 개념
7. 6
• 아이겐벡터 중심성
• 연결된 노드의 개수뿐만 아니라 연결된 노드가 얼마나 중요한지도 함께 고려함으로써
연결 중심성(degree centrality)의 개념을 확장
• 매우 강력한 영향력을 가진 한 사람을 알고 있는 것이 경우에 따라서는 다른 여러 평범
한 사람들을 알고 있는 것보다 자신의 파워를 증가시키는 데 더 유용
• 많은 사람들과의 연결관계뿐만 아니라 많은 ‘잘 연결된’사람들과의 연결관계를 강조. 이
런 점에서 인기도 또는 지위(status)로 해석.
소셜 네트워크 분석을 위한 주요 용어와 개념
8. 7
• 영화 속 등장인물들과 그들 간의 관계
• RoleNet
영화 <You've got mail>의 RoleNet
2 명의 남녀 주연과 각각의 커뮤니티
캐릭터 네트워크 구축 사례 : 영화/드라마
9. 8
캐릭터 네트워크 구축 사례 : 영화/드라마
• 영화 속 등장인물들과 그들 간의 관계
• 캐릭터 넷(Character-net)
영화<Pretty Women>의 캐릭터 넷
영화<Ace Ventura>의 캐릭터 넷
10. 9
캐릭터 네트워크 구축 사례 : 영화/드라마
• 드라마 <정도전> 네트워크 https://www.youtube.com/watch?v=tdznINtBssQ
<정도전> 50회 <정도전> 전체 네트워크
11. 10
INT. : 공간적 배경/씬 구분 기준
한 씬에 등장하는 캐릭터/청자 or 화자
캐릭터 네트워크 구축 방법 : 영화/드라마
캐릭터의 대사
12. 11
네트워크 분석 : 캐릭터 네트워크 구축 사례
발자크(Balzac)의 『Lost Illusions』 3부 중 <Two Poets>
13. 12
캐릭터 네트워크 구축 사례 : 문학작품(소설)
발자크(Balzac)의 『Lost Illusions』 3부 중 <Eve and David>
• 캐릭터들 간의 대화 기반의 네트
워크
• 캐릭터 이름 추출
• 캐릭터들 간의 대화문 추출
• 대화량
https://www.gutenberg.org/files/1639/1
639-h/1639-h.htm
14. 13
네트워크 분석 : 캐릭터 네트워크 구축 사례
발자크(Balzac)의 < Scenes from a Courtesan's Life >
15. 14
• LIWC is a text analysis program that calculates
the percentage of words in a given text that
fall into one or more of over 80 linguistic,
psychological and topical categories indicating
various social, cognitive, and affective processes.
You can use LIWC, for example, to determine
the degree in which a text uses positive or
negative emotions, self-references or causal
words.
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
16. 15
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
• Classification of Characters in Movie by Correlation Analysis of Genre and Linguistic
Style
• 인물들의 대사를 분석하여 그들의 언어 스타일을 장르에 따라 분류
• 영화 대사 분석 방법
• 데이터 셋 구성
• 캘리포니아대학교 NLDS (Natural Language And Dialogue Systems) 랩(lab)에서
구축 한 영화 스크립트 코퍼스 1.0(Film Corpus 1.0)의 일부
• 인터넷 영화 대본 데이터베이스(IMSDB)로부터 수집된 862편의 정제된 영화
스크립트
• 영화 속 인물 7,400명의 대사 등이 포함
• 862편 중 60편의 영화 스크립트 선택
• 로맨틱 코미디(Romantic Comedy)
• 코미디(Comedy)
• 호러/스릴러(Horror/Thriller)
• 액션(Action)
17. 16
• 60편의 영화 스크립트
• 대사량이 가장 많은 주인공만을 고려하여 총 92명을 최종 선정, 대사 추출
• 대사 구성
• 주인공의 화면 밖 목소리인 보이스 오버(voice over)
• 독백
• 대화(dialogue)
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
18. 17
• 60편의 영화 스크립트
• 캐릭터 92명의 대사 문장 수는 총 47931개
Genre Movies Characters
Romantic
Comedy
Punch drunk love, He’s just not
that into you, Annie Hall 외 12편
Barry, Lena, Gigi, Alex, Annie, Alvy
외 24명
Comedy
Dumb and dumber, Human
nature, Ace ventura 외 12편
Harry, Lloyd, Nathan, Puff, Ace
ventura 외 15명
Horror/Thriller
The Shining, Misery, Birds 외
12편
Jack, Paul, Annie, Melanie, Mitch
외 15명
Action
The Dark Knight, Sherlock
Holmes, Iron Man 외 12편
Batman, Joker, Gordon, Holmes,
Iron Man 외 17명
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
19. 18
• 대사 분석 도구
• Linguistic Inquiry and Word Count(LIWC)를 이용
• 단어 빈도 기반의 텍스트 분석 소프트웨어
• Pennebaker, J.W외 심리학자, 컴퓨터공학자들의 협업으로 개발(1993년)
• 총 93개의 카테고리로 구성
• Analytical thinking, emotional tone, psychological process(affective process)
• LIWC 분석 프로세스
텍스트 입력
텍스트 속 단
어 중 LIWC
사전에 포함
된 단어들을
검출
검출된 단어
들은 93개의
피처로 분류
분류된 단어
들의 빈도를
측정하여 백
분율로 산출
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
20. 19
• LIWC 92개 카테고리
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
21. 20
• LIWC 92개 카테고리
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
22. 21
• LIWC를 활용하여 캐릭터들의 대사를 분석한 결과 예시
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
23. 22
• 장르와 캐릭터들의 대사 스타일 간의 상관성
• 카테고리 Analytic thinking 과 emotional Tone을 기준
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
24. 23
• 장르와 캐릭터들의 대사 스타일 간의 상관성
• 로맨틱 코미디 장르와 대사 스타일
• Emotional Tone의 값이 높고 Analytical Thinking의 값이 낮음
• 로맨틱 코미디 영화 인물 28명
• 호러/스릴러 영화 인물 4명
• 코미디 영화 인물 3명
• 액션 영화 인물 1명
• 로맨스 장르가 결합된 복합 장르
• 코미디 장르와 대사 스타일
• Emotional Tone, Analytical Thinking 모두 높음
• 코미디 영화 인물 13명
• 호러/스릴러 인물 3명
• 액션 영화 인물 1명
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례
25. 24
• 장르와 캐릭터들의 대사 스타일 간의 상관성
• 호러/스릴러 장르와 대사 스타일
• Emotional Tone의 값과 Analytical Thinking의 값이 모두 낮음
• 단순하고 건조한 정보 전달형
• 심적 상태나 감정은 주로 그의 얼굴 표정과 행동을 통해 드러남
• 액션 장르와 대사 스타일
• Analytic’의 값이 ‘Tone’의 값보다 높은 것이 특징
• 액션 영화 인물 19명
• 코미디 영화 인물 1명
• 호러/스릴러 영화 인물 2명
• 액션 장르의 서사 전략
• 자신에게 주어진 임무를 해결해 가는 과정에서 형식적이고 논리적인 단어 들의
사용이 높은 것으로 분석
Linguistic Inquiry and Word Count (LIWC)를 활용한 텍스트 분석 사례