SlideShare a Scribd company logo
1 of 32
Digital Humanities V
1
 디지털 인문학 입문
 디지털 인문학 연구 분야와 사례
 텍스트 분석(Text Analysis)
 문학 텍스트 분석 사례
 SNS 리뷰 분석 사례
 영화 스크립트 분석 사례
 영상 분석(Visual Analysis)
 공간 분석(Spatial Analysis)
 네트워크 분석(Network Analysis)
2
디지털 인문학 연구 분야와 사례
• 디지털 인문학 연구 분야
• Yale Digital Humanities
➀Text Analysis ➁Visual Analysis
➂Spatial Analysis ➃ Network Analysis
DH 분야
3
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 텍스트 분석(Text Analysis)
• 문학 텍스트, 역사 자료, SNS 데이터, 영화(드라마) 스크립트 등을 분석
• 토픽 모델링, 키워드 추출 등
• 문체 분석, 장르 분석, 감정 분석 등
4
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis)
• 문학 텍스트
• 소설, 시
• 문체, 장르, 감정 분석
• SNS 데이터
• 상품평, 리뷰, 블로그
• 감정 분석(긍정/부정/중립)
• 역사 텍스트
• 역사적 사건
• 신문
5
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 문학 텍스트 분석 : 감정 분석(Matthew L. Jockers, Stanford University)
• 토픽 모델링, 키워드 추출 등
제임스 조이스(James Jocye)의 『젊은 예술가의 초상』의 감정 그래프
6
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 텍스트 분석(Text Analysis) : 문학 텍스트 플롯(plot) 그래프(Matthew L. Jockers,
Stanford University)
제임스 조이스의 『젊은 예술가의 초상』의 플롯(plot) 그래프
7
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : 브레드 포드 팔리(W.Bradford Paley)의 텍스트아크(TextArc)
• 빈도 기반의 단어 시각화를 통해 텍스트의 내용적 의미를 전달
• 루이스 캐럴(Lewis Carrol)의 소설 『이상한 나라의 앨리스』
8
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 2019 콘텐츠 임팩트 창의랩(한국콘텐츠진흥원)
• (스토리 x 인공지능) AI : Storyteller
9
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
10
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 특정 시인들의 문체를 모방한 시 생성기 개발
• 학습 데이터 구축의 중요성
• 윤동주, 김소월, 백석, 정지용 시인 선정, 시 수집
• 수집된 데이터의 정제
• 한자와 같이 학습에 불필요한 요소 제거
11
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 시인 별 정량적 문체 분석
• 자연어처리(Natural Language Processing, NLP) 기술
• 형태소 분석
• 텍스트로부터 ‘뜻을 가진 가장 최소의 단위’(형태소)를 추출
• 서울대학교에서 개발한 ‘꼬꼬마 형태소 분석기’를 활용
12
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 국내 형태소 분석기 종류
• 한나눔 (Hannanum)
• 꼬꼬마(Kkma)
• 코모란(Komoran)
• 은전 한 닢(Mecab)
• 트위터(Twitter)
• 형태소 분석 예시
• ‘나는 공을 찬다’
• 나(대명사)+는(주격 조사)+공(명사)+을(조사)+차(동사)+ㄴ다(종결 어미)
13
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 시인 별 정량적 문체 연구
백석 시인의 빈발 워드 클라우드 윤동주 시인의 빈발 워드 클라우드
14
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 시인 별 정량적 문체 연구
정지용 시인의 빈발 워드 클라우드 김소월 시인의 빈발 워드 클라우드
15
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 시인 별 문체 특징
16
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 딥러닝 기반의 시 창작 모델
• 단어 레벨의 인코더·디코더 네트워크 구축
• 인코더 네트워크: 입력 문장으로부터 문장 구조, 단어 사이의 관계 등 특징 값 추출
• 디코더 네트워크: 특징 값을 반영한 새로운 문장 생성
• 작가, 제목, 행의 줄 번호를 네트워크에 입력
• 학습할 타겟 문장과 네트워크로 생성한 문장 사이의 차이를 최소화
17
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 딥러닝 기반의 시 창작 모델
딥러닝 모델 - Word-level encoder-decoder LSTM 모델(aka. seq2seq 네트워크)을 변형
학습 데이터
- 학습 데이터의 형태: 텍스트 파일로 저장된 ‘작가명’, ‘시 제목’,’ ‘시 문장’ (전처리를 통해 한자 등을 필터링함)
- 윤동주(96편), 백석(135편), 김소월(210편), 정지용(112편) 포함 유명 시 약 1000 편 수집
Encoder
모델
- LSTM 네트워크 기반
- 입력 시퀀스 (작가명, 시 제목, 시 줄 번호)가 들어오면, Embedding 후 LSTM 네트워크에 입력하여 입력 시퀀스의 특
징을 추출
- Encoder LSTM의 Output과 Last Hidden States를 Decoder의 입력으로 사용
Decoder
모델
- LSTM 네트워크 기반
- Attention Mechanism을 적용하여 학습 시 입력 시퀀스와 출력 문장 간의 관련성을 잘 학습하도록 구성
- Encoder의 Last Hidden States과 Decoder의 입력(Start Token)과 Concatenate하여 Attention Weight를 구함
- Attention Weight를 이용해 Encoder의 Output에 적용, LSTM에 입력하여 시 문장 시퀀스를 출력
네트워크
- 각 네트워크의 Hidden Size: 256 Dimension
- 각 네트워크의 레이어 깊이: 3
- 학습할 수 있는 최대 길이: 30 word sequence lenth
- 학습 전 모든 LSTM 네트워크는 0으로 초기화
학습 과정
- 학습은 입력 시퀀스와 관련된 시 문장과, Seq2Seq 네트워크 출력 문장 사이의 차이를 Negative Log Likelihood Loss
로 계산하여 Stochastic gradient descent를 이용해 학습
- 학습 방향성 지시를 위한 모멘텀: 0.9
- 전체 시 문장을 모두 학습하도록 50만번 Interation(반복)함
18
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• AI 人 『마음의 실험』 시집
19
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : SNS 감정 분석
• 맛집 블로거 리뷰 분석 사례
• 댄 주래프스키(Dan Jurafsky)의 『음식의 언어』
• 스탠포드 대학교 컴퓨터 공학과/언어학과 교수 댄 주래프스키
(Dan Jurafsky)
• 7장 : 섹스와 스시, 마약과 정크푸드 - 맛집 리뷰로 본 긍정의
심리학
20
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 리뷰 감정 분석 결과
• 7개 도시(샌프란시스코, 뉴욕, 시카고, 보스턴, 로스앤젤레스, 필라델피아, 워싱턴) 소재
레스토랑에 관한 온라인 리뷰 100만 건을 분석
• 호평을 한 리뷰와 가장 많이 연결되는 단어는 무엇인가?
• 긍정적 감정 단어
• Love, delicious, best, amazing, great, favorite, perfect, excellent,
wonderful, fantastic…
• 악평을 한 리뷰와 어떤 단어가 가장 많이 결부되는가?
• 부정적 감정 단어
• Horrible, bad, worst, terrible, disgusting, bland, awful, tasteless, nasty,
dirty, yuck…
21
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 리뷰 감정 분석 결과
• 언제부터 무생물에 ‘Love’라는 단어를 썼을까?
• 언어학자 에린 매킨(Erin McKean)은 젊은 여성들이 ‘love’라는 단어를 일반화하여 음
식 같은 무생물 대상에 ‘love’라는 단어를 쓰게 된 것은 1800년대 후반이라고 지적
• “요즘은 여자들이 그런 과장된 발언을 너무 잘 써요. 무슨 뜻으로 그런 말을 하는
지 도무지 알 수가 없을 지경이니, 원. 내가 젊었을 때는 안 그랬는데, 그때는 여
자라면 순무를 사랑한다고 말하지는 않았어요. 어머니를 사랑한다거나 구세주를
사랑한다고 말할 때와 똑같은 말투로 그렇게 말하지 않았다는 거죠” (L.M. 몽고메
리의 <레드먼드의 앤>(1915)중에서)
22
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 부정적 리뷰 분석 결과
• 부정적 차별화(negative differentiation)
• 긍정적인 견해보다 부정적인 의견을 서술할 때 다양한 어휘를 사용하는 현상
• 여러 나라의 언어에서 공통적으로 나타남
• 싫어함’을 표현하는데 구체적이고 독창적인 단어를 사용한 차별화
• “맑고 연한 호박색 음료, 소다처럼 흰색 거품이 덮였지만 순식간에 부글거리며 다
사라져버린다. 소다수와 아주 비슷해 보인다(sodalike). 달콤한 살구사탕 같은 향
내에 살짝 금속 맛이 도는(metallic)느낌이다. 구정물(wet dot water)에 살구맛
인공감미료를 녹인 듯한 맛. 나쁨…입에 머금었을 때 느낌은 면도날처럼 얄팍하고
(razor thin), 억지로 탄산화한(force-carbonated) 것 같다. 차라리 내 부엌 개수
대 물을 마시겠다!”
• 어떤 대상의 맛, 냄새, 모양이 어떤 식으로 나쁜가를 설명할 때 각자 느끼는
나쁜 느낌을 각기 다른 부정적 단어로 설명
• 쾌감보다는 고통을 묘사하는 형용사가 더 많음
23
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
“행복한 가정은 모두 비슷하지만, 불행한 가정은 각자 저마다의 방식
으로 불행하다”(톨스토이의 소설 <안나 카레니나>(1878) 중에서)
톨스토이(Leo Tolstoy)
24
토론
• 각자 부정적 리뷰를 작성했던 경험과 리뷰에 사용된 부정적 어휘의 예를 들어보기
• 문학 텍스트에서 분석하고 싶은 주제에 대해 생각해보기
25
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 부정적 리뷰 분석 결과
• 값비싼 음식과 성적인 표현
• “호화로운 맛, 입이 딱 벌어질 정도로 좋은, 섹시한 음식”
• “육즙이 풍부한 돼지 뱃살에 유혹적으로 그슬린 푸아그라(거위간)가 딸려 나옴
• 성적인 표현의 등장 빈도가 높은 음식은 스시와 디저트
• 저렴한 음식과 중독 관련 표현
• “닭날개 조심해, 중독적이야”,
• “마늘 국수..내가 고르는 마약이야”,
• “이 컵케이크는 크랙(crack, 흡연용으로 만든 값싼 코카인)같군”
• 정크푸드와 디저트를 중독으로 받아들이는 문화
스시 디저트
• “달콤한 유혹 롤”
• “섹시 레이디 롤”
• “핫 섹시 슈림프 롤”…
• 마시멜로…너무나 달콤해서 포르
노그래피라고 할 정도
• 따뜻한 밤과 모카 초콜릿 케이
크..매혹적인 속살
26
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• SNS 데이터의 특징
• 주관적 데이터 vs. 객관적 사실(fact)
• 주관적 데이터
• 영화에 대한 관객들의 감정과 생각, 의견
• “기대했던 것 만큼 감동적이었어요.”
• “한국 영화에서 가장 멋진 캐릭터가 아닐까…”
• 객관적 사실(fact)
• “영화 <변호인>은 12월 18일 개봉입니다"
27
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 분석 프로세스
28
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
영화 <변호인>에 대한 트윗 데이터 DB
29
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 고빈도 명사 추출
• 토픽(topic)
• 데이터에서 화제가 되는 높은 빈도의 키워드
• 사용자 들의 관심과 흥미를 반영한 키워드
• 방대한 양의 트윗의 내용을 직관적으로 이해하는데 유용
추출된 토픽 결과
30
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 분석 결과
• 영화 흥행에 가장 긍정적인 영향을 미친 영화적 속성
• ‘스토리’, ‘감독’, ‘배우’
• ‘스토리’, ‘감독’, ‘배우’에 대한 트윗 발생 비율(시계열적)
31
토론
• 문학 텍스트에 대한 정량적 분석의 장점은 무엇인가?
• SNS 데이터 분석을 활용할 수 있는 분야에 대해 생각해보기

More Related Content

More from ssuser4b1f48

More from ssuser4b1f48 (20)

NS-CUK Seminar: V.T.Hoang, Review on "GOAT: A Global Transformer on Large-sca...
NS-CUK Seminar: V.T.Hoang, Review on "GOAT: A Global Transformer on Large-sca...NS-CUK Seminar: V.T.Hoang, Review on "GOAT: A Global Transformer on Large-sca...
NS-CUK Seminar: V.T.Hoang, Review on "GOAT: A Global Transformer on Large-sca...
 
NS-CUK Seminar: J.H.Lee, Review on "Graph Propagation Transformer for Graph R...
NS-CUK Seminar: J.H.Lee, Review on "Graph Propagation Transformer for Graph R...NS-CUK Seminar: J.H.Lee, Review on "Graph Propagation Transformer for Graph R...
NS-CUK Seminar: J.H.Lee, Review on "Graph Propagation Transformer for Graph R...
 
NS-CUK Seminar: H.B.Kim, Review on "Cluster-GCN: An Efficient Algorithm for ...
NS-CUK Seminar: H.B.Kim,  Review on "Cluster-GCN: An Efficient Algorithm for ...NS-CUK Seminar: H.B.Kim,  Review on "Cluster-GCN: An Efficient Algorithm for ...
NS-CUK Seminar: H.B.Kim, Review on "Cluster-GCN: An Efficient Algorithm for ...
 
NS-CUK Seminar: H.E.Lee, Review on "Weisfeiler and Leman Go Neural: Higher-O...
NS-CUK Seminar: H.E.Lee,  Review on "Weisfeiler and Leman Go Neural: Higher-O...NS-CUK Seminar: H.E.Lee,  Review on "Weisfeiler and Leman Go Neural: Higher-O...
NS-CUK Seminar: H.E.Lee, Review on "Weisfeiler and Leman Go Neural: Higher-O...
 
NS-CUK Seminar:V.T.Hoang, Review on "GRPE: Relative Positional Encoding for G...
NS-CUK Seminar:V.T.Hoang, Review on "GRPE: Relative Positional Encoding for G...NS-CUK Seminar:V.T.Hoang, Review on "GRPE: Relative Positional Encoding for G...
NS-CUK Seminar:V.T.Hoang, Review on "GRPE: Relative Positional Encoding for G...
 
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
 
Aug 22nd, 2023: Case Studies - The Art and Science of Animation Production)
Aug 22nd, 2023: Case Studies - The Art and Science of Animation Production)Aug 22nd, 2023: Case Studies - The Art and Science of Animation Production)
Aug 22nd, 2023: Case Studies - The Art and Science of Animation Production)
 
Aug 17th, 2023: Case Studies - Examining Gamification through Virtual/Augment...
Aug 17th, 2023: Case Studies - Examining Gamification through Virtual/Augment...Aug 17th, 2023: Case Studies - Examining Gamification through Virtual/Augment...
Aug 17th, 2023: Case Studies - Examining Gamification through Virtual/Augment...
 
Aug 10th, 2023: Case Studies - The Power of eXtended Reality (XR) with 360°
Aug 10th, 2023: Case Studies - The Power of eXtended Reality (XR) with 360°Aug 10th, 2023: Case Studies - The Power of eXtended Reality (XR) with 360°
Aug 10th, 2023: Case Studies - The Power of eXtended Reality (XR) with 360°
 
Aug 8th, 2023: Case Studies - Utilizing eXtended Reality (XR) in Drones)
Aug 8th, 2023: Case Studies - Utilizing eXtended Reality (XR) in Drones)Aug 8th, 2023: Case Studies - Utilizing eXtended Reality (XR) in Drones)
Aug 8th, 2023: Case Studies - Utilizing eXtended Reality (XR) in Drones)
 
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
NS-CUK Seminar: J.H.Lee, Review on "Learnable Structural Semantic Readout for...
 
NS-CUK Seminar: H.E.Lee, Review on "Gated Graph Sequence Neural Networks", I...
NS-CUK Seminar: H.E.Lee,  Review on "Gated Graph Sequence Neural Networks", I...NS-CUK Seminar: H.E.Lee,  Review on "Gated Graph Sequence Neural Networks", I...
NS-CUK Seminar: H.E.Lee, Review on "Gated Graph Sequence Neural Networks", I...
 
NS-CUK Seminar:V.T.Hoang, Review on "Augmentation-Free Self-Supervised Learni...
NS-CUK Seminar:V.T.Hoang, Review on "Augmentation-Free Self-Supervised Learni...NS-CUK Seminar:V.T.Hoang, Review on "Augmentation-Free Self-Supervised Learni...
NS-CUK Seminar:V.T.Hoang, Review on "Augmentation-Free Self-Supervised Learni...
 
NS-CUK Journal club: H.E.Lee, Review on " A biomedical knowledge graph-based ...
NS-CUK Journal club: H.E.Lee, Review on " A biomedical knowledge graph-based ...NS-CUK Journal club: H.E.Lee, Review on " A biomedical knowledge graph-based ...
NS-CUK Journal club: H.E.Lee, Review on " A biomedical knowledge graph-based ...
 
NS-CUK Seminar: H.E.Lee, Review on "PTE: Predictive Text Embedding through L...
NS-CUK Seminar: H.E.Lee,  Review on "PTE: Predictive Text Embedding through L...NS-CUK Seminar: H.E.Lee,  Review on "PTE: Predictive Text Embedding through L...
NS-CUK Seminar: H.E.Lee, Review on "PTE: Predictive Text Embedding through L...
 
NS-CUK Seminar: H.B.Kim, Review on "Inductive Representation Learning on Lar...
NS-CUK Seminar: H.B.Kim,  Review on "Inductive Representation Learning on Lar...NS-CUK Seminar: H.B.Kim,  Review on "Inductive Representation Learning on Lar...
NS-CUK Seminar: H.B.Kim, Review on "Inductive Representation Learning on Lar...
 
NS-CUK Seminar: H.E.Lee, Review on "PTE: Predictive Text Embedding through L...
NS-CUK Seminar: H.E.Lee,  Review on "PTE: Predictive Text Embedding through L...NS-CUK Seminar: H.E.Lee,  Review on "PTE: Predictive Text Embedding through L...
NS-CUK Seminar: H.E.Lee, Review on "PTE: Predictive Text Embedding through L...
 
NS-CUK Seminar: J.H.Lee, Review on "Relational Self-Supervised Learning on Gr...
NS-CUK Seminar: J.H.Lee, Review on "Relational Self-Supervised Learning on Gr...NS-CUK Seminar: J.H.Lee, Review on "Relational Self-Supervised Learning on Gr...
NS-CUK Seminar: J.H.Lee, Review on "Relational Self-Supervised Learning on Gr...
 
NS-CUK Seminar: H.B.Kim, Review on "metapath2vec: Scalable representation le...
NS-CUK Seminar: H.B.Kim,  Review on "metapath2vec: Scalable representation le...NS-CUK Seminar: H.B.Kim,  Review on "metapath2vec: Scalable representation le...
NS-CUK Seminar: H.B.Kim, Review on "metapath2vec: Scalable representation le...
 
NS-CUK Seminar: H.E.Lee, Review on "Graph Star Net for Generalized Multi-Tas...
NS-CUK Seminar: H.E.Lee,  Review on "Graph Star Net for Generalized Multi-Tas...NS-CUK Seminar: H.E.Lee,  Review on "Graph Star Net for Generalized Multi-Tas...
NS-CUK Seminar: H.E.Lee, Review on "Graph Star Net for Generalized Multi-Tas...
 

NS-CUK Summer School: Jul 11th, 2023: Mapping the Republic of Letters using Social Network

  • 2. 1  디지털 인문학 입문  디지털 인문학 연구 분야와 사례  텍스트 분석(Text Analysis)  문학 텍스트 분석 사례  SNS 리뷰 분석 사례  영화 스크립트 분석 사례  영상 분석(Visual Analysis)  공간 분석(Spatial Analysis)  네트워크 분석(Network Analysis)
  • 3. 2 디지털 인문학 연구 분야와 사례 • 디지털 인문학 연구 분야 • Yale Digital Humanities ➀Text Analysis ➁Visual Analysis ➂Spatial Analysis ➃ Network Analysis DH 분야
  • 4. 3 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 디지털 인문학 연구 분야 • 텍스트 분석(Text Analysis) • 문학 텍스트, 역사 자료, SNS 데이터, 영화(드라마) 스크립트 등을 분석 • 토픽 모델링, 키워드 추출 등 • 문체 분석, 장르 분석, 감정 분석 등
  • 5. 4 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) • 문학 텍스트 • 소설, 시 • 문체, 장르, 감정 분석 • SNS 데이터 • 상품평, 리뷰, 블로그 • 감정 분석(긍정/부정/중립) • 역사 텍스트 • 역사적 사건 • 신문
  • 6. 5 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 디지털 인문학 연구 분야 • 문학 텍스트 분석 : 감정 분석(Matthew L. Jockers, Stanford University) • 토픽 모델링, 키워드 추출 등 제임스 조이스(James Jocye)의 『젊은 예술가의 초상』의 감정 그래프
  • 7. 6 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 디지털 인문학 연구 분야 • 텍스트 분석(Text Analysis) : 문학 텍스트 플롯(plot) 그래프(Matthew L. Jockers, Stanford University) 제임스 조이스의 『젊은 예술가의 초상』의 플롯(plot) 그래프
  • 8. 7 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석 (Text Analysis) : 브레드 포드 팔리(W.Bradford Paley)의 텍스트아크(TextArc) • 빈도 기반의 단어 시각화를 통해 텍스트의 내용적 의미를 전달 • 루이스 캐럴(Lewis Carrol)의 소설 『이상한 나라의 앨리스』
  • 9. 8 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트 • 2019 콘텐츠 임팩트 창의랩(한국콘텐츠진흥원) • (스토리 x 인공지능) AI : Storyteller
  • 10. 9 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
  • 11. 10 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트 • 특정 시인들의 문체를 모방한 시 생성기 개발 • 학습 데이터 구축의 중요성 • 윤동주, 김소월, 백석, 정지용 시인 선정, 시 수집 • 수집된 데이터의 정제 • 한자와 같이 학습에 불필요한 요소 제거
  • 12. 11 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트 • 시인 별 정량적 문체 분석 • 자연어처리(Natural Language Processing, NLP) 기술 • 형태소 분석 • 텍스트로부터 ‘뜻을 가진 가장 최소의 단위’(형태소)를 추출 • 서울대학교에서 개발한 ‘꼬꼬마 형태소 분석기’를 활용
  • 13. 12 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 국내 형태소 분석기 종류 • 한나눔 (Hannanum) • 꼬꼬마(Kkma) • 코모란(Komoran) • 은전 한 닢(Mecab) • 트위터(Twitter) • 형태소 분석 예시 • ‘나는 공을 찬다’ • 나(대명사)+는(주격 조사)+공(명사)+을(조사)+차(동사)+ㄴ다(종결 어미)
  • 14. 13 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 시인 별 정량적 문체 연구 백석 시인의 빈발 워드 클라우드 윤동주 시인의 빈발 워드 클라우드
  • 15. 14 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 시인 별 정량적 문체 연구 정지용 시인의 빈발 워드 클라우드 김소월 시인의 빈발 워드 클라우드
  • 16. 15 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 시인 별 문체 특징
  • 17. 16 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 딥러닝 기반의 시 창작 모델 • 단어 레벨의 인코더·디코더 네트워크 구축 • 인코더 네트워크: 입력 문장으로부터 문장 구조, 단어 사이의 관계 등 특징 값 추출 • 디코더 네트워크: 특징 값을 반영한 새로운 문장 생성 • 작가, 제목, 행의 줄 번호를 네트워크에 입력 • 학습할 타겟 문장과 네트워크로 생성한 문장 사이의 차이를 최소화
  • 18. 17 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 딥러닝 기반의 시 창작 모델 딥러닝 모델 - Word-level encoder-decoder LSTM 모델(aka. seq2seq 네트워크)을 변형 학습 데이터 - 학습 데이터의 형태: 텍스트 파일로 저장된 ‘작가명’, ‘시 제목’,’ ‘시 문장’ (전처리를 통해 한자 등을 필터링함) - 윤동주(96편), 백석(135편), 김소월(210편), 정지용(112편) 포함 유명 시 약 1000 편 수집 Encoder 모델 - LSTM 네트워크 기반 - 입력 시퀀스 (작가명, 시 제목, 시 줄 번호)가 들어오면, Embedding 후 LSTM 네트워크에 입력하여 입력 시퀀스의 특 징을 추출 - Encoder LSTM의 Output과 Last Hidden States를 Decoder의 입력으로 사용 Decoder 모델 - LSTM 네트워크 기반 - Attention Mechanism을 적용하여 학습 시 입력 시퀀스와 출력 문장 간의 관련성을 잘 학습하도록 구성 - Encoder의 Last Hidden States과 Decoder의 입력(Start Token)과 Concatenate하여 Attention Weight를 구함 - Attention Weight를 이용해 Encoder의 Output에 적용, LSTM에 입력하여 시 문장 시퀀스를 출력 네트워크 - 각 네트워크의 Hidden Size: 256 Dimension - 각 네트워크의 레이어 깊이: 3 - 학습할 수 있는 최대 길이: 30 word sequence lenth - 학습 전 모든 LSTM 네트워크는 0으로 초기화 학습 과정 - 학습은 입력 시퀀스와 관련된 시 문장과, Seq2Seq 네트워크 출력 문장 사이의 차이를 Negative Log Likelihood Loss 로 계산하여 Stochastic gradient descent를 이용해 학습 - 학습 방향성 지시를 위한 모멘텀: 0.9 - 전체 시 문장을 모두 학습하도록 50만번 Interation(반복)함
  • 19. 18 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • AI 人 『마음의 실험』 시집
  • 20. 19 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) : SNS 감정 분석 • 맛집 블로거 리뷰 분석 사례 • 댄 주래프스키(Dan Jurafsky)의 『음식의 언어』 • 스탠포드 대학교 컴퓨터 공학과/언어학과 교수 댄 주래프스키 (Dan Jurafsky) • 7장 : 섹스와 스시, 마약과 정크푸드 - 맛집 리뷰로 본 긍정의 심리학
  • 21. 20 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 맛집 블로거 리뷰 감정 분석 결과 • 7개 도시(샌프란시스코, 뉴욕, 시카고, 보스턴, 로스앤젤레스, 필라델피아, 워싱턴) 소재 레스토랑에 관한 온라인 리뷰 100만 건을 분석 • 호평을 한 리뷰와 가장 많이 연결되는 단어는 무엇인가? • 긍정적 감정 단어 • Love, delicious, best, amazing, great, favorite, perfect, excellent, wonderful, fantastic… • 악평을 한 리뷰와 어떤 단어가 가장 많이 결부되는가? • 부정적 감정 단어 • Horrible, bad, worst, terrible, disgusting, bland, awful, tasteless, nasty, dirty, yuck…
  • 22. 21 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 맛집 블로거 리뷰 감정 분석 결과 • 언제부터 무생물에 ‘Love’라는 단어를 썼을까? • 언어학자 에린 매킨(Erin McKean)은 젊은 여성들이 ‘love’라는 단어를 일반화하여 음 식 같은 무생물 대상에 ‘love’라는 단어를 쓰게 된 것은 1800년대 후반이라고 지적 • “요즘은 여자들이 그런 과장된 발언을 너무 잘 써요. 무슨 뜻으로 그런 말을 하는 지 도무지 알 수가 없을 지경이니, 원. 내가 젊었을 때는 안 그랬는데, 그때는 여 자라면 순무를 사랑한다고 말하지는 않았어요. 어머니를 사랑한다거나 구세주를 사랑한다고 말할 때와 똑같은 말투로 그렇게 말하지 않았다는 거죠” (L.M. 몽고메 리의 <레드먼드의 앤>(1915)중에서)
  • 23. 22 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 맛집 블로거 부정적 리뷰 분석 결과 • 부정적 차별화(negative differentiation) • 긍정적인 견해보다 부정적인 의견을 서술할 때 다양한 어휘를 사용하는 현상 • 여러 나라의 언어에서 공통적으로 나타남 • 싫어함’을 표현하는데 구체적이고 독창적인 단어를 사용한 차별화 • “맑고 연한 호박색 음료, 소다처럼 흰색 거품이 덮였지만 순식간에 부글거리며 다 사라져버린다. 소다수와 아주 비슷해 보인다(sodalike). 달콤한 살구사탕 같은 향 내에 살짝 금속 맛이 도는(metallic)느낌이다. 구정물(wet dot water)에 살구맛 인공감미료를 녹인 듯한 맛. 나쁨…입에 머금었을 때 느낌은 면도날처럼 얄팍하고 (razor thin), 억지로 탄산화한(force-carbonated) 것 같다. 차라리 내 부엌 개수 대 물을 마시겠다!” • 어떤 대상의 맛, 냄새, 모양이 어떤 식으로 나쁜가를 설명할 때 각자 느끼는 나쁜 느낌을 각기 다른 부정적 단어로 설명 • 쾌감보다는 고통을 묘사하는 형용사가 더 많음
  • 24. 23 디지털 인문학 연구 분야와 사례 : ➀Text Analysis “행복한 가정은 모두 비슷하지만, 불행한 가정은 각자 저마다의 방식 으로 불행하다”(톨스토이의 소설 <안나 카레니나>(1878) 중에서) 톨스토이(Leo Tolstoy)
  • 25. 24 토론 • 각자 부정적 리뷰를 작성했던 경험과 리뷰에 사용된 부정적 어휘의 예를 들어보기 • 문학 텍스트에서 분석하고 싶은 주제에 대해 생각해보기
  • 26. 25 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 맛집 블로거 부정적 리뷰 분석 결과 • 값비싼 음식과 성적인 표현 • “호화로운 맛, 입이 딱 벌어질 정도로 좋은, 섹시한 음식” • “육즙이 풍부한 돼지 뱃살에 유혹적으로 그슬린 푸아그라(거위간)가 딸려 나옴 • 성적인 표현의 등장 빈도가 높은 음식은 스시와 디저트 • 저렴한 음식과 중독 관련 표현 • “닭날개 조심해, 중독적이야”, • “마늘 국수..내가 고르는 마약이야”, • “이 컵케이크는 크랙(crack, 흡연용으로 만든 값싼 코카인)같군” • 정크푸드와 디저트를 중독으로 받아들이는 문화 스시 디저트 • “달콤한 유혹 롤” • “섹시 레이디 롤” • “핫 섹시 슈림프 롤”… • 마시멜로…너무나 달콤해서 포르 노그래피라고 할 정도 • 따뜻한 밤과 모카 초콜릿 케이 크..매혹적인 속살
  • 27. 26 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례 • SNS 데이터의 특징 • 주관적 데이터 vs. 객관적 사실(fact) • 주관적 데이터 • 영화에 대한 관객들의 감정과 생각, 의견 • “기대했던 것 만큼 감동적이었어요.” • “한국 영화에서 가장 멋진 캐릭터가 아닐까…” • 객관적 사실(fact) • “영화 <변호인>은 12월 18일 개봉입니다"
  • 28. 27 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례 • 분석 프로세스
  • 29. 28 디지털 인문학 연구 분야와 사례 : ➀Text Analysis 영화 <변호인>에 대한 트윗 데이터 DB
  • 30. 29 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례 • 고빈도 명사 추출 • 토픽(topic) • 데이터에서 화제가 되는 높은 빈도의 키워드 • 사용자 들의 관심과 흥미를 반영한 키워드 • 방대한 양의 트윗의 내용을 직관적으로 이해하는데 유용 추출된 토픽 결과
  • 31. 30 디지털 인문학 연구 분야와 사례 : ➀Text Analysis • 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례 • 분석 결과 • 영화 흥행에 가장 긍정적인 영향을 미친 영화적 속성 • ‘스토리’, ‘감독’, ‘배우’ • ‘스토리’, ‘감독’, ‘배우’에 대한 트윗 발생 비율(시계열적)
  • 32. 31 토론 • 문학 텍스트에 대한 정량적 분석의 장점은 무엇인가? • SNS 데이터 분석을 활용할 수 있는 분야에 대해 생각해보기