2. 1
디지털 인문학 입문
디지털 인문학 연구 분야와 사례
텍스트 분석(Text Analysis)
문학 텍스트 분석 사례
SNS 리뷰 분석 사례
영화 스크립트 분석 사례
영상 분석(Visual Analysis)
공간 분석(Spatial Analysis)
네트워크 분석(Network Analysis)
3. 2
디지털 인문학 연구 분야와 사례
• 디지털 인문학 연구 분야
• Yale Digital Humanities
➀Text Analysis ➁Visual Analysis
➂Spatial Analysis ➃ Network Analysis
DH 분야
4. 3
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 텍스트 분석(Text Analysis)
• 문학 텍스트, 역사 자료, SNS 데이터, 영화(드라마) 스크립트 등을 분석
• 토픽 모델링, 키워드 추출 등
• 문체 분석, 장르 분석, 감정 분석 등
5. 4
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis)
• 문학 텍스트
• 소설, 시
• 문체, 장르, 감정 분석
• SNS 데이터
• 상품평, 리뷰, 블로그
• 감정 분석(긍정/부정/중립)
• 역사 텍스트
• 역사적 사건
• 신문
6. 5
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 문학 텍스트 분석 : 감정 분석(Matthew L. Jockers, Stanford University)
• 토픽 모델링, 키워드 추출 등
제임스 조이스(James Jocye)의 『젊은 예술가의 초상』의 감정 그래프
7. 6
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 디지털 인문학 연구 분야
• 텍스트 분석(Text Analysis) : 문학 텍스트 플롯(plot) 그래프(Matthew L. Jockers,
Stanford University)
제임스 조이스의 『젊은 예술가의 초상』의 플롯(plot) 그래프
8. 7
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : 브레드 포드 팔리(W.Bradford Paley)의 텍스트아크(TextArc)
• 빈도 기반의 단어 시각화를 통해 텍스트의 내용적 의미를 전달
• 루이스 캐럴(Lewis Carrol)의 소설 『이상한 나라의 앨리스』
9. 8
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 2019 콘텐츠 임팩트 창의랩(한국콘텐츠진흥원)
• (스토리 x 인공지능) AI : Storyteller
10. 9
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
11. 10
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 특정 시인들의 문체를 모방한 시 생성기 개발
• 학습 데이터 구축의 중요성
• 윤동주, 김소월, 백석, 정지용 시인 선정, 시 수집
• 수집된 데이터의 정제
• 한자와 같이 학습에 불필요한 요소 제거
12. 11
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석 (Text Analysis) : AI人 : 인공지능 기반의 한국어 시 생성 프로젝트
• 시인 별 정량적 문체 분석
• 자연어처리(Natural Language Processing, NLP) 기술
• 형태소 분석
• 텍스트로부터 ‘뜻을 가진 가장 최소의 단위’(형태소)를 추출
• 서울대학교에서 개발한 ‘꼬꼬마 형태소 분석기’를 활용
13. 12
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 국내 형태소 분석기 종류
• 한나눔 (Hannanum)
• 꼬꼬마(Kkma)
• 코모란(Komoran)
• 은전 한 닢(Mecab)
• 트위터(Twitter)
• 형태소 분석 예시
• ‘나는 공을 찬다’
• 나(대명사)+는(주격 조사)+공(명사)+을(조사)+차(동사)+ㄴ다(종결 어미)
14. 13
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 시인 별 정량적 문체 연구
백석 시인의 빈발 워드 클라우드 윤동주 시인의 빈발 워드 클라우드
15. 14
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 시인 별 정량적 문체 연구
정지용 시인의 빈발 워드 클라우드 김소월 시인의 빈발 워드 클라우드
17. 16
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 딥러닝 기반의 시 창작 모델
• 단어 레벨의 인코더·디코더 네트워크 구축
• 인코더 네트워크: 입력 문장으로부터 문장 구조, 단어 사이의 관계 등 특징 값 추출
• 디코더 네트워크: 특징 값을 반영한 새로운 문장 생성
• 작가, 제목, 행의 줄 번호를 네트워크에 입력
• 학습할 타겟 문장과 네트워크로 생성한 문장 사이의 차이를 최소화
18. 17
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 딥러닝 기반의 시 창작 모델
딥러닝 모델 - Word-level encoder-decoder LSTM 모델(aka. seq2seq 네트워크)을 변형
학습 데이터
- 학습 데이터의 형태: 텍스트 파일로 저장된 ‘작가명’, ‘시 제목’,’ ‘시 문장’ (전처리를 통해 한자 등을 필터링함)
- 윤동주(96편), 백석(135편), 김소월(210편), 정지용(112편) 포함 유명 시 약 1000 편 수집
Encoder
모델
- LSTM 네트워크 기반
- 입력 시퀀스 (작가명, 시 제목, 시 줄 번호)가 들어오면, Embedding 후 LSTM 네트워크에 입력하여 입력 시퀀스의 특
징을 추출
- Encoder LSTM의 Output과 Last Hidden States를 Decoder의 입력으로 사용
Decoder
모델
- LSTM 네트워크 기반
- Attention Mechanism을 적용하여 학습 시 입력 시퀀스와 출력 문장 간의 관련성을 잘 학습하도록 구성
- Encoder의 Last Hidden States과 Decoder의 입력(Start Token)과 Concatenate하여 Attention Weight를 구함
- Attention Weight를 이용해 Encoder의 Output에 적용, LSTM에 입력하여 시 문장 시퀀스를 출력
네트워크
- 각 네트워크의 Hidden Size: 256 Dimension
- 각 네트워크의 레이어 깊이: 3
- 학습할 수 있는 최대 길이: 30 word sequence lenth
- 학습 전 모든 LSTM 네트워크는 0으로 초기화
학습 과정
- 학습은 입력 시퀀스와 관련된 시 문장과, Seq2Seq 네트워크 출력 문장 사이의 차이를 Negative Log Likelihood Loss
로 계산하여 Stochastic gradient descent를 이용해 학습
- 학습 방향성 지시를 위한 모멘텀: 0.9
- 전체 시 문장을 모두 학습하도록 50만번 Interation(반복)함
19. 18
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• AI 人 『마음의 실험』 시집
20. 19
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : SNS 감정 분석
• 맛집 블로거 리뷰 분석 사례
• 댄 주래프스키(Dan Jurafsky)의 『음식의 언어』
• 스탠포드 대학교 컴퓨터 공학과/언어학과 교수 댄 주래프스키
(Dan Jurafsky)
• 7장 : 섹스와 스시, 마약과 정크푸드 - 맛집 리뷰로 본 긍정의
심리학
21. 20
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 리뷰 감정 분석 결과
• 7개 도시(샌프란시스코, 뉴욕, 시카고, 보스턴, 로스앤젤레스, 필라델피아, 워싱턴) 소재
레스토랑에 관한 온라인 리뷰 100만 건을 분석
• 호평을 한 리뷰와 가장 많이 연결되는 단어는 무엇인가?
• 긍정적 감정 단어
• Love, delicious, best, amazing, great, favorite, perfect, excellent,
wonderful, fantastic…
• 악평을 한 리뷰와 어떤 단어가 가장 많이 결부되는가?
• 부정적 감정 단어
• Horrible, bad, worst, terrible, disgusting, bland, awful, tasteless, nasty,
dirty, yuck…
22. 21
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 리뷰 감정 분석 결과
• 언제부터 무생물에 ‘Love’라는 단어를 썼을까?
• 언어학자 에린 매킨(Erin McKean)은 젊은 여성들이 ‘love’라는 단어를 일반화하여 음
식 같은 무생물 대상에 ‘love’라는 단어를 쓰게 된 것은 1800년대 후반이라고 지적
• “요즘은 여자들이 그런 과장된 발언을 너무 잘 써요. 무슨 뜻으로 그런 말을 하는
지 도무지 알 수가 없을 지경이니, 원. 내가 젊었을 때는 안 그랬는데, 그때는 여
자라면 순무를 사랑한다고 말하지는 않았어요. 어머니를 사랑한다거나 구세주를
사랑한다고 말할 때와 똑같은 말투로 그렇게 말하지 않았다는 거죠” (L.M. 몽고메
리의 <레드먼드의 앤>(1915)중에서)
23. 22
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 부정적 리뷰 분석 결과
• 부정적 차별화(negative differentiation)
• 긍정적인 견해보다 부정적인 의견을 서술할 때 다양한 어휘를 사용하는 현상
• 여러 나라의 언어에서 공통적으로 나타남
• 싫어함’을 표현하는데 구체적이고 독창적인 단어를 사용한 차별화
• “맑고 연한 호박색 음료, 소다처럼 흰색 거품이 덮였지만 순식간에 부글거리며 다
사라져버린다. 소다수와 아주 비슷해 보인다(sodalike). 달콤한 살구사탕 같은 향
내에 살짝 금속 맛이 도는(metallic)느낌이다. 구정물(wet dot water)에 살구맛
인공감미료를 녹인 듯한 맛. 나쁨…입에 머금었을 때 느낌은 면도날처럼 얄팍하고
(razor thin), 억지로 탄산화한(force-carbonated) 것 같다. 차라리 내 부엌 개수
대 물을 마시겠다!”
• 어떤 대상의 맛, 냄새, 모양이 어떤 식으로 나쁜가를 설명할 때 각자 느끼는
나쁜 느낌을 각기 다른 부정적 단어로 설명
• 쾌감보다는 고통을 묘사하는 형용사가 더 많음
24. 23
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
“행복한 가정은 모두 비슷하지만, 불행한 가정은 각자 저마다의 방식
으로 불행하다”(톨스토이의 소설 <안나 카레니나>(1878) 중에서)
톨스토이(Leo Tolstoy)
25. 24
토론
• 각자 부정적 리뷰를 작성했던 경험과 리뷰에 사용된 부정적 어휘의 예를 들어보기
• 문학 텍스트에서 분석하고 싶은 주제에 대해 생각해보기
26. 25
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 맛집 블로거 부정적 리뷰 분석 결과
• 값비싼 음식과 성적인 표현
• “호화로운 맛, 입이 딱 벌어질 정도로 좋은, 섹시한 음식”
• “육즙이 풍부한 돼지 뱃살에 유혹적으로 그슬린 푸아그라(거위간)가 딸려 나옴
• 성적인 표현의 등장 빈도가 높은 음식은 스시와 디저트
• 저렴한 음식과 중독 관련 표현
• “닭날개 조심해, 중독적이야”,
• “마늘 국수..내가 고르는 마약이야”,
• “이 컵케이크는 크랙(crack, 흡연용으로 만든 값싼 코카인)같군”
• 정크푸드와 디저트를 중독으로 받아들이는 문화
스시 디저트
• “달콤한 유혹 롤”
• “섹시 레이디 롤”
• “핫 섹시 슈림프 롤”…
• 마시멜로…너무나 달콤해서 포르
노그래피라고 할 정도
• 따뜻한 밤과 모카 초콜릿 케이
크..매혹적인 속살
27. 26
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• SNS 데이터의 특징
• 주관적 데이터 vs. 객관적 사실(fact)
• 주관적 데이터
• 영화에 대한 관객들의 감정과 생각, 의견
• “기대했던 것 만큼 감동적이었어요.”
• “한국 영화에서 가장 멋진 캐릭터가 아닐까…”
• 객관적 사실(fact)
• “영화 <변호인>은 12월 18일 개봉입니다"
28. 27
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 분석 프로세스
29. 28
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
영화 <변호인>에 대한 트윗 데이터 DB
30. 29
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 고빈도 명사 추출
• 토픽(topic)
• 데이터에서 화제가 되는 높은 빈도의 키워드
• 사용자 들의 관심과 흥미를 반영한 키워드
• 방대한 양의 트윗의 내용을 직관적으로 이해하는데 유용
추출된 토픽 결과
31. 30
디지털 인문학 연구 분야와 사례 : ➀Text Analysis
• 텍스트 분석(Text Analysis) : 트위터를 활용한 영화 <변호인>의 흥행 요인 분석 사례
• 분석 결과
• 영화 흥행에 가장 긍정적인 영향을 미친 영화적 속성
• ‘스토리’, ‘감독’, ‘배우’
• ‘스토리’, ‘감독’, ‘배우’에 대한 트윗 발생 비율(시계열적)
32. 31
토론
• 문학 텍스트에 대한 정량적 분석의 장점은 무엇인가?
• SNS 데이터 분석을 활용할 수 있는 분야에 대해 생각해보기