[보아즈 7th 빅데이터 컨퍼런스]
사람들은 자신만의 사랑과 이별의 이야기가 있다. 그러한 감정을 표현하고 위로해주는 대표적인 수단 중 하나는 노래이다. 우리는 이야기에 공감해주는 노래가 있다면 우리의 마음을 더 치유해주지 않을까? Attention을 이용한 RNN-LSTM모형으로 새로운 이별 노래 가사를 만들어보자
8기 김유진, 유예진, 이재준, 정민규
** 국내 최초 대학생 빅데이터 연합동아리 BOAZ **
블로그: http://blog.naver.com/boazbigdata
페이스북: https://www.facebook.com/BOAZbigdata
46. 3. 모델 설명
→ Get result
47
• Input : Attention-weighted encoder output
• Output : word Probability
Attention Weighted
Encoder Output
47. 3. 모델 설명
→ Get result
48
• Input : Attention-weighted encoder output
• Output : word Probability
Word Probability
Attention Weighted
Encoder Output
56. 56
RNN-LSTM without attention
4. 결과 및 해석
정말 네게 사랑을 구걸하지 않았어
진심을 원했어
마지막으로 우리 만난 날도
넌 진심이 없었어
변해가는 데 쉽게
너의 마음을 울리는 사랑
나 어떡하죠
흩어져 가는 길
이 내 사랑의 마지막은
57. 57
RNN-LSTM without attention
4. 결과 및 해석
정말 네게 사랑을 구걸하지 않았어
진심을 원했어
마지막으로 우리 만난 날도
넌 진심이 없었어
변해가는 데 쉽게
너의 마음을 울리는 사랑
나 어떡하죠
흩어져 가는 길
이 내 사랑의 마지막은
어반자카파 – 니가 싫어?
68. 68
결과
4. 결과 및 해석
1. Input / Output의 차이
소절보다는 단어를 예측하는 게
훨씬 수월
69. 69
결과
4. 결과 및 해석
2. 데이터 부족
Attention을 이용한 English – French 번역 때,
총 800만개의 데이터를 사용
출처 : Neural Machine Translation by Jointly Learning to Align and TranslateDzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio
70. 70
결과
4. 결과 및 해석
2. 데이터 부족
이별가사 제너레이터에는
총 30만개의 데이터 사용
(With Attention과 Without attention 모두)
Attention을 이용하기에는 너무 적은 데이터
71. 71
결과
4. 결과 및 해석
사전 크기
50000개
Training Step
100000번
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
72. 72
결과
4. 결과 및 해석
사전 크기
50000개
Training Step이 충분함에도
학습이 잘 안 됨
Training Step
100000번
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
73. 73
결과
4. 결과 및 해석
사전 크기
40000개
학습이 비교적 잘 됨
Training Step
30000번 이하
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
74. 74
결과
4. 결과 및 해석
WHY? 사전크기
50000개 :
출현빈도가 1인 단어도 포함
40000개 :
출현빈도가 2인 단어부터 포함
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
75. 75
결과
4. 결과 및 해석
사전크기가 40000개일 때
Training Step을 30000개로 하면?
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
76. 76
결과
4. 결과 및 해석
➊ 결과물의 95%이상이 다음 소절과 동일
사전크기가 40000개일 때
Training Step을 30000개로 하면?
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
77. 77
결과
4. 결과 및 해석
➋ Word Probability 중
2번째로 큰 Word를 Generate
사전크기가 40000개일 때
Training Step을 30000개로 하면?
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
78. 78
결과
4. 결과 및 해석
하지만
Overfitting이 과연 안 좋은 것일까?
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
79. 79
결과
4. 결과 및 해석
Mixed Input, Mixed Effect !
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
80. 80
결과
4. 결과 및 해석
우리 이제 그만 헤어져
Output1 + Output2 ?
우리 이제 헤어져 Output1
우리 이제 그만 Output2
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
81. 81
결과
4. 결과 및 해석
Overfitting이지만
새로운 가사를 제너레이트
우리 이제 헤어져 Output1
우리 이제 그만 Output2
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
82. 82
결과
4. 결과 및 해석
더 적절한 사전 크기와 Training Step이
있을 것이라고 생각
3. 사전 크기와 Training Step의 적정 조합 찾기 (Attention)
83. 김유진 유예진 이재준 정민규
감
사
합
니
다
보아즈 제 7회 컨퍼런스
“이별가사 제너레이터…”