SQuAD가 공개되고 널리 알려지면서 기계독해(Machine Reading Comprehension)가 각광받기 시작했습니다. SQuAD란 스탠포드대에서 만든, 기계가 주어진 문서를 읽고 그와 관련된 질문을 할 경우 정답을 찾아 답해주는 시스템을 위한 데이터셋을 뜻합니다. 이러한 기계독해가 어떻게 작동하는지, 어떻게 접근해야 이해를 돕게 할 수 있고 어떻게 해야 대답을 잘 할 수 있게 하는지에 대한 경험에 대해 이야기해 보고자 합니다.
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
발표 영상 : https://youtu.be/klnfWhPGPRs
코드 : https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
음성 합성 데모 : http://carpedm20.github.io/tacotron
발표 소개 : https://deview.kr/2017/schedule/182
딥러닝을 활용한 음성 합성 기술을 소개하고 개발 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
책 읽어주는 딥러닝: 배우 유인나가 해리포터를 읽어준다면 DEVIEW 2017Taehoon Kim
발표 영상 : https://youtu.be/klnfWhPGPRs
코드 : https://github.com/carpedm20/multi-speaker-tacotron-tensorflow
음성 합성 데모 : http://carpedm20.github.io/tacotron
발표 소개 : https://deview.kr/2017/schedule/182
딥러닝을 활용한 음성 합성 기술을 소개하고 개발 경험과 그 과정에서 얻었던 팁을 공유하고자 합니다.
NDC 2015 이은석 - pay-to-skip: 온라인 게임 속 로봇 경제와 내몰리는 인간Eunseok Yi
[NDC 2015 강연]
최근 인공지능(AI) 기술은 급격히 발전하고 있으며,
인간의 고유영역으로 생각됐던 분야들마저 더 효율좋은 기계가 점점 대체하고 있습니다.
머지 않은 미래에 로봇으로 인한 인간의 일자리 감소와, 자본주의 시스템의 부의 편중 문제는 훨씬 심각해질 것입니다.
한편, 인간사회의 축소판인 MMORPG에선 이런 일 역시 일찍 벌어지게 됩니다.
현실의 육체를 필요로 하지 않는 게임세계에서는 인간을 대신해 플레이하는 소위 '작업장'의 AI 봇(bot)들이 자칫 활개치기 쉬운데, 봇들은 돈을 내는 소수의 사용자를 위해 고용되므로 다수의 무료 유저들의 경쟁력을 떨어뜨려, 더욱 더 밀도 낮고 지루한 게임 경험을 하게 만들고, 결과적으로 Pay-to-Skip 게임이 돼버리게 합니다.
이런 현상의 메커니즘을 살펴보고, 문제를 완전히 해결하기는 어려워도 실마리를 찾아보고자 합니다.
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
이 슬라이드는 2010년 넥슨 개발자 컨퍼런스에서 발표한
"마비노기 영웅전"의 내러티브적 시도에 대한 자료입니다.
동영상이 많이 포함된 슬라이드 특성 때문에
발표 당시에는 웹에 슬라이드를 공유하지 않았었고,
5년이 지난 후에야 뒤늦게 공유하게 되었습니다.
2010년 자료이고, 당시 발표자 두 명은 모두 영웅전 프로젝트를 떠나
현재는 다른 프로젝트를 진행하고 있기 때문에
슬라이드의 내용은 현재의 "마비노기 영웅전"과는
개발 기조와 의도, 방식 등에 차이가 있을 수 있습니다.
NDC 2015 이은석 - pay-to-skip: 온라인 게임 속 로봇 경제와 내몰리는 인간Eunseok Yi
[NDC 2015 강연]
최근 인공지능(AI) 기술은 급격히 발전하고 있으며,
인간의 고유영역으로 생각됐던 분야들마저 더 효율좋은 기계가 점점 대체하고 있습니다.
머지 않은 미래에 로봇으로 인한 인간의 일자리 감소와, 자본주의 시스템의 부의 편중 문제는 훨씬 심각해질 것입니다.
한편, 인간사회의 축소판인 MMORPG에선 이런 일 역시 일찍 벌어지게 됩니다.
현실의 육체를 필요로 하지 않는 게임세계에서는 인간을 대신해 플레이하는 소위 '작업장'의 AI 봇(bot)들이 자칫 활개치기 쉬운데, 봇들은 돈을 내는 소수의 사용자를 위해 고용되므로 다수의 무료 유저들의 경쟁력을 떨어뜨려, 더욱 더 밀도 낮고 지루한 게임 경험을 하게 만들고, 결과적으로 Pay-to-Skip 게임이 돼버리게 합니다.
이런 현상의 메커니즘을 살펴보고, 문제를 완전히 해결하기는 어려워도 실마리를 찾아보고자 합니다.
우리는 지금 무엇을 하고있는지를 고민하나요? 아니면 무엇이 되어가고 있는지를 고민하나요? 네 맞습니다. 우리는 매년 무엇을 할지 고민합니다. 그런데 중요한것은 방향 즉 어디를 가고 있는지 입니다.
그래서 넷플릭스의 추천 시스템이 어디를 향해 가고 있는지를 살펴보고 추천시스템의 향해 가야할 Goal에 대하여 같이 이야기를 해보고자 합니다
이 슬라이드는 2010년 넥슨 개발자 컨퍼런스에서 발표한
"마비노기 영웅전"의 내러티브적 시도에 대한 자료입니다.
동영상이 많이 포함된 슬라이드 특성 때문에
발표 당시에는 웹에 슬라이드를 공유하지 않았었고,
5년이 지난 후에야 뒤늦게 공유하게 되었습니다.
2010년 자료이고, 당시 발표자 두 명은 모두 영웅전 프로젝트를 떠나
현재는 다른 프로젝트를 진행하고 있기 때문에
슬라이드의 내용은 현재의 "마비노기 영웅전"과는
개발 기조와 의도, 방식 등에 차이가 있을 수 있습니다.
비행기 설계를 왜 통일 해야 할까?
디자인 시스템을 하는 이유
비행기들이 다 용도가 다르다...어떻게 설계하지?
맥락이 다른 페이지와 패턴
경유지까지 아직 멀었다... 언제 수리하지?
디자인 시스템을 적용하는 시점
엔지니어랑 얘기해서 정비해야하는데...어떻게 수리하지?
디자인 시스템을 적용하는 프로세스
비행기 설계가 바뀐걸 어떻게 알리지?
디자인 시스템의 전파
5. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
5
6. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
6
7. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
7
8. 연구의 계기
• 기계가 질의응답을 하는 방법
– 지식 베이스
• 정형화 데이터가 필요함
– 학습을 통한 암기
• 암기 데이터를 제외하면 대답을 못함
– 읽기 & 추출
• 소스 데이터에 나타나는 정확한 위치를 찾아내야 함
8
9. 하고 싶은 것
9
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
10. 하고 싶은 것
10
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
11. 하고 싶은 것
11
대한민국(大韓民國, 영어: Republic of Korea; ROK, 문화어: 남
조선; 南朝鮮), 약칭으로 한국(韓國), 남한(南韓)은 동아시아의
한반도 남부에 있는 공화국이다. 서쪽으로는 서해를 사이에
두고 중화인민공화국이, 동쪽으로는 동해를 사이에 두고 일본
이 있으며 북쪽으로는 조선민주주의인민공화국과 맞닿아 있
다. 수도는 서울특별시이며, 국기는 태극기, 국가는 애국가, 공
용어는 한국어이다.
Q: 대한민국 서쪽에는 어느 나라가 있나?
서쪽에는 중화인민공화국이 있네요
34. Contextual Embedding
• CoVe (McCann et al., 2017)
– MT-LSTM을 통한 사전학습
• ELMo (Peters et al., 2018)
– Language Model을 통한 사전학습
34
나 ?? 사과 가 정말 좋 아
Language Model이란?
36. Feature
• 어휘 정보 외 추가적인 정보
– Linguistic feature
• POS, Named Entity, Dependency Label…
– Term frequency
– Co-occurrence
• Context와 Question 모두에 나타나는가?
– Soft alignment
• GloVe 벡터 간의 내적 유사도
36
37. 왜 써야하나?
• 사람이 직접 문제를 풀 때를 생각
– 품사를 보고 정답 위치를 유추
• 조사의 경우 앞 혹은 뒤쪽에 정보가 나타남
• 어미의 경우 문장의 끝을 나타냄을 알 수 있음
• 고유명사, 영어, 수사, 숫자 등은 정답과 직접적 관련이 있음
– 구문적인 구조를 생각해 정답 위치를 유추
– 질의 타입(예: Who, Where)과 개체명을 대입
37
38. 자질이 도움이 되는 예
38
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
40. 문제가 생기는 경우
• 단순히 자질 벡터를 사용하면?
– 자질 간 간섭 문제 발생
• 개체명은 맞다고 생각하는데 의존 구문은 아니라고 판단
• 복잡도가 상승되어 성능 하락 가능성 발생
– 성능 향상에 도움되는 자질을 선별 필요
• 실험을 통해 판단 해야함
• 인적 자원 및 컴퓨팅 자원 낭비
– 오류 전파
• 언어 분석이 잘못되면 오류가 전파됨
40
65. 여기서도 자질이 도움이 될까?
• 마피아 게임
65
1
2
34
5
정황을 봐서
는 3번이 마피
아 같은데?
66. 여기서도 자질이 도움이 될까?
• 마피아 게임
66
1
2
34
5
3번이 말을 더
듬고 동공이
흔들렸어!
67. 확인해보자
67
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
68. 확인해보자
68
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
69. 확인해보자
69
… Newton was sacked by DeMarcus Ware as time
expired in the half.
Who was sacked as the first half clock expired?Question
Context
70. 학습 방법
• Negative log probability
• REINFORCE algorithm (Williams 1992)
70
71. 강화학습을 쓰면?
• 적은 학습 데이터에서 효율
– 한국어 20,000개 데이터
• 데이터가 많으면?
– 성능은 비슷하나 학습 속도 차이가 심함
• 예측 후 학습해야 함
71
Model Exact Match F1-Score
without Reinforcement Learning 43.70 69.39
with Reinforcement Learning 45.66 72.90
73. 말은 어떻게 할까?
• 가장 쉬운 접근법
– Output layer를 생성 모델로 변경
73
74. 하지만 데이터가 없는데…
• 다른 방식을 선택
– Zero-shot learning
• Zero-Shot Relation Extraction via Reading Comprehension
(Omer et al., 2017)
– Knowledge-Based Question Answering
• Generating Natural Answers by Incorporating Copying and
Retrieving Mechanisms in Sequence-to-Sequence Learning
(He et al., 2017)
• 지식 기반 채팅 시스템에서의 어휘 반복 문제 해결 (김시형,
김학수, 2018)
74
75. 나아가야 할 길
• 문맥에 질문에 대한 내용이 없을 때
– SQuAD v2.0
• 자연어 문장 생성
– 단어가 아닌 자연스러운 문장
• 적은 데이터로도 확실하게
• 도메인에 종속적이지 않도록
75