SlideShare a Scribd company logo
1 of 36
설명자료 작성
Watanabe yusuke
번역
김홍배
Meta-Learning with Memory-
Augmented Neural Networks
논문저자 :
Adam Santoro, Sergey Bartunov, Matthew Botvinick,
Daan Wierstra, Timothy Lillicrap
Google DeepMind
논문을 한마디로 정리하면
2
Neural Turing Machine 을
One-Shot Learning 에 응용해 봄
Neural Turing Machine (NTM) 란 [Graves+2014]
• NTM이란、외부기억장치(메모리)와 읽기/쓰기 기능을 갖춘
Neural Network
• 복사 및 분류등과 같은 알고리즘을 학습하는 것이 가능
• Neural Network 이므로 Back Propagation 으로 학습 가능
Controller
MemoryRead Head Write Head
input
3
output
NTM
메모리와 읽기/쓰기 기능도
포함하여 전체가
Neural Network !
예 : NTM으로 계열 2배 복사 작업의 학습
입력계열 출력계열
0100 NTM 01000100
011 011011
110111 110111110111
10010 1001010010
학습시
4
입력계열을 2배로 복사한 계열로 만듬
입력계열과 출력계열을 학습 데이터로 NTM을 학습시키는 것이 가능
NTM
입력계열 출력계열
010111000 01011100001
0111000
controller
NTM은 들어온 계열을 차례로 메모리
에 써넣고 그것을 2회에 걸쳐 차례로
읽어낸다.
010111000010111000
5
테스트 시
010111000
010111000
예 : NTM으로 계열 2배 복사 작업의 학습
One-Shot Learning 란 ?
일반적인 NN의 학습
1개(또는 소수)의 예를 보여준 것만으로도 인식할 수
있도록 하도 싶다
One-Shot Learning
한번만 봐도 기억
(인간처럼!!)
6
...
많은 학습 데이터가 필요
One-Shot Learning 방법 : NN algorithm
학습 시 테스트 시
トリナクリ
ア
토리나쿠리아!
학습 데이터의
이미지 전체를
기억한다. 기억 중에서 가장 가까
운 이미지를 답한다.
이 접근법의 과제
• 이미지의 유사도는 어떻게 측정하면 좋을까 ?
• Nearest-Neighbor 알고리즘은 최적일까 ?
⇒ NTM을 사용하여、Nearest-Neighbor알고리즘
(보다 좋은 알고리즘) 을 공부해보자 !
ピザ 弥勒菩薩
7
논문개요
• Neural Turing Machine (NTM) 을 개조한 Memory-
Augmented Neural Network (MANN)을 제안
• One-Shot Learning 을 MANN 으로 수행
• Omniglot 데이터셋으로 평가 시 고성능을 달성
8
Ominglot 데이터 셋이란
• 다양한 문자종류로 이루어진 이미지 데이터 셋
• 문자는 1623종류, 각 문자 이미지는 20개
• 우선 학습용과 테스트용으로 문자종류를 나눈다.
• 1200문자종류를 학습으로, 423문자종류를 테스트로 사용
9
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
• 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
10
기억
11
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
•
•
•
•
12
1
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
1 2
오답 !
•
•
•
•
13
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
1 2
오답 !2
•
•
•
•
14
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2
•
•
•
•
15
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2
•
•
•
•
16
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
•
•
•
•
17
3
2
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
3 1
오답 !2
•
•
•
•
18
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
3 1
오답 !2 1
•
•
•
•
19
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
20
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
21
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 1
•
•
•
•
22
2
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 2
정답 !2 1
•
•
•
•
23
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
2 2
정답 !2 1
•
•
•
•
24
이하 50회 계속 ...
작업설정
“소수의 문제예를 본 것만으로 바로 인식이 가능”
하도록 학습시키자 !!
•
•
•
이런 일련의 프로세스를 에피소드라 부른다.
에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만,
에피소드의 후반으로 갈 수록 정답률이 올라간다.
빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다.
기억
엔피소드 작성법
1. 문자종류를 5개 선택하여、1~5까지 랜덤하게 섞는다.
2. 각 문자종류로부터 10개의 이미지를 선택한다.
3. 이러한 50개의 이미지를 랜덤하게 섞는다 :
1 episode
작업: 이미지 𝑥𝑡를보여주고、그번호(1~5)를 답하게한다.
직후에정답번호 𝑦𝑡 를보여준다.
25
...
학습과 테스트의 흐름
학습 시
테스트용 에피소드는 학습
에 사용하지 않은 것으로
테스트 시
대량의 에피소드로 학습
(문자를 분류하는 방법을 학습)
アいアいうアうえおお...アお
ああはイイういははあ...イう
らむららももあむよよ...よも
에피소드 길이 =50
26
ฆ ญฆ ฆช ฆ ... คกข…
1에피소드 중에 급격하게 정답률이 상승하면,
One-Shot Learning이 잘할 수 있게 되는 것
실험결과
MANN
(제안된 방법)
LSTM
(기준)
40000 에피소드 정도 학습하면、
2번째에서 80% 정도 정답률
27
• 학습방법은 MANN과 동일
• LSTM에서는 정답률이 좋지않음. 원인으로는
LSTM 셀은 과거의 데이터를 확실하게 기억
할 수 없기 때문이라고 생각된다
n-th instance = 각 라벨 문자 이미지를 n번째 볼때의 정답률
실험결과 (수치)
• Human: 인간이 이작업에 도전할 때의 성능
• Feedforward: 정답률은 1/5
28
실험결과 : 다른 방법과 비교
• Nearest-Neighbor 알고리즘보다도 MANN 쪽이 고성능
• 콘트롤러가 Feedforward인 MANN의 경우、 메모리는 기억
을 저장할 수 있다.
• LRUA(후술)이 없는 MANN (NTM)은 성능이 낮다.
29
MANN의 구조 : 개념도
( , (000100))
Memory
RReeaaddHHeeaadd
Write Head
Controller
LSTM
cell_size=200
(write weight의
계산방법은 후술)
𝒊i는 메모리 번지
30
Read Head
MANN의 구조 : 수식
• 읽기
kt 로부터 메모리에서
읽어내는 부분을 결정
(read weight)
i는 메모리 번지를 표시
• 쓰기 : 라벨과 이미지 쌍을 메모리에 저장한다.
write weight 계산
값 at를 write weight 에
따라 메모리에 쓰기
least used weight
최근에 사용되지 않은 메모리 영역을 나타내는
가중치 (후술)
31
MANN의 구조와 NTM과의 차이
• MANN 은 Least Recently Used Access (LRUA)의
기능이 있다 !!!
• MANN은 location-based addressing을 사용하지 않음.
used weight 의 계산
※ 정확히는 used weight이
작은 상위 m 개에서 값을
1로 한다
32
새로운 이미지의 정보는 아직 사용하지 않는 메모리 번지에 쓰고 싶다.
LRUA가 그것을 가능하게 하고있다. (LRUA가 없다면 안됀다)
관련논문 소개 : One-Shot Learning
• Matching Network [Vinyals2016]
• 본논문 ”Meta-Learning with Memory-Augmented Neural Network” 의 후속
• Omniglot 데이터셋 One-Shot Learning에서 MANN보다도 좋은 성능을 냄.
[Lake2012]
33
• Hierarchical Bayesian Program Learning
• 필기문자모델을 디자인하고 베이지안으로 학습
관련논문 소개 : Memory를 갖춘 Neural Network
34
Memory = 정보를 유지하여 나중에 꺼내는 일이 가능한 장치
Memory를 가진 장점
• 나중에 필요로 하는 정보를 안정적으로 보존가능
•
•
•
LSTM의 내부상태는 장기 보존용에 적합하지않음
복사작업 등 : [Ivo2016]
강화학습에서의 예 : [Junhyuk2016]
• 조합하고 싶은 정보를 “탁자 위에 배열하는” 것이 가능하다.
• QA 작업: [Sukhbaatar2016]
관련 논문 소개 : Memory를 가진 Neural Network
•
•
메모리에서 읽어들이는 방법과 메모리에 기록하는 방법을 모두 학습
메모리의 읽기/쓰기 attention은、Hard or Soft [Caglar2016]
• Memory Network [Weston2015, Sukhbaatar2016,Felix2016]
•
•
•
입력문을 메모리에 저장하여, 질문에 답하는데 필요한 부분을 추출入力
메모리에서 읽기는 attention (가중치)를 사용(Hard or Soft)
메모리에 쓸 내용 (embedding vector)는 학습
• 쓰는 방법은 학습하지않음
• Neural Turing Machine 계
입력문
입력문
질문
응답
질문
응답
メモリ部分
35
정리
36
• NTM를 응용하여、One-Shot Learning이 가능하다
• One-Shot Learning으로서 성능은 우수하나 최고는 아
니다.
• 이번에는 One-Shot Learning (Nearest-Neighbor적인
알고리즘)을 NTM으로 학습하였지만, 다른 작업에서도
유사한 아이디어를 사용하면
• 예로 active learning 등...
• 작업에 따라 、LRUA와 같은 기능을 생각할 필요가 있는 과제

More Related Content

What's hot

Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてSho Takase
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingTomoya Oda
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningYusuke Uchida
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習Yusuke Iwasawa
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!TransformerArithmer Inc.
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가Yongha Kim
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」Yuya Unno
 
safe and efficient off policy reinforcement learning
safe and efficient off policy reinforcement learningsafe and efficient off policy reinforcement learning
safe and efficient off policy reinforcement learningRyo Iwaki
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장Sunggon Song
 
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you needHoon Heo
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情Yuta Kikuchi
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling ProblemDeep Learning JP
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence ModelingDeep Learning JP
 
Nlpaper.challenge2 nlp2
Nlpaper.challenge2 nlp2Nlpaper.challenge2 nlp2
Nlpaper.challenge2 nlp2Hidehisa Arai
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들Chris Ohk
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoningDeep Learning JP
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and EditingDeep Learning JP
 

What's hot (20)

Transformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法についてTransformerを多層にする際の勾配消失問題と解決法について
Transformerを多層にする際の勾配消失問題と解決法について
 
Decision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence ModelingDecision Transformer: Reinforcement Learning via Sequence Modeling
Decision Transformer: Reinforcement Learning via Sequence Modeling
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
Semi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learningSemi supervised, weakly-supervised, unsupervised, and active learning
Semi supervised, weakly-supervised, unsupervised, and active learning
 
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
JSAI2017:敵対的訓練を利用したドメイン不変な表現の学習
 
全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가기계학습 / 딥러닝이란 무엇인가
기계학습 / 딥러닝이란 무엇인가
 
NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」NIP2015読み会「End-To-End Memory Networks」
NIP2015読み会「End-To-End Memory Networks」
 
safe and efficient off policy reinforcement learning
safe and efficient off policy reinforcement learningsafe and efficient off policy reinforcement learning
safe and efficient off policy reinforcement learning
 
밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장밑바닥부터 시작하는딥러닝 8장
밑바닥부터 시작하는딥러닝 8장
 
Cv20160205
Cv20160205Cv20160205
Cv20160205
 
Attention is all you need
Attention is all you needAttention is all you need
Attention is all you need
 
最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情最近のDeep Learning (NLP) 界隈におけるAttention事情
最近のDeep Learning (NLP) 界隈におけるAttention事情
 
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
【DL輪読会】論文解説:Offline Reinforcement Learning as One Big Sequence Modeling Problem
 
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
[DL輪読会]Decision Transformer: Reinforcement Learning via Sequence Modeling
 
Nlpaper.challenge2 nlp2
Nlpaper.challenge2 nlp2Nlpaper.challenge2 nlp2
Nlpaper.challenge2 nlp2
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
고려대학교 컴퓨터학과 특강 - 대학생 때 알았더라면 좋았을 것들
 
[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning[Dl輪読会]A simple neural network module for relational reasoning
[Dl輪読会]A simple neural network module for relational reasoning
 
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing[DL輪読会]GLIDE: Guided Language to Image Diffusion  for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
 

Viewers also liked

Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events홍배 김
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...홍배 김
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...홍배 김
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE홍배 김
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법 홍배 김
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners홍배 김
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명홍배 김
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA홍배 김
 
Learning by association
Learning by associationLearning by association
Learning by association홍배 김
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder홍배 김
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert홍배 김
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator홍배 김
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation홍배 김
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)홍배 김
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향홍배 김
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)홍배 김
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization홍배 김
 

Viewers also liked (17)

Learning to remember rare events
Learning to remember rare eventsLearning to remember rare events
Learning to remember rare events
 
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
InfoGAN: Interpretable Representation Learning by Information Maximizing Gene...
 
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
Knowing when to look : Adaptive Attention via A Visual Sentinel for Image Cap...
 
Visualizing data using t-SNE
Visualizing data using t-SNEVisualizing data using t-SNE
Visualizing data using t-SNE
 
Normalization 방법
Normalization 방법 Normalization 방법
Normalization 방법
 
MNIST for ML beginners
MNIST for ML beginnersMNIST for ML beginners
MNIST for ML beginners
 
Convolution 종류 설명
Convolution 종류 설명Convolution 종류 설명
Convolution 종류 설명
 
Binarized CNN on FPGA
Binarized CNN on FPGABinarized CNN on FPGA
Binarized CNN on FPGA
 
Learning by association
Learning by associationLearning by association
Learning by association
 
알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder알기쉬운 Variational autoencoder
알기쉬운 Variational autoencoder
 
Explanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expertExplanation on Tensorflow example -Deep mnist for expert
Explanation on Tensorflow example -Deep mnist for expert
 
A neural image caption generator
A neural image caption generatorA neural image caption generator
A neural image caption generator
 
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance SegmentationSingle Shot MultiBox Detector와 Recurrent Instance Segmentation
Single Shot MultiBox Detector와 Recurrent Instance Segmentation
 
Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)Focal loss의 응용(Detection & Classification)
Focal loss의 응용(Detection & Classification)
 
딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향딥러닝을 이용한 자연어처리의 연구동향
딥러닝을 이용한 자연어처리의 연구동향
 
머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)머신러닝의 자연어 처리기술(I)
머신러닝의 자연어 처리기술(I)
 
Q Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object LocalizationQ Learning과 CNN을 이용한 Object Localization
Q Learning과 CNN을 이용한 Object Localization
 

Similar to Meta-Learning with Memory Augmented Neural Networks

One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot LearningJisung Kim
 
초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인H4C
 
시스템 보안에 대해 최종본
시스템 보안에 대해   최종본시스템 보안에 대해   최종본
시스템 보안에 대해 최종본승표 홍
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition준영 박
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝찬웅 주
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesKang Pilsung
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)Sangsu Song
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1KyeongUkJang
 
EveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanEveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanJaewook. Kang
 
세미나
세미나세미나
세미나Dongyi Kim
 
알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1Byeongsu Kang
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 정주 김
 
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!Startlink
 
요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지Hyoje Jo
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go IntroductionIldoo Kim
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기Kwangsik Lee
 
프로그래머의 뇌
프로그래머의 뇌프로그래머의 뇌
프로그래머의 뇌규영 허
 
질문법과 구글링
질문법과 구글링질문법과 구글링
질문법과 구글링JinYeong Bak
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝Jinwon Lee
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2HyeonSeok Choi
 

Similar to Meta-Learning with Memory Augmented Neural Networks (20)

One-Shot Learning
One-Shot LearningOne-Shot Learning
One-Shot Learning
 
초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인초보자를 위한 시스템 해킹 공부 가이드라인
초보자를 위한 시스템 해킹 공부 가이드라인
 
시스템 보안에 대해 최종본
시스템 보안에 대해   최종본시스템 보안에 대해   최종본
시스템 보안에 대해 최종본
 
Nationality recognition
Nationality recognitionNationality recognition
Nationality recognition
 
텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝텐서플로우로 배우는 딥러닝
텐서플로우로 배우는 딥러닝
 
Deep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniquesDeep neural networks cnn rnn_ae_some practical techniques
Deep neural networks cnn rnn_ae_some practical techniques
 
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
언플러그드 활동의 이론과 실제(Unplugged Activity / Computing)
 
Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1Chapter 15 Representation learning - 1
Chapter 15 Representation learning - 1
 
EveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 KoreanEveryBody Tensorflow module2 GIST Jan 2018 Korean
EveryBody Tensorflow module2 GIST Jan 2018 Korean
 
세미나
세미나세미나
세미나
 
알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1알고리즘 문제해결전략 #1
알고리즘 문제해결전략 #1
 
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출 NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
NDC 2016 김정주 - 기계학습을 활용한 게임어뷰징 검출
 
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
두 번째 startlink.live: 박성원 (ntopia) - PS가 이렇게 해롭습니다. 여러분!
 
요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지요람(CreateProcess)에서 무덤(ResumeThread)까지
요람(CreateProcess)에서 무덤(ResumeThread)까지
 
Alpha Go Introduction
Alpha Go IntroductionAlpha Go Introduction
Alpha Go Introduction
 
알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기알아두면 쓸데있는 신비한 딥러닝 이야기
알아두면 쓸데있는 신비한 딥러닝 이야기
 
프로그래머의 뇌
프로그래머의 뇌프로그래머의 뇌
프로그래머의 뇌
 
질문법과 구글링
질문법과 구글링질문법과 구글링
질문법과 구글링
 
인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝인공지능, 기계학습 그리고 딥러닝
인공지능, 기계학습 그리고 딥러닝
 
밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2밑바닥부터시작하는딥러닝 Ch2
밑바닥부터시작하는딥러닝 Ch2
 

More from 홍배 김

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...홍배 김
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing홍배 김
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection 홍배 김
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots홍배 김
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot홍배 김
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics홍배 김
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명홍배 김
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용홍배 김
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier홍배 김
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN홍배 김
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function홍배 김
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain홍배 김
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier홍배 김
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...홍배 김
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance홍배 김
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs홍배 김
 

More from 홍배 김 (16)

Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
Automatic Gain Tuning based on Gaussian Process Global Optimization (= Bayesi...
 
Gaussian processing
Gaussian processingGaussian processing
Gaussian processing
 
Lecture Summary : Camera Projection
Lecture Summary : Camera Projection Lecture Summary : Camera Projection
Lecture Summary : Camera Projection
 
Learning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robotsLearning agile and dynamic motor skills for legged robots
Learning agile and dynamic motor skills for legged robots
 
Robotics of Quadruped Robot
Robotics of Quadruped RobotRobotics of Quadruped Robot
Robotics of Quadruped Robot
 
Basics of Robotics
Basics of RoboticsBasics of Robotics
Basics of Robotics
 
Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명Recurrent Neural Net의 이론과 설명
Recurrent Neural Net의 이론과 설명
 
Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용Convolutional neural networks 이론과 응용
Convolutional neural networks 이론과 응용
 
Anomaly detection using deep one class classifier
Anomaly detection using deep one class classifierAnomaly detection using deep one class classifier
Anomaly detection using deep one class classifier
 
Optimal real-time landing using DNN
Optimal real-time landing using DNNOptimal real-time landing using DNN
Optimal real-time landing using DNN
 
The world of loss function
The world of loss functionThe world of loss function
The world of loss function
 
Machine learning applications in aerospace domain
Machine learning applications in aerospace domainMachine learning applications in aerospace domain
Machine learning applications in aerospace domain
 
Anomaly Detection and Localization Using GAN and One-Class Classifier
Anomaly Detection and Localization  Using GAN and One-Class ClassifierAnomaly Detection and Localization  Using GAN and One-Class Classifier
Anomaly Detection and Localization Using GAN and One-Class Classifier
 
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
ARCHITECTURAL CONDITIONING FOR DISENTANGLEMENT OF OBJECT IDENTITY AND POSTURE...
 
Brief intro : Invariance and Equivariance
Brief intro : Invariance and EquivarianceBrief intro : Invariance and Equivariance
Brief intro : Invariance and Equivariance
 
Anomaly Detection with GANs
Anomaly Detection with GANsAnomaly Detection with GANs
Anomaly Detection with GANs
 

Meta-Learning with Memory Augmented Neural Networks

  • 1. 설명자료 작성 Watanabe yusuke 번역 김홍배 Meta-Learning with Memory- Augmented Neural Networks 논문저자 : Adam Santoro, Sergey Bartunov, Matthew Botvinick, Daan Wierstra, Timothy Lillicrap Google DeepMind
  • 2. 논문을 한마디로 정리하면 2 Neural Turing Machine 을 One-Shot Learning 에 응용해 봄
  • 3. Neural Turing Machine (NTM) 란 [Graves+2014] • NTM이란、외부기억장치(메모리)와 읽기/쓰기 기능을 갖춘 Neural Network • 복사 및 분류등과 같은 알고리즘을 학습하는 것이 가능 • Neural Network 이므로 Back Propagation 으로 학습 가능 Controller MemoryRead Head Write Head input 3 output NTM 메모리와 읽기/쓰기 기능도 포함하여 전체가 Neural Network !
  • 4. 예 : NTM으로 계열 2배 복사 작업의 학습 입력계열 출력계열 0100 NTM 01000100 011 011011 110111 110111110111 10010 1001010010 학습시 4 입력계열을 2배로 복사한 계열로 만듬 입력계열과 출력계열을 학습 데이터로 NTM을 학습시키는 것이 가능
  • 5. NTM 입력계열 출력계열 010111000 01011100001 0111000 controller NTM은 들어온 계열을 차례로 메모리 에 써넣고 그것을 2회에 걸쳐 차례로 읽어낸다. 010111000010111000 5 테스트 시 010111000 010111000 예 : NTM으로 계열 2배 복사 작업의 학습
  • 6. One-Shot Learning 란 ? 일반적인 NN의 학습 1개(또는 소수)의 예를 보여준 것만으로도 인식할 수 있도록 하도 싶다 One-Shot Learning 한번만 봐도 기억 (인간처럼!!) 6 ... 많은 학습 데이터가 필요
  • 7. One-Shot Learning 방법 : NN algorithm 학습 시 테스트 시 トリナクリ ア 토리나쿠리아! 학습 데이터의 이미지 전체를 기억한다. 기억 중에서 가장 가까 운 이미지를 답한다. 이 접근법의 과제 • 이미지의 유사도는 어떻게 측정하면 좋을까 ? • Nearest-Neighbor 알고리즘은 최적일까 ? ⇒ NTM을 사용하여、Nearest-Neighbor알고리즘 (보다 좋은 알고리즘) 을 공부해보자 ! ピザ 弥勒菩薩 7
  • 8. 논문개요 • Neural Turing Machine (NTM) 을 개조한 Memory- Augmented Neural Network (MANN)을 제안 • One-Shot Learning 을 MANN 으로 수행 • Omniglot 데이터셋으로 평가 시 고성능을 달성 8
  • 9. Ominglot 데이터 셋이란 • 다양한 문자종류로 이루어진 이미지 데이터 셋 • 문자는 1623종류, 각 문자 이미지는 20개 • 우선 학습용과 테스트용으로 문자종류를 나눈다. • 1200문자종류를 학습으로, 423문자종류를 테스트로 사용 9
  • 10. 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. • 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 10 기억
  • 11. 11 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 12. • • • • 12 1 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 13. 1 2 오답 ! • • • • 13 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 14. 1 2 오답 !2 • • • • 14 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 15. 2 • • • • 15 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 16. 2 • • • • 16 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 17. • • • • 17 3 2 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 18. 3 1 오답 !2 • • • • 18 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 19. 3 1 오답 !2 1 • • • • 19 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 20. 2 1 • • • • 20 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 21. 2 1 • • • • 21 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 22. 2 1 • • • • 22 2 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 23. 2 2 정답 !2 1 • • • • 23 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 24. 2 2 정답 !2 1 • • • • 24 이하 50회 계속 ... 작업설정 “소수의 문제예를 본 것만으로 바로 인식이 가능” 하도록 학습시키자 !! • • • 이런 일련의 프로세스를 에피소드라 부른다. 에피소드의 전반에서는 번호(답)를 랜덤하게 추정하지만, 에피소드의 후반으로 갈 수록 정답률이 올라간다. 빠르게 정답률이 올라간다 = One-Shot Learning 이 잘 된다. 기억
  • 25. 엔피소드 작성법 1. 문자종류를 5개 선택하여、1~5까지 랜덤하게 섞는다. 2. 각 문자종류로부터 10개의 이미지를 선택한다. 3. 이러한 50개의 이미지를 랜덤하게 섞는다 : 1 episode 작업: 이미지 𝑥𝑡를보여주고、그번호(1~5)를 답하게한다. 직후에정답번호 𝑦𝑡 를보여준다. 25 ...
  • 26. 학습과 테스트의 흐름 학습 시 테스트용 에피소드는 학습 에 사용하지 않은 것으로 테스트 시 대량의 에피소드로 학습 (문자를 분류하는 방법을 학습) アいアいうアうえおお...アお ああはイイういははあ...イう らむららももあむよよ...よも 에피소드 길이 =50 26 ฆ ญฆ ฆช ฆ ... คกข… 1에피소드 중에 급격하게 정답률이 상승하면, One-Shot Learning이 잘할 수 있게 되는 것
  • 27. 실험결과 MANN (제안된 방법) LSTM (기준) 40000 에피소드 정도 학습하면、 2번째에서 80% 정도 정답률 27 • 학습방법은 MANN과 동일 • LSTM에서는 정답률이 좋지않음. 원인으로는 LSTM 셀은 과거의 데이터를 확실하게 기억 할 수 없기 때문이라고 생각된다 n-th instance = 각 라벨 문자 이미지를 n번째 볼때의 정답률
  • 28. 실험결과 (수치) • Human: 인간이 이작업에 도전할 때의 성능 • Feedforward: 정답률은 1/5 28
  • 29. 실험결과 : 다른 방법과 비교 • Nearest-Neighbor 알고리즘보다도 MANN 쪽이 고성능 • 콘트롤러가 Feedforward인 MANN의 경우、 메모리는 기억 을 저장할 수 있다. • LRUA(후술)이 없는 MANN (NTM)은 성능이 낮다. 29
  • 30. MANN의 구조 : 개념도 ( , (000100)) Memory RReeaaddHHeeaadd Write Head Controller LSTM cell_size=200 (write weight의 계산방법은 후술) 𝒊i는 메모리 번지 30 Read Head
  • 31. MANN의 구조 : 수식 • 읽기 kt 로부터 메모리에서 읽어내는 부분을 결정 (read weight) i는 메모리 번지를 표시 • 쓰기 : 라벨과 이미지 쌍을 메모리에 저장한다. write weight 계산 값 at를 write weight 에 따라 메모리에 쓰기 least used weight 최근에 사용되지 않은 메모리 영역을 나타내는 가중치 (후술) 31
  • 32. MANN의 구조와 NTM과의 차이 • MANN 은 Least Recently Used Access (LRUA)의 기능이 있다 !!! • MANN은 location-based addressing을 사용하지 않음. used weight 의 계산 ※ 정확히는 used weight이 작은 상위 m 개에서 값을 1로 한다 32 새로운 이미지의 정보는 아직 사용하지 않는 메모리 번지에 쓰고 싶다. LRUA가 그것을 가능하게 하고있다. (LRUA가 없다면 안됀다)
  • 33. 관련논문 소개 : One-Shot Learning • Matching Network [Vinyals2016] • 본논문 ”Meta-Learning with Memory-Augmented Neural Network” 의 후속 • Omniglot 데이터셋 One-Shot Learning에서 MANN보다도 좋은 성능을 냄. [Lake2012] 33 • Hierarchical Bayesian Program Learning • 필기문자모델을 디자인하고 베이지안으로 학습
  • 34. 관련논문 소개 : Memory를 갖춘 Neural Network 34 Memory = 정보를 유지하여 나중에 꺼내는 일이 가능한 장치 Memory를 가진 장점 • 나중에 필요로 하는 정보를 안정적으로 보존가능 • • • LSTM의 내부상태는 장기 보존용에 적합하지않음 복사작업 등 : [Ivo2016] 강화학습에서의 예 : [Junhyuk2016] • 조합하고 싶은 정보를 “탁자 위에 배열하는” 것이 가능하다. • QA 작업: [Sukhbaatar2016]
  • 35. 관련 논문 소개 : Memory를 가진 Neural Network • • 메모리에서 읽어들이는 방법과 메모리에 기록하는 방법을 모두 학습 메모리의 읽기/쓰기 attention은、Hard or Soft [Caglar2016] • Memory Network [Weston2015, Sukhbaatar2016,Felix2016] • • • 입력문을 메모리에 저장하여, 질문에 답하는데 필요한 부분을 추출入力 메모리에서 읽기는 attention (가중치)를 사용(Hard or Soft) 메모리에 쓸 내용 (embedding vector)는 학습 • 쓰는 방법은 학습하지않음 • Neural Turing Machine 계 입력문 입력문 질문 응답 질문 응답 メモリ部分 35
  • 36. 정리 36 • NTM를 응용하여、One-Shot Learning이 가능하다 • One-Shot Learning으로서 성능은 우수하나 최고는 아 니다. • 이번에는 One-Shot Learning (Nearest-Neighbor적인 알고리즘)을 NTM으로 학습하였지만, 다른 작업에서도 유사한 아이디어를 사용하면 • 예로 active learning 등... • 작업에 따라 、LRUA와 같은 기능을 생각할 필요가 있는 과제