SlideShare a Scribd company logo
1 of 18
Download to read offline
Kanerva machine
Generative model : 무엇인가?
End-to-end : 왜 end-to-end 인가?
Memory system : 무엇인가?
Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가?
Analytically tractable : 어떻게 되었길래 해석적으로 다루기 쉽나?
Bayesian update-rule : 무엇인가? 어떻게 on-line update 되나?
Hierarchical conditional generative model : generative model은 무엇인가? 왜 Hierarchical
conditional 한가?
Prior distribution : memory는 어떻게 prior distribution을 제공하나?
DNC : 무엇인가? 어떻게 비교 가능한가?
Consequently, the top-down memory and bottom-up perception are combined to
produce the code representing an observation.
Generative model이다. Discriminative model이 아니라
http://sanghyukchun.github.io/61/
Generative model : 무엇인가?
Likelihood
Discriminative model은 고효율, supervised, label 필요함
Generative model은 비지도 또는 세미비지도, flexible, 높은 컴퓨테이션
Inference …
그래서 모델링 ...
Generative model : 무엇인가?
End-to-end : 왜 end-to-end 인가?
End-to-end 시스템이 통으로 미분가능하고, 학습되는 것?
전체를 봐야지 이해가 될 것.
Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가?
Distributed reading operation
Distributed writing operation
A : A fixed table of addresses
M : a modifiable memory
K x D
K : the number of addresses
D : the input dimensionality
y ∈{−1,1}D
All the inputs are uniform random vectors
Kanerva assumes,
Sparse distributed memory (SDM) is a mathematical model of human long-term memory introduced by Pentti Kanerva in 1988 while he was at NASA Ames
Research Center.
스파 스 분산 메모리 (Sparse Distributed Memory, SDM)는 NASA Ames Research Center에 있었을 때 Pentti Kanerva가 1988 년에 도입 한 인간 장기 메모리의 수학적 모델입
니다.

It is a generalized random-access memory (RAM) for long (e.g., 1,000 bit) binary words.
이것은 긴 (예를 들어, 1,000 비트) 2 진 워드에 대한 범용 랜덤 액세스 메모리 (RAM)이다.
These words serve as both addresses to and data for the memory.
이 단어는 메모리에 대한 주소와 데이터 모두를 제공합니다.
The main attribute of the memory is sensitivity to similarity, meaning that a word can be read back not only by giving the original write address but also by giving
one close to it, as measured by the number of mismatched bits (i.e., the Hamming distance between memory addresses).[1]
메모리의 주된 속성은 유사성에 대한 민감성입니다. 즉, 원래의 쓰기 주소를 제공하는 것뿐만 아니라 불일치 비트 수로 측정 된 것과 같이 하나의 단어를 가까이서 제공함으로써 단어를 다
시 읽을 수 있습니다. ( 메모리 주소 간의 해밍 거리 )
SDM implements transformation from logical space to physical space using distributed data representation and storage, similarly to encoding processes in human
memory.[2] 
SDM은 인간 메모리의 인코딩 프로세스와 마찬가지로 분산 데이터 표현 및 저장을 사용하여 논리적 공간에서 물리적 공간으로의 변환을 구현합니다.
A value corresponding to a logical address is stored into many physical addresses.
논리 주소에 해당하는 값은 많은 물리적 주소에 저장됩니다.
This way of storing is robust and not deterministic.
이 저장 방법은 견고하며 결정적이지 않습니다.
A memory cell is not addressed directly. If input data (logical addresses) are partially damaged at all, we can still get correct output data.[3]
메모리 셀은 직접 주소 지정되지 않습니다. 입력 데이터 (논리 주소)가 부분적으로 손상된 경우에도 올바른 출력 데이터를 얻을 수 있습니다. [3]
The theory of the memory is mathematically complete[1] and has been verified by computer simulation. It arose from the observation that the distances between
points of a high-dimensional spaceresemble the proximity relations between concepts in human memory.
기억의 이론은 수학적으로 완전하며 컴퓨터 시뮬레이션에 의해 검증되었다. 그것은 고차원 공간의 점들 사이의 거리가 인간 기억의 개념 사이의 근접 관계를 회상한다는 관찰로부터 생겨났
다.
The theory is also practical in that memories based on it can be implemented with conventional RAM-memory elements.[4]
이론은 또한 그것에 기초한 메모리가 종래의 RAM 메모리 소자로 구현 될 수 있다는 점에서 실용적이다.
https://en.wikipedia.org/wiki/Sparse_distributed_memory
Human memory has a tendency to congregate memories based on similarities between them (although they may not be related), such as "firetrucks are red and
apples are red".[5] Sparse distributed memory is a mathematical representation of human memory, and uses high-dimensional space to help model the large
amounts of memory that mimics that of the human neural network.[6][7] 
 An important property of such high dimensional spaces is that two randomly chosen vectors are relatively far away from each other, meaning that they are
uncorrelated.[8] SDM can be considered a realization of Locality-sensitive hashing.
The underlying idea behind a SDM is the mapping of a huge binary memory onto a smaller set of physical locations, so-called hard locations. 
As a general guideline, those hard locations should be uniformly distributed in the virtual space, to mimic the existence of the larger virtual space as accurately as
possible.
Every datum is stored distributed by a set of hard locations, and retrieved by averaging those locations. Therefore, recall may not be perfect, accuracy depending
on the saturation of the memory.
모든 데이텀은 하드 위치 집합에 의해 분산 저장되고 이러한 위치를 평균하여 검색됩니다. 따라서 메모리의 채도에 따라 정확도가 정확하지 않을 수 있습니다.
Kanerva's proposal is based on four basic ideas:[9]
부울 공간은 개념 간의 관계에 대한 인간의 직관적 개념과 유사한 특성을 나타낸다.
즉, 각 메모리 항목이 n 비트 벡터로 저장되는 언급 된 공간의 점으로 데이터를 저장하는 것이 좋습니다.
n 입력을 갖는 뉴런은 랜덤 액세스 메모리의 어드레스 디코더로서 사용될 수있다.
통합 원칙 : 메모리에 저장된 데이터는 동일한 메모리에 대한 주소로 사용될 수 있습니다.
두 점 사이의 거리는 두 메모리 항목 간의 유사성을 측정 한 것입니다. 점이 가까울수록 저장된 벡터가 더 유
사합니다.
데이터가 이벤트의 시퀀스로 구성되어있는 경우 데이터가 저장된 위치의 함수로 시간을 추적 할 수 있습니다.
Exploring Long-range Correlations for Text Classification Using a Sparse Distributed Memory
Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가?
Kanerva machine : 무엇인가?
https://en.wikipedia.org/wiki/Mutual_information
where  and  are the marginal entropies, Η(X|Y) and Η(Y|X) are the conditional entropies, and Η(X,Y) is the joint entropy of X and Y.
https://jamiekang.github.io/2017/05/08/neural-turing-machine/
Memory system : 무엇인가?
Bayesian update-rule : 무엇인가? 어떻게 on-line update 되나?
https://openreview.net/forum?id=S1HlA-ZAZ
We present an end-to-end trained memory system that quickly adapts to new data and generates samples like them. Inspired by Kanerva’s sparse distributed memory, it has a robust
distributed reading and writing mechanism. The memory is analytically tractable, which enables optimal on-line compression via a Bayesian update-rule. We formulate it as a hierarchical
conditional generative model, where memory provides a rich data-dependent prior distribution. Consequently, the top-down memory and bottom-up perception are combined to produce the
code representing an observation. Empirically, we demonstrate that the adaptive memory significantly improves generative models trained on both the Omniglot and CIFAR datasets.
Compared with the Differentiable Neural Computer (DNC) and its variants, our memory model has greater capacity and is significantly easier to train.

More Related Content

More from 민석 김

Shouting at gwanghwamun
Shouting at gwanghwamunShouting at gwanghwamun
Shouting at gwanghwamun민석 김
 
ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1민석 김
 
Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자민석 김
 
벽 생성기 Wall generator
벽 생성기 Wall generator 벽 생성기 Wall generator
벽 생성기 Wall generator 민석 김
 
복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식민석 김
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3민석 김
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1민석 김
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2민석 김
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기민석 김
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기민석 김
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기민석 김
 

More from 민석 김 (12)

NN and PDF
NN and PDFNN and PDF
NN and PDF
 
Shouting at gwanghwamun
Shouting at gwanghwamunShouting at gwanghwamun
Shouting at gwanghwamun
 
ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1ML 60'~80' new paradigm 1
ML 60'~80' new paradigm 1
 
Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자Internet speed 인터넷 속도를 측정해보자
Internet speed 인터넷 속도를 측정해보자
 
벽 생성기 Wall generator
벽 생성기 Wall generator 벽 생성기 Wall generator
벽 생성기 Wall generator
 
복소수와 오일러 공식
복소수와 오일러 공식복소수와 오일러 공식
복소수와 오일러 공식
 
Bayesian nets 발표 3
Bayesian nets 발표 3Bayesian nets 발표 3
Bayesian nets 발표 3
 
Bayesian nets 발표 1
Bayesian nets 발표 1Bayesian nets 발표 1
Bayesian nets 발표 1
 
Bayesian nets 발표 2
Bayesian nets 발표 2Bayesian nets 발표 2
Bayesian nets 발표 2
 
AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기AI 인공지능이란 단어 읽기
AI 인공지능이란 단어 읽기
 
Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기Hopfield network 처음부터 공부해보기
Hopfield network 처음부터 공부해보기
 
VAE 처음부터 알아보기
VAE 처음부터 알아보기VAE 처음부터 알아보기
VAE 처음부터 알아보기
 

Kanerva machine

  • 1.
  • 3. Generative model : 무엇인가? End-to-end : 왜 end-to-end 인가? Memory system : 무엇인가? Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가? Analytically tractable : 어떻게 되었길래 해석적으로 다루기 쉽나? Bayesian update-rule : 무엇인가? 어떻게 on-line update 되나? Hierarchical conditional generative model : generative model은 무엇인가? 왜 Hierarchical conditional 한가? Prior distribution : memory는 어떻게 prior distribution을 제공하나? DNC : 무엇인가? 어떻게 비교 가능한가? Consequently, the top-down memory and bottom-up perception are combined to produce the code representing an observation.
  • 4. Generative model이다. Discriminative model이 아니라 http://sanghyukchun.github.io/61/ Generative model : 무엇인가?
  • 5. Likelihood Discriminative model은 고효율, supervised, label 필요함 Generative model은 비지도 또는 세미비지도, flexible, 높은 컴퓨테이션 Inference … 그래서 모델링 ... Generative model : 무엇인가?
  • 6. End-to-end : 왜 end-to-end 인가? End-to-end 시스템이 통으로 미분가능하고, 학습되는 것? 전체를 봐야지 이해가 될 것.
  • 7. Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가? Distributed reading operation Distributed writing operation A : A fixed table of addresses M : a modifiable memory K x D K : the number of addresses D : the input dimensionality y ∈{−1,1}D All the inputs are uniform random vectors Kanerva assumes,
  • 8. Sparse distributed memory (SDM) is a mathematical model of human long-term memory introduced by Pentti Kanerva in 1988 while he was at NASA Ames Research Center. 스파 스 분산 메모리 (Sparse Distributed Memory, SDM)는 NASA Ames Research Center에 있었을 때 Pentti Kanerva가 1988 년에 도입 한 인간 장기 메모리의 수학적 모델입 니다.
 It is a generalized random-access memory (RAM) for long (e.g., 1,000 bit) binary words. 이것은 긴 (예를 들어, 1,000 비트) 2 진 워드에 대한 범용 랜덤 액세스 메모리 (RAM)이다. These words serve as both addresses to and data for the memory. 이 단어는 메모리에 대한 주소와 데이터 모두를 제공합니다. The main attribute of the memory is sensitivity to similarity, meaning that a word can be read back not only by giving the original write address but also by giving one close to it, as measured by the number of mismatched bits (i.e., the Hamming distance between memory addresses).[1] 메모리의 주된 속성은 유사성에 대한 민감성입니다. 즉, 원래의 쓰기 주소를 제공하는 것뿐만 아니라 불일치 비트 수로 측정 된 것과 같이 하나의 단어를 가까이서 제공함으로써 단어를 다 시 읽을 수 있습니다. ( 메모리 주소 간의 해밍 거리 ) SDM implements transformation from logical space to physical space using distributed data representation and storage, similarly to encoding processes in human memory.[2]  SDM은 인간 메모리의 인코딩 프로세스와 마찬가지로 분산 데이터 표현 및 저장을 사용하여 논리적 공간에서 물리적 공간으로의 변환을 구현합니다. A value corresponding to a logical address is stored into many physical addresses. 논리 주소에 해당하는 값은 많은 물리적 주소에 저장됩니다. This way of storing is robust and not deterministic. 이 저장 방법은 견고하며 결정적이지 않습니다. A memory cell is not addressed directly. If input data (logical addresses) are partially damaged at all, we can still get correct output data.[3] 메모리 셀은 직접 주소 지정되지 않습니다. 입력 데이터 (논리 주소)가 부분적으로 손상된 경우에도 올바른 출력 데이터를 얻을 수 있습니다. [3] The theory of the memory is mathematically complete[1] and has been verified by computer simulation. It arose from the observation that the distances between points of a high-dimensional spaceresemble the proximity relations between concepts in human memory. 기억의 이론은 수학적으로 완전하며 컴퓨터 시뮬레이션에 의해 검증되었다. 그것은 고차원 공간의 점들 사이의 거리가 인간 기억의 개념 사이의 근접 관계를 회상한다는 관찰로부터 생겨났 다. The theory is also practical in that memories based on it can be implemented with conventional RAM-memory elements.[4] 이론은 또한 그것에 기초한 메모리가 종래의 RAM 메모리 소자로 구현 될 수 있다는 점에서 실용적이다. https://en.wikipedia.org/wiki/Sparse_distributed_memory
  • 9. Human memory has a tendency to congregate memories based on similarities between them (although they may not be related), such as "firetrucks are red and apples are red".[5] Sparse distributed memory is a mathematical representation of human memory, and uses high-dimensional space to help model the large amounts of memory that mimics that of the human neural network.[6][7]   An important property of such high dimensional spaces is that two randomly chosen vectors are relatively far away from each other, meaning that they are uncorrelated.[8] SDM can be considered a realization of Locality-sensitive hashing. The underlying idea behind a SDM is the mapping of a huge binary memory onto a smaller set of physical locations, so-called hard locations.  As a general guideline, those hard locations should be uniformly distributed in the virtual space, to mimic the existence of the larger virtual space as accurately as possible. Every datum is stored distributed by a set of hard locations, and retrieved by averaging those locations. Therefore, recall may not be perfect, accuracy depending on the saturation of the memory. 모든 데이텀은 하드 위치 집합에 의해 분산 저장되고 이러한 위치를 평균하여 검색됩니다. 따라서 메모리의 채도에 따라 정확도가 정확하지 않을 수 있습니다.
  • 10. Kanerva's proposal is based on four basic ideas:[9] 부울 공간은 개념 간의 관계에 대한 인간의 직관적 개념과 유사한 특성을 나타낸다. 즉, 각 메모리 항목이 n 비트 벡터로 저장되는 언급 된 공간의 점으로 데이터를 저장하는 것이 좋습니다. n 입력을 갖는 뉴런은 랜덤 액세스 메모리의 어드레스 디코더로서 사용될 수있다. 통합 원칙 : 메모리에 저장된 데이터는 동일한 메모리에 대한 주소로 사용될 수 있습니다. 두 점 사이의 거리는 두 메모리 항목 간의 유사성을 측정 한 것입니다. 점이 가까울수록 저장된 벡터가 더 유 사합니다. 데이터가 이벤트의 시퀀스로 구성되어있는 경우 데이터가 저장된 위치의 함수로 시간을 추적 할 수 있습니다.
  • 11. Exploring Long-range Correlations for Text Classification Using a Sparse Distributed Memory Kanerva’s sparse distributed memory : 무엇인가? 왜 robust 한가?
  • 12. Kanerva machine : 무엇인가?
  • 13. https://en.wikipedia.org/wiki/Mutual_information where  and  are the marginal entropies, Η(X|Y) and Η(Y|X) are the conditional entropies, and Η(X,Y) is the joint entropy of X and Y.
  • 15. Bayesian update-rule : 무엇인가? 어떻게 on-line update 되나?
  • 17.
  • 18. We present an end-to-end trained memory system that quickly adapts to new data and generates samples like them. Inspired by Kanerva’s sparse distributed memory, it has a robust distributed reading and writing mechanism. The memory is analytically tractable, which enables optimal on-line compression via a Bayesian update-rule. We formulate it as a hierarchical conditional generative model, where memory provides a rich data-dependent prior distribution. Consequently, the top-down memory and bottom-up perception are combined to produce the code representing an observation. Empirically, we demonstrate that the adaptive memory significantly improves generative models trained on both the Omniglot and CIFAR datasets. Compared with the Differentiable Neural Computer (DNC) and its variants, our memory model has greater capacity and is significantly easier to train.