��
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
�������������������������������������������
Hirono Okamoto, Kato・Nakamura Lab
�����
n  ����: Deep Neural Networks as Gaussian Processes
n  ICLR 2018 accepted
n  ��: Jaehoon Lee, Yasaman Bahri, Roman Novak , Samuel S.
Schoenholz, Jeffrey Pennington, Jascha Sohl-Dickstein (Google Brain)�
n  ��: MLP�����GPR���N�
n  ������������W�����MLP��������
n  �������������G�������
n  �������������������������
n  �����������������
���
n  ��
n  �����������(GPR)W�
n  �����������W���������
n  ����
n  MLP������
n  MNIST�CIFAR-10����
��: ������������
n  �������������������
n  φ(x)�����
n  ��W�� y �������
n  Φ�(����x���)�����
n  y���0����K��������W��
n  �wWGΦWG�������G�x���WN��K�����������

(��������)
���wWGφWG���������
n  ���������G���������W...?
n  ����Wφ�10��
n  ����11��������10^11

������������W���

�����W��
��G�K�����W...�
n  ������G����� � �������k(x, x’)�����
n  ���������������

���������W������

�������
��: ������������
n  ����������
n  ���������
n  m, σ���������!
N(tN+1|m(xN+1), σ2
(xN+1))
��: ������������
n  ���
n  ��������� x 2
n  ��� sin + ���������
n  �������� m
n  �����W�����G��

���������W��G�

���������!
n  ��: �����������

����������������

�������W����W����
N(tN+1|m(xN+1), σ2
(xN+1))
��: �����������W����������
n  �������(��)��������������������
n  x: ���Φ: �����
n  w, b�iid����W���������������iid�

���W���������G���� ∞

W��W����������� [Neal, 1994]
n  �����������������������

���������

������������������
N1
φ
W0
W1
x1
j z1
ix1
j0
z1
i
z1
i
��: �����������W����������
n  �������������G
n  C�WWb�����N���
n  �������������G�NN�������������
��N��������������������N�!
z1
i
��������W������������
n  ������ = ����� – ����
n  ��������W�������������W������N��
���
n  ��
n  �����������(GPR)W�
n  �����������W���������
n  ����
n  MLP������
n  MNIST�CIFAR-10����
����: MLP�������
n  ����L���W��MLP����
n  L−1��������������W��
n  �iid��������L�������� � ∞ W��W�

L��������������
n  ���L-1������WN�W����F_φ�L�������

�����!
n  �L����������������������
zl Nl
����: MLP�������
n  F_φ������������
n  ReLU�W��������� [Cho & Saul, 2009]
n  ��������W����������W���� (��������)
n  F�sWc���, s�K(x, x)�c�K(x, x’)/K(x, x)����
����: MNIST�CIFAR-10����
n  �����N�����W��� [Rifkin & Klautau, 2004] ����
�����
n  �����:
n  onehot : [-0.1, -0.1, ..., 0.9, ..., -0.1]
n  �� 0
n  ������0.9
n  ��������-0.1
n  ��: �������
n  ��: �����
n  L��MLP���������������������
N(tN+1|m(xN+1), σ2
(xN+1))=�
����: MNIST�CIFAR-10����
n  NN-���-�����-w���-b���
n  GP-���-w���-b����
����: MNIST�CIFAR-10����
n  ���������������������W��G�

���G�(��)��G����������
�����
n  [Neal, 1994] Priors for infinite networks
n  [Cho & Saul, 2009] Kernel methods for deep learning
n  [Rifkin & Klautau, 2004] Regularized least-squares classification
n  [Bishop] Pattern recognition and machine learning
n  [Murphy] Machine learning a probabilistic perspective�

[DL輪読会]Deep Neural Networks as Gaussian Processes