【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
[DL輪読会]SVD-Softmax: Fast Softmax Approximation on Large Vocabulary Neural Networks
1. DEEP LEARNING JP
[DL Papers]
SVD-Softmax: Fast Softmax Approximation on Large
Vocabulary Neural Networks
Koichiro Tamura, Matsuo Lab
http://deeplearning.jp/
2. PAPER INFORMATION
•
• �gcV��� FVW�����W��OS �SS����Ya�� 6V�W�������V� ������
J��g��� Fc��
• A�CF )�(.
• ��v�����������r��Y�v�����r�����
���a�T��Of�������
2
8. Related work
(% FO��ZSR�POaSR�O����fW�O�W��as
(% ������O�QS�aO��ZW��� �F�����������
– ��aVcO �S��W����SO��F�POa�WS� FS��QOZ��S��OZ%���DcWQY���OW�W����T����POPWZWa�WQ��Sc�OZ��S�a�Pg�
W�����O�QS�aO��ZW��%�m�W��4�FG4GF��)��*%
–
L677 ', 9 = − log
exp(=>(', 9))
∑ exp (=>(', 9))2
3
4
⇔ L677 ', 9 = − => ', 9 + log A B A B = ∑ =>(', 9)2
3
– ����������M�����~���~���s
CL677 ', 9 = −C=> ', 9 + C log A B
– C log A B ������”�r��������s
– I����rG�����������“r
C log A B =
1
E
F C=> ', 9G
H
G
– �����������”����~r��C=> ', 9G �����������M�������~��
– ���p����I(9)���������������r����������”�������������
���x����������CE��((�����V���a������%aZWRSaVO�S%�S���O�ac�ZOP����Z((�./)--))/
8