SlideShare a Scribd company logo
1 of 25
Download to read offline
DEEP LEARNING JP
[DL Papers]
SVD-Softmax: Fast Softmax Approximation on Large
Vocabulary Neural Networks
Koichiro	Tamura,	Matsuo	Lab
http://deeplearning.jp/
PAPER INFORMATION
•
• �gcV��� FVW�����W��OS �SS����Ya�� 6V�W�������V� ������
J��g��� Fc��
• A�CF )�(.
• ��v�����������r��Y�v�����r�����
���a�T��Of�������
2
Neural Language Model
• ASc�OZ��O��cO�S���RSZ�r����������–
– ����
– ����
• �u��“�������~�������~rA��~��������”“�r
z�����~��
(% G�OW��a�S���r�������������
• EAA���r6AA����������������”�����
– FS_)FS_
– G�O�aT���S� 4��S��W���Wa�4ZZ���c�ASSR�
)% ����������������a�T��Of���
• ���������r��������
3
outline
(% �����RcQ�W��
)% ESZO�SR����Y
*% FI7�a�T��Of
�% 8f�S�W�S����SacZ�a
,% 7WaQcaaW��
4
Introduction
• ASc�OZ��S����Y�r�O��cO�S���RSZW�� �����������“�����“
��–
• ���������”“�r�����������”���������~��
���
– ���������a�T��Of���r�����I d�QOPcZO�g�aWhS���Sf��������
���������
sof$%&' () =	
exp	(())
∑ exp	(())2
3
4
– �����a�T��Of���mTcZZ�a�T��Ofm”��
• ���I�r��–�*�����,�������
– “�“r�����–��������������u,��� ��”���PSO��aWhSr
,�(������
5
Introduction
• �����r�–����–��z���a�T��Of������
– ASc�OZ��S����Y����rZ�aa��������~��
– ��TcZZ�a�T��Of�����r�����a�T��Of�����
– ��OW�W����W�S��������������rSdOZcO�W���Q���ZSfW�g�������”~�
�
• �������aW��cZO��dOZcS�RSQ����aW�W�� FI7� ��������
• ����r�����
(% G���Y����Ra���������r����������a�T��Of����
�
)% *������v����”)������rFI7�a�T��Of�����
*% a�T��Of��������r������������������”��
�–�������”���
6
Related work
• ���ra�T��Of������������������������r��
��OW�W���a�S����������������
(% FO��ZSR�POaSR�O����fW�O�W��a
)% �WS�O�QVWQOZ�a�T��Of
*% FSZT�����OZWhO�W���O����OQVSa
�% 7WTTS�S��WO�SR�a�T��Of
• “�“�������r����Y����Ra�����–���r��������
��~��
7
Related work
(% FO��ZSR�POaSR�O����fW�O�W��as
(% ������O�QS�aO��ZW��� �F�����������
– ��aVcO �S��W����SO��F�POa�WS� FS��QOZ��S��OZ%���DcWQY���OW�W����T����POPWZWa�WQ��Sc�OZ��S�a�Pg�
W�����O�QS�aO��ZW��%�m�W��4�FG4GF��)��*%
–
L677 ', 9 = − log
exp(=>(', 9))
∑ exp	(=>(', 9))2
3
4
⇔ L677 ', 9 = − => ', 9 + log A B A B = ∑ =>(', 9)2
3
– ����������M�����~���~���s
CL677 ', 9 = −C=> ', 9 + C log A B
– C log A B ������”�r��������s
– I����rG�����������“r
C log A B =
1
E
F C=> ', 9G
H
G
– �����������”����~r��C=> ', 9G �����������M�������~��
– ���p����I(9)���������������r����������”�������������
���x����������CE��((�����V���a������%aZWRSaVO�S%�S���O�ac�ZOP����Z((�./)--))/
8
Related work
(% FO��ZSR�POaSR�O����fW�O�W��a
)% A�WaS�Q����OQ�WdS�Sa�W�O�W�� A68�
– 4�R�Wg ��WV O�R��SS�JVgS GSV���4�TOa��O�R�aW��ZS�OZ���W�V��T�����OW�W����Sc�OZ����POPWZWa�WQ�ZO��cO�S�
��RSZa�m�O��Wd ��S��W���O��Wd�()�-%-�)-��)�()%
–
– J 9 = exp	(=> ', 9 + K)”�����r∑ J 9 = 12
2 ��–�������Q�����”~�����
– “�“rK → ∞������������·�“����r����������v�����������r�
�����������”����
– �����_������������”r���v����(���������r��� RWaQ�W�W�O�������
������ :4A����������
AQS�Z�aa	= − log N = 1 9 − ∑ log O(N = 0|9R)2
SR∈UV
– M2(”“�����“�“�·��r ���Q����������������r�������������
�~��–�r�����������
– GS�a��TZ������~��������������
9
Related work
(% FO��ZSR�POaSR�O����fW�O�W��a
*% AS�O�WdS�aO��ZW��
– G��Oa��WY�Z�d���ZgO�Fc�aYSdS����OW�6VS���:�S��F�6���OR���O�R��STT�7SO����7Wa��WPc�SR��S��S� aS��O�W��a
�T���Ra O�R��V�OaSa�O�R��VSW��Q����aW�W��OZW�g�m�W��4RdO�QSa�W��ASc�OZ���T���O�W���C��QSaaW���
Fga�S�a��)�(*����%�*(((k*((0%
– A86������������������é“r�����“–��
�% �ZOQY�c�
– FVWVO� �W��FIA�IWaV�O�O�VO���AORO�Vc� FO�WaV���WQVOSZ���4�RS�a����O�R�C�ORSS��7cPSg����ZOQY�c���
F�SSRW���c���SQc��S����Sc�OZ��S����Y�ZO��cO�S���RSZa��W�V�dS�g�ZO��S�d�QOPcZO�� WSa�m�O��Wd ��S��W���
O��Wd�(,((%�-0�0��)�(,%
– A86���������Y�����NV = 9RW, , , 9R) �g�������
• �������������������������”��“�����~r�����
�v������”������
10
Related work
)% �WS�O�QVWQOZ�a�T��Of
– 9�SRS�WQ����W��O�R���aVcO �S��W�����WS�O�QVWQOZ����POPWZWa�WQ��Sc�OZ��S����Y�
ZO��cO�S���RSZ�m�W��4�FG4GF%�6W�SaSS���)��,��d�Z%�,����%�)�-k),)%
– �����������r�������������é���”�r���������
�����������������r����~�~�
– ������������������
O 9 =	X J(YZ 9 , [ 9 )
](S)
Z^W
– ������~·–���r����v��������–·�������������
~������r���a�T��Of����~����
– :CH���������������“�
11
Related work
*% FSZT�����OZWhO�W���O����OQVSa
• �OQ�P�7SdZW���EOPWV MPWP��MV���_WO�� �cO����GV��Oa��O�O���EWQVO�R�FQV�O��h��
O�R���V���OYV�cZ���9Oa��O�R���Pca���Sc�OZ��S����Y���W�����RSZa�T���a�O�Wa�WQOZ�
�OQVW�S���O�aZO�W���m�W��46�� (�%�6W�SaSS���)�(�����%�(*.�k(*/�%
• �OQ�P�4�R�SOa���OfW��EOPW��dWQV���WQVOSZ������RO���O�R�7O���ZSW��������VS�
OQQc�OQg��T�aSZT�����OZWhSR�Z���ZW�SO����RSZa�m�W��4RdO�QSa�W��ASc�OZ���T���O�W���
C��QSaaW���Fga�S�a��)�(,����%�(./*k(.0(%
• ��������M�(��������Z�aa����������“–��
• ����r��~�������”r��Y�v������”�������v����
����~��”����~��
12
Related work
�% 7WTTS�S��WO�SR�a�T��Of
– JSZW� 6VS���7OdWR�:�O��WS���O�R��WQVOSZ�4cZW���F��O�S�WSa�T�����OW�W���ZO��S�
d�QOPcZO�g��Sc�OZ�ZO��cO�S���RSZa�m�O��Wd ��S��W���O��Wd�(,()%��0�-��)�(,%
– F�T��Of����������������������x��������������
��r�O�S��v�������������y
– ��v����������������~�����–�r���~��”�·–��~
��
13
SVD-softmax
• a�T��Of���� �����������)����
(% ���������R��������I���
)% F�T��Of����r�����
14
SVD-softmax
(% FW��cZO��dOZcS�RSQ����aW�W�� ������
– ��������“–�����r�������
– �����
_ = `Σbc ` ∈ d3×U, Σ ∈ dU×U, b ∈ dU×U�
H��I������� �����������“–���
– 8dOZcO�W������r `Σ����������������r `Σ����(�������
“������
– �������
1. `H
= `gW
)% H � � �������~���������
*% H � � �������~���������
�% ��� f�E� ��“� wHfw2wfw
,% ��� f�g�E� ��“� Hf�Hg2f�g
15
SVD-softmax
16
)% F�T��Of O����fW�O�W��
Preview	window
������~
������r
N������
��“��
SVD-softmax
17
SVD-softmax
*% �S��WQa
– ������Ra��������cZZPOQY��SWPZS� RWdS��S�QS ��7����
• �������v��”
• CrD~���������
– AS�O�WdS�Z���ZWYSZWV��R A������������
• 9cZZ�a�T��Of”adR�a�T��Of���~�������
• �����������M�������rM������������
– �SO��aSO�QV����r��Y�v�~������“�������
• G�����Q�dS�O�S� ���Y�v�����������
18
Result
(% JW�R���aWhS”������7”���
– JW�R�� aWhS���7�(�/���~��x��������(�/y
19
Result
)% ���”TcZZ�dWS��dSQ���a�A���
– I~��–�A���“–�~��x��,�(��
20
Result
*% ��������
– �v���� TcZZ�a�T��Of������~��
21
Discussion
(% J�A�7���
– ������7”�W�R���aWhS�J~����–�~���”�r7���v�“–���r
������~������·����”������
22
���
���D���v�
Discussion
)% �������
– ������)��*�������
– bH �����“–I������d�Q aWhS��������h(Ni)����~rI~�������r
����������
23
Discussion
*% ���S�V�Ra”���
– 9cZZ�a�T��Of �������
– �WS�O�QVWQOZ a�T��Of���4RO��WdS�a�T��Of�r������R����������r����
����������~��
– ������u�“–��xtyr��~�����������������������
�
• ����“qqq
24
Appendix
• Tensorflowで実装してみた
– https://github.com/koichiro11/svd-softmax
• とりあえず学習は,NCEを用いるのが安定で早いのでオススメ
• 推論時の時にSVD-Softmaxを用いる
25

More Related Content

What's hot

Intoduction to Homotopy Type Therory
Intoduction to Homotopy Type TheroryIntoduction to Homotopy Type Therory
Intoduction to Homotopy Type TheroryJack Fox
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」ManaMurakami1
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)Hiroki Nakahara
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学MITSUNARI Shigeo
 
最適化超入門
最適化超入門最適化超入門
最適化超入門Takami Sato
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないToshihiro Kamishima
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 Yuki Arase
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリングAkira Miyazawa
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)RCCSRENKEI
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化Yusuke Uchida
 
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介T. Suwa
 
型安全性入門
型安全性入門型安全性入門
型安全性入門Akinori Abe
 
自動定理証明の紹介
自動定理証明の紹介自動定理証明の紹介
自動定理証明の紹介Masahiro Sakai
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験myxymyxomatosis
 
全体セミナーWfst
全体セミナーWfst全体セミナーWfst
全体セミナーWfstJiro Nishitoba
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement LearningPreferred Networks
 

What's hot (20)

Intoduction to Homotopy Type Therory
Intoduction to Homotopy Type TheroryIntoduction to Homotopy Type Therory
Intoduction to Homotopy Type Therory
 
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
「NVIDIA プロファイラを用いたPyTorch学習最適化手法のご紹介(修正前 typoあり)」
 
BERT+XLNet+RoBERTa
BERT+XLNet+RoBERTaBERT+XLNet+RoBERTa
BERT+XLNet+RoBERTa
 
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)2値化CNN on FPGAでGPUとガチンコバトル(公開版)
2値化CNN on FPGAでGPUとガチンコバトル(公開版)
 
暗号技術の実装と数学
暗号技術の実装と数学暗号技術の実装と数学
暗号技術の実装と数学
 
最適化超入門
最適化超入門最適化超入門
最適化超入門
 
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしないPyMCがあれば,ベイズ推定でもう泣いたりなんかしない
PyMCがあれば,ベイズ推定でもう泣いたりなんかしない
 
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」 [最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
[最新版] JSAI2018 チュートリアル「"深層学習時代の" ゼロから始める自然言語処理」
 
Rustを支える技術
Rustを支える技術Rustを支える技術
Rustを支える技術
 
スペクトラル・クラスタリング
スペクトラル・クラスタリングスペクトラル・クラスタリング
スペクトラル・クラスタリング
 
第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)第14回 配信講義 計算科学技術特論A(2021)
第14回 配信講義 計算科学技術特論A(2021)
 
モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化モデルアーキテクチャ観点からのDeep Neural Network高速化
モデルアーキテクチャ観点からのDeep Neural Network高速化
 
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
PPL 2022 招待講演: 静的型つき函数型組版処理システムSATySFiの紹介
 
型安全性入門
型安全性入門型安全性入門
型安全性入門
 
自動定理証明の紹介
自動定理証明の紹介自動定理証明の紹介
自動定理証明の紹介
 
Gpu vs fpga
Gpu vs fpgaGpu vs fpga
Gpu vs fpga
 
Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験Transformerを用いたAutoEncoderの設計と実験
Transformerを用いたAutoEncoderの設計と実験
 
全体セミナーWfst
全体セミナーWfst全体セミナーWfst
全体セミナーWfst
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learningゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learning
 

More from Deep Learning JP

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving PlannersDeep Learning JP
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについてDeep Learning JP
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...Deep Learning JP
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-ResolutionDeep Learning JP
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxivDeep Learning JP
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLMDeep Learning JP
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...Deep Learning JP
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place RecognitionDeep Learning JP
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?Deep Learning JP
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )Deep Learning JP
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...Deep Learning JP
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"Deep Learning JP
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "Deep Learning JP
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat ModelsDeep Learning JP
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"Deep Learning JP
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...Deep Learning JP
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...Deep Learning JP
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...Deep Learning JP
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...Deep Learning JP
 

More from Deep Learning JP (20)

【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
【DL輪読会】AdaptDiffuser: Diffusion Models as Adaptive Self-evolving Planners
 
【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて【DL輪読会】事前学習用データセットについて
【DL輪読会】事前学習用データセットについて
 
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
【DL輪読会】 "Learning to render novel views from wide-baseline stereo pairs." CVP...
 
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
【DL輪読会】Zero-Shot Dual-Lens Super-Resolution
 
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
【DL輪読会】BloombergGPT: A Large Language Model for Finance arxiv
 
【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM【DL輪読会】マルチモーダル LLM
【DL輪読会】マルチモーダル LLM
 
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo... 【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
【 DL輪読会】ToolLLM: Facilitating Large Language Models to Master 16000+ Real-wo...
 
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
【DL輪読会】AnyLoc: Towards Universal Visual Place Recognition
 
【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?【DL輪読会】Can Neural Network Memorization Be Localized?
【DL輪読会】Can Neural Network Memorization Be Localized?
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
【DL輪読会】SimPer: Simple self-supervised learning of periodic targets( ICLR 2023 )
 
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
【DL輪読会】RLCD: Reinforcement Learning from Contrast Distillation for Language M...
 
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
【DL輪読会】"Secrets of RLHF in Large Language Models Part I: PPO"
 
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "【DL輪読会】"Language Instructed Reinforcement Learning  for Human-AI Coordination "
【DL輪読会】"Language Instructed Reinforcement Learning for Human-AI Coordination "
 
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
【DL輪読会】Llama 2: Open Foundation and Fine-Tuned Chat Models
 
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
【DL輪読会】"Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware"
 
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
【DL輪読会】Parameter is Not All You Need:Starting from Non-Parametric Networks fo...
 
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
【DL輪読会】Drag Your GAN: Interactive Point-based Manipulation on the Generative ...
 
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
【DL輪読会】Self-Supervised Learning from Images with a Joint-Embedding Predictive...
 
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
【DL輪読会】Towards Understanding Ensemble, Knowledge Distillation and Self-Distil...
 

[DL輪読会]SVD-Softmax: Fast Softmax Approximation on Large Vocabulary Neural Networks

  • 1. DEEP LEARNING JP [DL Papers] SVD-Softmax: Fast Softmax Approximation on Large Vocabulary Neural Networks Koichiro Tamura, Matsuo Lab http://deeplearning.jp/
  • 2. PAPER INFORMATION • • �gcV��� FVW�����W��OS �SS����Ya�� 6V�W�������V� ������ J��g��� Fc�� • A�CF )�(. • ��v�����������r��Y�v�����r����� ���a�T��Of������� 2
  • 3. Neural Language Model • ASc�OZ��O��cO�S���RSZ�r����������– – ���� – ���� • �u��“�������~�������~rA��~��������”“�r z�����~�� (% G�OW��a�S���r������������� • EAA���r6AA����������������”����� – FS_)FS_ – G�O�aT���S� 4��S��W���Wa�4ZZ���c�ASSR� )% ����������������a�T��Of��� • ���������r�������� 3
  • 4. outline (% �����RcQ�W�� )% ESZO�SR����Y *% FI7�a�T��Of �% 8f�S�W�S����SacZ�a ,% 7WaQcaaW�� 4
  • 5. Introduction • ASc�OZ��S����Y�r�O��cO�S���RSZW�� �����������“�����“ ��– • ���������”“�r�����������”���������~�� ��� – ���������a�T��Of���r�����I d�QOPcZO�g�aWhS���Sf�������� ��������� sof$%&' () = exp (()) ∑ exp (())2 3 4 – �����a�T��Of���mTcZZ�a�T��Ofm”�� • ���I�r��–�*�����,������� – “�“r�����–��������������u,��� ��”���PSO��aWhSr ,�(������ 5
  • 6. Introduction • �����r�–����–��z���a�T��Of������ – ASc�OZ��S����Y����rZ�aa��������~�� – ��TcZZ�a�T��Of�����r�����a�T��Of����� – ��OW�W����W�S��������������rSdOZcO�W���Q���ZSfW�g�������”~� � • �������aW��cZO��dOZcS�RSQ����aW�W�� FI7� �������� • ����r����� (% G���Y����Ra���������r����������a�T��Of���� � )% *������v����”)������rFI7�a�T��Of����� *% a�T��Of��������r������������������”�� �–�������”��� 6
  • 7. Related work • ���ra�T��Of������������������������r�� ��OW�W���a�S���������������� (% FO��ZSR�POaSR�O����fW�O�W��a )% �WS�O�QVWQOZ�a�T��Of *% FSZT�����OZWhO�W���O����OQVSa �% 7WTTS�S��WO�SR�a�T��Of • “�“�������r����Y����Ra�����–���r�������� ��~�� 7
  • 8. Related work (% FO��ZSR�POaSR�O����fW�O�W��as (% ������O�QS�aO��ZW��� �F����������� – ��aVcO �S��W����SO��F�POa�WS� FS��QOZ��S��OZ%���DcWQY���OW�W����T����POPWZWa�WQ��Sc�OZ��S�a�Pg� W�����O�QS�aO��ZW��%�m�W��4�FG4GF��)��*% – L677 ', 9 = − log exp(=>(', 9)) ∑ exp (=>(', 9))2 3 4 ⇔ L677 ', 9 = − => ', 9 + log A B A B = ∑ =>(', 9)2 3 – ����������M�����~���~���s CL677 ', 9 = −C=> ', 9 + C log A B – C log A B ������”�r��������s – I����rG�����������“r C log A B = 1 E F C=> ', 9G H G – �����������”����~r��C=> ', 9G �����������M�������~�� – ���p����I(9)���������������r����������”������������� ���x����������CE��((�����V���a������%aZWRSaVO�S%�S���O�ac�ZOP����Z((�./)--))/ 8
  • 9. Related work (% FO��ZSR�POaSR�O����fW�O�W��a )% A�WaS�Q����OQ�WdS�Sa�W�O�W�� A68� – 4�R�Wg ��WV O�R��SS�JVgS GSV���4�TOa��O�R�aW��ZS�OZ���W�V��T�����OW�W����Sc�OZ����POPWZWa�WQ�ZO��cO�S� ��RSZa�m�O��Wd ��S��W���O��Wd�()�-%-�)-��)�()% – – J 9 = exp (=> ', 9 + K)”�����r∑ J 9 = 12 2 ��–�������Q�����”~����� – “�“rK → ∞������������·�“����r����������v�����������r� �����������”���� – �����_������������”r���v����(���������r��� RWaQ�W�W�O������� ������ :4A���������� AQS�Z�aa = − log N = 1 9 − ∑ log O(N = 0|9R)2 SR∈UV – M2(”“�����“�“�·��r ���Q����������������r������������� �~��–�r����������� – GS�a��TZ������~�������������� 9
  • 10. Related work (% FO��ZSR�POaSR�O����fW�O�W��a *% AS�O�WdS�aO��ZW�� – G��Oa��WY�Z�d���ZgO�Fc�aYSdS����OW�6VS���:�S��F�6���OR���O�R��STT�7SO����7Wa��WPc�SR��S��S� aS��O�W��a �T���Ra O�R��V�OaSa�O�R��VSW��Q����aW�W��OZW�g�m�W��4RdO�QSa�W��ASc�OZ���T���O�W���C��QSaaW��� Fga�S�a��)�(*����%�*(((k*((0% – A86������������������é“r�����“–�� �% �ZOQY�c� – FVWVO� �W��FIA�IWaV�O�O�VO���AORO�Vc� FO�WaV���WQVOSZ���4�RS�a����O�R�C�ORSS��7cPSg����ZOQY�c��� F�SSRW���c���SQc��S����Sc�OZ��S����Y�ZO��cO�S���RSZa��W�V�dS�g�ZO��S�d�QOPcZO�� WSa�m�O��Wd ��S��W��� O��Wd�(,((%�-0�0��)�(,% – A86���������Y�����NV = 9RW, , , 9R) �g������� • �������������������������”��“�����~r����� �v������”������ 10
  • 11. Related work )% �WS�O�QVWQOZ�a�T��Of – 9�SRS�WQ����W��O�R���aVcO �S��W�����WS�O�QVWQOZ����POPWZWa�WQ��Sc�OZ��S����Y� ZO��cO�S���RSZ�m�W��4�FG4GF%�6W�SaSS���)��,��d�Z%�,����%�)�-k),)% – �����������r�������������é���”�r��������� �����������������r����~�~� – ������������������ O 9 = X J(YZ 9 , [ 9 ) ](S) Z^W – ������~·–���r����v��������–·������������� ~������r���a�T��Of����~���� – :CH���������������“� 11
  • 12. Related work *% FSZT�����OZWhO�W���O����OQVSa • �OQ�P�7SdZW���EOPWV MPWP��MV���_WO�� �cO����GV��Oa��O�O���EWQVO�R�FQV�O��h�� O�R���V���OYV�cZ���9Oa��O�R���Pca���Sc�OZ��S����Y���W�����RSZa�T���a�O�Wa�WQOZ� �OQVW�S���O�aZO�W���m�W��46�� (�%�6W�SaSS���)�(�����%�(*.�k(*/�% • �OQ�P�4�R�SOa���OfW��EOPW��dWQV���WQVOSZ������RO���O�R�7O���ZSW��������VS� OQQc�OQg��T�aSZT�����OZWhSR�Z���ZW�SO����RSZa�m�W��4RdO�QSa�W��ASc�OZ���T���O�W��� C��QSaaW���Fga�S�a��)�(,����%�(./*k(.0(% • ��������M�(��������Z�aa����������“–�� • ����r��~�������”r��Y�v������”�������v���� ����~��”����~�� 12
  • 13. Related work �% 7WTTS�S��WO�SR�a�T��Of – JSZW� 6VS���7OdWR�:�O��WS���O�R��WQVOSZ�4cZW���F��O�S�WSa�T�����OW�W���ZO��S� d�QOPcZO�g��Sc�OZ�ZO��cO�S���RSZa�m�O��Wd ��S��W���O��Wd�(,()%��0�-��)�(,% – F�T��Of����������������������x�������������� ��r�O�S��v�������������y – ��v����������������~�����–�r���~��”�·–��~ �� 13
  • 14. SVD-softmax • a�T��Of���� �����������)���� (% ���������R��������I��� )% F�T��Of����r����� 14
  • 15. SVD-softmax (% FW��cZO��dOZcS�RSQ����aW�W�� ������ – ��������“–�����r������� – ����� _ = `Σbc ` ∈ d3×U, Σ ∈ dU×U, b ∈ dU×U� H��I������� �����������“–��� – 8dOZcO�W������r `Σ����������������r `Σ����(������� “������ – ������� 1. `H = `gW )% H � � �������~��������� *% H � � �������~��������� �% ��� f�E� ��“� wHfw2wfw ,% ��� f�g�E� ��“� Hf�Hg2f�g 15
  • 18. SVD-softmax *% �S��WQa – ������Ra��������cZZPOQY��SWPZS� RWdS��S�QS ��7���� • �������v��” • CrD~��������� – AS�O�WdS�Z���ZWYSZWV��R A������������ • 9cZZ�a�T��Of”adR�a�T��Of���~������� • �����������M�������rM������������ – �SO��aSO�QV����r��Y�v�~������“������� • G�����Q�dS�O�S� ���Y�v����������� 18
  • 19. Result (% JW�R���aWhS”������7”��� – JW�R�� aWhS���7�(�/���~��x��������(�/y 19
  • 21. Result *% �������� – �v���� TcZZ�a�T��Of������~�� 21
  • 23. Discussion )% ������� – ������)��*������� – bH �����“–I������d�Q aWhS��������h(Ni)����~rI~�������r ���������� 23
  • 24. Discussion *% ���S�V�Ra”��� – 9cZZ�a�T��Of ������� – �WS�O�QVWQOZ a�T��Of���4RO��WdS�a�T��Of�r������R����������r���� ����������~�� – ������u�“–��xtyr��~����������������������� � • ����“qqq 24
  • 25. Appendix • Tensorflowで実装してみた – https://github.com/koichiro11/svd-softmax • とりあえず学習は,NCEを用いるのが安定で早いのでオススメ • 推論時の時にSVD-Softmaxを用いる 25