1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
SlowFast Networks forVideo Recognition
Shizuma Kubo, Matsuo Lab
����
• ����
Ø I��g�Qcd DUdg�b�c���b�L�TU��HU�����d���
Ø ��2�9Xb�cd��X��U��XdU�X��Ub��>Q��� �Q�����dU�TbQ�CQ������Q����� >U
Ø ��2��Q�U�����7?�HUcUQb�X���7?H�
Ø ?99L�()1��bQ����()0')�')(����Qb��f�
Ø ����Ub����dXU�7L7�f�TU��Q�d�f�di�TUdU�d�����XQ��U��U�Qd�9LFH��()1�
�
�������
+
• ��������q � ��������
����������������r
• ������������������������q
������������������������r
• ������������ ����Ud��c��9XQbQTUc��7L7�����������IEJ7�
�����r
�������
,
• ������������������������ �
��rv�������������
クラス分類
入力動画
「バットを振る」
ラベルを返す
出力
����2�F%9DD2�F�cU%�QcUT�9DD��UQdebUc���b�7�d����HU�����d����O9XUb����?99L�)-P
�������
-
• ��������q�����������������r
• ��q���������������r
• ��q������������
������������������r
I�Qd�Q�%dU���bQ��B��Q���Qd���JU���bQ� B��Q���Qd���
����2�=Qecc�Q��JU���bQ��7gQbU�Ucc�DUdg�b�c���b�7�d����B��Q���Qd����OB����9LFHm)1P
����2�Ce�d�%bU�����dg�%cdbUQ��H%9DD���b�Q�d����TUdU�d���OFU�����99L�).P
�������
.
• ������q������������+��������rv�����
�����������������
• �����������������q�����r
タタススクク名名 評評価価指指標標 内内容容
������������������ �������� �����
��������������������� ������� ������������
������� ���������
������������
������� ��������� ������������
��������
• ��������������������r
• �������������Q�����U��������������������r
• ��� ���q��� ���r
/
����
• Jg�%cdbUQ��OI����iQ���D?FIm)-P
Ø �bQ�U��i��bQ�U�����������������7�d����HU�����d���������r
Ø ������������������ �E�d��Q�����g�������
�������� �������r
0
������������
E�d��Q� ���g�����
��2�Jg�%IdbUQ��9��f��ed���Q��DUdg�b�c���b�7�d����HU�����d�������L�TU�c�OI����iQ���D?FIm)-P
����
• 9+: OJbQ���?99Lm)-P
Ø �������������q9��f+:����r
Ø v�������������������
• F+:�O��e��?99Lm)/P
Ø 9+:����������������r
Ø 9��f+:�9��f�:�9��f):������r
1
������������
+:9��f�����
��2�BUQb�����I�Qd��dU���bQ���UQdebUc�g�dX�+:�9��f��ed���Q��DUdg�b�c�OJbQ���?99Lm)-P
��2�BUQb�����I�Qd��%JU���bQ��HU�bUcU�dQd����g�dX�FcUeT�%+:�HUc�TeQ��DUdg�b�c�O��e��?99Lm)/P
����
• ?+: O9QbbU�bQ���?99Lm)/P
Ø ���Ud��c���������r������9�)()q>C:8%-)����������
Ø 9��f+:���������q������r
Ø ���������E�d��Q�����g������cdbUQ�������r
)(
��q+:9��f�����
E�d��Q� ���g����������
��2��e��LQT�c��7�d����HU�����d�����7�DUg�C�TU��Q�T�dXU����Ud��c�:QdQcUd�O9QbbU�bQ��?99Lm)/P
���������
))
Slow Pathwayは
空間的情報に注力
Fast Pathwayは
時間的情報に注力
E�d��Q� ���g
�������
• �Qcd �QdXgQi����������������q���r
• E�d��Q�����g��������������qH=8������T%d�%��T����
�����r
������������
)�
2
����������������r
n0(������r
2
����������������
��������rn)-%�(����
��r
• bUd��Q���Q��������U��c����dXU��b��QdU�f�ceQ��cicdU�
Slow Pathwayが
Parvocellularの役割
計算コストも同程度
Fast Pathwayが
Magnocellulの役割
計算コストも同程度
�������
)+
• I��g FQdXgQi������������������r
Ø �2��������I��g�FQdXgQi������������r�TU�Qe�d ).�
Ø J2�I��g�FQdXgQi�����r�TU�Qe�d�,�
U������������ .,
.,�'�� �).��
J��,�
�������
),
• �Qcd FQdXgQi�I��g�FQdXgQi�������������r
Ø �2��Qcd�FQdXgQi�I��g�FQdXgQi�������������r�TU�Qe�d2�0�
Ø �2��Qcd�FQdXgQi�I��g�FQdXgQi��������������r�TU�Qe�d�)'0�
U��������� 92�.,
I��g�FQdXgQi�����2�,
�9����)�'�0����.,���0
�J���0���,���+�
�������
)-
• �Qcd FQdXgQi�I��g�FQdXgQi����+��r
Ø J��U%d�%�XQ��U���Jd�9 �ce�������Qd��2�
!", $%
, &' �� ", $%
, !&' �bUcXQ�Ur
Ø J��U%cdb�TUT cQ�������J%cQ���U�2� !", $%, &'
� ", $%
, &' ��������������
����r
Ø J��U%cdb�TUT ���f��ed�����J%���f�2�cdb�TU��
������� 2&' �+:�9��f��ed������r
• �������J%���f�TU�Qe�d���r
• 8�%T�bU�d���Q���������������r
����������Q���������
�������
��
).
• ���Ud��c�,((��.((�������� �7�d����9�Qcc����Qd�����7�d����HU�����d����
• 9XQbQTUc������� �7�d����9�Qcc����Qd�����JU���bQ��B��Q���Qd����
• �Qcd��QdXgQi����7��Qd����IdeTi
• 7L7������� �7�d����:UdU�d�����I�Qd�Q�%dU���bQ��B��Q���Qd����
Kinetics{400, 600}�������
)/
• ���Ud��c,((��������� !
• I��g�Qcd���� �J���������r
• H-(��H)()� ���r
• DB� ���������
����������q�����
����������������r
• �f�Ugc����������� �c�Qd�Q�
����b��qdU���bQ����������
��������
Kinetics{400, 600}�������
)0
• ���Ud��c.((����������
������q���������
�������r
• �����������q
���Ud��c,((���������r
• ���Ud��c/((������r�Q�d�f�di�
�XQ��U��U�Qd�9LFH��()1�dU�X���Q��
�Q�Ub��������
Charades�������
)1
• 9XQbQTUc���������� !
• �������������
�Q�����U�H)()�qJ����).�0r
• ���Ud��c�����r
Fast pathway����Ablation Study
�(
• �Qcd �QdXgQi����������r
• ��I��g��QdXgQi���q���Qcd
�QdXgQi�����r
• ����������������
�����������r
• ��������������q
I��g��QdXgQi�������q��
����������������
���������������r
Fast pathway����Ablation Study
�)
• �Q���Qcd �QdXgQi�I��g��QdXgQi��������������rJ%���f���
����r�%��TU�Qe�d�J%���f�
• ��� �vI��g��QdXgQi�������������������r����)'0��
)'.�������r�%��TU�Qe�d�)'0�
Fast pathway����Ablation Study
��
• ������Qcd�FQdXgQi���������������r
Ø I�Qd�Q��XQ��2����������d��U�T���2��������������
Ø =bQi%c�Q�U�������������������CQ����U��e� �QdXgQi�����r
• �������Q�U�Ud������������������������r
AVA�������
�+
• 7L7�f��)���������� !
• 7L7����?+:��QcdUb�H%9DD��
���������������q
��?+:���I��g�Qcd������r
• ��QcdUb%H9DD�HFD����
I��g�Qcd��������qH�?
F����������r�
• 7L7�f�����dXU�7L7�f�TU��Q�d�f�di�
TUdU�d�����XQ��U��U�Qd�9LFH��()1�
��! �������
AVA�������
�,
• I��g������I��g�Qcd������r���������c��g�����
�Qcd�������������������r-/'.(������r
• �� �XQ�T��bQ�����/�/7F�q�cg�������/�,7F�q�be�'�������)0�07F�r
���
• ���������I��g�FQdXgQi�����������Qcd�FQdXgQi������
������������������r
• �Qcd�FQdXgQi�I��g�FQdXgQi�����������qE�d��Q�����g������
������qU�T%d�%U�T����������r
• �����������������������������������q
���������������r
• ���������Q��Qd����cdeTi�������q�������r
• ���Ud��cq9XQbQTUcq7L7����������������������q��
�������������������r
�-

[DL輪読会]SlowFast Networks for Video Recognition