[DL輪読会]SlowFast Networks for Video Recognition

1
DEEP LEARNING JP
[DL Papers]
http://deeplearning.jp/
SlowFast Networks forVideo Recognition
Shizuma Kubo, Matsuo Lab

��
• ��
Ø I��g�Qcd DUdg�b�c��b�L�TU��HU��d��
Ø ��2�9Xb�cd��X��U��XdU�X��Ub��>Q�� Q��dU�TbQ�CQ��Q�� >U
Ø ��2��Q�U��7?�HUcUQb�X��7?H�
Ø ?99L�()1��bQ��()0')�')(��Qb��f�
Ø ��Ub��dXU�7L7�f�TU��Q�d�f�di�TUdU�d��XQ��U��U�Qd�9LFH��()1�
�

��
+
• ��q � ��
��r
• ��q
��r
• �� Ud��c��9XQbQTUc��7L7��IEJ7�
��r

��
,
• ��
��rv��
クラス分類
入力動画
「バットを振る」
ラベルを返す
出力
��2�F%9DD2�F�cU%�QcUT�9DD��UQdebUc��b�7�d��HU��d��O9XUb��?99L�)-P

��
-
• ��q��r
• ��q��r
• ��q��
��r
I�Qd�Q�%dU��bQ��B��Q��Qd��JU��bQ� B��Q��Qd��
��2�=Qecc�Q��JU��bQ��7gQbU�Ucc�DUdg�b�c��b�7�d��B��Q��Qd��OB��9LFHm)1P
��2�Ce�d�%bU��dg�%cdbUQ��H%9DD��b�Q�d��TUdU�d��OFU��99L�).P

��
.
• ��q��+��rv��
��
• ��q��r
タタススクク名名評評価価指指標標内内容容
��
��
��
��
��

��
• ��r
• ��Q��U��r
• �� q�� r
/

��
• Jg�%cdbUQ��OI��iQ��D?FIm)-P
Ø �bQ�U��i��bQ�U��7�d��HU��d��r
Ø �� E�d��Q��g��
�� r
0
��
E�d��Q� ��g��
��2�Jg�%IdbUQ��9��f��ed��Q��DUdg�b�c��b�7�d��HU��d��L�TU�c�OI��iQ��D?FIm)-P

��
• 9+: OJbQ��?99Lm)-P
Ø ��q9��f+:��r
Ø v��
• F+:�O��e��?99Lm)/P
Ø 9+:��r
Ø 9��f+:�9��f�:�9��f):��r
1
��
+:9��f��
��2�BUQb��I�Qd��dU��bQ��UQdebUc�g�dX�+:�9��f��ed��Q��DUdg�b�c�OJbQ��?99Lm)-P
��2�BUQb��I�Qd��%JU��bQ��HU�bUcU�dQd��g�dX�FcUeT�%+:�HUc�TeQ��DUdg�b�c�O��e��?99Lm)/P

��
• ?+: O9QbbU�bQ��?99Lm)/P
Ø ��Ud��c��r��9�)()q>C:8%-)��
Ø 9��f+:��q��r
Ø ��E�d��Q��g��cdbUQ��r
)(
��q+:9��f��
E�d��Q� ��g��
��2��e��LQT�c��7�d��HU��d��7�DUg�C�TU��Q�T�dXU��Ud��c�:QdQcUd�O9QbbU�bQ��?99Lm)/P

��
))
Slow Pathwayは
空間的情報に注力
Fast Pathwayは
時間的情報に注力
E�d��Q� ��g
��
• �Qcd �QdXgQi��q��r
• E�d��Q��g��qH=8��T%d�%��T��
��r

��
)�
2
��r
n0(��r
2
��
��rn)-%�(��
��r
• bUd��Q��Q��U��c��dXU��b��QdU�f�ceQ��cicdU�
Slow Pathwayが
Parvocellularの役割
計算コストも同程度
Fast Pathwayが
Magnocellulの役割
計算コストも同程度

��
)+
• I��g FQdXgQi��r
Ø �2��I��g�FQdXgQi��r�TU�Qe�d ).�
Ø J2�I��g�FQdXgQi��r�TU�Qe�d�,�
U�� .,
.,�'�� ).��
J��,�

��
),
• �Qcd FQdXgQi�I��g�FQdXgQi��r
Ø �2��Qcd�FQdXgQi�I��g�FQdXgQi��r�TU�Qe�d2�0�
Ø �2��Qcd�FQdXgQi�I��g�FQdXgQi��r�TU�Qe�d�)'0�
U�� 92�.,
I��g�FQdXgQi��2�,
�9��)�'�0��.,��0
�J��0��,��+�

��
)-
• �Qcd FQdXgQi�I��g�FQdXgQi��+��r
Ø J��U%d�%�XQ��U��Jd�9 �ce��Qd��2�
!", $%
, &' �� ", $%
, !&' �bUcXQ�Ur
Ø J��U%cdb�TUT cQ��J%cQ��U�2� !", $%, &'
� ", $%
, &' ��
��r
Ø J��U%cdb�TUT ��f��ed��J%��f�2�cdb�TU��
�� 2&' �+:�9��f��ed��r
• ��J%��f�TU�Qe�d��r
• 8�%T�bU�d��Q��r
��Q��
��

��
).
• ��Ud��c�,((��.((�� 7�d��9�Qcc��Qd��7�d��HU��d��
• 9XQbQTUc�� 7�d��9�Qcc��Qd��JU��bQ��B��Q��Qd��
• �Qcd��QdXgQi��7��Qd��IdeTi
• 7L7�� 7�d��:UdU�d��I�Qd�Q�%dU��bQ��B��Q��Qd��

Kinetics{400, 600}��
)/
• ��Ud��c,((�� !
• I��g�Qcd�� J��r
• H-(��H)()� ��r
• DB� ��
��q��
��r
• �f�Ugc�� c�Qd�Q�
��b��qdU��bQ��
��

Kinetics{400, 600}��
)0
• ��Ud��c.((��
��q��
��r
• ��q
��Ud��c,((��r
• ��Ud��c/((��r�Q�d�f�di�
�XQ��U��U�Qd�9LFH��()1�dU�X��Q��
�Q�Ub��

Charades��
)1
• 9XQbQTUc�� !
• ��
�Q��U�H)()�qJ��).�0r
• ��Ud��c��r

Fast pathway��Ablation Study
�(
• �Qcd �QdXgQi��r
• ��I��g��QdXgQi��q��Qcd
�QdXgQi��r
• ��
��r
• ��q
I��g��QdXgQi��q��
��
��r

�)
• �Q��Qcd �QdXgQi�I��g��QdXgQi��rJ%��f��
��r�%��TU�Qe�d�J%��f�
• �� vI��g��QdXgQi��r��)'0��
)'.��r�%��TU�Qe�d�)'0�

��
• ��Qcd�FQdXgQi��r
Ø I�Qd�Q��XQ��2��d��U�T��2��
Ø =bQi%c�Q�U��CQ��U��e� �QdXgQi��r
• ��Q�U�Ud��r

AVA��
�+
• 7L7�f��)�� !
• 7L7��?+:��QcdUb�H%9DD��
��q
��?+:��I��g�Qcd��r
• ��QcdUb%H9DD�HFD��
I��g�Qcd��qH�?
F��r�
• 7L7�f��dXU�7L7�f�TU��Q�d�f�di�
TUdU�d��XQ��U��U�Qd�9LFH��()1�
��! ��

AVA��
�,
• I��g��I��g�Qcd��r��c��g��
�Qcd��r-/'.(��r
• �� XQ�T��bQ��/�/7F�q�cg��/�,7F�q�be�'��)0�07F�r

��
• ��I��g�FQdXgQi��Qcd�FQdXgQi��
��r
• �Qcd�FQdXgQi�I��g�FQdXgQi��qE�d��Q��g��
��qU�T%d�%U�T��r
• ��q
��r
• ��Q��Qd��cdeTi��q��r
• ��Ud��cq9XQbQTUcq7L7��q��
��r
�-

[DL輪読会]SlowFast Networks for Video Recognition

More Related Content

What's hot

More from Deep Learning JP

[DL輪読会]SlowFast Networks for Video Recognition