論文の書き方
Antonio Tejero-de-Pablos
下田 和
株式会社サイバーエージェント AI Lab
2
CyberAgent AI Lab, Research Scientist
分野:コンピュータビジョン
研究テーマ:
- マルチモーダル学習
- マルチモーダル検索
- ドメイン適応
趣味:剣道、居合道、ヒップホップ
個人ウェブサイト:https://antonio-t.github.io/
自己紹介: Antonio Tejero-de-Pablos
3
わかりやすい
名作の論文
いい論文の書き方
- 論文の書き方を学ぶ方法:論文をたくさん読んで、たくさん書いて、建設的なレ
ビューを受けて、間違いから学ぶ
- 相当な時間がかかる
本資料は下記の教科書に基づいている:
- Science Research Writing (2nd Ed.) by Hilary Glasman-Deal
“いい書き方をしている論文”として下記の論文を参考にする:
- Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional
networks for action recognition in videos. In Proc. Advances in
neural information processing systems, 27.
はじめに
4
論文の概要
- RGB に動きの情報を加えることによって人間動作認識の精度向上
- この2つのモダリティの学習は単純ではない
- そのために新規のアーキテクチャと学習方法を提案
なぜこの論文を選んだのか
- コンピュータビジョンの名作(2024/10の時点で引用数9520本)
- いい論文を書く著者として有名
- 流れが一般的でわかりやすく、長くない
はじめに
5
論文は基本的に下記のセクションを含みます
- Title and abstract
- Introduction
- Related work
- Methodology
- Experimental results
- Discussion and Conclusions
全てのセクション/段落/文章は意味を持ち、論文全体との関係は明らかでないといけな
い
はじめに
6
01
Introduction と Related work
7
Introduction とは?
Introduction(以下 Intro)の冒頭では、読者が論文に引き込まれる
ような書き方にすること
関連研究を紹介し、論文がフォーカスするギャップ(解決したい課題)を
特定
この論文を読むのに価値があることを読者に理解させよう
- Contributions(貢献)を強調!
Intro の最後では、読者が論文の要旨がわかりやすいようにしよう
- 論文の内容を最低限の情報量で紹介できているかを確認
8
Recognition of human actions in videos is a challenging task which has received a significant amount
of attention in the research community [11, 14, 17, 26].
このような文章は情報量がないため、最近はあまり使われない
Compared to still image classification, the temporal component of videos provides an additional (and
important) clue for recognition
論文のタスクを、より一般的なシナリオ(画像分類)と比較しながら導入し、動画データの特性を述べ
る(一般的 → 具体的)
In this work, we aim at extending deep Convolutional Networks [19] to action recognition in video
問題を明確にした後、研究の目的を指摘
論文の分析
9
This task has recently been addressed in [14] by (...) but the results were significantly worse than
hand-crafted shallow representations [20, 26].
対比の言葉(but, however, although, …)を用いて関連研究の「弱点」を簡潔に述べる
(present perfect)。すべての主張には引用が伴う
We investigate a different architecture based on two separate recognition streams (spatial and
temporal), which are then combined by late fusion (...) Both streams are implemented as ConvNets.
Decoupling the spatial and temporal nets also allows us to exploit (...)
提案手法とそのメリットを簡潔に説明
- 「ポジティブ」な言葉を使用(capable of, allows us to, …)
論文の分析
10
The rest of the paper is organised as follows. In Sect. 1.1 we (...)
このような段落はかなりスペースを取るのに、読者にとってはそんな魅力がないため、最近は使わ
れなくなってきた
Our experiments on two challenging datasets show that the two recognition streams are
complementary, and our deep architecture significantly outperforms that of [14] and is competitive with
the state of the art shallow representations [20, 21, 26]
提案手法の強みを強調し、論文の結論を一言で述べる。また、上記に紹介された関連研究を(論理
的に!)引用
- 「ポジティブ」な言葉を使用(significantly, competitive, outperforms, …)
論文の分析
11
簡潔で直感的な(わかりやすい)intro は、より好まれ、読者に「もっと読みたい」と思わせる。一般的
な方法として、intro の最後に主な貢献点(約3つ)を示すことが多い。例:
Our main contributions are:
- We define a new task/scenario/etc. to…
- To solve it, we propose a method that uses…
- We evaluate our implementation on several datasets, and outperform the state-of-the-art by…
Intro では、論文が提案するコアアイデアの概要/パイプラインを示すシンプルな図を使用。これは
機械学習の論文で一般的であり、注目を引く手法として、図1として論文の1ページ目に置くことが多
い。パイプラインを説明する際には、ストーリーの論理性を保つことが重要。
論文の分析
12
段落の最初の一文を読むことでその内容を把握できるようにすること
- 段落構成は「1つのアイデアにつき1つの段落」を基本とする
1. Recognition of human actions in videos is… ← 分野の紹介
2. In this work, we aim at extending ConvNets… ← 提案手法の紹介
3. The rest of the paper (...) Our experiments show that… ← Contributions/conclusions のまとめ
留意点:
- 価値があるか: この問題を解決することがなぜ重要なのか?誰が嬉しいのか?
- 挑戦する意義: 技術的なチャレンジや contributions は何か?
- 面白さ: この研究を行うことで何が明らかになるのか?
ただし、contributions を誇張しすぎないで!(安易な誇張はレビュワーに見抜かれる)
論文の分析
13
Intro と関連付けながら、タスクやシナリオの詳細をさらに説明する。しかし、それ以上に、提案手法
の新規性について読者を納得させることが重要。
- ただの論文諸々サーベイにならないように!
新規の提案手法の詳細を説明する前に、読者が以下を理解できるようにすること:
- なぜ従来手法では本題を解決できないのか
- 従来手法との違いは何か(つまり、なぜそれが新規性を持つのか)
この説明は論理的かつ中立的であるべきです
- 従来の手法を「ゴミ」と呼ぶような表現は不要
Related work を書くのは意外と難しい!
Related work とは?
14
A large family of video action recognition methods is based on shallow high-dimensional encoding (...)
従来に効果的であるアプローチを紹介
There has also been a number of attempts to develop a deep architecture for video recognition. The
model is expected to implicitly learn spatio-temporal features in the first layers, which is difficult (...)
提案手法に近いアプローチを紹介し、そのチャレンジを明確に述べる
A network operating on individual video frames performs similarly to the networks which input is a
stack of frames. This might indicate that the learnt spatio-temporal features do not capture the motion
well. The learnt representation turned out to be 20% less accurate than traditional shallow features.
例を挙げて既存手法の limitations を具体的に述べる
論文の分析
15
Our temporal stream ConvNet operates on multiple-frame dense optical flow (...). We used a popular
method [2], which formulates the energy based on constancy assumptions for intensity and its gradient,
as well as smoothness of the displacement field.
前述の前提に基づいて、提案手法を簡潔に紹介し、その強みを強調。例えば:
- X手法は従来は効果的だった
- Y手法は有望であるが、理由RによりXを上回ることができない
- 我々はYの改善案としてZ手法を提案し、Rを解決することにより、XとYを両方上回る結果を示
す
論文の分析
16
02
Methodology
17
「提案手法」という論文のコアとなるセクション
呼び名は色々
- Model, Methodology, Architecture, “Method Name”, etc.
Intro などに比べて読むのに気力が必要
- → 最近は information-surfing approach という読み方を取られることが多い
Information-Surfing Approach
- Intro と Conclusion をさっと読んで、必要あればMethods などの細部を読む
“The aim is not simply to make it possible for the reader to understand;
- The aim is make it IMPOSSIBLE for the reader NOT to understand.”
トップダウン方向: 全体→細部
- ゴール、背景、気持ち→ 使用ツール、モデルの構造、パラメータetc.
技術的なチャレンジはどこにあったのかを明確にするのが MUST!
Methodology とは?
18
1. 最初に
a. 提案手法の全体像 (i.e., pipeline)
b. Intro で述べた目的・関連研究との差改めて述べる
2. 手法の詳細を説明
a. Pipeline のモジュールごとの存在に 妥当な理由を述べる
3. 必要あれば図表について触れる
4. 関連研究に言及
a. 比較のため
b. 手法の妥当性を示すため
5. 英語の「現在形」が使われる (e.g., “module A extracts/filters/learns/etc.)
6. 手法の問題点を示す → Limitations
Methodology の一般的な書き方
19
セクションの構造
● Optical flow ConvNets(貢献1:ネットワーク構造)
○ ConvNet input configurations
○ Relation of the temporal ConvNet architecture to previous representations
● Multi-task learning(貢献2:学習方法)
● Implementation details(提案手法に依存しない詳細・再現性の保証 )
論文の分析
20
図の重要性
- 論文のわかりやすさが倍に
- ポスター発表においても ⭕
理想:パッと見て複雑な手法を理解できる
- 情報量
- 要素の関連を明確に示す
論文の分析
21
We describe a ConvNet model, which forms the temporal recognition stream of our architecture.
提案手法とその目的の紹介
Unlike the ConvNet models, the input to our model is formed by stacking optical flow displacement
fields between several consecutive frames.
関連研究との違いを強調
Such input explicitly describes the motion between video frames, which makes the recognition easier,
as the network does not need to estimate motion implicitly.
各コンポーネントの設計上の決定(design decisions)を正当化
We consider several variations of the optical flow-based input, which we describe below.
実装の詳細と ablation study
論文の分析
22
Optical flow stacking. A dense optical flow can be seen as a set of displacement vector fields (...)
Formally, let w and h be the width and height of a video; a ConvNet input volume for an arbitrary
frame τ is then constructed as follows: (数式)
手法の技術的な説明(理論に基づく数式も含め)
In this section, we put our temporal ConvNet architecture in the context of prior art, drawing
connections to the video representations, reviewed in the related work
関連研究との違いを強調し、design decisions を正当化
(レビューでされたのコメントをきっかけに?)
This provides further evidence that our representation generalises hand-crafted features.
Design decisions を正当化/検証
論文の分析
23
Unlike the spatial stream ConvNet, which can be pre-trained on a large image dataset, the
available datasets for training the temporal ConvNet are still rather small (...) One could consider
combining two datasets; however, this is not straightforward (...) A more principled way of combining
several datasets is based on multi-task learning, where additional tasks act as a regulariser (...)
他の使えそうなアプローチに対して、design decisions を正当化
(レビューでされたのコメントをきっかけに?)
In our case, a ConvNet architecture is modified so that it has two softmax classification layers (...)
提案手法の技術的な説明
Architecture (...) Hyperparameters (...) Pre-processing (...) Train/test (...) GPU hardware (...)
実装の詳細
論文の分析
24
03
Experimental results
25
Experimental results とは?
これまでのセクションから論文の結論へのトランジション。
Experimental results は、やった実験とその得られた結果を説
明しながら、「related work」や「methodology」のセクションで
洗い出した課題に関連付ける
26
結果の順序付け:
- 結論へ向かうストーリーを伝える形で結果を構成すること
- アイデアを論理的に関連付け、結果が自然につながるようにすること
- 省略または supplementary material へ回せる結果はどれかを検討
- 論文本文は重要かつ核心的な内容に集中
- 逆にいうと、コアな結果を suppl. に入れては NG
ガイド(例:表の数値の意味の説明)がないと、読者に結果を誤って解釈され、結果から出た結論に
対して疑われることが起こり得る(comprehension gap)
- 結果を読んだ後、提案手法の「分野内での位置付け」が明確でなければならない(つまり、「何
よりもどれだけ優れているのか、そしてそれはなぜか?」)
Experimental results とは?
27
論文の分析
セクションの構造
● Evaluation
○ Datasets and evaluation protocol(再現性のため)
○ Spatial ConvNets(モジュール1のアブレーション)
○ Temporal ConvNets(モジュール2のアブレーション)
○ Multi-task learning(学習方法のアブレーション)
○ Two-stream ConvNets(モジュールの組み合わせのアブレーション)
○ Comparison with the state of the art(提案手法と関連研究の比較)
提案手法の各モジュールを個別で評価し、結果を解析
その解析に基づいて手法全体を評価し、結果を解析
因果関係に一貫性
28
The evaluation is performed on UCF-101 and HMDB-51 action recognition benchmarks (...) UCF-101
contains 13K videos (...) The datasets provide three splits into training and test data (...)
データセットの詳細と評価手順を紹介
Performance of the spatial stream ConvNet. Three scenarios are considered: (i) (...)
モジュールの ablation の仕方を説明
From the results, it is clear that training the ConvNet solely on the UCF-101 dataset leads to
over-fitting (...). Interestingly, fine-tuning the whole network gives only marginal improvement (...)
定性的な結果から、提案手法に関する結論を導き出す
We assess the effect of different input configurations, and conclude that stacking multiple displacement
fields in the input is highly beneficial, as it provides the network with long-term motion information.
各設定で得られた結果について議論すること(議論されていない実験があってはいけない)
論文の分析
29
Training temporal ConvNets on UCF-101 is challenging due to the small size of the training set. Here we
evaluate different options for increasing effectiveness: (i) fine-tuning a temporal network (...); (ii)...
Ablation や実験の設定の目的を明確にするために、改めて述べる
The results are reported in Table 2. As expected, it is beneficial to utilise all splits combined (...) Multi-task
learning performs the best, as it allows the training procedure to exploit all available data.
得られた結果から仮説を裏付ける結論を導き出す
From Table 3 we conclude that: (i) temporal and spatial recognition streams are complementary, as their fusion
significantly improves on both; (ii) …
Ablation と同様に、full-pipeline の実験から得られた結論を説明
As can be seen from Table 4, both our spatial and temporal nets alone outperform deep architectures. The
combination of the two nets further improves the results (in line with the experiments above)
他の結果と整合性を保ちながら、提案手法の強みを強調する
論文の分析
30
その他
- Experimental results は Intro と Methodology を
Discussion/Conclusions と繋げる
- 動詞の時制
- 事実や仮説、図には present simple(例: "The graph shows...")
- 実験には past simple(例: "We conducted an ablation...")
- Experimental results は分野によってさまざまな構造を持てる。たとえば、
画像生成の論文では、結果を「定量的結果」と「定性的結果」に分けて書くこと
が一般的
31
04
Discussion と Conclusions
32
成功する Discussion のポイント:
- 前向き: 議論が進展するように結果を基に次のステップ
や可能性を示す
- 整理されたストーリーテリング: 論文全体の流れを締め
くくるように結論を意味のある形でまとめる
Discussion を計画する前に
- 研究から一歩引いてその主な価値や貢献 を考える
- 明確な「結論のゴール」を設定し、それをストー
リーを通じて読者に明示的に伝える
Discussionとは?
33
Incorporating such assumptions into a ConvNet framework might be able to boost the performance of
end-to-end ConvNet-based methods, and is an interesting direction for future research.
提案手法をなどの limitations を述べる。Limitations は論文の範囲外
(out-of-the-scope, future work)かもしれないがカバーしてはNG(怪しく見える)
代わりに問題を軽くするような言葉を使ったり、解決策を提案したりするなど、前向きなスタンスを取
るのが良い
論文の分析
34
Conclusions には、Abstract、Intro、Discussionのセクションと内容がかぶる
- しかし、Conclusions の役割はそれらとは違う
- ただの繰り返しや要約ではない
研究の成果やその影響にフォーカスした「持ち帰るべきメッセージ」を明確に伝えるためのセクション
である
Conclusionsとは?
35
パターン1 パターン2 パターン3 パターン4
Experiments Experiments Experiments and
Discussion
Experiments
Discussion Discussion -
Conlusions - Conclusions Conclusions
1~2つの短い段落で構成
された別途のセクション
Discussion の最後の1~2
段落が内容的に
Conclusions と同様
Experiments と Discussion
は一緒で、Conclusions は
別途の1~2つの短い段落
で構成されたセクション
Discussion の内容を
Experiments(実験結果に
関する議論)とConclusions
(実験結果で得られる知識
からの結論)に分けること
によりセクションを省くこと
ができる
よくある Discussion/Conclusions の構造
36
05
Abstract と Title
37
読者がこの独立した文章を読む目的は:
- 分野で現在行われている研究を簡単に把握したい
- 自分の研究に直接関連する技術的な詳細を知りたい
- 自分の研究テーマが他の研究者に既にやられているかを知りたい
- その研究の応用を知りたい
非常に高い明確性と一貫性が求められる:
- 毎年300万本以上の研究論文が発表される
- Abstract は論文全体よりも読まれる可能性が高い
- 良い Abstract は研究の注目を集める
- 一方で悪い Abstract は研究が見逃される原因になる
Abstractとは?
38
Incorporating such assumptions into a ConvNet framework might be able to boost the performance of
end-to-end ConvNet-based methods, and is an interesting direction for future research.
論文の全体概要(モチベーションや目標)を簡潔に要約
The challenge is to capture the complementary information on appearance from still frames and motion
between frames. We also aim to generalise the best performing hand-crafted features within a
data-driven learning framework.
論文のチャレンジや工夫などを指摘
論文の分析
39
Our contribution is three-fold. First, we propose a two-stream ConvNet architecture which incorporates
spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense
optical flow is able to achieve very good performance in spite of limited training data. Finally, we show
that multitask learning, applied to two different action classification datasets, can be used to increase
the amount of training data and improve the performance on both
Contributionsを具体的に述べる
Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and
HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous
attempts to use deep nets for video classification.
提案手法の評価の仕方やその結果を簡潔に述べ、成果を強調
論文の分析
40
研究論文 title の変化
- オンラインの推薦システムなどで読むことが多い
- Title は、Abstract よりも読まれる
- 検索結果の最初に表示されるものだけが読まれる傾向
- ターゲットとする読者層の多様性:高度専門的/学際的
Title の重要性
- 良い title は適切な読者を引きつける
- 逆にいうと、悪い title はターゲットとなる読者層に届かない
研究が完了し、結果が得られてから title を決めるのが大事
Titleとは?
41
最近の論文のタイトルの平均的な長さを確認
頭字語(Acronyms)を入れるか
- 現在と将来の読者がどこまで知識共有するかを考慮
Title のキーワードとキーワードリストを差別化して、論文を見つけやすくする
- 技術的なタイトルキーワード+ 一般的なキーワードリスト
- 一般的なタイトルキーワード+ 技術的なキーワードリスト
Title の文法をチェック
- 名詞や複合名詞が多すぎないかに注意
- 前置詞の多用や不適切な使用にも注意
Title の決め方
42
Title の決め方
Title の構造をモデル化(コロンの使い方など)
- “using” → 手法(method)
- “for” → 応用(application)
- “cost-effective” → 貢献(contribution)
Title が読者の期待を満たしているかを確認
- Title は読者にアピールするものだが
- 研究の成果を過大表現したりしないように注意
43
Two-Stream Convolutional Networks for Action Recognition in Videos
非常に簡潔な title
- 前置詞(2つ):for (応用)、in (対象データ)
- 名詞(1つ):videos (対象データ)
- 複合名詞(3つ):two-streams (手法、貢献)、CNN(手法)、action
recognition(分野、領域)
成果を過大表現:Action recognition に対象を絞っているのでセーフ
- Color and optical flow をタイトルに入れてもOKかも
論文の分析
44
06
さらなる参考文献
45
https://perceiving-systems.blog/en/post/writing-a-good-scientific-paper
https://ymatsuo.com/information/how-to-write-paper-en/
論文の書き方に関するネット記事
LET’S SKILL-UP TOGETHER!

研究論文の書き方 - How to write a scientific paper

  • 1.
  • 2.
    2 CyberAgent AI Lab,Research Scientist 分野:コンピュータビジョン 研究テーマ: - マルチモーダル学習 - マルチモーダル検索 - ドメイン適応 趣味:剣道、居合道、ヒップホップ 個人ウェブサイト:https://antonio-t.github.io/ 自己紹介: Antonio Tejero-de-Pablos
  • 3.
    3 わかりやすい 名作の論文 いい論文の書き方 - 論文の書き方を学ぶ方法:論文をたくさん読んで、たくさん書いて、建設的なレ ビューを受けて、間違いから学ぶ - 相当な時間がかかる 本資料は下記の教科書に基づいている: -Science Research Writing (2nd Ed.) by Hilary Glasman-Deal “いい書き方をしている論文”として下記の論文を参考にする: - Simonyan, K., & Zisserman, A. (2014). Two-stream convolutional networks for action recognition in videos. In Proc. Advances in neural information processing systems, 27. はじめに
  • 4.
    4 論文の概要 - RGB に動きの情報を加えることによって人間動作認識の精度向上 -この2つのモダリティの学習は単純ではない - そのために新規のアーキテクチャと学習方法を提案 なぜこの論文を選んだのか - コンピュータビジョンの名作(2024/10の時点で引用数9520本) - いい論文を書く著者として有名 - 流れが一般的でわかりやすく、長くない はじめに
  • 5.
    5 論文は基本的に下記のセクションを含みます - Title andabstract - Introduction - Related work - Methodology - Experimental results - Discussion and Conclusions 全てのセクション/段落/文章は意味を持ち、論文全体との関係は明らかでないといけな い はじめに
  • 6.
  • 7.
  • 8.
    8 Recognition of humanactions in videos is a challenging task which has received a significant amount of attention in the research community [11, 14, 17, 26]. このような文章は情報量がないため、最近はあまり使われない Compared to still image classification, the temporal component of videos provides an additional (and important) clue for recognition 論文のタスクを、より一般的なシナリオ(画像分類)と比較しながら導入し、動画データの特性を述べ る(一般的 → 具体的) In this work, we aim at extending deep Convolutional Networks [19] to action recognition in video 問題を明確にした後、研究の目的を指摘 論文の分析
  • 9.
    9 This task hasrecently been addressed in [14] by (...) but the results were significantly worse than hand-crafted shallow representations [20, 26]. 対比の言葉(but, however, although, …)を用いて関連研究の「弱点」を簡潔に述べる (present perfect)。すべての主張には引用が伴う We investigate a different architecture based on two separate recognition streams (spatial and temporal), which are then combined by late fusion (...) Both streams are implemented as ConvNets. Decoupling the spatial and temporal nets also allows us to exploit (...) 提案手法とそのメリットを簡潔に説明 - 「ポジティブ」な言葉を使用(capable of, allows us to, …) 論文の分析
  • 10.
    10 The rest ofthe paper is organised as follows. In Sect. 1.1 we (...) このような段落はかなりスペースを取るのに、読者にとってはそんな魅力がないため、最近は使わ れなくなってきた Our experiments on two challenging datasets show that the two recognition streams are complementary, and our deep architecture significantly outperforms that of [14] and is competitive with the state of the art shallow representations [20, 21, 26] 提案手法の強みを強調し、論文の結論を一言で述べる。また、上記に紹介された関連研究を(論理 的に!)引用 - 「ポジティブ」な言葉を使用(significantly, competitive, outperforms, …) 論文の分析
  • 11.
    11 簡潔で直感的な(わかりやすい)intro は、より好まれ、読者に「もっと読みたい」と思わせる。一般的 な方法として、intro の最後に主な貢献点(約3つ)を示すことが多い。例: Ourmain contributions are: - We define a new task/scenario/etc. to… - To solve it, we propose a method that uses… - We evaluate our implementation on several datasets, and outperform the state-of-the-art by… Intro では、論文が提案するコアアイデアの概要/パイプラインを示すシンプルな図を使用。これは 機械学習の論文で一般的であり、注目を引く手法として、図1として論文の1ページ目に置くことが多 い。パイプラインを説明する際には、ストーリーの論理性を保つことが重要。 論文の分析
  • 12.
    12 段落の最初の一文を読むことでその内容を把握できるようにすること - 段落構成は「1つのアイデアにつき1つの段落」を基本とする 1. Recognitionof human actions in videos is… ← 分野の紹介 2. In this work, we aim at extending ConvNets… ← 提案手法の紹介 3. The rest of the paper (...) Our experiments show that… ← Contributions/conclusions のまとめ 留意点: - 価値があるか: この問題を解決することがなぜ重要なのか?誰が嬉しいのか? - 挑戦する意義: 技術的なチャレンジや contributions は何か? - 面白さ: この研究を行うことで何が明らかになるのか? ただし、contributions を誇張しすぎないで!(安易な誇張はレビュワーに見抜かれる) 論文の分析
  • 13.
    13 Intro と関連付けながら、タスクやシナリオの詳細をさらに説明する。しかし、それ以上に、提案手法 の新規性について読者を納得させることが重要。 - ただの論文諸々サーベイにならないように! 新規の提案手法の詳細を説明する前に、読者が以下を理解できるようにすること: -なぜ従来手法では本題を解決できないのか - 従来手法との違いは何か(つまり、なぜそれが新規性を持つのか) この説明は論理的かつ中立的であるべきです - 従来の手法を「ゴミ」と呼ぶような表現は不要 Related work を書くのは意外と難しい! Related work とは?
  • 14.
    14 A large familyof video action recognition methods is based on shallow high-dimensional encoding (...) 従来に効果的であるアプローチを紹介 There has also been a number of attempts to develop a deep architecture for video recognition. The model is expected to implicitly learn spatio-temporal features in the first layers, which is difficult (...) 提案手法に近いアプローチを紹介し、そのチャレンジを明確に述べる A network operating on individual video frames performs similarly to the networks which input is a stack of frames. This might indicate that the learnt spatio-temporal features do not capture the motion well. The learnt representation turned out to be 20% less accurate than traditional shallow features. 例を挙げて既存手法の limitations を具体的に述べる 論文の分析
  • 15.
    15 Our temporal streamConvNet operates on multiple-frame dense optical flow (...). We used a popular method [2], which formulates the energy based on constancy assumptions for intensity and its gradient, as well as smoothness of the displacement field. 前述の前提に基づいて、提案手法を簡潔に紹介し、その強みを強調。例えば: - X手法は従来は効果的だった - Y手法は有望であるが、理由RによりXを上回ることができない - 我々はYの改善案としてZ手法を提案し、Rを解決することにより、XとYを両方上回る結果を示 す 論文の分析
  • 16.
  • 17.
    17 「提案手法」という論文のコアとなるセクション 呼び名は色々 - Model, Methodology,Architecture, “Method Name”, etc. Intro などに比べて読むのに気力が必要 - → 最近は information-surfing approach という読み方を取られることが多い Information-Surfing Approach - Intro と Conclusion をさっと読んで、必要あればMethods などの細部を読む “The aim is not simply to make it possible for the reader to understand; - The aim is make it IMPOSSIBLE for the reader NOT to understand.” トップダウン方向: 全体→細部 - ゴール、背景、気持ち→ 使用ツール、モデルの構造、パラメータetc. 技術的なチャレンジはどこにあったのかを明確にするのが MUST! Methodology とは?
  • 18.
    18 1. 最初に a. 提案手法の全体像(i.e., pipeline) b. Intro で述べた目的・関連研究との差改めて述べる 2. 手法の詳細を説明 a. Pipeline のモジュールごとの存在に 妥当な理由を述べる 3. 必要あれば図表について触れる 4. 関連研究に言及 a. 比較のため b. 手法の妥当性を示すため 5. 英語の「現在形」が使われる (e.g., “module A extracts/filters/learns/etc.) 6. 手法の問題点を示す → Limitations Methodology の一般的な書き方
  • 19.
    19 セクションの構造 ● Optical flowConvNets(貢献1:ネットワーク構造) ○ ConvNet input configurations ○ Relation of the temporal ConvNet architecture to previous representations ● Multi-task learning(貢献2:学習方法) ● Implementation details(提案手法に依存しない詳細・再現性の保証 ) 論文の分析
  • 20.
    20 図の重要性 - 論文のわかりやすさが倍に - ポスター発表においても⭕ 理想:パッと見て複雑な手法を理解できる - 情報量 - 要素の関連を明確に示す 論文の分析
  • 21.
    21 We describe aConvNet model, which forms the temporal recognition stream of our architecture. 提案手法とその目的の紹介 Unlike the ConvNet models, the input to our model is formed by stacking optical flow displacement fields between several consecutive frames. 関連研究との違いを強調 Such input explicitly describes the motion between video frames, which makes the recognition easier, as the network does not need to estimate motion implicitly. 各コンポーネントの設計上の決定(design decisions)を正当化 We consider several variations of the optical flow-based input, which we describe below. 実装の詳細と ablation study 論文の分析
  • 22.
    22 Optical flow stacking.A dense optical flow can be seen as a set of displacement vector fields (...) Formally, let w and h be the width and height of a video; a ConvNet input volume for an arbitrary frame τ is then constructed as follows: (数式) 手法の技術的な説明(理論に基づく数式も含め) In this section, we put our temporal ConvNet architecture in the context of prior art, drawing connections to the video representations, reviewed in the related work 関連研究との違いを強調し、design decisions を正当化 (レビューでされたのコメントをきっかけに?) This provides further evidence that our representation generalises hand-crafted features. Design decisions を正当化/検証 論文の分析
  • 23.
    23 Unlike the spatialstream ConvNet, which can be pre-trained on a large image dataset, the available datasets for training the temporal ConvNet are still rather small (...) One could consider combining two datasets; however, this is not straightforward (...) A more principled way of combining several datasets is based on multi-task learning, where additional tasks act as a regulariser (...) 他の使えそうなアプローチに対して、design decisions を正当化 (レビューでされたのコメントをきっかけに?) In our case, a ConvNet architecture is modified so that it has two softmax classification layers (...) 提案手法の技術的な説明 Architecture (...) Hyperparameters (...) Pre-processing (...) Train/test (...) GPU hardware (...) 実装の詳細 論文の分析
  • 24.
  • 25.
    25 Experimental results とは? これまでのセクションから論文の結論へのトランジション。 Experimentalresults は、やった実験とその得られた結果を説 明しながら、「related work」や「methodology」のセクションで 洗い出した課題に関連付ける
  • 26.
    26 結果の順序付け: - 結論へ向かうストーリーを伝える形で結果を構成すること - アイデアを論理的に関連付け、結果が自然につながるようにすること -省略または supplementary material へ回せる結果はどれかを検討 - 論文本文は重要かつ核心的な内容に集中 - 逆にいうと、コアな結果を suppl. に入れては NG ガイド(例:表の数値の意味の説明)がないと、読者に結果を誤って解釈され、結果から出た結論に 対して疑われることが起こり得る(comprehension gap) - 結果を読んだ後、提案手法の「分野内での位置付け」が明確でなければならない(つまり、「何 よりもどれだけ優れているのか、そしてそれはなぜか?」) Experimental results とは?
  • 27.
    27 論文の分析 セクションの構造 ● Evaluation ○ Datasetsand evaluation protocol(再現性のため) ○ Spatial ConvNets(モジュール1のアブレーション) ○ Temporal ConvNets(モジュール2のアブレーション) ○ Multi-task learning(学習方法のアブレーション) ○ Two-stream ConvNets(モジュールの組み合わせのアブレーション) ○ Comparison with the state of the art(提案手法と関連研究の比較) 提案手法の各モジュールを個別で評価し、結果を解析 その解析に基づいて手法全体を評価し、結果を解析 因果関係に一貫性
  • 28.
    28 The evaluation isperformed on UCF-101 and HMDB-51 action recognition benchmarks (...) UCF-101 contains 13K videos (...) The datasets provide three splits into training and test data (...) データセットの詳細と評価手順を紹介 Performance of the spatial stream ConvNet. Three scenarios are considered: (i) (...) モジュールの ablation の仕方を説明 From the results, it is clear that training the ConvNet solely on the UCF-101 dataset leads to over-fitting (...). Interestingly, fine-tuning the whole network gives only marginal improvement (...) 定性的な結果から、提案手法に関する結論を導き出す We assess the effect of different input configurations, and conclude that stacking multiple displacement fields in the input is highly beneficial, as it provides the network with long-term motion information. 各設定で得られた結果について議論すること(議論されていない実験があってはいけない) 論文の分析
  • 29.
    29 Training temporal ConvNetson UCF-101 is challenging due to the small size of the training set. Here we evaluate different options for increasing effectiveness: (i) fine-tuning a temporal network (...); (ii)... Ablation や実験の設定の目的を明確にするために、改めて述べる The results are reported in Table 2. As expected, it is beneficial to utilise all splits combined (...) Multi-task learning performs the best, as it allows the training procedure to exploit all available data. 得られた結果から仮説を裏付ける結論を導き出す From Table 3 we conclude that: (i) temporal and spatial recognition streams are complementary, as their fusion significantly improves on both; (ii) … Ablation と同様に、full-pipeline の実験から得られた結論を説明 As can be seen from Table 4, both our spatial and temporal nets alone outperform deep architectures. The combination of the two nets further improves the results (in line with the experiments above) 他の結果と整合性を保ちながら、提案手法の強みを強調する 論文の分析
  • 30.
    30 その他 - Experimental resultsは Intro と Methodology を Discussion/Conclusions と繋げる - 動詞の時制 - 事実や仮説、図には present simple(例: "The graph shows...") - 実験には past simple(例: "We conducted an ablation...") - Experimental results は分野によってさまざまな構造を持てる。たとえば、 画像生成の論文では、結果を「定量的結果」と「定性的結果」に分けて書くこと が一般的
  • 31.
  • 32.
    32 成功する Discussion のポイント: -前向き: 議論が進展するように結果を基に次のステップ や可能性を示す - 整理されたストーリーテリング: 論文全体の流れを締め くくるように結論を意味のある形でまとめる Discussion を計画する前に - 研究から一歩引いてその主な価値や貢献 を考える - 明確な「結論のゴール」を設定し、それをストー リーを通じて読者に明示的に伝える Discussionとは?
  • 33.
    33 Incorporating such assumptionsinto a ConvNet framework might be able to boost the performance of end-to-end ConvNet-based methods, and is an interesting direction for future research. 提案手法をなどの limitations を述べる。Limitations は論文の範囲外 (out-of-the-scope, future work)かもしれないがカバーしてはNG(怪しく見える) 代わりに問題を軽くするような言葉を使ったり、解決策を提案したりするなど、前向きなスタンスを取 るのが良い 論文の分析
  • 34.
    34 Conclusions には、Abstract、Intro、Discussionのセクションと内容がかぶる - しかし、Conclusionsの役割はそれらとは違う - ただの繰り返しや要約ではない 研究の成果やその影響にフォーカスした「持ち帰るべきメッセージ」を明確に伝えるためのセクション である Conclusionsとは?
  • 35.
    35 パターン1 パターン2 パターン3パターン4 Experiments Experiments Experiments and Discussion Experiments Discussion Discussion - Conlusions - Conclusions Conclusions 1~2つの短い段落で構成 された別途のセクション Discussion の最後の1~2 段落が内容的に Conclusions と同様 Experiments と Discussion は一緒で、Conclusions は 別途の1~2つの短い段落 で構成されたセクション Discussion の内容を Experiments(実験結果に 関する議論)とConclusions (実験結果で得られる知識 からの結論)に分けること によりセクションを省くこと ができる よくある Discussion/Conclusions の構造
  • 36.
  • 37.
    37 読者がこの独立した文章を読む目的は: - 分野で現在行われている研究を簡単に把握したい - 自分の研究に直接関連する技術的な詳細を知りたい -自分の研究テーマが他の研究者に既にやられているかを知りたい - その研究の応用を知りたい 非常に高い明確性と一貫性が求められる: - 毎年300万本以上の研究論文が発表される - Abstract は論文全体よりも読まれる可能性が高い - 良い Abstract は研究の注目を集める - 一方で悪い Abstract は研究が見逃される原因になる Abstractとは?
  • 38.
    38 Incorporating such assumptionsinto a ConvNet framework might be able to boost the performance of end-to-end ConvNet-based methods, and is an interesting direction for future research. 論文の全体概要(モチベーションや目標)を簡潔に要約 The challenge is to capture the complementary information on appearance from still frames and motion between frames. We also aim to generalise the best performing hand-crafted features within a data-driven learning framework. 論文のチャレンジや工夫などを指摘 論文の分析
  • 39.
    39 Our contribution isthree-fold. First, we propose a two-stream ConvNet architecture which incorporates spatial and temporal networks. Second, we demonstrate that a ConvNet trained on multi-frame dense optical flow is able to achieve very good performance in spite of limited training data. Finally, we show that multitask learning, applied to two different action classification datasets, can be used to increase the amount of training data and improve the performance on both Contributionsを具体的に述べる Our architecture is trained and evaluated on the standard video actions benchmarks of UCF-101 and HMDB-51, where it is competitive with the state of the art. It also exceeds by a large margin previous attempts to use deep nets for video classification. 提案手法の評価の仕方やその結果を簡潔に述べ、成果を強調 論文の分析
  • 40.
    40 研究論文 title の変化 -オンラインの推薦システムなどで読むことが多い - Title は、Abstract よりも読まれる - 検索結果の最初に表示されるものだけが読まれる傾向 - ターゲットとする読者層の多様性:高度専門的/学際的 Title の重要性 - 良い title は適切な読者を引きつける - 逆にいうと、悪い title はターゲットとなる読者層に届かない 研究が完了し、結果が得られてから title を決めるのが大事 Titleとは?
  • 41.
    41 最近の論文のタイトルの平均的な長さを確認 頭字語(Acronyms)を入れるか - 現在と将来の読者がどこまで知識共有するかを考慮 Title のキーワードとキーワードリストを差別化して、論文を見つけやすくする -技術的なタイトルキーワード+ 一般的なキーワードリスト - 一般的なタイトルキーワード+ 技術的なキーワードリスト Title の文法をチェック - 名詞や複合名詞が多すぎないかに注意 - 前置詞の多用や不適切な使用にも注意 Title の決め方
  • 42.
    42 Title の決め方 Title の構造をモデル化(コロンの使い方など) -“using” → 手法(method) - “for” → 応用(application) - “cost-effective” → 貢献(contribution) Title が読者の期待を満たしているかを確認 - Title は読者にアピールするものだが - 研究の成果を過大表現したりしないように注意
  • 43.
    43 Two-Stream Convolutional Networksfor Action Recognition in Videos 非常に簡潔な title - 前置詞(2つ):for (応用)、in (対象データ) - 名詞(1つ):videos (対象データ) - 複合名詞(3つ):two-streams (手法、貢献)、CNN(手法)、action recognition(分野、領域) 成果を過大表現:Action recognition に対象を絞っているのでセーフ - Color and optical flow をタイトルに入れてもOKかも 論文の分析
  • 44.
  • 45.
  • 46.