Submit Search
Upload
物体検出 論文読み
•
0 likes
•
33 views
J
JunMatsukuma
Follow
機械学習に関する知見を深めるべく、物体検出に関連した5つの論文を落合陽一式と呼ばれるフォーマットで要約しました。 短期間で論文の概要を掴むコツが身についたと感じました。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 11
Download now
Download to read offline
Recommended
20160901 jwein
20160901 jwein
tm1966
Mxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別する
dokechin
20140925 multilayernetworks
20140925 multilayernetworks
tm1966
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
周平 合田
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
Recommended
20160901 jwein
20160901 jwein
tm1966
Mxnetによるデープラーニングでセミの抜け殻を識別する
Mxnetによるデープラーニングでセミの抜け殻を識別する
dokechin
20140925 multilayernetworks
20140925 multilayernetworks
tm1966
Learning sparse neural networks through L0 regularization
Learning sparse neural networks through L0 regularization
周平 合田
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
Deep Learning JP
2024 State of Marketing Report – by Hubspot
2024 State of Marketing Report – by Hubspot
Marius Sescu
Everything You Need To Know About ChatGPT
Everything You Need To Know About ChatGPT
Expeed Software
Product Design Trends in 2024 | Teenage Engineerings
Product Design Trends in 2024 | Teenage Engineerings
Pixeldarts
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
More Related Content
Recently uploaded
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NTT DATA Technology & Innovation
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
Hiroshi Tomioka
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
Recently uploaded
(9)
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
NewSQLの可用性構成パターン(OCHaCafe Season 8 #4 発表資料)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
業務で生成AIを活用したい人のための生成AI入門講座(社外公開版:キンドリルジャパン社内勉強会:2024年4月発表)
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
Featured
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
ThinkNow
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
marketingartwork
Skeleton Culture Code
Skeleton Culture Code
Skeleton Technologies
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Neil Kimberley
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
contently
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Albert Qian
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Kurio // The Social Media Age(ncy)
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
Search Engine Journal
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
SpeakerHub
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Tessa Mero
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Lily Ray
How to have difficult conversations
How to have difficult conversations
Rajiv Jayarajah, MAppComm, ACC
Introduction to Data Science
Introduction to Data Science
Christy Abraham Joy
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
Vit Horky
The six step guide to practical project management
The six step guide to practical project management
MindGenius
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
RachelPearson36
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Applitools
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
GetSmarter
ChatGPT webinar slides
ChatGPT webinar slides
Alireza Esmikhani
Featured
(20)
How Race, Age and Gender Shape Attitudes Towards Mental Health
How Race, Age and Gender Shape Attitudes Towards Mental Health
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
AI Trends in Creative Operations 2024 by Artwork Flow.pdf
Skeleton Culture Code
Skeleton Culture Code
PEPSICO Presentation to CAGNY Conference Feb 2024
PEPSICO Presentation to CAGNY Conference Feb 2024
Content Methodology: A Best Practices Report (Webinar)
Content Methodology: A Best Practices Report (Webinar)
How to Prepare For a Successful Job Search for 2024
How to Prepare For a Successful Job Search for 2024
Social Media Marketing Trends 2024 // The Global Indie Insights
Social Media Marketing Trends 2024 // The Global Indie Insights
Trends In Paid Search: Navigating The Digital Landscape In 2024
Trends In Paid Search: Navigating The Digital Landscape In 2024
5 Public speaking tips from TED - Visualized summary
5 Public speaking tips from TED - Visualized summary
ChatGPT and the Future of Work - Clark Boyd
ChatGPT and the Future of Work - Clark Boyd
Getting into the tech field. what next
Getting into the tech field. what next
Google's Just Not That Into You: Understanding Core Updates & Search Intent
Google's Just Not That Into You: Understanding Core Updates & Search Intent
How to have difficult conversations
How to have difficult conversations
Introduction to Data Science
Introduction to Data Science
Time Management & Productivity - Best Practices
Time Management & Productivity - Best Practices
The six step guide to practical project management
The six step guide to practical project management
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...
12 Ways to Increase Your Influence at Work
12 Ways to Increase Your Influence at Work
ChatGPT webinar slides
ChatGPT webinar slides
物体検出 論文読み
1.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? Fisher Yu and
Vladlen Koltun. Multi-scale context aggregation by dilated convolutions. In ICLR, 2016. 様々な. Ablation Studies(各構成要素を1つだけ抜いた手法を比較)を行なってそれぞれの 構成要素がどの程度モデルに貢献しているかを検証。比較対象としてFaster R-CNNを使 用、データセットにはCOCO datasetを使用。また、他の最先端モデルとも比較し、 TridentNetが最も良いスコアとなった。 これまでの手法の畳み込み層を、三つに枝分かれした、膨張率だけ違ってパラメータを 共有する畳み込み層に置き換える(TridentNet)。パラメータを共有するのでパラメータ 数が少なくなる。従ってパラメータはスケールの異なった他のブランチの学習によって も更新される。 これまでの手法は極端に大きい、あるいは小さいスケールの変化が検出器の性能に悪影 響を与えていた。これに対する対策として今まで使われていた手法は過学習のリスクを 下げる一方で、スケールによっては学習が効率的に進まないという問題があった。 TridentNetはすべてのスケールで均一な表現力を持つ特徴量を作り、効率的に学習を行 うことができる。 近年の物体検出の手法ではスケールの変化に対応しなければならなかった。そこで Trident Networkと呼ばれる単純なオブジェクト検出方法を提示して、均一な表現力を持 つネットワーク内のスケール固有の機能マップを構築した。主要な分岐を使用した高速 な推論方法により、TridentNetは、追加のパラメーターや計算を行うことなく、ベース ライン方法よりも大幅に改善される。 Scale-Aware Trident Networks for Object Detection (20 Aug 2019) Yanghao Li/Yuntao Chen 日付
2.
3.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? Chen, Liang-Chieh, Yang,
Yi, Wang, Jiang, Xu, Wei, and Yuille, Alan L. Attention to scale: Scale-aware semantic image segmentation. arXiv:1511.03339, 2015b. Dilated Convolution を使って受容野を拡張したモデルと、そうでないモデルでセグメン テーションの結果を比較。受容野をより大きく拡大したモデルが最も良いスコアを残し た。 Dilated Convolution は、フィルターとの積を取る相手の間隔をあける畳み込みのこと。 これによって受容野を簡単に、指数関数的に増やすことができる。 従来の畳み込み層は予測に至るまでにプーリング、サブサンプリング層を経て解像度が 下がってしまう。新たな畳み込み層はプーリング、サブサンプリングを必要としないた め、解像度や範囲を落とすことなく受容野を拡張することができる。 セマンティックセグメンテーションで使われるCNNは元々は画像分類のための手法で あったため、セマンティックセグメンテーションに適した新たな畳み込み層を考案した。 解像度を落とすことなく受容野の拡張が可能なdilated convolutionsはセグメンテーショ ンだけでなく、画像分類モデルに適用しても精度の上昇に貢献した。 MULTI-SCALE CONTEXT AGGREGATION BY DILATED CONVOLUTIONS (30 Apr 2016)Fisher Yu/Vladlen Koltun 日付
4.
5.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? K. He, X.
Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. データセットに20種類のラベルを持つPASCAL VOC を使って実験を行なった。 Naïve Faster R-CNNとClass-specific RPNとR-FCN without position-sensitivityで比較 Faster R-CNN Using ResNet-101との比較も行なった。いずれの実験でもR-FCNのAPが高 かった。 基本的な構造はFaster R-CNNと似ている? featuremap以降の畳み込みは画像全体で行い、その結果とRPNの領域提案を照らし合わ せる。 RoI-poolの結果から多数決(?)によってその領域が物体であるか否かを判断する。 SPPnet, Fast R-CNN, and Faster R-CNN は “semiconvolutional”と呼ばれ、畳み込み層が 入力画像の変換と領域特定のフェーズで共有されている。 Faster R-CNN ,class-specific RPNと比較するとRoI output sizeが同じ条件ではRFCNの方 がmAPの値が大きかった。 シンプルかつ正確で効率的な物体検出手法である、region-based, fully convolutional networks(R-FCN)の提案。Fast / Faster R-CNNがコストのかかる領域ごとの畳み込み演算 を繰り返しているのに対し、R-FCNは画像全体全体で計算を共有する。従来のR-CNNと 比べて2.0∼2.5倍もの計算速度だった。 R-FCN: Object Detection via Region-based Fully Convolutional Networks (2016)Jifeng Dai /Yi Li /Kaiming He /Jian Sun 日付
6.
7.
8.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? K. He, X.
Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. データセットにはCOCO benchmarkを使用。 ハイパーパラメータγ、αを変えた時にスコアがどう変化するかも検証した。 その数値を使ってFocal Lossを使用した手法、RetinaNetとその他有名なモデル(Faster R- CNN, YOLOv2, etc.)との分析結果を比較。RetinaNetがほとんどの条件でスコアが良かっ た。 数式は次スライド参照。 ハイパーパラメータのγとαはトレードオフの関係にあり、γ = 2, α = 0.25 がよく用いら れる。 αは少数クラスにかける重み。 one-stageはクラス不均衡によってスコアの低下が起こるが、two-stageはその構造上そ れが起こらない。one-stageは計算を高速に行えるという利点がある。 新たな損失関数Focal Lossを導入することによって速度はそのままにone-stageがtwo- stageの制度を超えることができた。 なぜonw-stageが高速な一方で、two-stageに並ぶ精度を出せないのか調査したところ、 極端なクラス不均衡が原因であるとわかった。 新たに提案されたFocal Lossは少ないクラスに対する学習を集中的に行い、学習中に膨 大な数のネガ(?)が発生するを防ぐため、非常に効果的である。 Focal Loss for Dense Object Detection (7 Feb 2018)Tsung-Yi Lin /Priya Goyal /Ross Girshick /Kaiming He /Piotr Dollar 日付
9.
10.
どんなもの? 先行研究と比べて何がすごい? 技術の手法や肝は? どうやって有効だと検証した? 次に読むべき論文は? • K.HeandJ.Sun.Convolutionalneuralnetworksatconstrainedtime cost.
In CVPR, 2015. ImageNet 2012 classification datasetを使用。 18層と34層のplane(shortcutなし)とResNetで比較。 34層のResNetが最もlossが小さくなった。 その他、152層など層を増やして実験したがうまく学習できており、スコアも上昇して いた。1202層は流石にダメだった。 層を深くすると勾配消失が起こり学習がうまくいかない →shortcut connectionを導入し、勾配減衰を防ぐことで、層を深くしても学習が行える ようになった。 この研究によってこれまでディープニューラルネットといえばせいぜい16~30層程度だっ たものが152層まで拡張され、非常によい精度を出せた。 ニューラルネットワークは層が深くなると学習もより難しくなる。 これまでよりも層の深いResidual networkをより簡単に学習するための手法の紹介。 この手法は最適化が容易で、大幅に層を深くすることで精度を高めることに成功した。 この手法によって様々なコンペで好成績を収めた。 Deep Residual Learning for Image Recognition (10 Dec 2015)Kaiming He /Xiangyu Zhang /Shaoqing Ren /Jian Sun 日付
Download now