This document introduce the literature 'Deep Compression' written by S. Han, et al. You can easily understand that literature by reading this. Only Japanese.
This document introduce the literature 'Deep Compression' written by S. Han, et al. You can easily understand that literature by reading this. Only Japanese.
[2010]
Large-scale Image Classification: Fast Feature Extraction and SVM Training
[2011]
High-dimensional signature compression for large-scale image classification
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
[2010]
Large-scale Image Classification: Fast Feature Extraction and SVM Training
[2011]
High-dimensional signature compression for large-scale image classification
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
7. Learning to Guide Decoding for Image Captioning (Tencent)
https://arxiv.org/abs/1804.00887 AAAI18
• 画像キャプション生成のdecoderを入力側から"guide"する.ガイド
情報には,encoder(CNN)のsubregion表現+global表現+画像中に含
まれる予測単語表現を利用.Enc-Review-Dec構成に適用してさら
に性能向上.
8. Deep k-Nearest Neighbors: Towards Confident, Interpretable
and Robust Deep Learning (ペンシルバニア州立大)
https://arxiv.org/abs/1803.04765
• 学習済ネットワークを使って,層毎に訓練データに対するk-NNを
実施.解釈性が高く,敵対的サンプルにも強い.学習未利用の
データを用意して出力の信頼度も計算
9. PackNet: Adding Multiple Tasks to a Single Network by
Iterative Pruning (イリノイ大)
https://arxiv.org/abs/1711.05769 CVPR18
• 1つのNNで複数タスクを学習.畳込と全結合層の小さい重みを削
除→残りを再訓練して固定.削除した重みを次タスクの学習に利
用.単純で強力.
10. Self-Attention with Relative Position Representations
(Google)
https://arxiv.org/abs/1803.02155 NAACL18
• Transformer (Attention is all you need) のself-attentionに相対位置の表
現を加えると,絶対位置の表現の場合よりもWAT 2014 のBLEU向上.
一定以上離れた位置については同じ距離として扱う.
11. Learning Longer-term Dependencies in RNNs with Auxiliary
Losses (Google)
https://arxiv.org/abs/1803.00144
• 長期依存の系列の学習について.ランダムに決定した点から,過
去の部分系列を再構成する損失と,未来の部分系列を予測する損
失を,タスク用の教師あり損失と一緒に減らす.各種分類タスク
で評価
15. Actor and Action Video Segmentation from a Sentence (ア
ムステルダム大)
https://arxiv.org/abs/1803.07485 CVPR18(oral)
• 自然文により動画から動作主&動作をピクセルレベルで抽出.テ
キストは1D CNN,動画は時間次元を追加したInflated 3D
CNN https://arxiv.org/abs/1705.07750 を利用.複数解像度で教師有
学習.
16. Guide Me: Interacting with Deep Networks (ミュンヘン工
科大)
https://arxiv.org/abs/1803.11544
• 画像セグメンテーションの品質を自然言語の指示(ヒント)によ
り改善可能なモデル.ヒントのクエリは正解と予測の差分を基に
スロットフィリング的に自動生成して学習.汎用的に使えそうな
アイデア.CVPR18
17. Finding beans in burgers: Deep semantic-visual embedding
with localization (Sorbonne大)
https://arxiv.org/abs/1804.01720 CVPR18
• 画像とテキストを同じベクトル空間に埋込.正しい(画像,テキス
ト)の組合と誤った組合のランキングlossで学習.テキストによる
画像検索/画像中の物体位置の理解が可能.
18. Learning a Text-Video Embedding from Incomplete and
Heterogeneous Data (ENS)
https://arxiv.org/abs/1804.02516
• テキストと動画の同空間埋込.動画の画像,動き,顔,音声をマ
ルチモーダルに考慮.全モーダルが揃ってないデータからも学習
可.コード https://github.com/antoine77340/Mixture-of-Embedding-
Experts デモ http://willow-demo.inria.fr/
20. Multi-Oriented Scene Text Detection via Corner Localization
and Region Segmentation (Huazhong大)
https://arxiv.org/abs/1802.08948
• シーン画像からのテキスト抽出.テキスト領域の4コーナーの点
および領域を個別に予測.抽出点をグルーピングして候補領域の
スコア算出.COCO-Textや多言語のMLTで良い精度
21. Rotation-Sensitive Regression for Oriented Scene Text
Detection (Huazhong大)
https://arxiv.org/abs/1803.05265 CVPR18
• シーン画像からの任意角度なテキスト抽出.
ARF https://arxiv.org/abs/1701.01833 を使って複数角度に回転させ
た特徴から抽出領域の回帰.特徴をプーリングして回転を無視し
た分類も実施
22. Detecting Multi-Oriented Text with Corner-based Region
Proposals (電子科技大)
https://arxiv.org/abs/1804.02690
• これもテキスト抽出をコーナー点予測で実施.点の予測はテキス
ト方向にロバスト.候補領域抽出にはRotation ROI
pooling https://arxiv.org/abs/1703.01086 を使う.コー
ド https://github.com/xhzdeng/crpn
23. Two can play this Game: Visual Dialog with Discriminative
Question Generation and Answering (UIUC)
https://arxiv.org/abs/1803.11186 CVPR18
• 画像に関する対話的QAと次質問の生成(QG).VisDial
http://openaccess.thecvf.com/content_cvpr_2017/papers/Das_Visual_
Dialog_CVPR_2017_paper.pdf を基に,QG用のVisDial-Qを作成.100
候補の中から正解を選択する識別モデルの提案.
24. Differential Attention for Visual Question Answering (IIT)
https://arxiv.org/abs/1804.00298 CVPR18
• VQAを実例により改善.別のVQAシステム https://github.com/GT-
Vision-Lab/VQA_LSTM_CNN を使って画像-質問の埋込空間で入力画
像に近い/遠い画像を利用.入力と近い(遠い)画像のattention loss
を小さく(大きく)するように学習.
30. Can Neural Machine Translation be Improved with User
Feedback? (eBay)
https://arxiv.org/abs/1804.05958 NAACL18 industrial
• eBayの商品タイトルの英⇔スペイン翻訳を強化学習で改善.報酬
はユーザの5つ星評価と,クロスリンガル検索時のクリックログ
を利用.星評価は品質が悪く失敗,クリックログは成功.
31. Deep contextualized word representations (AI2)
https://arxiv.org/abs/1802.05365 NAACL18
• 言語モデルを使ったコンテキスト考慮型埋め込みELMoの提案.入
力をL層の双方向LMに通した際の,各単語に対する隠れ状態を加
重平均した物.基本は通常の単語ベクトルとELMoを連結して使う.
読解,含意など6タスクでSOTA.
33. A Discourse-Aware Attention Model for Abstractive
Summarization of Long Documents (Georgetown大)
https://arxiv.org/abs/1804.05685 NAACL18
• 長い単一の文書の生成要約.arxivやpubmedで実験.セクション
(=discourse)・単語の階層的なアテンション付きエンコーダを
利用.デコーダではコピー機構も利用.
34. Deep Communicating Agents for Abstractive Summarization
https://arxiv.org/abs/1803.10357 NAACL18
• 長文に対する生成型要約.長文を段落に分割して,協調的エン
コーダが各段落を担当.各エンコーダの同じ層の最終状態をメッ
セージとしてやり取り.エージェントに対するアテンション,コ
ピー機構など工夫.
35. SHAPED: Shared-Private Encoder-Decoder for Text Style
Adaptation (Google AI)
https://arxiv.org/abs/1804.04093 NAACL18
• 文書要約のスタイル適応.入力文書のスタイルを判別して,スタ
イルに沿った要約を実現.スタイル個別/共有のEncDecを学習.
実験はニュース配信社をスタイルとしてヘッドライン要約.
60. SO-Net: Self-Organizing Network for Point Cloud Analysis
(NUS)
https://arxiv.org/abs/1803.04249 CVPR18
• SOMを使って点群を表現.点群の分類,セグメンテーション,検
索などいろいろ使えるSO-Netを提案.
61. Continuous Adaptation via Meta-Learning in Nonstationary
and Competitive Environments (OpenAI)
https://openreview.net/forum?id=Sk2u1g-0- ICLR18ベスト
• 少サンプルしか得られない動的環境に適応するためのメタ学習モ
デル.RoboSumo環境(4/6/8本足エージェントによる相撲)での
実験動画 https://sites.google.com/view/adaptation-via-metalearning
62. DBPal: An End-to-end Neural Natural Language Interface for
Databases (ブラウン大)
https://arxiv.org/abs/1804.00401
• 自然言語からSQLへの変換.新しいDBに対してスロットフィリン
グ,言い換えを利用して*自動で*訓練データを生成(Join,
Nestedも対応)してseq2seqで学習.動作
例 https://vimeo.com/251178010
63. Model-Free Control for Distributed Stream Data Processing
using Deep Reinforcement Learning (Syracuse Univ)
https://arxiv.org/abs/1803.01016 VLDB18
• 分散データストリーム処理のスケジューリングを深層強化学習で
実現.Apache Stormのデフォルト設定,3タスクでSOTAモデルベー
ス手法より高性能.
64. A Capsule Network-based Embedding Model for Search
Personalization (Deakin大)
https://arxiv.org/abs/1804.04266
• CapsNetによる検索結果パーソナライズ.(クエリ,ユーザ,文書)を
同じ空間に埋め込んでkx3行列を獲得→CNNで特徴抽出→CapsNet
で3つ組のスコア算出.通常の検索結果やグラフ埋込に比べて高
精度
65. Neural Voice Cloning with a Few Samples (Baidu)
https://arxiv.org/abs/1802.06006
• 少サンプル(1~100)でその人の音声を合成.複数話者の生成モデル
と,話者の音声特徴から話者embeddingに変換するencoderを別に
学習.英国男性 + 平均女性 − 平均男性 = 英国女性が可能.
サンプル https://audiodemos.github.io/