Invariant Information Clustering for Unsupervised Image Classification and Se...harmonylab
紹介論文
Invariant Information Clustering for Unsupervised Image Classification and Segmentation
Xu J, João F. Henriques, Andrea Vedaldi
出典:Xu J, João F. Henriques, Andrea Vedaldi:Invariant Information Clustering forUnsupervised Image Classification and Segmentation, International Conference on Computer Vision (ICCV 2019), Seoul, Korea
概要:本論文では、正解ラベルを必要としない教師なし学習手法IICを提案しています。元画像に一般的なランダム変換を加えたペアを作成し、元画像とペアの相互情報量を最大化するよう学習を行います。画像のクラス分類・セグメンテーションタスクにおいて、8つのベンチマークでSOTAを達成しています。さらに、半教師あり学習にすることで、従来の教師あり学習精度を超える結果を得ています
Invariant Information Clustering for Unsupervised Image Classification and Se...harmonylab
紹介論文
Invariant Information Clustering for Unsupervised Image Classification and Segmentation
Xu J, João F. Henriques, Andrea Vedaldi
出典:Xu J, João F. Henriques, Andrea Vedaldi:Invariant Information Clustering forUnsupervised Image Classification and Segmentation, International Conference on Computer Vision (ICCV 2019), Seoul, Korea
概要:本論文では、正解ラベルを必要としない教師なし学習手法IICを提案しています。元画像に一般的なランダム変換を加えたペアを作成し、元画像とペアの相互情報量を最大化するよう学習を行います。画像のクラス分類・セグメンテーションタスクにおいて、8つのベンチマークでSOTAを達成しています。さらに、半教師あり学習にすることで、従来の教師あり学習精度を超える結果を得ています
データ拡張 (Data Augmentation) を学習中に使い分けるRefined Data Augmentationについて解説しました。
He, Zhuoxun, et al. "Data augmentation revisited: Rethinking the distribution gap between clean and augmented data." arXiv preprint arXiv:1909.09148 (2019).
Learning to summarize from human feedbackharmonylab
公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
データ拡張 (Data Augmentation) を学習中に使い分けるRefined Data Augmentationについて解説しました。
He, Zhuoxun, et al. "Data augmentation revisited: Rethinking the distribution gap between clean and augmented data." arXiv preprint arXiv:1909.09148 (2019).
Learning to summarize from human feedbackharmonylab
公開URL:https://arxiv.org/abs/2009.01325
出典:Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, Paul Christiano : Learning to summarize from human feedback, arXiv:2009.01325 (2020)
概要:言語モデルが強力になるにつれて、モデルの学習と評価は特定のタスクで使用されるデータとメトリクスによってボトルネックになることが多い。要約モデルでは人間が作成した参照要約を予測するように学習され、ROUGEによって評価されることが多い。しかし、これらのメトリクスと人間が本当に気にしている要約の品質との間にはズレが存在する。本研究では、大規模で高品質な人間のフィードバックデータセットを収集し、人間が好む要約を予測するモデルを学習する。そのモデルを報酬関数として使用して要約ポリシーをfine-tuneする。TL;DRデータセットにおいて本手法を適用したところ、人間の評価において参照要約よりも上回ることがわかった。
ACM SIGMOD日本支部第56回支部大会でお話しした、ICDE 2014の参加報告についての資料です。以下のような6部構成になっています。全190ページです。
・ICDE 2014を俯瞰してみる(5p~)
・ビッグデータ時代の新発想:もうデータは蓄えない(32p~)
Keynote, Running with Scissors: Fast Queries on Just-in-Time Databases
・見えない相手と協調作業:センサネットワーク上のデータ集約(64p~)
10 Year Most Influential Paper, Approximate Aggregation Techniques for Sensor Databases
・メインメモリデータベースがハードウェアトランザクショナルメモリを使ったら…(96p~)
Best Paper, Exploiting Hardware Transactional Memory in Main-Memory Databases
・過去の結果を再利用:ビューを用いた大規模グラフからのパターン発見(126p~)
Best Paper Runner-up, Answering Graph Pattern Queries Using Views
・アルゴリズムでゴリゴリ解決:大量のベクトルから類似ペアを厳密に見つけたい(155p~)
気になる論文, L2AP: Fast Cosine Similarity Search With Prefix L-2 Norm Bounds
This is a slide for Fully Convolutional Refined Auto-Encoding Generative Adversarial Networks for 3D Multi Object Scenes which is my work at Stanford AI Lab as a visiting scholar.
Special thanks to Christopher Choy and Prof. Silvio Savarese.
Github:
https://github.com/yunishi3/3D-FCR-alphaGAN
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
11. ICLRで見えたこと
課題1. 大量のデータとラベルが必要
生成モデルでデータを拡張
Generative Adversarial Networks(GANs)の注目度は高い
GAN Paperはどんどん増えている
ICLR2018でも
38件のGAN関連論文がAccept
https://github.com/hindupuravinash/the-gan-zoo
Lossy Measurementの判定により、
観測に既知のノイズや欠損がある場合でも
画像を復元できる。
Bora et al., UT Austin, Ambient GAN(Oral)
Dataset Traditional Ambient GAN
その他、
・GAN生成の精度向上手法
・GANの定量評価方法
・GANの安定学習方法
・label付GANの新手法
等々様々な方向からアプローチされている
Miyato et al., Preferred Networks, Spectral Normalization(Oral)
Karas et al., NVIDIA, Progressive Growing of GANs(Oral)
Im et al., Janelia, Quantitatively Evaluating GANs with Divergences Proposed for Training
Binkowski, Imperial College London, Demystifying MMD GANs
Peltzka et al., Fraunhofer, On the regularization of Wasserstein GANs
Yadav et al., University of Maryland, Stabilizing Adversarial Nets with Prediction Methods
生成の質もここまで来た!
Karas et al., NVIDIA, Progressive Growing of GANs(Oral)
Kocaoglu et al., UT Austin, CausalGAN
Miyato et al., Preferred Networks, cGANs with Projection Discriminator
12. ICLRで見えたこと
課題1. 大量のデータとラベルが必要
Semi-SupervisedやDomain Adaptationで少ラベルや他ドメインへの適用
Shu et al., Stanford, A DIRT-T Approach to Unsupervised Domain Adaptation
Beseとなる考え方
Dataset 空間上に表現する
(Unsupervised)
複数個のラベル
を教える
そのラベルを基に、境界線を引く
Datasetを数値化して空間上に表現する
Meta Learning, Representation Learningが重要
Domain Adaptationの場合
Source空間とTarget空間の分布の遷移を
求めてやれば良い
画像の空間表現を
Semi-SupervisedなSoft k-meansによる
クラスターのRefineにより精度を上げる。
Ren et al., Toront, Meta-Learning for Semi-Supervised Few-Shot Classification
13. ・高速に最適なハイパーパラメータを発見
可能に。
・ネットワーク構造も自動探索。
ICLRで見えたこと
課題2. ネットワーク設計やTrainingが困難
Optimization手法の進化や、ネットワーク構築の自動化で、より学習が一般化
Reddi et al., Google, On the Convergence of ADAM and Beyond(Best Paper)
Logistic Regression 2 layer NN
CIFAR NET
指数移動平均を用いた最も一般的な探索手法のAdam
では、凸最適化問題で非収束になる可能性がある。
AMSGradの提案でより一般的に最適化が可能となった。
Hanzan et al., Princeton University,
Hyperparameter Optimization: A Spectral Aproach
Neural NetworkのTrainingには
多くのノウハウや経験が必要。
・ネットワーク構造
・Learning Rate, Regularization
・Optimization手法
etc
手法の進化や自動探索
⇒ 学習が一般化の方向
Mirhoseini et al., Google, A Hierarchical Model For Device Placement
14. ICLRで見えたこと
課題3. Deep Learningは中身がブラックボックスで説明力に課題
Attention等、判断の根拠を見出す手法が提案。
Saumya et al., Oxford, Learn to Pay Attention
NLPで利用されるAttention機構を
画像の中間レイヤーに応用し、
判断の注力ポイントを可視化する。
Kindermans et al., Google, Learning how to explain neural networks
学習されたWeightの重みではなく、
ノイズの解消から見極めることで、
より分かりやすく判断を可視化
(PatternNet, PatternAttribution)
・工場での画像診断
・マーケティング活用
等で、
Deep Learningのブラックボックス性
が理由で導入が難しい課題があった
判断の根拠を見出す手法により、
理由とともにDeep Learning判定が
可能になる
20. Computer Vision向け最新技術
■Generative Models for Computer Vision
Karas et al., NVIDIA, Progressive Growing of GANs(Oral)
生成モデルの進化は、「作り出す絵」と「写す絵」の境界をより曖昧にする
やはりインパクトが大きいこの結果
学習過程で画像サイズを
徐々に大きくしていくことで、
高精度、高速、安定学習を実現している。
スケッチからそれっぽい絵を出力するRNNベースの生成モデル
Ha et al., Google, A Neural Representation of Sketch Drawings
GANではなく
Nearest Neighborで
細かいディテールを
抽出することで
Image Transferする
Bansal et al., CMU, PixelNN: Example Based Image Synthesis
21. Computer Vision向け最新技術
■VQA(Visual Question Answering)
■Image Compression
質問に関して数を出力するモデル。検出をベースに個数の特定をする。
Trott et al., Salesforce, Interpretable Counting for Visual Question Answering
Balle et al., Google, Variational Image Compression with a Scale Hyperprior
VAEベースのImage Compressionにより
最高精度の圧縮性能を実現
従来手法 今回の手法
22. NLP向け最新技術
■Text Classification(Sentiment Analysis)
LSTMによる感情分析の出力に対して、
Contextual Decompositionを対応させることで、
単語やフレーズの判断の寄与量を求める。
Murdoch et al., Google,
Beyond Word Importance: Contextual Decomposition to Extract Interactions from LSTMs(Oral)
単語Embeddingを複数単語の影響を受けた
Embeddingして捉え直すことで、より文脈を
とらえた分析が可能になる。
Qiao et al., Baidu, A New Method of Region Embedding for Text Classification