Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...harmonylab
紹介論文
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
出典: Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)
概要: カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション(自身の動き)の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised L...harmonylab
紹介論文
Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos
出典: Vincent Casser, Soeren Pirk Reza, Mahjourian, Anelia Angelova : Depth Prediction Without the Sensors: Leveraging Structure for Unsupervised Learning from Monocular Videos, the AAAI Conference on Artificial Intelligence, Vol. 33, pp. 8001-8008 (2019)
概要: カメラ映像による深度予測は、屋内及び屋外のロボットナビゲーションにとって必要なタスクです。本研究では、教師なし学習を用いて映像の深度予測とカメラのエゴモーション(自身の動き)の学習に取り組んでいます。先行研究で確立されたベースラインのモデルに、移動する個々の物体のモデル化と、オンラインでのモデルの調整を行う手法を取り入れています。結果として、物体の動きを多く含むシーンでの予測結果を大幅に向上させています。
Variational Template Machine for Data-to-Text Generationharmonylab
公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
Variational Template Machine for Data-to-Text Generationharmonylab
公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
ライフサイエンスデータベースの現状 〜データベース統合化のための技術的・政治的側面〜
Japan Museum Bioinformatics (Museomics) Working Group 第2回会合@東工大・緑が丘キャンパス
https://sites.google.com/site/museumbioinfo/meetings/201410xx
#museomejp
Slide for study session given by Haruya Umemoto at Arithmer inc.
It is a summary of conference "ACL2020".
The slides are written in Japanese.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
[2020-09-01] IIBMP2020 Generating annotation texts of HLA sequences with anti...Eli Kaminuma
IIBMP2020 Poster #77 Generating annotation texts of HLA sequences with antigen classes by a T5 (Text-to-Text Transfer Transformer) model using International Nucleotide Sequence Database
[2017-05-29] DNASmartTagger : Development of DNA sequence tagging tools based on machine learning using public sequence annotation data, NIG International Symposium 2017.
NGS由来ゲノムワイド多型マーカ構築とそのRDF注釈情報統合化
Eli Kaminuma1, Takatomo Fujisawa1, Takako Mochizuki1, Yasuhiro Tanizawa1, Atsushi Toyoda1, Asao Fujiyama1, Nori Kurata1, Tokurou Shimizu2, Yasukazu Nakamura1
1. National Institute of Genetics, SOKENDAI ; 1111 Yata, Mishima, Shizuoka, 411-8540 Japan.
2. National Institute of Fruit Tree Science; Okitsu Nakacho, Shizuoka, 424-0292 Japan
BMB2013(第36回日本分子生物学会年会)ポスター 3P-0030
2013年12月5日
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
10. Deep Learningの強み② 特徴抽出の職人技が不要に
<従来のパターン認識>
■Deep Learningは職人技の特徴量抽出不要
<深層学習>
Feature
Extractor
Trainable
Classifier
Citrus
Not
Citrus
Low-Level
Features
Trainable
Classifier
Citrus
Not
Citrus
Mid-Level
Features
High-Level
Features
階層的に表現を学習
※手作業Handcraftedで抽出
Googleの論文(Le et al. Building High-level Features Using Large Scale
Unsupervised Learning, ICML2012; arxiv:1112.6209)
+YouTube から抽出した200x200 pixelsの1000万枚画像を学習
+300万個のneurons, 10億 connectionsのNeural Network
+ラベル無しの教師なし学習で、ネコの顔やヒトの顔に反応するニューロンが出来た。
+ヒト顔画像の割合は3%程。
図出展:GoogleBlog
■教師なしでCat Neuron作成
38. Image/DNA-based DNN Model Architecture
adopted in Latest(~2017) Conventional Studies
IMAGE
DNA
REFERENCE DATE INput, TarGeT DNN Architecture, etc.
PMID:
29086034
2017.10 IN=Endoscopy Images内視鏡画像,
TGT=Classification
CNN(Pre-trained AlexNet) + SVM
(96Convolutional kernels)
PMID:
29083930
2017.10 IN=Histopathological Images,
TGT=Osteosarcoma骨肉腫 Classification
CNN( VGG, AlexNet)
PMID:
29082086
2017.9 IN=OCT images, TGT=Cochlear Endolymphatic
Hydrops蝸牛内リンパ水腫
CNN (VGG16-based)
Scratch
REFERENCE DATE ToolName INput, TarGeT DNN Architecture, etc.
PMID:
29069282
2017.10 DeOpen IN=DNA sequence
TGT=Chromatin accessibility prediction
Composition Model
(CNN_org 4 layers + BP)
PMID:
28158264
2017.2 CNNProm IN=DNA sequence(Hs,Mm,At 251nt,Ec,Bs 81nt),
TGT=Promotor Classification
CNN-org 2-3 layers
arXiv:
1608.03644
2017.1 DeepMotif IN=DNA sequence
TGT=TFBS classification
CNN,RNN(LSTM),CNN+R
NN, org_1-4 layers
PMID:
27587684
2016.9 DeepChrom IN=Peak-based shift window matrix
TGT=Gene expression prediction
CNN-org 2-3 layers
ResNet, Inception, Xception seem to be not adopted yet in life science studies.
CNN models for DNA sequences had few layers.
Survey
39. CNNProm
(TATA promotor prediction)
PMID: 28158264
This encoding matrix is used as the
input to a convolutional, recurrent,
or convolutional-recurrent module
that each outputs a vector of fixed
dimension. The output vector of
each model is linearly fed to a
softmax function as the last layer
which learns the mapping from
the hidden space to the output
class label space C ∈ [+1, −1]. The
final output is a probability
indicating whether an input is a
positive or a negative binding site
(binary classification task)
Each model has the same input (one-
hot encoded matrix of the raw
nucleotide inputs), and the same
output (softmax classifier to make a
binary prediction).
DeepMotif
(TFBS classification)
arXiv:1608.03644, PSB2017
CNN Model Architectures (1)
Survey
40. DeOpen
(Chromatin accessibility prediction)
PMID: 29069282
bipartite model combined with CNN and a typical
three-layer BP neural network.
It consists of 9 convolutional layers, 3 max pooling layers, 3 fully
connected layers. Each convolution layer contains 128 convolution
kernels The parameter k is set to 6 in our model, thus creating a
1024 dimensional feature vector for each DNA sequence. We also
apply dropout technology to the output of MergeLayer with the rate
0.5 in case of overfitting.
DeepChrom
(Gene expression prediction from histone
modifications)
PMID: 27587684
CNN Model Architectures (2)
Survey
41. K-mer-based DNN Model Architecture adopted in
Latest(~2017) Conventional Studies
K-mer
REFERENCE DATE ToolName INput, TarGeT DNN Architecture, etc.
PMID: 28881969 2017.7 ismb2017_lst
m
IN=k-mer frequency
TGT=Chromatin accessibility prediction
RNN(LSTM)
PMID: 27506469 2016.8 IPMiner IN=k-mer frequency
TGT=ncRNA-protein interactions prediction
Multiple CNNs + Logistic
Regression
DNN models for K-mer
frequency should be
compared CNN to
RNN(LSTM).
PMID: 28881969 AUC:0.881(K562) PMID: 27506469 ACC:0.891
(Preprint)
K=6
1-layer
Survey