公開URL:https://openreview.net/forum?id=HkejNgBtPB
出典:Rong Ye, Wenxian Shi, Hao Zhou, Zhongyu Wei, Lei Li : Variational Template Machine for Data-to-Text Generation, 8th International Conference on Learning Representations(ICLR2020), Addis Ababa, Ethiopia (2020)
概要:Table形式の構造化データから文章を生成するタスク(Data-to-Text)において、Variational Auto Encoder(VAE)ベースの手法Variational Template Machine(VTM)を提案する論文です。Encoder-Decoderモデルを用いた既存のアプローチでは、生成文の多様性に欠けるという課題があります。本論文では多様な文章を生成するためにはテンプレートが重要であるという主張に基づき、テンプレートを学習可能なVAEベースの手法を提案します。提案手法では潜在変数の空間をテンプレート空間とコンテンツ空間に明示的に分離することによって、正確で多様な文生成が可能となります。また、table-textのペアデータだけではなくtableデータのないraw textデータを利用した半教師あり学習を行います。
Slides presented in the All Japan Computer Vision Study Group on May 15, 2022. Methods for disentangling the relationship between multimodal data are discussed.
Slides presented in the All Japan Computer Vision Study Group on May 15, 2022. Methods for disentangling the relationship between multimodal data are discussed.
情報システム障害解析のための知識グラフ構築の試み / Constructing a knowledge graph for information sys...Shinji Takao
人工知能学会 第25回知識流通ネットワーク研究会発表 http://sigksn.html.xdomain.jp/conf25/index.html
システム障害解析に関する専門家知識の抽出、グラフ化、DB化を行った際得られた知見と、知識流通手段としての知識グラフの可能性と課題を考察した結果を報告します。
Knowledge graphs have been getting attention because of its relevance to interpretable AI. Not only that, they also can be useful as a knowledge sharing mean which enable non-experts to utilize experts’ knowledge. We aim to report findings from constructing a knowledge graph through eliciting experts’ knowledge and building a knowledge database. We also suggest the possibilities and issues of knowledge graph as a knowledge sharing mean.
Towards Knowledge-Based Personalized Product Description Generation in E-comm...harmonylab
出典:Qibin Chen, Junyang Lin, Yichang Zhang, Hongxia Yang, Jingren Zhou, Jie Tang : Towards Knowledge-Based Personalized Product Description Generation in E-commerce, Proceedings of the 25th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (KDD2019), Anchorage, Alaska, USA, (2019)
公開URL:https://arxiv.org/abs/1903.12457
概要:ECサイトにおける商品説明文の自動生成に関する論文です。商品タイトルから商品説明文を生成するEncoder-Decoderモデル(Base lineモデル)を考えます。このBase lineモデルによって生成される文章は一般的で曖昧な記述をすることが多くあまり使い物にならないとされています。商品説明文に必要な要素は次の2点であると本論文では主張しています。1.顧客の興味を促進するために、商品説明文は顧客の好みに基づいてパーソナライズされる必要があるとされています。2.顧客の意思決定に役立つ説明文には、商品の関連知識が含まれている必要があります。本論文では、パーソナライズされた情報量の多い説明文を生成するために、ユーザカテゴリや外部の知識ベースから取得してきた知識に基づいて商品紹介文を生成するKnowledge Based Personalizedモデルを提案します。
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
This study focuses on addressing the challenges associated with decision-making in winter road snow removal operations, aiming to alleviate the burden on snow removal personnel. Specifically, we propose an approach to develop a system that collects and visualizes information on road snow conditions and weather data to support decision-making by personnel. Additionally, by sharing the collected information, we aim to facilitate the sharing of premonitions about changes in decision-making among snow removal personnel, reducing the need for physical inspections.We have validated the effectiveness of the system and confirmed its efficacy.
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
公開URL:https://openaccess.thecvf.com/content/CVPR2023/html/Vasu_MobileOne_An_Improved_One_Millisecond_Mobile_Backbone_CVPR_2023_paper.html
出典:Vasu, Pavan Kumar Anasosalu, et al.: MobileOne: An Improved One Millisecond Mobile Backbone, Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (2023)
概要:モバイル端末向けのニューラルネットワークは多くの場合、FLOPsやパラメータ数で最適化されています。しかし、これらの最適化は実際のモバイルデバイスで実行した場合のネットワークの応答時間に相関しない場合があります。我々は昨今のニューラルネットワークの最適化のボトルネックを特定・分析し、その結果をもとにした新たな効率的なバックボーンMobileOneを設計しました。結果はMobileFormerと同等の性能を得ながら、38倍高速であり、最先端の効率性を達成しました。
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
公開URL:https://arxiv.org/pdf/2307.09288.pdf
出典:Touvron Hugo, et al.: Llama 2: Open foundation and fine-tuned chat models, arXiv preprint arXiv:2307.09288 (2023)
概要:70億から700億のパラメータを持つ大規模言語モデル(LLM)の事前学習であるLlama 2を開発し、リリースしました。Llama 2-Chatと呼ばれるファインチューニングされたLLMは、対話のユースケースに最適化されています。提案モデルは、検証したほとんどのベンチマークにおいて、オープンソースのチャットモデルを凌駕しており、有用性と安全性に関する人間による評価に基づいて、クローズドソースのモデルの適切な代替となる可能性があります。コミュニティが我々の研究を基に、LLMの責任ある開発に貢献できるようにすることも目的にあります。
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
公開URL:https://arxiv.org/abs/2210.03629
出典:Shunyu Yao, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, Yuan Cao : ReAct: Synergizing Reasoning and Acting in Language Models, arXiv: 2210.03629 (2022)
概要:本論文では大規模言語モデルにおいて推論(Reasoning)と行動(Acting)を組合わせるprompt手法であるReActを提案した。知識集約型の推論タスク(QAタスク・事実検証タスク)と意思決定タスク(テキストゲーム、ウェブナビゲーション)でReActの性能を評価した。推論タスクにおいてReActはWikipedia APIとの対話によりChain of ThoughtのHallucinationを軽減し、意思決定タスクにおいては模倣学習や強化学習による手法を上回る性能を示した。
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
Kerosene is a very important source for heating in many areas. In cold regions of Japan, delivery companies regularly visit household oil tanks to replenish them so that they do not run out of fuel. However, it is hard to make a good delivery plan, since the delivery companies do not know how much kerosene is left in the kerosene tank. And most of the existing methods about energy consumption estimation are focused on one target. Little work has been done in kerosene consumption with many users. We present Deep learning based model to estimate the consumption and mean consumption of one time span. The model includes time series augmentation to extract more information from the time span and attention mechanism to extract inner connection between each time step. The experimental results indicate that our proposed approaches have MAE around 50L for refuel recordings and MAE around 4L for daily consumption. In order to evaluate our model in a realistic way, the estimation result is applied to an inventory routing algorithm. The result using our estimation is close to the result using real consumption data.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
5. Related Work
• Data-to-Text
– Encoder-Decoder Model による End-to-End学習[1,2]
– 潜在変数としてテンプレートを導入
• 制御可能で解釈可能な生成に着目
• Semi-HMM Decoder[3]
• Semi-HMMモデルを使用したData2Text Studio[4]
– 対話的な手法で Table入力からテンプレートを抽出して文生成
4
[1] Parag Jain, Anirban Laha, Karthik Sankaranarayanan, Preksha Nema, Mitesh M Khapra, and Shreyas Shetty. A
mixed hierarchical attention based encoder-decoder approach for standard table summarization. In Proceedings of
the Conference of the North American Chapter of the Association for Computational Linguistics, 2018.
[2] Heng Gong, Xiaocheng Feng, Bing Qin, and Ting Liu. Table-to-text generation with effective hierarchical
encoder on three dimensions (row, column and time). In Proceedings of the Conference on Empirical Methods in
Natural Language Processing and the International Joint Conference on Natural Language Processing, 2019.
[3] Sam Wiseman, Stuart Shieber, and Alexander Rush. Learning neural templates for text generation. In
Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2018.
[4] Longxu Dou, Guanghui Qin, Jinpeng Wang, Jin-Ge Yao, and Chin-Yew Lin. Data2text studio: Automated text
generation from structured data. In Proceedings of the Conference on Empirical Methods in Natural Language
Processing: System Demonstrations, 2018.
Encoder-Decoderは流暢な文を生成可能だが文の多様性に欠ける
6. Related Work
• Semi-supervised Learning From Raw Data
– data と text の pairwiseデータの整備は高コスト
• raw text データは取得が比較的容易
– 十分なデータが無いとEncoder-Decoderは失敗する可能性[1]
– 機械翻訳の分野では逆翻訳が有効[2,3]
5
[1] Shuming Ma, Pengcheng Yang, Tianyu Liu, Peng Li, Jie Zhou, and Xu Sun. Key fact as pivot: A two-stage model for low resource table-to-
text generation. In Proceedings of the Annual Meeting of the Association for Computational Linguistics, 2019.
[2] Rico Sennrich, Barry Haddow, and Alexandra Birch. Improving neural machine translation models with monolingual data. In Proceedings of
the Annual Meeting of the Association for Computational Linguistics, 2016.
[3] Franck Burlot and Franc¸ois Yvon. Using monolingual data in neural machine translation: a systematic study. In Proceedings of the
Conference on Machine Translation: Research Papers, 2018.
本論文では raw text を使用した半教師あり学習手法を提案
(逆翻訳に触発)
7. Related Work
• Latent Variable Generative Model
– Variational Auto Encoder (VAE) [1]
• RNNベースのVAEで多様で良質な文が生成可能[2]
– 近年では、Disentangledな潜在変数の学習が研究される
• 潜在空間を構文空間と意味空間に分離[3]
6
[1] Diederik P. Kingma and Max Welling. Auto-encoding variational bayes. In Proceedings of the International Conference on
Learning Representations, 2014.
[2] Samuel Bowman, Luke Vilnis, Oriol Vinyals, Andrew M Dai, Rafal Jozefowicz, and Samy Bengio. Generating sentences from a
continuous space. In Proceedings of the Conference on Computational Natural Language Learning., 2016.
[3] Yu Bao, Hao Zhou, Shujian Huang, Lei Li, Lili Mou, Olga Vechtomova, Xinyu Dai, and Jiajun Chen. Generating sentences from
disentangled syntactic and semantic spaces. In Proceedings of the Conference of the Association for Computational Linguistics,
2019.
本論文では、VAEベースの手法を提案
潜在空間をテンプレート空間とコンテンツ空間に分離
15. 提案手法 VTM の学習(pairwise text)
• Preserving-Content Loss (𝐿 𝑝𝑐)
– コンテンツ情報を潜在変数に埋め込むための補助損失項
14
content
潜在変数𝑐
Encoder
𝑞 𝜙 𝑧
(𝑧|𝑦)
Decoder
𝑝 𝜃(𝑦|𝑧, 𝑐)
text
𝑦
tempate
潜在変数𝑧
text
𝑦
Encoder
𝑞 𝜙 𝑐
(𝑐|𝑦)
text
𝑦
Preserving-Content Loss
ℎ = 𝑓𝑒𝑛𝑐 𝑥 :pairwise dataで使用していたencoder
16. 提案手法 VTM の学習
• Mutual Information Loss 𝐿 𝑀𝐼
– KL崩壊 (KL collapse) を緩和させるために相互情報項を追加[1,2,3]
– KL崩壊
• VAEの学習で起きる課題の一つ
• 潜在変数の事後分布 と 事前分布 を一致させる方向に学習してしまう
15
Mutual Information Loss
相互情報量
[1] Xi Chen, Yan Duan, Rein Houthooft, John Schulman, Ilya Sutskever, and Pieter Abbeel. Infogan:
Interpretable representation learning by information maximizing generative adversarial nets.
Proceedings of the Advances in Neural Information Processing Systems, 2016.
[2] Shengjia Zhao, Jiaming Song, and Stefano Ermon. Infovae: Information maximizing variational
autoencoders. arXiv preprint arXiv:1706.02262, 2017.
[3] Tiancheng Zhao, Kyusong Lee, and Maxine Eskenazi. Unsupervised discrete sentence
representation learning for interpretable neural dialog generation. In Proceedings of the Annual Meeting
of the Association for Computational Linguistics, 2018.
17. 提案手法 VTM の学習 (Training procedure) 16
𝐿 𝐸𝐿𝐵𝑂 𝑝:pair wiseデータのELBO
𝐿 𝐸𝐿𝐵𝑂 𝑟
:raw textデータのELBO
𝐿 𝑝𝑡:テンプレート情報を潜在変数に埋め込むための補助損失項
𝐿 𝑝𝑐:コンテンツ情報を潜在変数に埋め込むための補助損失項
𝐿 𝑀𝐼:KL collapse を緩和するための相互情報量項
pairwise
raw text
pairwise & raw text
18. Experiment
• Dataset
– 2種類
– データセットの table-text のペアの一部を使用
– 大部分を raw text として text のみ使用
• ペア:raw text = 1 : 10
17
SPNLG[1] レストランの記述
WIKI[2,3] Wikipediaの人物紹介[2,3] (+動物[3])
[1] Lena Reed, Shereen Oraby, and Marilyn Walker. Can neural generators for dialogue learn sentence planning and
discourse structuring? In Proceedings of the International Conference on Natural Language Generation, 2018.
[2] Remi Lebret, David Grangier, and Michael Auli. Neural text generation from structured data with ´ application to the
biography domain. In Proceedings of the Conference on Empirical Methods in Natural Language Processing, 2016.
[3] Qingyun Wang, Xiaoman Pan, Lifu Huang, Boliang Zhang, Zhiying Jiang, Heng Ji, and Kevin Knight. Describing a
knowledge base. In Proceedings of the International Conference on Natural Language Generation, 2018b.
21. Experiment
• Evaluation Metrics
– BLEU
• 高い方が良い
• 生成文と正解文の n-gram の一致に基づいて計算
– self-BLEU[1]
• 低いほど良い
• 生成文内でBLEUを計算
20
流暢さ 多様性
SPNLG BLEU-4, NIST, ROUGE-L(F-score) self-BLEU
WIKI BLEU-4, NIST, METEOR, ROUGE-L(F-score), CIDEr self-BLEU
[1] Yaoming Zhu, Sidi Lu, Lei Zheng, Jiaxian Guo, Weinan Zhang, Jun Wang, and Yong Yu. Texygen: A
benchmarking platform for text generation models. In Proceedings of the International ACM SIGIR
Conference on Research & Development in Information Retrieval, 2018.
22. Experiment
• Baseline Models
– Table2seq
• tableをEncode -> Seq2seqで文生成
• TableEncoderとDecoderのアーキテクチャは提案手法と同じ
• 学習はペアのデータのみ(raw textは使用しない)
• 復号化
– ビームサーチで5文 (Table2seq-beam)
– forward sampling (Table2seq-sample)
• raw textでDecoderを事前学習(Table2seq-pretrain)
– 復号化はビームサーチ(Table2seq-beamと同じ)
– Temp-KN[1]
• 5-gram Kneser-Ney 言語モデルによってテンプレートを生成
次にfieldのトークンをtableから単語に置き換え
21
[1] Remi Lebret, David Grangier, and Michael Auli. Neural text generation from structured data with
application to the biography domain. In Proceedings of the Conference on Empirical Methods in Natural
Language Processing, 2016.
32. Experimental Results on SPNLG Dataset
• Case Study
31
テンプレート構造が異なる文章を生成しているが
文中の情報が間違っている
(例)
文4:”it is a Japanese place.”
33. Experimental Results on SPNLG Dataset
• Case Study
32
• テンプレートの多様性が高く、正確な文が生成されている
• 文数や接続詞が異なる文を生成可能
提案手法
34. Experimental Results on WIKI Dataset
• Quantitative Analysis, Ablation Study
33
SPNLGデータセットと同様の結果
35. Experimental Results on WIKI Dataset
• Comparison with the pseudo-table-based method
– raw text の別の利用法
• 固有表現抽出(NER)によってraw text から疑似的なTableを構築
– NER+Table2seq
• table-textデータからBi-LSTM-CRFモデル[1]を学習し、
raw textの疑似的なTableを構築
• table-textデータと疑似table-textデータの両方でTable2seqを学習
– ドメイン変更:人物紹介(841,507文) -> 動物(101,807文)
• モデルの一般化を証明
34
[1] Zhiheng Huang, Wei Xu, and Kai Yu. Bidirectional lstm-crf models for sequence tagging. arXiv preprint
arXiv:1508.01991, 2015.
36. Experimental Results on WIKI Dataset
• Comparison with the pseudo-table-based method
– 流暢さと多様性のトレードオフを解析
• 異なるサンプリング方法の下での品質と多様性を評価
• 温度付きソフトマックス関数を使用
– 温度𝜏を変化させプロット(0.1, 0.2, 0.3, 0.5, 0.6, 0.9, 1.0)
35
左上の方が良いモデル
VTM(提案手法)の方が良い
37. Experimental Results on WIKI Dataset
• Computational cost
– Train: 検証セット中で最も低い誤差に到達するまでの時間
– Test: テストセットで72k 文を生成するのにかかる時間
– hardware
• single Tesla V100 GPU
36
提案手法(VTM)はBaselineより学習には時間がかかるが
推論にかかる時間は同程度
39. Experimental Results on WIKI Dataset
• Case Study
38
https://en.wikipedia.org/wiki/Jack_Ryder_(cricketer)
40. Experimental Results on WIKI Dataset
• Case Study
39
• 多様な文を生成可能
• 誤った内容や無関係な内容を生成する可能性が高い
(例)
文3ではクラブ名が間違っている
41. Experimental Results on WIKI Dataset
• Case Study
40
可読性を維持しつつ複数のテンプレートを持つ文章を生成可能
提案手法
(raw text 非使用)
42. Experimental Results on WIKI Dataset
• Case Study
41
• 他のモデルには無い、より多様な表現を生成
• pairデータに無いraw textによってテンプレート空間
の情報が豊かになる可能性を暗示している
(例)
5. “[fullname], also known as [nickname] ([birth date] –
[daeth date]) was a [country] [article name 4].”
提案手法