本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
本スライドは、弊社の梅本により弊社内の技術勉強会で使用されたものです。
近年注目を集めるアーキテクチャーである「Transformer」の解説スライドとなっております。
"Arithmer Seminar" is weekly held, where professionals from within and outside our company give lectures on their respective expertise.
The slides are made by the lecturer from outside our company, and shared here with his/her permission.
Arithmer株式会社は東京大学大学院数理科学研究科発の数学の会社です。私達は現代数学を応用して、様々な分野のソリューションに、新しい高度AIシステムを導入しています。AIをいかに上手に使って仕事を効率化するか、そして人々の役に立つ結果を生み出すのか、それを考えるのが私たちの仕事です。
Arithmer began at the University of Tokyo Graduate School of Mathematical Sciences. Today, our research of modern mathematics and AI systems has the capability of providing solutions when dealing with tough complex issues. At Arithmer we believe it is our job to realize the functions of AI through improving work efficiency and producing more useful results for society.
機械学習の社会実装では、予測精度が高くても、機械学習がブラックボックであるために使うことができないということがよく起きます。
このスライドでは機械学習が不得意な予測結果の根拠を示すために考案されたLIMEの論文を解説します。
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "" Why should i trust you?" Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
機械学習の社会実装では、予測精度が高くても、機械学習がブラックボックであるために使うことができないということがよく起きます。
このスライドでは機械学習が不得意な予測結果の根拠を示すために考案されたLIMEの論文を解説します。
Ribeiro, Marco Tulio, Sameer Singh, and Carlos Guestrin. "" Why should i trust you?" Explaining the predictions of any classifier." Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining. 2016.
セル生産方式におけるロボットの活用には様々な問題があるが,その一つとして 3 体以上の物体の組み立てが挙げられる.一般に,複数物体を同時に組み立てる際は,対象の部品をそれぞれロボットアームまたは治具でそれぞれ独立に保持することで組み立てを遂行すると考えられる.ただし,この方法ではロボットアームや治具を部品数と同じ数だけ必要とし,部品数が多いほどコスト面や設置スペースの関係で無駄が多くなる.この課題に対して音𣷓らは組み立て対象物に働く接触力等の解析により,治具等で固定されていない対象物が組み立て作業中に運動しにくい状態となる条件を求めた.すなわち,環境中の非把持対象物のロバスト性を考慮して,組み立て作業条件を検討している.本研究ではこの方策に基づいて,複数物体の組み立て作業を単腕マニピュレータで実行することを目的とする.このとき,対象物のロバスト性を考慮することで,仮組状態の複数物体を同時に扱う手法を提案する.作業対象としてパイプジョイントの組み立てを挙げ,簡易な道具を用いることで単腕マニピュレータで複数物体を同時に把持できることを示す.さらに,作業成功率の向上のために RGB-D カメラを用いた物体の位置検出に基づくロボット制御及び動作計画を実装する.
This paper discusses assembly operations using a single manipulator and a parallel gripper to simultaneously
grasp multiple objects and hold the group of temporarily assembled objects. Multiple robots and jigs generally operate
assembly tasks by constraining the target objects mechanically or geometrically to prevent them from moving. It is
necessary to analyze the physical interaction between the objects for such constraints to achieve the tasks with a single
gripper. In this paper, we focus on assembling pipe joints as an example and discuss constraining the motion of the
objects. Our demonstration shows that a simple tool can facilitate holding multiple objects with a single gripper.
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matchingharmonylab
公開URL:https://arxiv.org/pdf/2404.19174
出典:Guilherme Potje, Felipe Cadar, Andre Araujo, Renato Martins, Erickson R. ascimento: XFeat: Accelerated Features for Lightweight Image Matching, Proceedings of the 2024 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (2023)
概要:リソース効率に優れた特徴点マッチングのための軽量なアーキテクチャ「XFeat(Accelerated Features)」を提案します。手法は、局所的な特徴点の検出、抽出、マッチングのための畳み込みニューラルネットワークの基本的な設計を再検討します。特に、リソースが限られたデバイス向けに迅速かつ堅牢なアルゴリズムが必要とされるため、解像度を可能な限り高く保ちながら、ネットワークのチャネル数を制限します。さらに、スパース下でのマッチングを選択できる設計となっており、ナビゲーションやARなどのアプリケーションに適しています。XFeatは、高速かつ同等以上の精度を実現し、一般的なラップトップのCPU上でリアルタイムで動作します。
9. ACL 2016 Outstanding Papers
8
• A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task
• Learning Language Games through Interaction
• Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric
Learning for Kernel Regression
• Improving Hypernymy Detection with an Integrated Path-based and
Distributional Method
• Integrating Distributional Lexical Contrast into Word Embeddings for
Antonym-Synonym Distinction
• Multimodal Pivots for Image Caption Translation
• Harnessing Deep Neural Networks with Logic Rules
• Case and Cause in Icelandic: Reconstructing Causal Networks of Cascaded
Language Changes
• On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue
Systems
• Globally Normalized Transition-Based Neural Networks
10. ACL 2016 Best Paper
9
Finding Non-Arbitrary Form-Meaning Systematicity
“Arbitrariness of the sign” [Saussure 1916]:
語形と意味は関係がない
Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric Learning for Kernel Regression,
ACL 2016
本当かどうか
統計的に検証
手法: カーネル回帰(右図)
結果: 語形と意味には高い相
関がある(ものが存在する)こと
を示した
word2vec
文字列
11. ACL 2016 Outstanding Papers
10
• A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task
• Learning Language Games through Interaction
• Finding Non-Arbitrary Form-Meaning Systematicity Using String-Metric
Learning for Kernel Regression
• Improving Hypernymy Detection with an Integrated Path-based and
Distributional Method
• Integrating Distributional Lexical Contrast into Word Embeddings for
Antonym-Synonym Distinction
• Multimodal Pivots for Image Caption Translation
• Harnessing Deep Neural Networks with Logic Rules
• Case and Cause in Icelandic: Reconstructing Causal Networks of Cascaded
Language Changes
• On-line Active Reward Learning for Policy Optimisation in Spoken Dialogue
Systems
• Globally Normalized Transition-Based Neural Networks
12. ACL 2016 Outstanding Papers
11
Reading Comprehension Task(文章読解)
A Thorough Examination of the CNN/Daily Mail Reading Comprehension Task [Chen+ ACL 2016]
文章読解問題の分析
13. ACL 2016 Outstanding Papers
12
• Improving Hypernymy Detection with an Integrated Path-based
and Distributional Method
• 単語の上位・下位関係の予測
Ex. (pineapple, fruit), (green, color), (Obama, president)
• Integrating Distributional Lexical Contrast into Word
Embeddings for Antonym-Synonym Distinction
• 類義語・反意語の区別(どちらも同じ文脈で出現し得るの
で区別が難しい)
24. 構文解析
23
SyntaxNet (Google)
Globally Normalized Transition-Based Neural Networks [Andor+ 2016]
“The World‘s Most Accurate Parser”(当時)
• 【前提知識】 依存構造解析(係り受け解析)
• 遷移型: 行動(shift, reduce)系列の出力によるデコード
• グラフ型: 動的計画法によるデコード
25. [ ROOT ] [ The luxury auto maker last year sold ... ]
[ ROOT The ] [ luxury auto maker last year sold ... ]
[ ROOT The luxury ] [ auto maker last year sold ... ]
[ ROOT The luxury auto maker ] [ last year sold ... ]
[ ROOT The luxury maker ] [ last year sold ... ]
[ ROOT The maker ] [ last year sold ... ]
‥ ‥ ‥ ‥
Shift
Shift
Shift
Reduce-L
autoReduce-L
luxury auto
行動(shift: 次の単語を見る,reduce: 木の一部を作る)
24
(参考)遷移型依存構造解析
26. [ ROOT sold in ] [ ]
U.S.maker years cars
25
(参考)遷移型依存構造解析
27. [ ROOT sold in ] [ ]
Reduce-R U.S.maker years cars
[ ROOT sold ] [ ]
inmaker years cars
26
(参考)遷移型依存構造解析
28. [ ROOT sold in ] [ ]
Reduce-R U.S.
Reduce-R
maker years cars
[ ROOT sold ] [ ]
inmaker years cars
[ ROOT ] [ ]
inmaker years cars
sold
完成
27
(参考)遷移型依存構造解析
29. 構文解析
28
ニューラル遷移型依存構造解析 [Chen+ 2014]
A Fast and Accurate Dependency Parser using Neural Networks [Chen+ 2014]
入力
3層NN
Softmax
次の行動を決定するためにニューラルネットでスコアリング
31. 構文解析
30
Bi-LSTM Feature Representation
Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations
[Kiperwasser+ 2016]
• 入力文全体から大域的な特徴量を学習して,依存構造解析に
用いる
32. 構文解析
31
Bi-LSTM Feature Representation
Simple and Accurate Dependency Parsing Using Bidirectional LSTM Feature Representations
[Kiperwasser+ TACL 2016]
入力文全体からBi-LSTMで単語の特徴量を学習する:
単純だが,依存構造解析に対して効果が高い.
33. 構文解析
32
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
• 文全体から大域的な特徴量を学習する [Kiperwasser+ 2016]
• デコードはさらに単純化して,各単語ごとに独立に依存先
(head)の単語を選ぶ(!!)
※ 出力が木構造になる保証はない
The auto maker sold 1000 cars last year.
34. 構文解析
33
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
The auto maker sold 1000 cars last year.
• 遷移型やグラフ型の依存構造解析は,ボトムアップに木を組み
立てていく
35. 構文解析
34
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
The auto maker sold 1000 cars last year.
LSTM
LSTM
• 遷移型やグラフ型の依存構造解析は,ボトムアップに木を組み
立てていく
• Head selectionでは,単語ごとに依存先を独立に決定する
36. 構文解析
35
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
• 遷移型やグラフ型の依存構造解析は,ボトムアップに木を組み
立てていく
• Head selectionでは,単語ごとに依存先を独立に決定する
The auto maker sold 1000 cars last year.
… …
P (year | The)
P (1000 | The)
37. 構文解析
36
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
• 遷移型やグラフ型の依存構造解析は,ボトムアップに木を組み
立てていく
• Head selectionでは,単語ごとに依存先を独立に決定する
The auto maker sold 1000 cars last year.
38. 構文解析
37
Dependency Parsing as Head Selection
Dependency Parsing as Head Selection [Zhang+ 2016]
英語の依存構造解析の結果
• 高精度
• 文長が長くなったときにど
の程度の性能か要検証
44. 43
RNNによる機械翻訳のモデル化
A B C D X Y Z
A B C D <eos> X Y Z
<eos>X Y Z
機械翻訳
Sutskever et al., “Sequence to Sequence Learning with Neural Networks”, Arxiv,
2014
45. 44
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and
Translate”, ICLR, 2015
46. 45
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and
Translate”, ICLR, 2015
47. 46
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and
Translate”, ICLR, 2015
48. 47
アテンションに基づくRNN
A B C D <eos> X Y Z
<eos>X Y Z
どこに「注意」して翻訳するかを学習する
機械翻訳
Bahdanau et al., “Neural Machine Translation by Jointly Learning to Align and
Translate”, ICLR, 2015
50. 系列-系列の学習
49
サブ単語ベースの機械翻訳
Neural Machine Translation of Rare Words with Subword Units [Sennrich+ ACL 2016]
• Byte pair encoding(BPE)[Gage 1994]を用いて単語分割を行う
出現頻度が高い2文字を,別の1文字に置き換えていくことを
繰り返して圧縮する
機械翻訳では,人間と同じ基準の単語分割を行う必要はない
a b c d e f ab c d e f