SlideShare a Scribd company logo
機械学習 論文輪読会
Hybrid Reward Architecture for
Reinforcement Learning
Ishizaki Yuko
2018/1/8
Hybrid Reward Architecture for
Reinforcement Learning
NIPS 2017 Accepted Paper
http://papers.nips.cc/paper/7123-hybrid-reward-architecture-for-
reinforcement-learning.pdf
パックマンを攻略した論文 2017年6月にarXive.orgに掲載
MicrosoftのチームMaluuba
ミズ.パックマンでフルスコアの99万9990点を記録した
Topic
1. 強化学習とは
2. DQNとは
3. HRAとは
4. 実験1 フルーツゲーム
5. 実験2 パックマン
強化学習
エージェント:プレーヤー
状態:エージェントの置かれている状態 𝑆 = { 𝑠1, 𝑠2, 𝑠3, … }
行動:エージェントが行う行動 𝐴 = { 𝑎1, 𝑎2, 𝑎3, … }
報酬:環境から得られる報酬 𝑟𝑡 = 𝑅 𝑠𝑡, 𝑎 𝑡, 𝑠𝑡+1
状態遷移確率:ある状態𝑠𝑡である行動𝑎 𝑡を起こて、ある状態𝑠𝑡+1になる確率
𝑃 𝑠𝑡+1 | 𝑠𝑡, 𝑎 𝑡
方針:エージェントがとある状態でどんな行動を行うか
𝜋: 𝑆 × 𝐴 → [0, 1]
強化学習の目的
各ステップごとに状態𝑠と行動𝑎と報酬𝑟を観測し、
累積報酬𝐺𝑡を最大にする方針𝜋∗を見つけること
𝐺𝑡: =
𝑖=0
∞
𝛾 𝑖 𝑟𝑡+𝑖
𝛾 ∈ [0,1]は時間割引率
1秒後の報酬+100の方が10秒後の報酬+100よりも高い報酬とみなす
マルコフ決定過程
𝑆, 𝐴, 𝑃, 𝑅, 𝛾 モデル化したものをマルコフ決定過程(MDP)という
次の状態(の確率)が現在の状態のみで決まる
𝜋: 𝑆 × 𝐴 → [0, 1]
→ 過去は関係ない
→ 状態は全て把握できている
行動価値関数
ある状態である行動を行うことの価値を表す関数
→ 価値とは報酬をもとにした、仮想的な値
𝑄 𝜋
𝑠, 𝑎 = 𝔼 𝐺𝑡 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
𝑠という状態で𝑎という行動をとった場合の価値は、方針𝜋で得られる
累積報酬の期待値で表される。
最適行動価値関数
強化学習の目的は累積報酬が最大になる方針𝜋∗を見つけること
→ 𝜋∗では報酬が最大になるように行動する
→ 価値関数の値が最大になるように行動する
𝑄∗ 𝑠, 𝑎 ≔ max
𝜋
𝑄 𝜋 𝑠, 𝑎
𝑄∗
𝑠, 𝑎 ≔ 𝔼 𝑟 + 𝛾 max
𝑎′
𝑄∗
(𝑠′
, 𝑎′
)
Q-Learning
最適行動価値関数を見つけるために行動価値関数を更新
𝑄 𝑠, 𝑎 ← 𝑄 𝑠, 𝑎 + 𝛼 𝑟 + 𝛾 max𝔼
𝑎′
𝑄 𝑠′, 𝑎′ − 𝑄 𝑠, 𝑎
(𝛼 ∈ 0,1 ∶ 学習率)
ある行動価値が一つ前の行動価値に伝播していく
DQN (Deep Q-Network)
𝑄 𝑠, 𝑎 を、とあるパラメータθを使った近似関数 𝑄 𝑠, 𝑎; θ で表現
→ パラメータθをディープラーニングで求める
損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA ( Hybrid Reward Architecture for RL )
DQNは複雑なゲームだと、学習が遅くて安定しない
→ 近似関数をもっと簡単にできないか?
報酬関数が分けられるときは分けて、それぞれ行動価値関数を学
習させれば、学習が容易にならないか?
𝑅(𝑠, 𝑎, 𝑠′
) =
𝑘=1
𝑛
𝑅 𝑘(𝑠, 𝑎, 𝑠′
)
イメージ
エージェント 報酬1 報酬2
+10
+10 +0
+0
+0
+0
+0+0 +10
+0
+0
+0
+0
+0+0
+10 +0
+0
+0
+0
+0+0
+0
+0
𝑅(𝑠, 𝑎, 𝑠′
) 𝑅1(𝑠, 𝑎, 𝑠′
) 𝑅2(𝑠, 𝑎, 𝑠′
)= +
行動価値関数 (HRAバージョン)
𝑄 𝜋 𝑠, 𝑎 = 𝔼
𝑖=0
∞
𝛾 𝑖 𝑅(𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1) | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
= 𝔼
𝑖=0
∞
𝛾 𝑖
𝑘=1
𝑛
𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝔼
𝑖=0
∞
𝛾 𝑖 𝑅 𝑘 𝑠𝑡+𝑖, 𝑎 𝑡+𝑖, 𝑠𝑡+𝑖+1 | 𝑠𝑡 = 𝑠, 𝑎 𝑡 = 𝑎, 𝜋
=
𝑘=1
𝑛
𝑄 𝑘
𝜋
𝑠, 𝑎 ∶= 𝑄 𝐻𝑅𝐴
𝜋
𝑠, 𝑎
近似関数の損失関数 (HRAバージョン)
DQN損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[(𝑟 + 𝛾 max
𝑎′
𝑄 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑠, 𝑎; 𝜃𝑖 )2]
HRA損失関数
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
ネットワークのイメージ
𝐿𝑖 𝜃𝑖 = 𝔼[
𝑘=1
𝑛
(𝑅 𝑘 𝑠, 𝑎, 𝑠′ + 𝛾 max
𝑎′
𝑄 𝑘 𝑠′, 𝑎′; 𝜃𝑖−1 − 𝑄 𝑘 𝑠, 𝑎; 𝜃𝑖 )2]
𝜃は1つで、各𝑄 𝑘重みを結合したもの
→ 多数決+重みによって最終的な行動を𝑄 𝐻𝑅𝐴が決める
問題固有の知識を活用
• 無関係な特徴量を削除する
→ 報酬1に対応する 𝑄1 𝑠, 𝑎 にとって、報酬2の情報は不要
• 最終状態を認識させる
→ 報酬1に対応する 𝑄1 𝑠, 𝑎 は、報酬1を得たら終了
• 擬似報酬を利用する
→ 報酬が得られる可能性のある場所に擬似的な報酬を設定する
実験1 フルーツゲーム
ルール
• エージェントは10×10のマスを移動して
フルーツを食べる
• 10箇所にフルーツが置かれる可能性があり
実際におかれているのは5箇所
• 1ゲームごとにフルーツの場所は変わる
• エージェントの開始位置はランダム
• フルーツを5個食べ終えたら終了、
もしくは300ステップを超えたら終了。
パターン
HRAではフルーツがおかれる可能性のある場所ごとに𝑅 𝑘 𝑠, 𝑎, 𝑠′ と
𝑄 𝑘 𝑠, 𝑎 設定する。フルーツに1ポイントの報酬。
比較対象のDQNではただ単にフルーツに1ポイントの報酬
問題固有の知識を導入
• HRA+1 各𝑄 𝑘に対応するフルーツの位置だけ
• HRA+2 各𝑄 𝑘に対応するフルーツが食べられない状態では学習しない
• HRA+3 フルーツがおかれる可能性のある場所それぞれに擬似報酬
• DQN+1 HAR+1と同じネットワークを利用
フルーツゲームの結果
HRAの場合、問題固有の知識を有効に活用することができる
実験2 パックマン
• ペレットを食べるとポイントがもらえる
• ゴーストに触れると死ぬ
• スペシャルパワーペレットを食べると
ゴーストが青くなってゴーストを食べれ
てポイントがもらえる
• 全てのペレットを食べると次のレベルに
いける
• レベルごとにフルーツが2個食べれる。
フルーツは7種類あってポイントがそれ
ぞれ違う
• 4種類のエリアがある
HRA表現
状態 : ネットワークのinput部分
• エリアを160×160で表現
• ゴースト4体それぞれの位置
• 青ゴースト4体それぞれの位置
• パックマンの位置
• フルーツの位置
• ペレットの位置
HRA表現
行動:ネットワークのoutput layer (headごと)のnodes
→ パックマンの上下左右で4つ
報酬:それぞれ𝑅 𝑘 𝑠, 𝑎, 𝑠′ と𝑄 𝑘 𝑠, 𝑎 設定する
• ペレット → ゲーム内でのポイント
• ゴースト → -1000ポイント
• 青ゴースト → ゲーム内でのポイント
• フルーツ → ゲーム内でのポイント
工夫
• 各𝑄 𝑘 𝑠, 𝑎 を合算するとき、正規化する
• エリア内の特定の場所へ移動するための擬似報酬を設定する
• 探索用の𝑄 𝑘 𝑠, 𝑎 を2つ追加
→ 1つめは一様分布のランダムな値[0,20]
→ 2つめは𝑠とaが今までにないパターンの場合にボーナスを与える
結果
報酬を分割することで、問題固有の知識を活用でき、学習を容易
にすることが可能
結論

More Related Content

Similar to 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning

NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
Yuki Shimada
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
Deep Learning JP
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Keiichi Namikoshi
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
magoroku Yamamoto
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
Takuya Minagawa
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
t_ichioka_sg
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
Hiroki Iida
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Toru Fujino
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
KazuhiroSato8
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
Yuuji Hiramatsu
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
Takuya Minagawa
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
nishio
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
Chihiro Kusunoki
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
Hirotaka Hachiya
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
 

Similar to 機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning (16)

NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning[Dl輪読会]introduction of reinforcement learning
[Dl輪読会]introduction of reinforcement learning
 
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
Multi-agent Inverse reinforcement learning: 相互作用する行動主体の報酬推定
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
SSII2021 [TS2] 深層強化学習 〜 強化学習の基礎から応用まで 〜
 
20200704 bsp net
20200704 bsp net20200704 bsp net
20200704 bsp net
 
パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩パターン認識モデル初歩の初歩
パターン認識モデル初歩の初歩
 
レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章レトリバ勉強会資料:深層学習による自然言語処理2章
レトリバ勉強会資料:深層学習による自然言語処理2章
 
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
Rainbow: Combining Improvements in Deep Reinforcement Learning (AAAI2018 unde...
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
 
Dive into XGBoost.pdf
Dive into XGBoost.pdfDive into XGBoost.pdf
Dive into XGBoost.pdf
 
2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)2020/07/04 BSP-Net (CVPR2020)
2020/07/04 BSP-Net (CVPR2020)
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1「これからの強化学習」勉強会#1
「これからの強化学習」勉強会#1
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 

Recently uploaded

FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 

Recently uploaded (14)

FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 

機械学習 論文輪読会 Hybrid Reward Architecture for Reinforcement Learning