SlideShare a Scribd company logo
1 of 25
Efficient Communication in
Multi-Agent Reinforcement
Learning
via Variance Based Control
北海道大学大学院情報科学院
調和系工学研究室
M1 大江 弘峻
2020年6月3日
論文の情報
• Sai Qian Zhang、Qi Zhang、Jieyu Lin
• Advances in Neural Information Processing Systems 32
(NIPS 2019)
• 論文のpdf
https://arxiv.org/abs/1909.02682
• 実装コード
https://github.com/saizhang0218/VBC
1
マルチエージェント強化学習(MARL)
のアプローチ
1. エージェントを個別に学習させる手法:Independent Q-
Learning(IQL)
2. 各エージェントの行動価値を一元的に収集したもの(結合
行動価値)を使用して学習を行う手法
3. エージェント間のコミュニケーションを考慮して学習を行
う手法
2
提案手法は2と3を合わせた手法
結合行動価値を学習するモデル
• 代表的なモデル
• Value Decomposition Network (VDN)(Sunehag et al. 2017)
• QMIX(Sukhbaatar et al. 2016)
• VDNでは単純に各エージェントからの行動価値の総和を結合
行動価値として定義
• QMIXでは新たなニューラルネットワークを使用し、
各エージェントからの行動価値を入力とした結合行動価値ネッ
トワークを学習
3
コミュニケーションの効率性について
• リアルタイム性を求める場合には、コミュニケーションがオー
バーヘッドが動作に影響する
• 無駄なコミュニケーションによって、学習が阻害されてしまう
場合もある(Jiang et al. 2018)
4
効率の良いエージェント間の
コミュニケーションが重要となる
提案手法:Variance Based Control
• 効率の良いコミュニケーションを行わせるために、2つの条件
を設定した手法
• エージェントは自身の行動に自信がないときだけ、他のエー
ジェントとコミュニケーションを要求(条件1)
• コミュニケーション要求を受け取ったエージェントは返信する
データの分散が高い(返信するデータが与える影響が大きい)
ときだけ応答(条件2)
5
VBCのモデル構成
• エージェントは3つの部分から構成
• Local Action Generator
• Message Encoder
• Combiner
6
VBCのモデル構成:
Local Action Generator
• エージェントは3つの部分から構成
• Local Action Generator
• Message Encoder
• Combiner
7
𝑐 𝑡はMessage Encoder
の入力に使用する
エージェント1が観測した状態𝑜1
𝑡
を入力とする
VBCのモデル構成:Message Encoder
• エージェントは3つの部分から構成
• Local Action Generator
• Message Encoder
• Combiner
8
合計でN個エンコーダが存在する
ローカルな価値関数から得られた
𝑐 𝑡
を入力とする
𝑓𝑒𝑛𝑐は行動空間と同じ次元を出力する
VBCのモデル構成:Combiner
• エージェントは3つの部分から構成
• Local Action Generator
• Message Encoder
• Combiner
9
コミュニケーションが成立したエンコーダの値と
ローカルな行動価値を足し合わせる
ε-greedyを方策として選択
VBCのモデル構成: Mixing Network
• 各エージェントからの行動価値をまとめるネットワーク
• VDN
• QMIX
10
結合行動価値𝑄𝑡𝑜𝑡を出力
VDNかQMIXの
どちらかを使用
VBCの損失関数
• 各エージェントからの行動価値をまとめ上げる𝑄𝑡𝑜𝑡を定義
• 返信するメッセージの分散を抑えるために、損失関数に項を追
加
11
分散を抑えるための項TD誤差
コミュニケーションの手順 #1
• エージェントは行動価値を計算し、
一番大きい行動価値と二番目に大きい行動価値の差を求める
• 閾値:𝛿1よりも小さい場合にエージェントはコミュニケーション
の開始要求を送信する
12
コミュニケーションの手順 #2
• コミュニケーションのリクエストを受け取ったエージェントは
エンコーダの値について分散を計算する
• 閾値:𝛿2よりも得られた分散が大きい場合にのみエージェントに
返信する
13
コミュニケーション後の行動価値と
エンコーダの学習
• エージェントはコミュニケーションを行ったメッセージの値の
みを行動価値に加算する
• メッセージ(エンコーダの値)は行動価値の一部として計算さ
れる
• エンコーダの値は結合行動価値の一部となり、
エンコーダのパラメータはTD誤差の項からも学習される
• エンコーダは最適な行動価値を求めつつ、分散を抑えるように
学習される
14
実験で使用するMARLのベンチマーク
1. StarCraft Multi-Agent Challenge (SMAC)
2. Corporative Navigation (CN)
3. Predator Prey (PP)
15
StarCraft Multi-Agent Challenge
• RTS (Real-time Strategy)のゲームであるStraCraft2を学習す
ることができるベンチマーク
• この論文では、StarCraftのビルトインAIと対戦させるタスク
を選択
• 報酬は、受けるダメージを最小にしつつ敵を全滅させることを
目的に設定
16
SMACを使用した実験の内容:比較手法
• 6つの手法を使用して結果を比較
• 提案手法はVDN+VBC、QMIX+VBC
• FC(full communication)はVDN+VBCからエンコーダの分散の
学習を取り除き、常にコミュニケーションをとる手法
• SchedNet(Kim et al. 2019)はTop(k)スケジューリングポリシーに
よってコミュニケーションを行うエージェントを選択する手法
17
VDN QMIX VDN+VBC QMIX+VBC FC SchedNet
コミュニケー
ション
なし なし あり あり あり あり
SMACを使用した実験の内容:タスク
• 6つの戦闘状況を考える
• 3つは敵軍と自軍が同じユニットの状況(対称)
• 残りの3つは敵のユニットが多く有利な状況(非対称)
18
MMM 2s3z 3s5z 3s_vs_4z 6h_vs_8z 6z_vs_24zerg
対称/非対称 対称 対称 対称 非対称 非対称 非対称
味方ユニット 1 Medivac
2 Marauders
7 Marines
2 Stalkers
3 Zealots
3 Stalkers
5 Zealots
3 Stalkers 6 Hydralisks 6 Zealots
敵ユニット 1 Medivac
2 Marauders
7 Marines
2 Stalkers
3 Zealots
3 Stalkers
5 Zealots
4 Zealots 8 Zealots 24 Zerglings
SMACを使用した実験の結果:勝率
19
SMACを使用した実験の結果:
オーバーヘッド
• 全エージェント数に対して、実際にコミュニケーションを行っ
たエージェントの割合をβとして設定
• 2~10倍オーバーヘッドが改善
20
Corporative Navigationの実験内容
• エージェントは他のエージェントとの衝突を回避しながら
目的地を推測し、そこへ移動する
• エージェントは相対的な他のエージェントの位置と目的地を観
測できる
• エージェントは目的地との近さに基づいて報酬を獲得でき、
エージェント同士で衝突した場合はペナルティを受ける
21
Predator Prey実験の内容
• 2つのマルチエージェントモデルがそれぞれ、PredatorかPrey
として学習していく
• PredatorはPreyよりも移動速度が遅い
• PredatorはPreyに追いつくと報酬を獲得でき、Preyはペナル
ティを受ける
• 空間には障害物が存在しており、それを避けながらPreyを追い
かける必要がある
22
CNとPPの実験結果
• コミュニケーションを使用するモデルは全体的に成績が良い
• VBCはほかのモデルよりもコミュニケーション時のオーバヘッ
ドが2~6倍少ない
23
まとめ
• コミュニケーションの効率を改善する手法としてVBCを提案
• 3種類のベンチマークにおいて高いスコアを獲得しつつ、
コミュニケーションのオーバーヘッドも大幅に改善
24

More Related Content

What's hot

Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Searchharmonylab
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...harmonylab
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究harmonylab
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究harmonylab
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)harmonylab
 
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究harmonylab
 
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究harmonylab
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...harmonylab
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedbackharmonylab
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...harmonylab
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matchingharmonylab
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirataharmonylab
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...harmonylab
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究harmonylab
 
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料harmonylab
 
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...harmonylab
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?harmonylab
 

What's hot (20)

RAPiD
RAPiDRAPiD
RAPiD
 
Semi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture SearchSemi-Supervised Neural Architecture Search
Semi-Supervised Neural Architecture Search
 
Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...Outfit net fashion outfit recommendation with attention based multiple instan...
Outfit net fashion outfit recommendation with attention based multiple instan...
 
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
ロードヒーティング制御における深層学習を用いた路面画像認識に関する研究
 
深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究深層強化学習による自動運転車両の経路探索に関する研究
深層強化学習による自動運転車両の経路探索に関する研究
 
2021 haizoku
2021 haizoku2021 haizoku
2021 haizoku
 
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
MASTERING ATARI WITH DISCRETE WORLD MODELS (DreamerV2)
 
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究言語モデルを用いた俳句評価器の構築と性能評価に関する研究
言語モデルを用いた俳句評価器の構築と性能評価に関する研究
 
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
灯油配送計画の最適化に向けた ヒューリスティクスの開発に関する研究
 
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
DeepVIO: Self-supervised Deep Learning of Monocular Visual Inertial Odometry ...
 
2019 08 20_dl
2019 08 20_dl2019 08 20_dl
2019 08 20_dl
 
Recursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human FeedbackRecursively Summarizing Books with Human Feedback
Recursively Summarizing Books with Human Feedback
 
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
 
Real-Time Semantic Stereo Matching
Real-Time Semantic Stereo MatchingReal-Time Semantic Stereo Matching
Real-Time Semantic Stereo Matching
 
2021 09 29_dl_hirata
2021 09 29_dl_hirata2021 09 29_dl_hirata
2021 09 29_dl_hirata
 
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
MultiRec: A Multi-Relational Approach for Unique Item Recommendation in Aucti...
 
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究単語の分散表現を用いた俳句における取り合わせの評価に関する研究
単語の分散表現を用いた俳句における取り合わせの評価に関する研究
 
2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料2020年 研究室配属説明会 スライド資料
2020年 研究室配属説明会 スライド資料
 
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
Reinforcement Mechanism Design:With Applications to Dynamic Pricing in Sponso...
 
Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?Can increasing input dimensionality improve deep reinforcement learning?
Can increasing input dimensionality improve deep reinforcement learning?
 

Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control

オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及Katsusuke Shigeta
 
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)真 岡本
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化saireya _
 
2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料義広 河野
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)cvpaper. challenge
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 MILab
 
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂ICT_CONNECT_21
 
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...DeepEyeVision, Inc.
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task LearningDeep Learning JP
 
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-openNorio Toyama
 
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)” [DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)” Deep Learning JP
 
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)kulibrarians
 
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクスKeiko Tanaka
 

Similar to Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control (15)

オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
オンライン教育の展望:高等教育のデジタル化とリカレント教育の普及
 
PBL as a Service
PBL as a ServicePBL as a Service
PBL as a Service
 
NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)NIIpotal_tokyo(20120822)
NIIpotal_tokyo(20120822)
 
SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用SSII2022 [OS3-02] Federated Learningの基礎と応用
SSII2022 [OS3-02] Federated Learningの基礎と応用
 
社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化社会のイノベーションを志向する情報教育の体系化
社会のイノベーションを志向する情報教育の体系化
 
2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料2017年度 河野ゼミ スタートアップ資料
2017年度 河野ゼミ スタートアップ資料
 
自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)自己教師学習(Self-Supervised Learning)
自己教師学習(Self-Supervised Learning)
 
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習 未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
未来画像予測モデルと時間重み付けを導入した価値関数に基づく強化学習
 
20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂20181119_ICON技術セミナー7_石坂
20181119_ICON技術セミナー7_石坂
 
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
NeurIPS2021から見るメタ学習の研究動向 - 第83回人工知能セミナー (2022.3.7)「AIトレンド・トップカンファレンス報告会(NeurI...
 
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
[DL輪読会]AdaShare: Learning What To Share For Efficient Deep Multi-Task Learning
 
20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open20141024 情報処理学会cle-google apps-open
20141024 情報処理学会cle-google apps-open
 
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)” [DL輪読会]“Meta-Learning for Online Update of Recommender Systems.  (AAAI 2022)”
[DL輪読会]“Meta-Learning for Online Update of Recommender Systems. (AAAI 2022)”
 
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
20040930 ku librarians勉強会 #60:オンライン・チュートリアル(『電子図書館の新たな潮流シリーズ』第3回)
 
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
学習分析学会ミートアップ:マイクロクレデンシャルとラーイングアナリティクス
 

More from harmonylab

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也harmonylab
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究harmonylab
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...harmonylab
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究harmonylab
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究harmonylab
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...harmonylab
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backboneharmonylab
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Modelsharmonylab
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimationharmonylab
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Modelsharmonylab
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimationharmonylab
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Modelsharmonylab
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究harmonylab
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究harmonylab
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究harmonylab
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究harmonylab
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究harmonylab
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究harmonylab
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...harmonylab
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究harmonylab
 

More from harmonylab (20)

【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
【修士論文】代替出勤者の選定業務における依頼順決定方法に関する研究   千坂知也
 
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
【修士論文】経路探索のための媒介中心性に基づく道路ネットワーク階層化手法に関する研究
 
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
A Study on Decision Support System for Snow Removal Dispatch using Road Surfa...
 
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
【卒業論文】印象タグを用いた衣服画像生成システムに関する研究
 
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
【卒業論文】大規模言語モデルを用いたマニュアル文章修正手法に関する研究
 
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
DLゼミ:Primitive Generation and Semantic-related Alignment for Universal Zero-S...
 
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile BackboneDLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
DLゼミ: MobileOne: An Improved One millisecond Mobile Backbone
 
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat ModelsDLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
DLゼミ: Llama 2: Open Foundation and Fine-Tuned Chat Models
 
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose EstimationDLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
DLゼミ: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation
 
Voyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language ModelsVoyager: An Open-Ended Embodied Agent with Large Language Models
Voyager: An Open-Ended Embodied Agent with Large Language Models
 
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose EstimationDLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
DLゼミ: Ego-Body Pose Estimation via Ego-Head Pose Estimation
 
ReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language ModelsReAct: Synergizing Reasoning and Acting in Language Models
ReAct: Synergizing Reasoning and Acting in Language Models
 
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究形態素解析を用いた帝国議会議事速記録の変遷に関する研究
形態素解析を用いた帝国議会議事速記録の変遷に関する研究
 
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
 
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究灯油タンク内の液面高計測を用いた灯油残量推定システムに関する研究
灯油タンク内の液面高計測を用いた 灯油残量推定システムに関する研究
 
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究深層自己回帰モデルを用いた俳句の生成と評価に関する研究
深層自己回帰モデルを用いた俳句の生成と評価に関する研究
 
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究競輪におけるレーティングシステムを用いた予想記事生成に関する研究
競輪におけるレーティングシステムを用いた予想記事生成に関する研究
 
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
【卒業論文】B2Bオークションにおけるユーザ別 入札行動予測に関する研究
 
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...A Study on Estimation of Household Kerosene Consumption for Optimization of D...
A Study on Estimation of Household Kerosene Consumption for Optimization of D...
 
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
マルチエージェント深層強化学習による自動運転車両の追越行動の獲得に関する研究
 

Efficient_Communication_in_Multi-Agent_Reinforcement_Learning_via_Variance_Based_Control