SlideShare a Scribd company logo
没入度の高い AR アプリケーション開発に向けた取り組み
Akatsuki Inc.
@kidach1
Daiki Taniguchi
株式会社アカツキ
R&D ( xR )
Engineer / Researcher
@kidach1
https://twitter.com/kidach1
自己紹介
話すこと
前半
- AR をどう捉え、何に注力しているか
- SIGGRAPH2018 展示の話とあわせて
(概念 / 考え方中心)
後半
最近取り組んでいる研究の話
( Tech 中心)
前半
Augmented Reality Game
with Unique Semi-Transmissive Rendering Method
Akatsuki Inc.
Daiki Taniguchi
没入度の高いARアプリケーション開発に向けた取り組み
没入度の高い AR 体験を実現するには?
- 幾何学的整合性
- 光学的整合性
- 時間的整合性
- 実行速度 / パフォーマンス
AR の主要要素
- 現実世界と CG の融合感
- 周辺環境認識
3DCG を現実世界に違和感なく統合するには?
改めて
- Photorealistic Rendering
- Non-Photorealistic Rendering
光学的整合性に対する 2 つのアプローチ
[Debevec 2001]
Non-Photorealistic Rendering
[Hertzmann 1997]
[Jiajian et al. 2008] [Anna 2008]
[Cassidy Curtis 1998]
- Augmented Reality に最適化した
NPR
- リアルな NPR ??
"Standing on the shoulders of giants"
© 2012 Marvel and Subs.© 1977 20th Century Fox
© 1984 Orion Pictures© 2011 Warner Bros. Pictures
プレイヤーの経験値・知識・ Context を活用して
‘ ’以前どこかで見たことがある!
という気持ちを呼び起こす
Holographic Objects
Optical Camouflage
NON-PHOTOREALISTIC
but
REALISTIC
Road to AR optimized NPR
-> shadowing, lighting and occlusion の無いマテリアルであるべき
• 現実世界と 3DCG の境目を曖昧に出来る
Road to AR optimized NPR
-> 現実世界(背景画像)も何らかの処理対象であるべき
NPR のアドバンテージ
•photorealistic rendering に付随する複雑な処理を省くことが出来る
テクスチャをシーンに対して投影
Projective texture mapping
[Cass 2001]
• UV 値を動的に算出
• 射影座標とテクスチャ座標の差分を吸収する変換行列を用意
Road to AR optimized NPR
Semi-transmissive shader
- Projective texture mapping
- カメラ画像を毎フレーム対象オブジェクトに射影
- 屈折処理は高速化のため疑似的に再現(そもそも物理世界に存在しない物質)
変換行列 :
屈折(と反射) :
uv.xy = /* some ptm code */
uv.xy += normal.xy * cos(π*time) * coef // pseudo refraction
Holographic shader
- 任意の RGB 値を加算
- 特定閾値以下の RGB 値を透過
- ノイズベース頂点アニメーション
Edge detection shader
- sobel フィルタ
- stencil buffer で指定領域内の光学迷彩シェーダー
を Diffuse シェーダーに置き換え
- シンプルなシェーダー
- 必要に応じたチューニング
パフォーマンス的優位性
60fps/mobile
※ excepting ARKit process
More immersive
光学的整合性向上のための
グラフィックス
(Semi-transmissive shader
etc)
グラフィックス以外
の要素
AR 世界とのインタラクション
没入度の高い
AR 体験
More immersive
光学迷彩をどう活かすか?
激しいアクション?
Spatial audio
敵がいるかいないか分からないスリル・ゆるやかな動きの中でも、自然と没入できる
Summary
- 現行の AR デバイスで質の高い AR 体験を生み出す際、 NPR は有力な手法の一
つ
- AR における NPR の効果性を高めるためにプレイヤーの知識・経験値をハック
するというやり方
- グラフィックスに加えてインタラクションの設計も重要
Games in Multiple Realities Session
…デモ映像すら臨場感が凄まじい 日本人クリエイターによる、透明の敵と戦う AR シューティングゲーム
https://www.gizmodo.jp/2018/05/newar-game.html
”まるで光学迷彩 “見えない敵 と戦う AR ゲーム 開発に込められたこだわり | Mogura VR - 国内外の VR/AR/MR 最新情報
https://www.moguravr.com/akatsuki-ar-game/
アカツキ R&D チーム、世界最大 CG 技術の祭典「 SIGGRAPH 2018 」で AR 技術研究を発表
https://voice.aktsk.jp/category/technology/1166/
折返し
ちょっと一息
後半
最近取り組んでいる研究の話
AR x 機械学習
光学的整合性
3DCG と周辺環境の融合
→ 周辺環境情報を学習させることで実現出来ることは多いはず
→ 高品質化・自動化・汎用化に ML ( DNN )が使えないか?
というアイディアは以前から温めていた
Style Transfer
Image Style Transfer Using Convolutional Neural Networks
[Gatys et al. 2016]
Content Image の「構造」と Style Image の「スタイル」を併せ持つ画像を出
力
Image Style Transfer Using Convolutional Neural Networks
[Gatys et al. 2016]
VGG の中間層から得られる特徴を元にコンテンツとスタイルそ
れぞれの情報を抽出
- 構造の特徴を捉えて
いるのは比較的深め
の層
- 全チャネルの特徴マ
ップを直接的に
content 画像に近づけ
る
※ 論文の各種説明は社内向け記事より抜粋
- 各層ごとに求めた
グラム行列を元に算
出
- 層ごとに出力チャネル(の特徴マップ)同士で相関を取る
- 特徴マップ毎ピクセル単位で内積を取ることでマップ間の類似度を得る
(内積は本質的にベクトルの類似度)
- CNN では層が進むにつれてより抽象的な特徴が学習される
- 「画像のコンテンツ(構造)のそれらしさ」のための損失関数には深
い層の特徴を採用
Image Style Transfer Using Convolutional Neural Networks
[Gatys et al. 2016]
Pros
- (後続研究と比べても)それな
りに高品質
Cons
- Optimization Based であり、毎回
Back Prop を走らせる必要がある
=極めて遅い( 1 変換 5-10 時
間)
AR で使うならリアルタイム(まずは動画化)
もっと高速化したい
Perceptual Losses for Real-Time Style Transfer and Super-Resolution
[Johnson et al. 2016]
Gatys の手法に抽象的な変換ネットワークを加え、それを訓練することで変換
処理を(推論処理に差し替える形になり)高速化
Perceptual Losses for Real-Time Style Transfer and Super-Resolution
[Johnson et al. 2016]
Gatys の手法に抽象的な変換ネットワー
クを加え、それを訓練することで変換
処理を(推論処理に差し替える形にな
り)高速化
Perceptual Losses for Real-Time Style Transfer and Super-Resolution
[Johnson et al. 2016]
Gatys の手法と比べて 3-4 桁倍高速(変換処
理)
Perceptual Losses for Real-Time Style Transfer and Super-Resolution
[Johnson et al. 2016]
Pros
- 変換ネットワークの変換処理は高速(数ミリ
秒)
- 品質もそれなりに維持( Gatys よりわずかに落
ちる)
Cons
- 訓練には引き続き数時間必要
- 1 スタイルにつき 1 ネットワーク必要になるた
め、様々なスタイルを試行錯誤するには結局膨
大な時間がかかる
もっと柔軟性を
Universal Style Transfer via Feature Transforms
[Li et al. 2017]
Gatys の手法とは全く異なり、 AutoEncoder と WCT 変換によりスタイル変換処理を実現。訓練
済の VGG から特徴を抜き出し、それをアルゴリズミックに変換するという一般的な DNN から
乖離した手法で、訓練が不要( AutoEncoder 構築用の訓練済 VGG は必要)。
Universal Style Transfer via Feature Transforms
[Li et al. 2017]
- 訓練済の層で構築した AutoEncoder で特徴抽出、さらに WCT 変換( Whitening
and Coloring Transform )により特徴操作
- BackProp の手続き不要(訓練不要)、 Feed-Forward のみで動作可能
データ成分間の相関を無くし( Whitening )、白色化された行列に新たにスタイル画像
から抜き出した相関を注入する( Coloring )
WCT 変換
Whitening ?
データサンプル間の偏り(=相関)を除去する操作。機械学習で訓練の精度向上のた
めの前処理として用いることがある。実質的には主成分分析( PCA )とほぼ同義。
The Statistical Whitening Transform
https://theclevermachine.wordpress.com/2013/03/30/the-statistical-whitening-transform/
Whitening の手続きは、端的にいうと分散共分散行列の対角化が中心
分散共分散行列?
対角成分に分散、非対角成分に共分散の成分を含む行列
つまり、この行列を対角化することにより、非対角成分を全て 0 、つまり各成分間
の相関を無くした状態にすることが可能。
共分散?
2 データ間の関係を表し、正の相関が強い(正方向に散布・ばらつきの傾向が近い)ほ
ど大きく、負の相関が強いほどマイナス方向に大きく、相関が弱いほど 0 に近づく。
&
行列の対角化?
固有値・固有ベクトルを求め、固有ベクトルで基底変換して固有の対
角行列で表現することと同義
WCT 変換
以上をもって、分散共分散行列の対角化を経て Whitening 行列と
Coloring 行列を求めることが出来る
E による基底変換がデータの回転、 ^-1/2Λ による対角行列化が白色化に対応する
※ 細かい導出はこちら参照
https://theclevermachine.wordpress.com/2013/03/30/the-statistical-whitening-transform/
WCT 変換
Universal Style Transfer via Feature Transforms
[Li et al. 2017]
- 訓練済の層で構築した AutoEncoder で特徴抽出、さらに WCT 変換( Whitening
and Coloring Transform )により特徴操作
- BackProp の手続き不要(訓練不要)、 Feed-Forward のみで動作可能
Universal Style Transfer via Feature Transforms
[Li et al. 2017]
Pros
- 比較的高速(数秒 - 数十秒)。何より訓
練不要なのでイテレーションを回すには最
適
Cons
-loss を収束させて最適化という一般的な
NN の手法と異なるため、これまで Gatys
の手法から派生してきた知見が役立たない
(スタイルの出方(癖)が異なる等)
これをベースにさらに高速化
- feed-forward する layer の選別
- 入力次元数の枝刈り
- SVD (特異値分解≒固有値分解)の高速化
→ 実施途中、現時点で 1 処理あたり 0.4s
→ リアルタイムには及ばないが、素早くイテレーション(試行錯
誤)を回せるレベルにはなった
動画化
たぶん時間が足りないので詳細は割愛
FFMPEG を用いてよしなに
(ここは Research というより Engineering )
Output
Style image
動画素材 :
Videezy.comhttp://www.youbaokang.com/odai/2141537407702551401/#14153751660320840
3
そこそこノイズは乗るが、使えそうな感触
さらに試行錯誤を加える
Style Input の動画化
たぶん時間が足りないので詳細割愛
Content と Style をパラレルで学習するイメージ
(またどこか別の機会で)
Output
動画素材 :
Videezy.com
スタイルの適合不適合はあるが、入力次第で面白い
世界観を作り込めそう
AR としての可能性はどうか?
Proof of concept
Output
クオリティを上げていければ面白くなる感触はある
(まずはデノイズと高速化)
SAO …感はあるな ?
Future work
ノイズの除去
- 時間方向の noise-reduction
- PhotoWCT Ref.
- Content Image の前フレーム結果畳込み etc…
高速化
- feed-forward する layer の選別
- 入力次元数の枝刈り
- SVD (特異値分解≒固有値分解)の高速化 etc…
まとめ
- 光学的整合性の重要性(影響度)
- NPR のパワーと活かし方
- シンプルに「 shader を書く」以外にも様々なアプローチ
- この分野でも ML を活かせる可能性 & 独自性を出せる可能性は高い
We are hiring.
https://aktsk.jp/
Thank you !

More Related Content

What's hot

SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
MobileRoboticsResear
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
kanejaki
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
Yoshitaka HARA
 
第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド
Ryuichi Ueda
 
CEDEC 2009 Imagire Day 2009
CEDEC 2009 Imagire Day 2009CEDEC 2009 Imagire Day 2009
CEDEC 2009 Imagire Day 2009
Silicon Studio Corporation
 

What's hot (6)

SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
SSII2019企画: 画像および LiDAR を用いた自動走行に関する動向
 
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
大域マッチングコスト最小化とLiDAR-IMUタイトカップリングに基づく三次元地図生成
 
cvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezakicvsaisentan20141004 kanezaki
cvsaisentan20141004 kanezaki
 
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
ROS の活用による屋外の歩行者空間に適応した自律移動ロボットの開発
 
第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド第27回ロボティクスシンポジアスライド
第27回ロボティクスシンポジアスライド
 
CEDEC 2009 Imagire Day 2009
CEDEC 2009 Imagire Day 2009CEDEC 2009 Imagire Day 2009
CEDEC 2009 Imagire Day 2009
 

Similar to 没入度の高いARアプリケーション開発に向けた取り組み

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
cvpaper. challenge
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
Hirokatsu Kataoka
 
20140726 関東cv勉強会
20140726 関東cv勉強会20140726 関東cv勉強会
20140726 関東cv勉強会
M Kimura
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
cvpaper. challenge
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
Takuya Minagawa
 
先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ
Digital Nature Group
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
Hirokatsu Kataoka
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
Deep Learning JP
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
Digital Nature Group
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
Tatsuya Shirakawa
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
harmonylab
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Tatsuya Shirakawa
 
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
Yukio Andoh
 
GREE Tech Conf 2022 GREE VR Studio Laboratory - UXDev R&D Summary 2022 #GREETC
GREE Tech Conf 2022 GREE VR Studio Laboratory  - UXDev R&D Summary 2022 #GREETCGREE Tech Conf 2022 GREE VR Studio Laboratory  - UXDev R&D Summary 2022 #GREETC
GREE Tech Conf 2022 GREE VR Studio Laboratory - UXDev R&D Summary 2022 #GREETC
GREE VR Studio Lab
 
CG2013 14
CG2013 14CG2013 14
CG2013 14
shiozawa_h
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
yohei okawa
 
UE4.17で入る新機能を一気に紹介・解説!
UE4.17で入る新機能を一気に紹介・解説!UE4.17で入る新機能を一気に紹介・解説!
UE4.17で入る新機能を一気に紹介・解説!
エピック・ゲームズ・ジャパン Epic Games Japan
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
Deep Learning JP
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithms
cyberagent
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
cvpaper. challenge
 

Similar to 没入度の高いARアプリケーション開発に向けた取り組み (20)

これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
これからのコンピュータビジョン技術 - cvpaper.challenge in PRMU Grand Challenge 2016 (PRMU研究会 2...
 
【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2【チュートリアル】コンピュータビジョンによる動画認識 v2
【チュートリアル】コンピュータビジョンによる動画認識 v2
 
20140726 関東cv勉強会
20140726 関東cv勉強会20140726 関東cv勉強会
20140726 関東cv勉強会
 
優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)優れた問いを見つける(中京大学講演)
優れた問いを見つける(中京大学講演)
 
20190307 visualslam summary
20190307 visualslam summary20190307 visualslam summary
20190307 visualslam summary
 
先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ先端技術とメディア表現 第1回レポートまとめ
先端技術とメディア表現 第1回レポートまとめ
 
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
【チュートリアル】動的な人物・物体認識技術 -Dense Trajectories-
 
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
[DL輪読会]Differentiable Mapping Networks: Learning Structured Map Representatio...
 
先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ先端技術とメディア表現 第4回レポートまとめ
先端技術とメディア表現 第4回レポートまとめ
 
ICCV2019 report
ICCV2019 reportICCV2019 report
ICCV2019 report
 
2018 07 02_dense_pose
2018 07 02_dense_pose2018 07 02_dense_pose
2018 07 02_dense_pose
 
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
Seeing Unseens with Machine Learning -- 
見えていないものを見出す機械学習
 
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
WebGL (Three.js) Code Lab - Intro. [ GTUG Girls 10th]
 
GREE Tech Conf 2022 GREE VR Studio Laboratory - UXDev R&D Summary 2022 #GREETC
GREE Tech Conf 2022 GREE VR Studio Laboratory  - UXDev R&D Summary 2022 #GREETCGREE Tech Conf 2022 GREE VR Studio Laboratory  - UXDev R&D Summary 2022 #GREETC
GREE Tech Conf 2022 GREE VR Studio Laboratory - UXDev R&D Summary 2022 #GREETC
 
CG2013 14
CG2013 14CG2013 14
CG2013 14
 
semantic segmentation サーベイ
semantic segmentation サーベイsemantic segmentation サーベイ
semantic segmentation サーベイ
 
UE4.17で入る新機能を一気に紹介・解説!
UE4.17で入る新機能を一気に紹介・解説!UE4.17で入る新機能を一気に紹介・解説!
UE4.17で入る新機能を一気に紹介・解説!
 
[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map[DL輪読会]Learning to Navigate in Cities Without a Map
[DL輪読会]Learning to Navigate in Cities Without a Map
 
WWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph AlgorithmsWWW2017論文読み会 Information Cascades と Graph Algorithms
WWW2017論文読み会 Information Cascades と Graph Algorithms
 
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
B3スタートアップ コンピュータビジョンの現在と未来にやるべきこと(東京電機大学講演)
 

Recently uploaded

「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
Hironori Washizaki
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
Takuya Minagawa
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
iPride Co., Ltd.
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
shogotaguchi
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
TsuyoshiSaito7
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo Lab
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
TsuyoshiSaito7
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
Takayuki Nakayama
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
Sony - Neural Network Libraries
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo Lab
 

Recently uploaded (10)

「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
「スマートエスイー」におけるスマートシステム&サービスおよびDX推進人材の産学連携育成ならびに参照モデルに基づく育成プログラム分析
 
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
第61回CV勉強会「CVPR2024読み会」(前編)発表資料:State Space Models for Event Cameras
 
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
MySQLの文字コードと照合順序について 2024/07/05の勉強会で発表されたものです。
 
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
「福利厚生をコストから投資へ」AIで社員1人ひとりに最適な支援を届ける 全く新しいカフェテリアプラン
 
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツールMOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
MOSHI: 革新的な音声AI QAIが開発した次世代のコミュニケーションツール
 
Matsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit IntroductionMatsuo-Iwasawa Lab. Research unit Introduction
Matsuo-Iwasawa Lab. Research unit Introduction
 
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
【GPT4-o越えのリアルタイム会話AI】kyutai labsのMoshiデモ動画を解説
 
Kyndryl Developer Services のご紹介 2024年7月
Kyndryl Developer Services のご紹介  2024年7月Kyndryl Developer Services のご紹介  2024年7月
Kyndryl Developer Services のご紹介 2024年7月
 
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
【AI論文解説】LLMの事前学習をvisionに適用する手法Autoregressive Image Models
 
Matsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit IntroductionMatsuo-Iwasawa lab. Research Unit Introduction
Matsuo-Iwasawa lab. Research Unit Introduction
 

没入度の高いARアプリケーション開発に向けた取り組み

Editor's Notes

  1. Hello, My name is Daiki Taniguchi from mobile game development corporation called Akatsuki. This session is “A[ou]ugmented Reality Game with Unique Semi-Transmissive Rendering Method". OK, Let's start.
  2. At first, let me show our product.
  3. Thank you. This is our AR based first person shooter. Today I gonna talk about How can we archive immersive AR experience?Through development of this game, I got a hint of an answer to this question and I’d like to share it. First, let's think about the key elements of AR experience.
  4. We think, there are 3 key elements in AR. First, geometric consistency. It is related to tracking physical world. Next, optical consistency. It is about blending Computer Graphics into physical world with no incompatibility. Last, time consistency. It can be rephrase fulfilling target FPS. But there is no need to focus this theme because it could be included in every elements. In this time, I’d like to focus on optical consistency is strongly related to computer graphics and we must be interested in.
  5. Now, we could start with next question. How can we smoothly integrate 3D Computer Graphics into physical world?
  6. To keep great optical consistency, there are 2 simple rendering approaches. The one is Photorealistic Rendering, the other is Non-photorealistic Rendering. Photorealistic Rendering is so straight forward way because high photorealistic object must be blended into physical world smoothly. But this approach has some difficulties. Because, at the moment, we could have only AR devices which has very limited CPU or GPU resource. But, In photorealistic rendering we must do many complicated operations like light estimation, calculating BRDF, casting shadow etc. When we try to achieve sophisticated immersive experience, it will cause critical performance issues. Of course we have continuing research about photorealistic approach too, but in this time, we selected the other. It is Non-photorealistic Rendering, also known as NPR
  7. These are typical NPR examples. NPR can be desirable way to unify image style between 3D objects and environment. But It has a problem in terms of Reality. Of course, it's obvious, because NPR means 'Non-photorealistic'
  8. Can we achieve AR optimized NPR? And if we can, how is that?
  9. The key is "Story backed experience”. This is our coined word and “story” means famous movie, novel or game like this.
  10. So "Story backed experience” means that making player evoke feeling as ‘I've seen this scene before! In movie, novel, game …’ How can we achieve this? Now I show you some videos.
  11. How is this? Have you ever seen this in a movie? Yes, this is DeathStar! You could remember R2D2 is projecting hologram.
  12. And do you know this too? Someone could remind Pre[:]dator. Camouflaged predator attacking scene was so thrilling. And, more recent one, Do you know Ghost in the shell? It was born in my country, Japan. Hey, I guess everyone should know this. It's T-1000 in terminator2. It was so frightening.
  13. Now how do you think? These objects should not exist in this physical world certainly, but you could feel these as real, don't you?
  14. So far I’ve explained a concept of AR optimized NPR, now I gonna explain how to applied this method to our game. This is semi-transmissive enemies, they are fit the physical world perfectly. How could we reach to this? I show the process.
  15. First, The[zi] advantage of non-photorealistic rendering is - it could omit complicated procedure like photorealistic rendering. From this, we can pull out an suggestion. - A material should be organized without shadowing, lighting and occlusion. Second advantage of NPR is it could make border ambiguous between physical world and computer graphics. And we pull out next suggestion. - Physical world or background image also could be regarded as processing objects. From these suggestions, technique related to transmissive or composite background image can be nominated. And we decided to adopt projective texture mapping.
  16. Projective texture mapping is popular technique for graphics programmer, but in AR I don’t know example of utilization of this. So I gonna explain it simply. In this technique, a texture image to be projected onto the scene as if by a slide projector. - UV values should be calculated dynamically unlike standard texture mapping - Transformation matrix is required to bridge a gap between projective coordinates and texture coordinates
  17. so, this technique go very well with AR, like this, projecting background image to enemy models in real-time. Of course we research and consider about other techniques related to AR optimized NPR like machine learning based one and so on, but this time we use this simple technique.
  18. MVP変換後の射影座標とフレームバッファに入れておいた背景画像のテクスチャ座標の座標系の違いを吸収する必要がある 普通であればMVP後にラスタライザ内で透視除算(w成分の除算)してくれるが、今回は自分でそこを用意しないといけない、ということ
  19. Next, holographic shader is based on simple texture mapping. - Increase arbitrary RGB color with additive - Disable RGB values exceeding a threshold - Add vertex animation with noise And in fig1, we use two devices for tracking position and rendering. Tracked position is sent to rendering one in realtime. In fig2, Tracked position by Leapmotion is sent, too.
  20. Last is edge detection. Semi-transmissive shader is replaced to diffuse shader only within range using stencil buffer, and sobel filter is applied as post effect. These are so simple algorithm, are they?
  21. if Discard(今回のiOS、PowerVR系ではEarlyZが無効化されて辛いことになる) Object pooling
  22. And NPR procedure could be much cheaper than Photorealistic-rendering. In fact our this game achieved 60[sixty] fps. When we aim at “Immersive AR experience with current generation device", we believe NPR is so desirable choice.
  23. More immersive
  24. I showed how to improve optical consistency so far. Besides it, we should also treat other than graphics elements in order to improve immersion further more. And it could be how-to interact to the AR world.
  25. Moreover, how to make the best use of semi-transmissive rendering? It is straight forward way that making this game intensive battle one with optical camouflage. But please wait. Can we fight against enemies firing a bunch of bullets or magic spells in this physical laws? It might be difficult unless you are superman.
  26. This time we focused on fear from enemy's semi-invisibility. We introduced spatial audio, we try to evoke an experience like this (動画) - You look around and feel ‘Is there anything?’ - [GROWL] - Turn to there but noting exist - But look carefully, can you see it...? - You must feel something are everywhere. In this way, you should find enemies carefully and immerse into AR world naturally.
  27. At last, Conclusion. first, Well designed NPR is very promising method when we aim to achieve great AR experience with current generation AR devices. Second, Story backed experience is key for maximizing effectiveness of NPR. Last, To Reinforce[Ri inforce] game experience, we should take care of not only graphics but also elements to interact the AR world like physical content, spatial audio and so on.
  28. SIGGRAPHのコア技術は1年以上前。気持ち的にはこちらが本題 - SIGGRAPHのImmersive Pavilionは募集要項から鑑みて「体験重視」「現行デバイスで高品質な体験を引き出すこと」を最重要視 - 時間的制約もありエッジなテクノロジーを突っ込むのは断念していた
  29. - shaderを毎度書くというのも、半分属人的
  30. ここで層ごとに、出力チャネル(の特徴マップ)同士で相関を取る。例えば、赤枠二層目ではチャネルごとに影の特徴や光の特徴を抽出していることが伺えるが、この特徴マップ同士ピクセル単位で内積を取ることでマップ間の類似度が得られる(内積は本質的にベクトルの類似度を表すため)。これにより各特徴の組み合わさり方が分かる、つまり画像中の全ての特徴間の相関が得られるということ。
  31. CNNでは層が進むにつれてより抽象的な特徴が学習されている(逆に浅い層では、例えば「直線」や「ななめ線」などごく具体的な特徴が学習されている)ので、「画像のコンテンツ(構造)のそれらしさ」のための損失関数には深い層の表現を採用している。
  32. 今回はチャネルとピクセル間の関係(分散共分散行列)を考え、まず対角化により二者間の相関を無くすことで特徴の除去を行い、次に別の相関を加えることで新しい特徴を注入する、ということを目指す。 前処理のための次元削減 - 相関の強いデータは、逆に言うとなくても良い・不要なデータということ。これを残しておくといたずらに学習時間が増える結果を招く 余分な次元が多いほど、本来不要な特徴量に相関を見出してしまう可能性がある これらを防ぐために次元削減を行うことが多い
  33. 分散Sx^2は偏差の二乗の平均 共分散Sxyはxとyの偏差を乗じたものの平均
  34. AR適用の一歩として、動画に適用でどうなるかの実証 ※ まだリアルタイムではない 0.4s/1処理
  35. ぼやっとするところはする 上手くハマるといい感じ
  36. - 中長期先(ARが当たり前に使われる世界)を見据えての研究 - エッジ