Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

先端技術とメディア表現 第3回レポートまとめ

1,151 views

Published on

先端技術とメディア表現のレポート全員分のまとめです

Published in: Education
  • Be the first to comment

先端技術とメディア表現 第3回レポートまとめ

  1. 1. IH A 6 AI 1 , 2 A D 5 C 5I C D D 1 H D 4 D - 0 1 # D -3 75, e ohO h d kbeY O ( P l i v h P Pg t h y z eS b d O g nk iO i tO P g ut) h t h g aUh v M h U r t v b v N h z P ci s y z v z c T M md v t Ua s z ga b
  2. 2. : - GSG 2# 1C NTM N UC C 6# C C MICN CKGO 9CNCFG 02: CN CES ON ON 6 CPI E 6 ., ) ,# 3 8/ISSP/ FO #O H # ) ((( # ,, ( : - U G 1CT O GS GU K CNF AGNF :CEKC # 8N 4WSGNFGF 0D S CES ON 7TMCN 5CESO N 2OMPTS NH SGM 278 Y . # 02: G BO K B 0 ( , ( # 3 8/ISSP/ FO #O H # ) () # ) l l u xicg hl t er k p b l l t er ʼu v i d hl k c ) ( y x icg t er ʼu v ‒ # 3 ʼu vt c (3ker kmo sr t er w t eaih bsr t esn
  3. 3. 3 0 6 / EU 0 EO : KAO 5H HFEP A OAK 6 ADH ESE 5MDFEP 2ASHD 8M V EA U 2ASHD HK A D 2A V M F 6 :C MBEO A A 0AOBAOA 1/ / ( k(2 uʼ v EOKEEO uʼ vm pi( m l l e m t dh a uʼ v m(2y wz l rh r t oh : 33 : 0 8AOCE M 1ME M 5HOMP H 6P HH A D A HE 8AEP 6 3U E DED /BP OAC P M 5 KA 4AC MOP H 1MKN H F VP EKP 156 , # /18 9ET MOI 9 / () ()()# 2:6. N. DMH#MOF N. DMH#ACK#MOF # ) ( , ,# ( ,, m fl mgom k i OYEU x m t n s h l d h d t c aib t p dh ) ( ‒ ʼ
  4. 4. . . 7 M J 3 B 0BJ Y 0 NN PM H B 1 B 5 #0 2B 6 MB 4J 9M BBA JDN C B ) JJP H 17 SIL N PI J NBM 4J BMC B C R MB JA B J H DS 4 T 17 8BR M 8 -,U . cprmlnm d fa( w tshy d e g a ko ) vʼ ( ui k
  5. 5. Show and Tell: A Neural Image Caption Generator Oriol Vinyals  Alexander Toshev  Samy Bengio  Dumitru Erhan 201613036 LI ZHENYU (人間コース) どんなもの コンピュータビジョンと機械翻訳の進歩を組み合 わせ、画像を記述する自然文を生成するモデル。 先行研究と比べてどこがすごい モデルは、訓練画像が与えられたターゲット記述 文の尤度を最大にするように訓練される。 技術や手法のキモはどこ 現在の最先端のBLEU-1スコアはパスカルデータ セットでは25、このアプローチでは59が得られ、人間は約69である どうやって有効だと検証した いくつかのメトリック、データソース、およびモデル アーキテクチャを使用して一連の実験を実施した。 議論はある? 画像記述のために利用可能なデータセットの サイズが増大するにつれて、NICのようなアプ ローチの性能も向上する 次に読むべき論文 Green Internet of Things for Smart World
  6. 6.         どんなも     どうやって有効だと実証したか    先行研究と比べてどこが凄い         議論 ある      次に読むべき論文      技術や手法 キモ VRHMDに三面 タッチスクリーンとデプスカメラを取り付ける ことで、周り 人間とインタラクティブに VRで関われるようにし たディスプレイ。外 人間 ジェスチャーやタッチなどを VR空 間に持っていける。 関わり方 シナリオを複数準備して、楽しさなどを UserStudyで 調査した。 外部センサを使った手法が今までたくさんやられていて、 HMD だけで相互作用を完結させているも ない。 ゲームをするときに HMDを被っている人と被っていない人 パ ワーバランスが違うこと。 HMDを被っている人 外から 介入 を不快と感じること タッチセンサーで 3面を囲ってデプスカメラを付けたことで、タッ チだけでなくジェスチャーなど 認識も可能になった。 Lung pan el al. 201711431 人間 今井 CHI
  7. 7.         どんなも VR空間で相互に関わることができるようなシステムを作っ た。モーキャプを使って、例え 片方 人がVRで釣りをし ているとしたら、もうひとりが凧揚げをしていて、道具を共有 するということを可能にした。 機械 アクチュエーター も が大きくなるほど複雑化す る で、全て人に置き換えてみた。 風や水なども霧吹きやドライヤーで再現する。 空を飛ぶシナリオでユーザースタディした。         どんなも 201711431 人間 今井 CHI 201711431 人間 今井 UIST
  8. 8.         どんなも 色々な方向が限定されるゲームをそれぞれ ユーザーに やらせることによって狭い空間に複数人 ユーザーを不快 感を感じさせることなくパッキングすることを可能とした。 16×16m スペースに4人を突っ込むことに成功した。 様々な受動的な小道具をVR空間に持っていって複雑な 動作に応用するシステムを作った。いろいろなも に VIVEトラッカーをつけて、小道具が変形する にあわせ てアニメーションを変更したりする実装も行った。         どんなも 201711431 人間 今井 CHI 201711431 人間 今井 CHI
  9. 9.         どんなも VR空間でボタンなど 細かいも 触るときに精巧に 触った感触をフィードバックするために、視線方向や指 をトラッキングすることによって予め触るであろう位置を 予測して、現実空間 壁とVR空間 壁まで 距離感が 誤認されないようにアニメーションを調節してVRHMDに 表示するシステム。 201711431 人間 今井 CHI
  10. 10. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は? 技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? Air-Swipe Gesture Recognition Using OpenCV in Android Devices Twinkle Sharma, Sachin Kumar,Naveen Yadav,Kritika Sharma,Piyush Bhardwaj androidのスマホのカメラで空中でのスワイプ するようなジェスチャーを認識するシステム 光量の急激な変化への対応 処理能力が限られているモバイル機器で、動 的スワイプジェスチャーの認識における精度 で96%を達成 [1] Song, J.,Soros, G. , Pece, F. , Fanello, S. , Izadi, S. , Keskin , C. &Hilliges , O. (2014). In-air Gestures Around Unmodified Mobile Devices. Proc.ACM UIST 2014. [2] Joshi, T. J. , Kumar, S. , Tarapore, N. Z. &Mohile, V. (2015). Static Hand Gesture Recognition using an Android Device.International Journal of Computer Applications(0975 – 8887) Volume 120, No. 21. [3] Rautaray, S. S. &Agrawal, A. (2012). Real Time Hand Gesture Recognition System for Dynamic Applications. International Journal of UbiComp (IJU), Vol.3, No.1. [15] Dixit, V. &Agrawal, A. (2015). Real-Time Hand Detection & Tracking for Dynamic Gesture Recognition. I.J. Intelligent Systtems and Applications. [16] Patil, T. B. , Jain, A. , Sawant, S. C. , Bhattacharyya, D. & Kim, H.J. (2016). Virtual Interactive Hand Gestures Recognition System in RealTime Environments. International Journal of Database Theory and Application, Vol.9, No.7 (2016), pp.39-50. IEEE 17 アンドロイドデバイスの正面のカメラで4∼9秒のジェ スチャーを撮影し、処理に要する解像度が小さいほど スピードが高速化していることを示した リアルタイム計算による行列割り当てのため のOpenCVのアプリケーション
  11. 11. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は?技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? Static Hand Gesture Recognition using an Android Device Tejashri J. Joshi, N. Z. Tarapore ,Shiva Kumar ,Vivek Mohile スマートフォンにおける静的ジェスチャーを 認識するための手法 計算の少ない特徴抽出のために主成分分析 (PCA)を適用 静止した手の姿勢を認識する実験で 97.6%の精度を達成 光量の条件と肌の色の条件に対しての対応ジェスチャーを認識するためのすべてのプロセスがデバイ ス上で実行されるので、リアルタイムにシステムに適応す ることが可能 IJCA '15
  12. 12. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は?技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? In-air Gestures Around Unmodified Mobile Devices Jie Song, Gábor Sörös, Fabrizio Pece, Sean Fanello, Shahram Izadi, Cem Keskin, Otmar Hilliges モバイル機器周辺のインタラクション空間 を拡張した新しい機械学習アルゴリズム 広範囲でジェスチャーを認識し、ユーザの変化を サポート、照明条件を変化させることが可能 ピクセルラベリングタスクのためのモバイル デバイス用のRFの最初のリアルタイム実装 ユニークな形や輪郭を提供するジェスチャーの 認識と区別をもとに示すので、ジェスチャーの 微妙な違いを判断できない可能性がある 認識精度(93%テストおよび98%トレイン)、メモリフッ トプリントおよびその他のモデルパラメータの影響の調査、 加えてユーザー評価 UIST '14
  13. 13. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は?技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? Virtual Interactive Hand Gestures Recognition System in Real Time Environment T. B. Patil, Aakash Jain, Supriya C. Sawant, Debnath Bhattacharyya and Hye- Jin Kim IJDTA '15 手話を単語や文に変換できるシステム Webカメラを介してユーザが行った様々な手のジェスチャ を受け入れ、その意味を処理し、データベースの定義さ れた値と一致させ、対応する出力を画面に表示 これまでこのようなシステムは存在しなかった 深度を検出する手段の検討 あらかじめジェスチャーを登録し、カメラで 撮影した手の画像からどのような単語である かを識別できるかどうか実験した
  14. 14. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は?技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? Real Time Hand Detection & Tracking for Dynamic Gesture Recognition Varsha Dixit, Anupam Agrawal 映像から10種類の異なるジェスチャーを 認識するための手法 複雑な背景と光量の条件への対応、3次元的な認識 16個のジェスチャーのデータセットでテスト、平均認識率は 91% PCA、ANN、SVM、DTWなどの従来のアプ ローチと比較して、より良い認識結果 生成シーケンスをモデル化する強力な統計ツール としての隠れマルコフモデル IJISA '15
  15. 15. 先行研究と比べてどこがすごい? 議論はある? 次に読むべき論文は?技術や手法のキモはどこ? どうやって有効だと検証した?どんなもの? REAL TIME HAND GESTURE RECOGNITION SYSTEM FOR DYNAMIC APPLICATIONS Siddharth S. Rautaray, Anupam Agrawal 仮想環境におけるジェスチャーによる物体操作の 提案と実装、効率的かつユーザフレンドリーな ヒューマンコンピュータインタフェースを提供 ユーザおよび特に身体障害のあるユーザに、その実行可 能性および容易さに従ってジェスチャを定義する柔軟性 ジェスチャをコマンドにするさらに正確な変換 提案されたジェスチャ認識システムの性能と実 行可能性を調べるために、堅牢性、スケーラビ リティ、計算効率、ユーザーの許容値を調べた IJU '12
  16. 16. Pose Guided Person Image Generation – NIPS 2017 Liqian Ma1 Xu Jia2 Qianru Sun3 Bernt Schiele3 Tinne Tuytelaars2 Luc Van Gool1,4 1KU-Leuven/PSI, TRACE (Toyota Res in Europe) 2KU-Leuven/PSI, IMEC 3Max Planck Institute for Informatics, Saarland Informatics Campus 4ETH Zurich どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? 画像の人のポーズを,入力したポーズに変換. より高画質で変換可能. 粗い画像でのポーズ変換と,画像の高解像度化(本物ペ アと生成ペアの識別)の2段階に分けた. 最新のポーズ推定器を使用して生成した 18個のkeypointをポーズ情報として使用. どうやって有効だと検証した? DeepFashionとMarket-1501データセットを使用し て他手法と比較.SSIMとInception scoreでの評価は 他手法と同程度.ユーザースタディで高評価. 男/女でのデータセット数に偏りがあり,性別を間違 えやすい.服の境界の特徴を掴みづらい. Disentangled Person Image Generation (DPG2) 201611429 大曽根宏幸 #1 (人間コース) 6
  17. 17. Looking to listen at the cocktail party a speaker-independent audio-visual model for speech separation - SIGGRAPH 2018 ARIEL EPHRAT, Google Research and The Hebrew University of Jerusalem, Israel INBAR MOSSERI, Google Research
 ORAN LANG, Google Research
 TALI DEKEL, Google Research KEVIN WILSON, Google Research AVINATAN HASSIDIM, Google Research WILLIAM T. FREEMAN, Google Research MICHAEL RUBINSTEIN, Google Research どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? 複数の話者から,画像と音声をもとにフィルタを作成 し,各々の音声を抽出できる. AVSPEECH DATASET(顔動画と音声)の構築. 音声が各話者ごとに独立していないデータセットから 学習ができる. 各々の顔の3秒間の画像(75frame, 25fps)とSTFT(short term フーリエ変換)した音声ごとに学習.話者ごとのマスクを出力 し,ISIFTして音声に変換. どうやって有効だと検証した? signal-to-distortion ratio (SDR)という指標を使用. 他の手法では話者ごとに独立したデータセットを用いていたに もかかわらず,本手法のほうが上回った. 顔の動きがどれだけ寄与したか分析した.口以外も重 要らしい. David F. Harwath, Antonio Torralba, and James R. Glass. 2016. Unsupervised Learning of Spoken Language with Visual Context. In NIPS. 201611429 大曽根宏幸 #1 (人間コース) 1
  18. 18. Model-Agnostic Meta-Learning for Fast Adaptation of Deep Networks - PMLR 2017 ARIEL EPHRAT, Google Research and The Hebrew University of Jerusalem, Israel INBAR MOSSERI, Google Research
 ORAN LANG, Google Research
 TALI DEKEL, Google Research KEVIN WILSON, Google Research AVINATAN HASSIDIM, Google Research WILLIAM T. FREEMAN, Google Research MICHAEL RUBINSTEIN, Google Research どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? 勾配降下法を使っているすべての手法に使えるmeta- learning手法MAMLの提案. モデルやパラメータに制約を加えなくていい. タスク集合においてFine Tuningするといい値に行くような初 期値を学習. どうやって有効だと検証した? 回帰 - データポイントが少ないときでも,正弦波を学習可能. 分類 - 他のメタ手法と比べて高精度 強化学習 - より早く学習可能 マルチタスクに対する初期化を深層学習や強化学習の 標準的な要素とすることがこれから重要になりそう. Al-Shedivat, Maruan, et al. "Continuous adaptation via meta- learning in nonstationary and competitive environments." arXiv preprint arXiv:1710.03641 (2017). 201611429 大曽根宏幸 #1 (人間コース) 2
  19. 19. Deep Image Prior - CVPR 2018 Dmitry Ulyanov Skolkovo Institute of Science and Technology, Yandex Andrea Vedaldi University of Oxford vedaldi@robots.ox.ac.uk Victor Lempitsky Skolkovo Institute of Science and Technology (Skoltech) lempitsky@skoltech.ru どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? 「画像とはこういうもの」という事前情報がCNNの構造自 体にそもそも備わっていると仮定し,単一画像のみを用いた 学習で,その画像のdenoising, high resolution, inpainting を実現. 大量のデータセットがいらない. ランダムノイズから,綺麗にしたい画像を近似するように生成 させると,陰に(1)式の制約が満たされ,きれいな画像が生成 される.(ブラックボックス感) どうやって有効だと検証した? denoisingではPSNRがSOTAと同程度(31.00) 高解像度化でもPSNRがSOTAと同程度(Set5 [2]とSet14 [32] データセットで29.90と27.00 ) inpaintでは CNNの構造上,GANと同様,格子状になりやすい? [24] V. Papyan, Y. Romano, and M. Elad. Convolutional neural networks analyzed via convolutional sparse coding. Journal of Machine Learning Research, 18(83):1–52, 2017. 201611429 大曽根宏幸 #1 (人間コース) 3
  20. 20. A Neural Representation of Sketch Drawings - arXiv 2017 David Ha Google Brain hadavid@google.com Douglas Eck Google Brain deck@google.com どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? RNNでスケッチを描く. pixelから学習するものが多く,vectorから学習するの は少なかった. 潜在変数をいじれるようにした. encodeはbi-directional RNN, 潜在変数はVAE, decodeは GMMとsoftmax どうやって有効だと検証した? denoisingではPSNRがSOTAと同程度(31.00) 高解像度化でもPSNRがSOTAと同程度(Set5 [2]とSet14 [32] データセットで29.90と27.00 ) inpaintでは データ点は300点くらいが限界. 複雑なものはうまくいかない. 75クラスとかは無理. Rosca, Mihaela, et al. "Variational approaches for auto-encoding generative adversarial networks." arXiv preprint arXiv:1706.04987 (2017). 201611429 大曽根宏幸 #1 (人間コース) 4
  21. 21. 8 4175 4 2 () 8 2 2 D 0 8 1 W
  22. 22. 2 1 10 4 0 0 42 0 b l7 I S 5 c I S CA 5 d 7 75 a i
  23. 23. 2 1 10 4 0 0 42 0 ICa I C 5 H 7 A 5
  24. 24. 2 1 10 4 0 0 42 0 C 5 7A 5 7 5 I S
  25. 25. Mechanism Perfboard: An Augmented Reality Environment for Linkage Mechanism Design and Fabrication Yunwoo Jeong, Han-Jong Kim, Tek-Jin Nam どんなもの? ロボットやオートマタの運動機構のための プロトタイピングデバイス 先行研究と比べてどこがすごい? プロジェクターを組み合わせることによっ て、初学者でも感覚的に目的の運動機構を 作ることができる。 技術や手法のキモはどこ? 目的の運動に対して最も近い運動機構を提案 することができる。これとプロジェクターを 組み合わせることによって、初学者でも簡単 に運動機構を作れる。 議論はある? 運動機構の自動生成は必ずしも効果的では ないため、ユーザーが適宜修正する必要が ある。 次に読むべき論文 Computational Design of Mechanical Characters. どうやって有効だと検証した? 使いやすさ、簡単さなどをユーザースタディ で調査した。 201611426 岩崎里玖 #3 人間コース CHI 2018,
  26. 26. Computational Design of Mechanical Characters (ACM Transactions on Graphics (TOG)) Stelian Coros*1 Bernhard Thomaszewski*1 Gioacchino Noris1 Shinjiro Sueda2 Moira Forberg2 目的形状の物体に動作をつけ、実際に3Dプリンターで動作させることが初学者でもできる。 CardBoardiZer: Creatively Customize, Articulate and Fold 3D Mesh Models Yunbo Zhang, Wei Gao, Luis Paredes, Karthik Ramani 3D物体のリンク機構を実際に作るのは3Dプリント、組み立てることに時間が多くかかってしまうので、カード ボードで運動機構を作ることによって高速に運動機構を作ることができた。 FoldMecha: Design for Linkage-Based Paper Toys Hyunjoo Oh 初学者でも紙で機械の機構をデザインできるようなインターフェースの作成を行った。 MiragePrinter: Interactive Fabrication on a 3D Printer with a Mid-air Display Junichi Yamaoka ユーザーがモデルのイメージを3Dプリンタのステージ上に浮遊画像を見ることができる。 このマシンを利用するとユーザーはCADソフトを利用して実際のきぼでモデルを作ることができる。 Motion-Guided Mechanical Toy Modeling Lifeng Zhu∗ Weiwei Xu†‡ John Snyder § Yang Liu ‡ Guoping Wang∗ Baining Guo‡ Peking University∗ Hangzhou Normal University† Microsoft Research Asia‡ Microsoft Research§ 機械的な玩具の機能の動きから、様々な歯車、滑車などの様々なカムを選択し、駆動上軸の部品のレイアウトを最 適化する。
  27. 27. Machine-learning techniques for fast and accurate feature localization in holograms of colloidal particles (SIGGRAPH7 2018) Mark D. Hannel, Aidan Abdulali, Michael O’Brein, David .G. Grier ホログラフィッックビデオ顕微鏡画像を元にcascade classifiersとCNNを使って、光散乱のLorenz-Mie理論 に基づいた透明液状の粒子のを状態を算出する。 先行研究を踏襲してより効率的な機械学習のアルゴリ ズムを採用している。またHaar cascadeを使用してい るため、精度は若干低いがその分高速かつ、低コスト なリアルタイムの コロイド特性検出のための機械学習のアルゴリズム。 アルゴリズムは検出結果を既知の入力パラメータと比 較した。 様々な粒子で実験を行いその正確性が確認された。 GTX680など低機能なGPUでも動くことを確認した。 動作が高速であるためある製品の定期的なモニタリン グや環境モニタリングなどに有効。 A. Yevick, M. Hannel, and D. G. Grier, “Machinelearning approach to holographic particle characterization,” Opt. Express 22, 26,884–26,890 (2014). 201813567 松永尚之 #FTMA18 (人間) どんなもの? どうやって有効だと検証した? 先行研究と比べてどこがすごい? 議論はある? 技術や手法のキモはどこ? 次に読むべき論文は?
  28. 28. Holographic characterization of contaminants in water: Differentiation of suspended particles in heterogeneous dispersions (Appl. Phys. Lets 2017) Laura A. Philips, David B. Ruffner, fook Chiong Cheong, Jaroslaw M. Blusewicz, Prima Kasimbeg, Basma Wisi, Jeffery R. McCutcheon , David G. Grier 工場排水などのコロイド溶液に含まれる様々な粒子を 解析するために、ホログラフィックビデオ顕微鏡画像 からコロイドの光の散乱や屈折率を解析してその種類 を特定する。 Machone-learning approach to holographic particle characterization(Opt. Express 2014) Aaron Yevick, Mark Hannel, David G. Grier SVMを使ってコロイド粒子の3次元位置や形状、大き さを測定する。低機能なマシンでも動作する高速なリ アルタイムの推定を可能にした。 201813567 松永尚之 #FTMA18 (人間)
  29. 29. Rotational and translational diffusion of copper oxide nano rods measured with holographic video microscopy(Opt. Express 2015) Took chino Cheong, David G. Grier 溶液中に漂う酸化銅粒子の3次元的な動きをホログラ フィックビデオ顕微鏡方を使用する。 Going deeper with convolutions Christian Szegedy, Wei Liu Yangqing Jia, Pierre Servant, Scott Reed, Dragomir Anguelov, Dumitru Erhan, Vincent Vanhoucke, Andrew RAbinovich ニューラルネットワークの改善方としてInceptionアー キテクチャを提案した。dense building brocksで予 測される最適な疎構造を近似することで、わずかな計 算でも質の高い学習結果を出すことができる。 201813567 松永尚之 #FTMA18 (人間)
  30. 30. Fast Feature indentification for holographic tracking: the orientation alignment transform (Opt. Express 2014) Bhaskar Jyoti Krishnatreya and David G. Grier 照明を当てた物体の3次元的な位置情報を、それらが 散乱する光の位相や強度分布に及ぼす影響から測定す るHolographic microscopy 法では粒子の初期位相の情報 が必要である。この論文ではその初期位相を正確かつ 高速に推定するアルゴリズムを提供した。 201813567 松永尚之 #FTMA18 (人間)
  31. 31. どんなものか 先行研究と比べてどこがすごいか 技術や手法のキモ どうやって有効だと検証したか 議論 次に読むべき論文 201611455 永瀬 拓也 #3(人間コース) #FTMA18 Hand-drawn Animation with Self-shaped Canvas SIGGRAPH'17 2Dキーフレームアニメーションを手描き で作成する新しい手法。キーフレームに 従って変形された3次元形状を持つキャン バスに描くことで,マッピングされたアニ メーションの中で,奥行き知覚の動きが得 られる。 手描きで3次元のアニメーションを描くこ とができる。 キャンバスに3次元形状を与えることに よって,手描きで3次元の動きを作れる。 BetweenIT: An Interactive Tool for Tight Inbetweening Autocomplete Hand-drawn Animations 3つ以上のキーフレームを許可すると,長い シークエンスのアニメーションを作成でき る。 実際に描くと,不自然なくスクリーン上に 描いて,動かすことができる。 Masaki Fujita Tokyo Institute of Technology, Suguru Saito Tokyo Institute of Technology
  32. 32. Globally and Locally Consistent Image Completion Satoshi Iizuka, Edgar Simo-Serra, Hiroshi Ishikawa シーンの大局的・局所的な整合性を考慮した画像補完 手法の提案.自然な画像補完を行うことができる. 既存手法では大局的特徴を考慮しておらず,また,新 たなオブジェクトを生成することができない.さらに, 提案手法では画像サイズやマスクする場所が可変. 畳み込み層のみで構成された補完ネットワークが画像 を生成し,大局的・局所的ネットワークがそれらが自 然かどうかを判断する. ユーザ調査と既存手法との比較.顔補完や物体削除の タスクを行う. 顔など部分的にマスクされていると失敗するが,顔に 特化させるとうまくいく.また,構造化されたテクス チャの補完はうまくいく. Mask-specific inpainting with deep neural networks. [Rolf K̈ohler et al. 2014] 201813558 池田伊織 #3 (人間コース) どんなもの? どうやって有効だと検証した? 先行研究と比べてどこがすごい? 議論はある? 技術や手法のキモはどこ? 次に読むべき論文は? SIGGRAPH 2017
  33. 33. 関連研究
 ・Mask-specific inpainting with deep neural networks. [Rolf K¨ohler et al. 2014] 多くの修復手法は未知のピクセルを推測するための良いイメージモデルが必要.本手法では,イメージパッチによる直接のマッ ピングを学習する.マッピングはディープニューラルネットで表現され,大規模のデータを自動で学習する.実験によると学 習ベースの手法で最高水準の結果を得ることができた. ・Deep Learning Face Attributes in the Wild. [Ziwei Liu et al. 2015] 複雑な顔の属性を予測することは難しい.属性を予測する新しいディープラーニングフレームワークを提案する. 提案手法では,事前に調整された2つのCNNとLNet, ANetをカスケード接続する.LNetは顔のローカリゼーションの大規模 な一般的オブジェクトカテゴリで訓練され,ANetは顔の属性の大規模なデータで訓練されている. また,入力サイズの正規化を行う必要がなく,高速な順伝搬を行える. ・Fully Convolutional Networks for Semantic Segmentation. [Jonathan Long et al. 2015] 畳み込みニューラルネットワークは層を重ねるごとに特徴を抽出しているが,位置情報が失われる.イメージセグメンテーショ ンに関して不利であるため,すべての層を畳み込みそうとしたfully convolutional networksを提案する.畳み込み層のみで 構成されているため,任意の画像サイズを扱える.また,最高水準の結果を得ることができた. ・Context Encoders: Feature Learning by Inpainting. [Deepak Pathak et al. 2016] コンテキストベースのピクセル予測による教師なし視覚的特徴学習アルゴリズムを提案する. コンテキストエンコーダでは,任意の画像領域に条件つけられたコンテンツを生成する. これらを達成するためには,コンテキストエンコーダは画像全体の内容を理解し,いい感じの画像を生成する必要がある.学 習時には敵対的損失を使い,複数の手法を用いて定量的に評価した. ・Improved Techniques for Training GANs. [Tim Salimans et al. 2016] 画像生成と半教師あり学習の2つに焦点をあて,GANフレームワーク上の新しい機能と,トレーニング手法を提案する. Feature matchingでは2つの入力をdiscriminatorに与えたとき,それぞれの中間層の二乗誤差を小さくすることで generatorがより本物に近いデータを生成する.また,generatorが多様性を持つようにdiscriminatorに評価させる 201813558 池田伊織 #3 (人間コース)
  34. 34. i pg V R kum v m n Svfg ei d l tpW n n 1 0 h hW n m v lwfg mh lncm m i RUu de m hn m lw a n efd M lw m M s m l Rd m W d m l bg rbdy qrbdy d ih lw m i s k l gu fg m i pg SU Rd rhm2 lkUfd m i m n RV n R m ei V l g gR mh m Wi gn M l bg h m v F 4 4 46F 4F A F
  35. 35. ( F 7 4 F 1 7 4F h S( m U rh 2 0AI4 7 )A7 4BF 6 7 46 ih m m i - 4 F A B 6 4 7 F 6A 6 H F 4 H A F 2 lT i m pd 2 F 4 4 F 4BB 64F A 4 46F 7 F o2 V gR m i
  36. 36. Comparing Computer-Based Drawing Methods for Blind People with Real-Time Tactile Feedback - CHI2018
 Jens Bornschein, Denise Bornschein, Gerhard Weber (Technische Unversitat Dresden Institute of Applied Computer Science) どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? 議論はある? 次に読むべき論文は? 入出力のための2次元触覚ピンマトリクスディスプレイを用いた視覚障害者の ためのワークステーション。実世界のオブジェクトシルエットのメニューベー ス、ジェスチャベース、フリーハンドスタイラスおよび飛行時間(ToF)深度 セグメンテーションの4つの異なる入力モダリティを使用して、図形を作成。 視覚障害者のためのデジタル描画ツールの要件,(1)継続的な触覚フィードバック、(2) 誤り訂正機能の可能性、(3)一般的な支援技術(AT)との互換性、および(4)得られた 視覚情報を共有する可能性画像 のすべてを満たすシステムはこれまでになかった。 (1),(2),(4)を満たすことが確認できた。(3)はFuturework 視覚障害のあるユーザが図面にリアルタイムで触覚的にアクセスできるように、2次元のリ フレッシュ可能なピンマトリクスデバイスを使用。解像度は10dpi。DOMで王ジェクトの プロパティを適合させることでオブジェクトの操作が可能になる。ピエゾ駆動で20Hzでリ フレッシュ可能。より直感的に形状を作成できるようにジェスチャ認識を使用。シルエッ トキャプチャにはKinectの赤外線ToFセンサーを使用。 どうやって有効だと検証した? 12人の目の障害者が4つのモダリティを評価。コピー作業によって,有効性と効率性,満足度を 調べた。有効性に関してはオンライン調査(審査員の75%がグラフィックスプログラムに関する 経験を持つ)。手本とコピーの類似度(0-100%)を自発的に評価。すべてのモダリティが非ビジュ アル描画タスクに非常に適しているという結果が得られた。メニューベースのインタラクション は非常に良いと評価され,性能も2番目に高く,最も正確な描画モダリティだった。 予想に反し,障害が先天的か後天的かはパフォーマンスに部分的にしか影響しなかった。スタイラスペンを使 用するときに問題があった人もいれば,操作方法をすばやく理解できて描画をより速く実行できる人もいた。 オブジェクトの操作をするためのアクションを計画することに問題があった。先天的に盲目的な参加者は形状 操作や変形の影響を理解することが困難であることを観察した。操作または制御コマンドに関して誤解があっ た。長いテストセッション中に大きな疲労効果を観察することも、それについて報告された参加者もいなかっ た Jens Bornschein et al. PETRA2017 Julie Ducasse et al. CHI2016 Shaun K et al. CHI2011 Saiganesh Swaminathan CHI 2016 Robert J. K. Jacob TOIS 1991 201611428 蛭子綾花 #3 (人間コース) 16
  37. 37. Digital Drawing Tools for Blind Users A State-of-the-Art and Requirement Analysis - PETRA2017 Abst Introduction Conclusion 視覚障害者は通常,ローテクなアナログツールを使って描画作業を行う。このようなツールは図面のサポートとエラー修正に欠けている という問題がある。この問題を解決する非視覚的描画支援のためのソフトウェアプロジェクトの分析,評価を行い,要件を抽出する。6 人の視覚障害者が,各要件の重要性を評価した。 画像コンテンツの量の増加は資格情報にアクセスできない盲目のユーザに障壁をもたらす。この問題を克服するために、代替の記述および触覚的な画像表現が存 在する。通常、アナログ方法を使用するが。アナログで作成された触覚グラフィックスの再現は困難で、描画支援の量が限られていることが多く、エラー訂正が 欠如しているという問題がある。コンピュータベースの描画メカニズムは、これらの欠点を克服するのに役立つ。過去のプロジェクトから得られる,ユーザーと開 発者が適切かつ効果的な描画アプリケーションを構築する方法についての要件と推奨事項といった知見は不完全なままの可能性がある。 現在のアナログの非ビジュアル描画メカニズムの概要を示した。さらに、盲目のユーザのための過去および最先端のソフトウェアサポートドローイングツー ルが分析された。非視覚的描画システムに対する35の要件が導出。現時点で利用可能なソリューションは、推奨される一連の推奨事項と要件をすべてサポー トしていない。6人のブラインド参加者による推薦リストのユーザー評価は、すべてのエントリが重要であることを示したが、アプリケーションコンテキス トと使用分野の特定のニーズに合わせる必要があったにもかかわらず、ユーザは触覚フィードバック、迅速な応答時間、および描画アプリケーションの場合 の一般的な支援技術との互換性を強く推奨することがわかった。 201611428 蛭子綾花 #3 (人間コース) 17 Jens Bornschein, Gerhard Weber (Technische Unversitat Dresden Institute of Applied Computer Science)
  38. 38. Tangible Reels: Construction and Exploration of Tangible Maps by Visually Impaired Users - CHI2016 Abst Introduction Conclusion 視覚障害のあるユーザーがTangible Reelsという新しいタイプの物理的なアイコンを使用して、独自の有形のマップを作成できるようにする実用的 なテーブルトップインターフェイスを開発。安定性を保証する吸盤パッドとデジタル・ラインを目に見えるリトラクタブル・リールで構成。非視覚 的相互作用を含む設計されたシステムが、視覚障害のある参加者が様々な複雑さのマップを迅速に構築し、探索できることを立証した。 チャート、スキーマ、マップなどの図形表現は視覚障害者にとって本質的にアクセス不可能であるため、触覚的なグラフィックスに変換する必要が ある。磁気地図は、作成,調整が容易だが、視覚障害のあるユーザーは助けを借りて構築したりアクセスしたりすることはできない。視覚障害のあ るユーザーに、視覚的なグラフィックの物理的表現を自分で構築する方法を提供することによって、これらの制限を克服することを目指した。 具体的なグラフィックスを構築し、探索するための実体的な卓上インタフェースを提案。 より正確には、ポイントとラインを実現 するために使用できる新しいタイプのフィコンであるTangible Reelsの設計について説明した。 それらが安定し、操作が容易であ り、異なる複雑さの空間表現を伝えるために使用できることを示した。 201611428 蛭子綾花 #3 (人間コース) 18 Julie Ducasse, Marc Mace, Marcos Serrano, Christophe Jouffrais (Univ. of Toulouse - IRIT, CNRS - IRLT)
  39. 39. Tangible Reels: Construction and Exploration of Tangible Maps by Visually Impaired Users - CHI2011 Abst Introduction Conclusion アクセシブルなタッチスクリーンインターフェイスを作成する際の課題の1つとして、視覚障害者が実際にタッチスクリーンを使用する方法についての理解が不足 していることが挙げられる。視覚障害者とそうでない人がタッチスクリーンジェスチャーを使用する方法を比較した2つのユーザー調査を実施。視覚障害者は、目 が見える人とは異なるジェスチャー設定をしていることがわかった。視覚障害者が行ったジェスチャーのスピード、サイズ、形状と、視力のある人々が行ったジェ スチャーとの間に有意差があることがわかった。 アクセス可能なタッチスクリーンには、依然としてユーザとデザイナの両方に課題がある。(1)ブラインドユーザーのタッチスクリーンインターフェ イスはプラットフォームによって大きく異なる。(2)スマートフォン以外のデバイスにアクセス可能なタッチスクリーンインタフェースを拡張する方 法の例はごくわずかである。(3)デザイナーは、ジェスチャーが盲目のユーザーに適しているかどうかを検討する必要がある。視覚障害者がタッチス クリーンとどのように対話するかを調査する2つのユーザー調査を通じて、これらの問題解決に取り組む。 参加者の好みのジェスチャベースのコマンドを、タブレットPC上で作成するように求めた。視覚障害者はは、視力のある人とは異なるジェス チャーを提案していた。盲人と視力のある人々がどのように同じジェスチャーを実行するかの違いを調べ、盲人が作り出したジェスチャーと鑑 賞人が作り出したジェスチャーがどのように異なるかを示す指標を提示した。視覚障害者がタッチスクリーンとのやりとりについてどのように 考えているか、また、視力のある人に比べてタッチスクリーン上でジェスチャーをどのように実行するかについての新しい情報を提供。 201611428 蛭子綾花 #3 (人間コース) 19 Shaun K. Kane, Jacob O. Wobbrock, Richard E. Ladner (The Information School, DUB Group University of Washington, Computer Science & Engineering, DUB Group University of Washington)
  40. 40. Linespace: A Sensemaking Platform for the Blind. - CHI2016 Abst Introduction Conclusion 表示内容を持続させることは、視覚障害のある人のための感覚刺激システムを設計する上で最も重要である。この目標を念頭に設計された触覚ディスプレイシステ ムを提案する。本システムの基盤はフィラメントの盛り上がった線を印刷するために3Dプリンタを使用することによって達成される大きな触覚ディスプレイであ る。ソフトウェアは、画面の更新を最小限に抑えるために大きなスペースを使用する。6人の視覚障害者でシステムを評価。参加者はシステムに好意的で、同時に 複数のビューを持つことが有用だと表現した。より伝統的なドットよりも線の表現力が向上していることを、情報をコード化するのに有用であると判断した。 空間メモリを構築することが重要なので、表示された内容を更新すると、ユーザの空間メモリが不正になる可能性があり、最悪の場合、ディスプレ イ全体を手動で再スキャンする必要がある。表示内容を持続させることが最優先事項であるが現在のシステムはそれが困難である。そこで,ユーザ の空間的な記憶を保持するために表示更新を最小限にするように設計された触覚ディスプレイシステムを提案する。ディスプレイを非常に大きく作 成し、表示された内容を保存するためにこの表示スペースを活用するようにソフトウェアシステムを設計することによって、これを達成する。 視覚障害者が空間コンテンツと対話できるようにする対話型システムのLinespaceを提案した。 Dプリンタに基づいて、表示領域を140cm x 100cmに拡張することができた。 インタラクション空間の拡大により、パニングやズームなど、多くのタイプのディスプレイ更新が不要にな り、ブラインドユーザは常に空間参照系内にとどまることができた。Linespaceをどのように拡張して、視覚障害のあるユーザーがより複雑な センス作成タスクを支援できるようにするかを検討とモバイル版の作成を予定。 201611428 蛭子綾花 #3 (人間コース) 20 Saiganesh Swaminathan, Thijs Roumen, Robert Kovacs, David Stangl, Stefanie Mueller, and Patrick Baudisch (Hasso Plattner Institute)
  41. 41. The Use of Eye Movements in Human-Computer Interaction Techniques: What You Look At is What You Get - TOIS1991 Abst Introduction Conclusion 高速で便利な補助ユーザ間通信モードとして眼の動きの有用性を調べる。この媒体を利用する上での障壁は、視線追跡技術ではなく、目の動きをユー ザーとコンピュータの対話に自然で邪魔にならないように組み込んだ相互作用技術の研究である。本稿では、人間の要因や技術的考察 目の動きを入 力媒体として使用しようとする際に,考案し実装した最初の眼球運動に基づくインタラクション技術を記述し、その経験と観察を報告する。 ユーザ - コンピュータ対話は、コンピュータからユーザまでの帯域幅がユーザからコンピュータまでの帯域幅よりもはるかに大きいという傾向がある。 ユーザー からコンピュータへの迅速で簡単な通信モードは、この不均衡を解消するのに役立つ。 追加の入力媒体としてユーザの目の動きを導入する可能性について検討す る。 目の動きを測定し、リアルタイムでそれらを報告する技術は改善されているが、ユーザ - コンピュータの対話に眼の動きを便利かつ自然な方法で組み込む適 切な対話技術が必要とされている。 このような相互作用技術としての因子や発達に関するNRLの研究について述べる。 考案し実装した最初の眼球運動に基づくイ ンタラクション技術について記述し、経験と観察結果を報告する。 入力デバイスとしてのアイトラッカーは、マウスやキーボードがあるという意味では「完全」とはほど遠い。これは,機器の限界と人間の目の動きの両方によって引き起 こされる。 得られる精度は、マウスよりも従来のタッチスクリーンに似ており、その範囲は単一のCRTディスプレイをほとんど覆うことができない。 装置は、非侵入性か つ非接触性であるが、無視することは困難である。システムが正常に動作している場合、入力内容よりむしろユーザーの意図に応答する強力な印象を与えることができる。 これを達成するために,ユーザーに特別な目の動きをさせることを必要とするよりも,スクリーンを見ているときのユーザーの自然な目の動きから情報を得る。 201611428 蛭子綾花 #3 (人間コース) 21 ROBERT J. K. JACOB (Naval Research Laboratory)
  42. 42. TOTAL CAPTURE: A 3D DEFORMATION MODEL FOR TRACKING FACES, HANDS, AND BODIES Hanbyul Joo, Tomas Simon, Yaser Sheikh どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 表情、体の動き、手のジェスチャーを含む人間の動きを マーカーなしでキャプチャーするための統一された変形 モデル 人間の顔(表情)、手の動き、体の動きを同時にマー カーなしでキャプチャできること 利用可能なパーツテンプレートモデル[33,13] を単一のスケルトン階層にシームレスに統合 初期化を70人の人物を使用して最適化し、単純化された パラメータ化を使用 モデルを駆動するために希薄な3Dキーポイント検出のみ を使用しても、魅力的で現実的な結果を示す。 T. Simon, H. Joo, I. Matthews, and Y. Sheikh. Hand keypoint detection in single images using multiview bootstrapping. In CVPR, 2017. 201511520 鈴木亮祐(人間コース) CVPR2018
  43. 43. HAND KEYPOINT DETECTION IN SINGLE IMAGES USING MULTIVIEW BOOTSTRAPPING Tomas Simon, Hanbyul Joo, Iain Matthews, Yaser Sheikh どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? マルチカメラシステムを使用して、手の関節のような、 閉塞しやすいキーポイントに対する細かい検出器を訓練 するアプローチを提示 手の関節をRGB画像に(深度を必要とせずに)位置 づけることができる マルチビューブートストラップによって、洞察 を体系化 小さな注釈付きデータセットで訓練された弱い検出器を使用し て、キーポイントのサブセットを適切なビューにローカライズ し、堅牢な3D三角測量を使用して不正な検出を除外 より少ないカメラおよび少ない環境(例えば、複数の携 帯電話)で動作するように方法を頑強にすること M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, June 2014. 6 201511520 鈴木亮祐(人間コース) CVPR2017
  44. 44. CAPTURING HANDS IN ACTION USING DISCRIMINATIVE SALIENT POINTS AND PHYSICS SIMULATION Dimitrios Tzionas, Luca Ballan, Abhilash Srikantha, Pablo Aponte1, Marc Pollefeys, Juergen Gall どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 複数の同期RGBカメラ(Ballan et al。2012)と単眼RGB-Dカメ ラ(Tzionas et al。2014)の姿勢推定を統一 手のポーズの現実感と物理的な妥当性を高める ほぼすべてのコンポーネントが単一の目的関数 で統一されているため、標準化された最適化手 法で最適化 29個のシーケンスに対する我々のアプローチを定性的お よび定量的に評価 衝突および物理学の用語は姿勢推定をわずかにしか減少 させないが、特にオクルージョンおよび視覚データの欠 如の下で、捕捉された動きのリアリズムを高める Baran, I., & Popovi´c, J. (2007). Automatic rigging and animation of 3d characters. TOG, 26(3). 201511520 鈴木亮祐(人間コース) CVPR2016
  45. 45. CONVOLUTIONAL POSE MACHINES Shih-En Wei, Varun Ramakrishna, Takeo Kanade, Yaser Sheikh どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 姿勢推定タスクのために画像特徴および画像依存空間モデルを 学習するために、畳み込みネットワークをポーズマシンフレー ムワークにどのように組み込むことができるかに関する体系的 な設計 連接ポーズ推定のような構造化予測タスクにおいて、 変数間の長距離依存性を暗黙的にモデル化すること 多関節ポーズ推定のための畳み込みポーズマシ ン(CPM) MPII、LSP、およびFLICのデータセットを含む標準的なベンチ マークに関する最先端の結果を達成し、中間段階の監視を繰り 返しながら多段階アーキテクチャを共同でトレーニングする効 果を分析 単一のエンドツーエンドアーキテクチャで複数の人を処 理することは、困難な問題 M. Andriluka, L. Pishchulin, P. Gehler, and B. Schiele. 2D human pose estimation: New benchmark and state of the art analysis. In CVPR, 2014. 201511520 鈴木亮祐(人間コース) CVPR2016
  46. 46. FACE2FACE: REAL-TIME FACE CAPTURE AND REENACTMENT OF RGB VIDEOS Justus Thies, Michael Zollh¨ofer, Marc Stamminger, Christian Theobalt, Matthias Nießner どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 単眼ターゲットビデオシーケンス(例えば、Youtubeビデオ) のリアルタイムの顔面再現のための新規なアプローチを提示 ソースシーケンスは単眼ビデオストリームであり、 商品ウェブカメラでライブキャプチャされる 事前に記録されたトレーニングシーケンスに基 づく新しいグローバル非剛体モデルベースバン ドリング手法を使用 ウェブカメラでキャプチャされたソースビデオストリー ムを使用してターゲットのYoutubeビデオを操作するラ イブセットアップで結果を表示 VR / AR、電話会議、翻訳されたオーディオによるビデオのオン ザフライダビングの分野で、多くの新しくてエキサイティング なアプリケーションのためのシステムが構築される O. Alexander, M. Rogers, W. Lambeth, M. Chiang, and P. Debevec. The Digital Emily Project: photoreal facial modeling and animation. In ACM SIGGRAPH Courses, pages 12:1–12:15. ACM, 2009. 201511520 鈴木亮祐(人間コース) CVPR2016
  47. 47. LIFTING FROM THE DEEP: CONVOLUTIONAL 3D POSE ESTIMATION FROM A SINGLE IMAGE Denis Tome, Chris Russell, Lourdes Agapito どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモ どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 2Dジョイント推定と3Dポーズ再構成について共同して考える単 一の生のRGB画像からの3D人体姿勢推定の問題に対する統一さ れた定式化を提案 2Dおよび3Dエラーの点でHuman3.6Mデータセット の最先端の結果を達成 2次元ランドマーク位置と3次元ランドマーク 位置の推定について共同して推論を利用する 畳み込みポーズマシンスタイルの2Dランドマーク検出器によっ て提供される画像の外観ベースの予測[44]と、3D人間のポーズ の新規な事前トレインモデルに符号化された幾何学的3D骨格情 報とを組み合わせる これらのシステムを統合して信頼性の高いリアルタイム 3Dポーズ推定量を提供することは将来の方向性 A. Agarwal and B. Triggs. Recovering 3d human pose from monocular images. IEEE transactions on pattern analysis and machine intelligence, 28(1):44– 58, 2006. 2201511520 鈴木亮祐(人間コース) CVPR2017
  48. 48. 2 PRINTED PERFORATED LAMPSHADES FOR CONTINUOUS PROJECTIVE IMAGES TRANSACTIONS ON GRAPHICS 2016 D 2 4D 2 4D3D # 2 c 2 1 2 5 3 4D D x x 1 m 9 1 0 # 2 4D D 4D 0 2 # 9 2 # Haisen Zhao, Lin Lu,Yuan Wei, Dani Lischinski,Andrei Sharf, Daniel Cohen-Or, and Baoquan Chen 0 D D 9 0 4D
  49. 49. 3 5 # D 5 # 4 0 2 1 3 15 1 3 1 3 1 D
  50. 50. 4 # 3 54 54 1 0 2 4
  51. 51. 5 3 # 1 20 4 5 1 20 4
  52. 52. bioSync: Wearable Haptic I/O Device for Synchronous Kinesthetic Interaction d a g m V S P E ec f 5 54 2 4 5 8 5 :: 7 8 2 82 4 7 5:5 2: :5 : tH J g s aG R m h V E n f G m M m E m qro h P MEd m T M P E P m 45:2Ca M P h E 01
  53. 53. PossessedHand: A Hand Gesture Manipulation System using Electrical Stimuli tH J g s aG m V S P E n f G m t H V E mou V f m eS P g m V S y oy m i Rl i ME
  54. 54. Investigating Tilt-based Gesture Keyboard Entry for Single-Handed Text Entry on Large Devices CHI ‘17 Hui-Shyong Yeo, Xiao-Shen Phang, Steven J. Castellucci, Per Ola Kristensson and Aaron Quigley どんなもの? 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? どうやって有効だと検証した? 議論はある? 次に読むべき論文は? グリップを変える必要がないため、端末をしっかり保持 できる。 shorthand writing on Stylus Keyboard 201713110 齋藤圭汰 #3 (人間コース) 傾きを用いた片手入力手法。ShapeWritingを傾 きを使って行う。 初心者でもすぐ使える。既存の傾きベースの文 字入力手法に比べ入力速度が速い 傾きを用いてShapeWritingを行うこと。 既存の入力手法と転写速度、その速度の平均値 などを比較した。
  55. 55. WatchWriter: Tap and Gesture Typing on a Smartwatch Miniature Keyboard with Statistical Decoding CHI ‘16 Mitchell Gordon, Tom Ouyang, and Shumin Zhai 201713110 齋藤圭汰 #3 (人間コース) スマートウォッチ上で通常のタイピングとジェスチャによるタイピングの両方を行えるキーボード。 スマートフォン向けの人間の入力ミスを解読する技術を使用し、小さな画面にでも効率的なタイピ ングを行える。
  56. 56. Vulture: A Mid-air Word-gesture Keyboard CHI ‘14 Anders Markussen, Mikkel Rønne Jakobsen, and Kasper Hornbæk 201713110 齋藤圭汰 #3 (人間コース) 空中操作のためのWord-gestureキーボード。タッチ用のWord-gestureキーボードのアルゴリズムを 空中でも使用できるようにした。ワードの区切りにはピンチを使用した。研究データに基づいて、 空中でのテキスト入力を向上させる方法を議論した。
  57. 57. Personal Space: User Defined Gesture Space for GUI Interaction CHI ‘14 Youli Chang, Sehi L'Yi, Kyle Koh, and Jinwook Seo 201713110 齋藤圭汰 #3 (人間コース) 片手で届かないターゲットにTiltSlide, TiltReduction, TiltCursorを用いて指を届かせる。この手法を 既存手法と比較し、有効性を検証した。
  58. 58. Investigating the Effects of Encumbrance on One- and Two- Handed Interactions with Mobile Devices CHI ‘14 Alexander Ng, Stephen Brewster and John Williamson 201713110 齋藤圭汰 #3 (人間コース) 何かを運んでいるときや歩いているとき のスマートフォン上のターゲット選択の 効果を調べる。左図の3状態について評 価した。
  59. 59. 1e Filter: A Simple Speed-based Low-pass Filter for Noisy Input in Interactive Systems CHI ‘12 Géry Casiez Nicolas Roussel & Daniel Vogel 201713110 齋藤圭汰 #3 (人間コース) 1ユーロフィルタは高精度でこう応答性のノイズを取り除くシンプルなアルゴリズムである。 このアルゴリズムは簡単に実行でき、ほとんどリソースを必要としない。分かりやすい二つのパラ メータによって、簡単に調節できる。
  60. 60. Reflections on the “gesture-first” hypothesis of language origins Adam Kendon どんなもの? どうやって有効だと判断したか 発話と身振り素ぶりの関連性に関してこれまでの 見解への評価と、言語の起源におけるジェスチャー 起源説に対して異議を唱えるもの。 先行研究との比較 これまでの研究成果によって、猿人類のコミュニ ケーション手法としてジェスチャーが起源である とされてきたが、それをもう一度考え直している。 技術や手法のキモ 猿人類の観察と人間のコミュニケーション手法か ら、ジェスチャーがコミュニケーションにおいて どう役割を果たしているのかを再確認し、これま での研究で提示されてきた説を一つ一つ検証。 最終的に口腔言語とジェスチャー言語の発生は密 接に関わっていることを論じている点。 これまでに提示されてきた8つの説をそれぞれ検 証し、各説に論理的な解を出すことが難しいこと を把握する。その後、各説において得られた知識 をもとに言語起源に関して口腔言語とジェスチャー 言語がともに構築されてきたことがわかった。 議論はあるか 口腔言語とジャスチャー言語、双方ともコンテキ ストにより意味合いが変わってくるが、その部分 に対して論じる必要があると考えられる。 次に読むべき論文 言語のコンテキストにおける変化について 議論されている論文。 201611448 高倉 礼 #3 (人間コース) Springer 2017
  61. 61. SOME FUNCTIONS OF GAZEDIRECTION IN SOCIAL INTERACTION Adom Kendon 話し手と聴き手の視線の位置から、会話における成分を切り取り出す 研究。長い会話の前後には相手を数秒見つめる動作が入ることや、話 している人は相手に視線を向けやすい等のデータが得られた。 201611448 高倉 礼 #3-1 (人間コース) Acta Psychologica 1967
  62. 62. COORDINATING TURN-TAKING WITH GAZE David G. Novick, Brian Hansen and Karen Ward 会話における話し手と聴き手のターン交代・視線変動を調査したもの。 対話が成立する過程において、視線変更が会話の切り出しに大きな影響を もたらしていることがわかった。 201611448 高倉 礼 #3-2 (人間コース) ICSLP 1996
  63. 63. コミュニケーションにおける引き込み現象の生理的側面からの分析評価 渡辺 富夫, 大久保 雅史 話し手と聴き手の会話における音声成分や心拍数、呼吸のリズム等 の生理的情報を調査したもの。 201611448 高倉 礼 #3-3 (人間コース) 情報処理学会論文誌 1998
  64. 64. 身体的コミュニケーションにおける引き込みと身体性 渡辺 富夫 発話、生理的応答、ジャスチャー等の情報を対話機械に引き込ませ ることで人間的なコミュニケーションが得られることを評価した。 201611448 高倉 礼 #3-4 (人間コース) ベビーサイエンス 2003
  65. 65. 人間とコンピュータによる顔表情の認識 赤松 茂 対話における情報量のうち50%を占める「表情」に着目し、コン ピュータにおいて顔認識からその人のコンテキストを把握する技術。 201611448 高倉 礼 #3-5 (人間コース) 電気情報通信学会誌 2002
  66. 66. A Creative Computing Based Inspiration Assistant to Poem Generation Qinyun Liu, Lin Zou, Hongming Che, Haiyun Wang, Yunzhi Jin, Hongji Yang ユーザの好み傾向から選択された既存の詩を構造化し、韻など の情報からを単語を当てはめることで新たな詩を生成するシス テム。 どんなもの? 先行研究と比べてどこがすごい ? 技術や手法のキモはどこ ? どうやって有効だと検証した ? 議論はある? 次に読むべき論文は ? 201813566 仲村勇馬 #3(仏コース) An old silent pond… A frog jumps into the pond, splash! Silence again. __ _adj._ _adj._ _n._… __ _n._ _v._ into the _n._, _v._! _adj._ again. pieceful __ pieceful _adj._ _n._… __ _n._ _v._ into the _n._, _v._! _adj._ again. ISPAN-FCST-ISCC 2017 単語の選択にセマンティックウェブ並びに精神分析、認知心理学 および社会心理学から抽出された心理学理論を利用している。 Haiku Generation Using Deep Neural Networks(NLP2017)
  67. 67. Exploring Multimodal Watch-back Tactile Display using Wind and Vibration どんなもの? 振動と風を組み合わせることによるウォッチバック ディスプレイ情報伝達能力の拡張 . 先行研究と比べてどこがすごい? 刺激の特性を変化させるのではく , 異なる刺激の組み 合わせにより情報量を増やした . 技術や手法のキモはどこ? 皮膚の痛覚を直接刺激する振動と組み合わせる刺激 として , 補完するように痛覚への刺激が弱く温覚や 冷覚を刺激する風を選んだこと . どうやって有効だと検証した? 個別使用 , 同時使用 , 逐次使用の3パターンの使用方 法について , 被験者を用いて各パターンの刺激が区別 できるかを実験し , 逐次使用に関しては高いスコア (98.52%) を記録 . 議論はあるか? 推奨されているサイズよりディスプレイサイズが小 さかったので , より大きなディスプレイで実験した らより良い結果が出る可能性あり . 実験は箱の中に手を入れて行われており , 空気の流れ が存在する現実空間で使用に耐えうるかは不明 . 次に読むべき論文は? combination of electrical and mechanical stimulation for high-fidelity tactile presentation CHI 2018 Youngbo Aram Shim, Jaeyeon Lee, Geehyuk Lee 仏コース 201611437 小林慶大
  68. 68. Deep Video Portraits HYEONGWOO KIM,PABLO GARRIDO,AYUSH TEWARI and WEIPENG XU,JUSTUS THIES and MATTHIAS NIESSNER,PATRICK PÉREZ,CHRISTIAN RICHARDT,MICHAEL ZOLLHÖFER,CHRISTIAN THEOBALT SIGGRAPH 2018 どんなもの? 人間の表情を別人の顔で再現する 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 201813560 左方智樹 (仏コース) 表情だけでなく、3次元での頭の位置、 回転、視線、瞬きもできるようになった 生成系ニューラルネットワーク 動画の2/3で訓練して残りでテストし、誤 差を数値評価。結果が現実的かどうか ユーザースタディ 大きな表情の変化、頭の回転、髪の毛、 体の動きで映像にムラがでる。 解像度がそこまで高くない Karras et al. 2018
  69. 69. ClothCap: Seamless 4D Clothing Capture and Retargeting GERARD PONS-MOLL SERGI PUJADES SONNY HU MICHAEL J. BLACK どんなもの? 201611456 林 直輝 #3 (仏コース) 4Dスキャンから衣服とその動きをキャプチャする。 先行研究と比べてどこがすごい? 3Dスキャンからの衣服の取り込みに対処するこれまでの方法は、単一の衣 類および単純な動きに限定されていて、細部が欠如していたり特殊なテクス チャパターンを必要としていたりした。 技術や手法のキモはどこ? SIGGRAPH 2017 マルチパート3Dモデルを使用して時間の経過とと もに衣服の3D変形を追跡する手法 どうやって有効だと検証した? さまざまな衣服を使用してさまざまな動的な動作を 行うさまざまな被写体を撮影した。 体型の異なるモデルも使用した。 議論はある? 袖口やボタン、ネクタイなどの衣類に対応できると うに改良する必要がある。 次に読むべき論文は?
  70. 70. Deep Video Portraits HYEONGWOO KIM,PABLO GARRIDO,AYUSH TEWARI and WEIPENG XU,JUSTUS THIES and MATTHIAS NIESSNER,PATRICK PÉREZ,CHRISTIAN RICHARDT,MICHAEL ZOLLHÖFER,CHRISTIAN THEOBALT SIGGRAPH 2018 どんなもの? 人間の表情を別人の顔で再現する 先行研究と比べてどこがすごい? 技術や手法のキモはどこ? どうやって有効だと検証した? 議論はある? 次に読むべき論文は? 201813560 左方智樹 (仏コース) 表情だけでなく、3次元での頭の位置、 回転、視線、瞬きもできるようになった 生成系ニューラルネットワーク 動画の2/3で訓練して残りでテストし、誤 差を数値評価。結果が現実的かどうか ユーザースタディ 大きな表情の変化、頭の回転、髪の毛、 体の動きで映像にムラがでる。 解像度がそこまで高くない Karras et al. 2018
  71. 71. A Creative Computing Based Inspiration Assistant to Poem Generation Qinyun Liu, Lin Zou, Hongming Che, Haiyun Wang, Yunzhi Jin, Hongji Yang ユーザの好み傾向から選択された既存の詩を構造化し、韻など の情報からを単語を当てはめることで新たな詩を生成するシス テム。 どんなもの? 先行研究と比べてどこがすごい ? 技術や手法のキモはどこ ? どうやって有効だと検証した ? 議論はある? 次に読むべき論文は ? 201813566 仲村勇馬 #3(仏コース) An old silent pond… A frog jumps into the pond, splash! Silence again. __ _adj._ _adj._ _n._… __ _n._ _v._ into the _n._, _v._! _adj._ again. pieceful __ pieceful _adj._ _n._… __ _n._ _v._ into the _n._, _v._! _adj._ again. ISPAN-FCST-ISCC 2017 単語の選択にセマンティックウェブ並びに精神分析、認知心理学 および社会心理学から抽出された心理学理論を利用している。 Haiku Generation Using Deep Neural Networks(NLP2017)
  72. 72. ACM Transactions on Graphics (TOG) Volume 34-6, November 2015, Article No. 199/SIGGRAPH Asia 2015/SIGGRAPH 2017 Real-Time Live! Data-driven Fluid Simulations using Regression Forests どんなもの? L’ubor Ladický Sohyeon Jeong Barbara Solenthaler Marc Pollefeys Markus Gross 先行研究と比べてどこがすごい? 技術と手法のキモはどこ? どうやって有効だと検証した? 議論はある? 次に読むべき論文は? リアルタイムでの粒子法流体シミュレーションを、機 械学習を用いて高速化する 計算量の大幅な軽減 予想外な挙動を起こしにくい 様々な属性の流体に対応 粒子の挙動を機械学習モデル(regression forest)に計 算させ学習させることでシミュレーションを近似的に 行う 実際に様々な流体及び剛体と、それらの相互作用をシ ミュレートした 物理シミュレーションそのものより精度に劣る 学習データそのものにメモリのリソースを割く必要 がある 精度とデータ量の兼ね合い MACKLIN, M., AND MUELLER, M. 2013. Position based fluids. ACM Transactions on Graphics (Proceedings SIGGRAPH) 32, 1–5. 201510013 稲葉優樹 (仏コース)
  73. 73. Playful Palette: An Interactive Parametric Color Mixer for Artists 1 4 -7 4 2 2 2 07 6 3- 2 4 rc eI a TR UNI e TI a W I MnI d i S I J nH e nl d J SnH W e d S Pn TaR H p d W d H N Nn e d t x s d N N J R Von H t J c H d J aSGt J J e V nl d W H Je R d el c d S WcN 4 3- # # # J L A DEC 3 EE AC E A
  74. 74. 2 A * 06 . 6 , 6 6 . I 16 4 6 6 6 nu S rn l b rn o l S Vkhl t r Lh Wd s l Wd KP l SW F rn M rn eg k rn o u l S l XNi SW l M N u d kW kW t ʻ kW hL n J t r r rn o l Kga H nu o u nKga H
  75. 75. ,   : A , B A k k W Wv at0DDM 9DPSLNIO k k v at r k i v e t • l k v o t ,( k W v b • W W k gl ( k W W f i db gl ( k W v b • gl wW ruf t k l i g t • k r W v nf ( kwW x rk () W rit W v W Wv at W v b • b 99 V.JDT9DP 33 , 3LLF D9DP • k V4 3 35 52 h f v db b g cdb3LLF D9DPv f uf t b k db W f • k gl W Wv p f W v at • k h i k v atbn l s u b ?G P 8 IDO NHO LLI JHID NHO-‑ NJ 0LDNO G N AG H FG .AGH 3 MP 6LODE H H C .JDTDH . 1ENLO   ) ( W  
  76. 76. Deep Video Portraits どんなもの? 技術や手法のキモ 先行研究と比べて何がすごい? どうやって有効だと証明した? 議論はある? 次に読むべき論文は? ソースアクタのビデオのみを入力としてターゲッ トアクターのポートレートのアニメーションを合 成しレンダリングする ソースビデオから再構成されたヘッドアニメーショ ンのパラメータで粗い合成アニメーションをレン ダリング、訓練されたネットワークに送ることで 時間的に一貫性のある写実的なビデオに変換 顔面の表情の操作のみに限定されず、3Dの頭部 の位置や頭の回転、目の仰視、瞬きをターゲット アクタのポートレートビデオに転送できる State of the art の視線解析の手法や音声からの 合成手法と比較.5秒間のクリップを見せて現実 の映像だと思うかユーザースタディ トレーニングコーパスの範囲内でならうまく動作 するが極端な動きされると精度に影響.パラメト リックベースのみのため背景の制御は無理 State of the Art on Monocular 3D Face Reconstruction, Tracking, and Applications Siggraph’18 Ftma18 201810024 大森 功太郎
  77. 77. DenseReg: Fully Convolutional Dense Shape Regression In-the-Wild どんなもの? 技術や手法のキモ 先行研究と比べて何がすごい? どうやって有効だと証明した? 議論はある? 次に読むべき論文は? 畳み込み回帰ネットワークを用いて三次元オブジェ クトモデルと2D画像との対応フィールドを確立 する(2018年版) セマンティックソフトセグメンテーションと回帰 ネットワークの組み合わせ.RGB入力に完全に依 存.フィードフォワードのCNN RGBインプットに完全に依存しておりネット上 に転がっている画像に対して適用することが可能 それぞれの動作について検証し、特に画像セグメ ントとランドマーク予測に関しては先行研究と比 較 手作業で行うテッセレーションの粒度を大きくす ればするほどラベルが複雑化し、トレーニングに 使用できるデータが減少してパフォーマンスが低 下する Ftma18 201810024 大森 功太郎 Rıza Alp Güler, Yuxiang Zhou, George Trigeorgis, Epameinondas Antonakos, Patrick Snape, Stefanos Zafeiriou, Iasonas Kokkinos

×