28. 新規性・差分
データセットの概要概要
視覚的な”常識”を認識する課題.通常の画像生成分では見
逃されている部分を,詳細に認識することで,よりイメー
ジしやすい文章を生成する.
X. Lin, D. Parikh, “Don’t Just Listen, Use Your Imagination: Leveraging Visual Common Sense for Non-
Visual Tasks“, in CVPR2015. 1507-137
【14】
Links
PDF:https://filebox.ece.vt.edu/~linxiao/imagine/
Posterhttps://filebox.ece.vt.edu/~linxiao/imagine/site_data/Poster.pdf
Dataset:https://filebox.ece.vt.edu/~linxiao/imagine/
通常の画像生成分では見逃されている部分を,詳細に認識
することで,よりイメージしやすい文章を生成している.
例えば,下図の2枚の画像では黒文字の同じ文章出力され
る.しかし,実際には画像は異なっている.そこで,赤文
字や橙文字のような暗黙的にわかる部分を詳細に出力し,
イメージしやすくしている.
Two children playing in th park
58 object
7 pose and 5 expressions
30. 新規性・差分
データセットの概要概要
汎用的な3D形状表現方法を考案している.
Z. Wu, S. Song, A. Khosla, F. Yu, L. Zhang, X. Tang, J. Xiao, “3D ShapeNets: A Deep Representation for
Volumetric Shapes“, in CVPR2015. 1507- 148
【15】
Links
PDF:http://3dshapenets.cs.princeton.edu/paper.pdf
Project: http://3dshapenets.cs.princeton.edu/
形状表現についてはhand-codingではなく,データドリブンで3次元形状
を学習.このために,3Dボクセルに区切られたデータから3次元形状の
分布を確率として表現する.それぞれの3Dメッシュはバイナリテンソル
として表現される.1=>ボクセルはメッシュ表面の内側に,0=>ボクセ
ルはメッシュの外側に存在すると表現.Convolutional Deep Belief
Network (CDBN)を用いて複雑な3次元形状の確率分布学習する.CDBN
は畳み込み層や全結合層により構成されており,プーリング層は含まれ
ていないものとする.CDBNの学習が済んで3次元形状に対するpre-
trainedモデルが構成できたら,ボクセルデータxと物体のカテゴリの同
時確率であるp(x,y)を学習する.
ModelNetは3DのCADモデルから構成されていて,151,128
の3D CADの物体が含まれていて,ユニークカテゴリ数は
660である.