深層学習を用いた服飾画像の印象推定に関する研究

深層学習を用いた服飾画像の印象推定に関する研究
A study on Impression Estimation of Clothing Images
using Deep Learning
北海道大学大学院情報科学研究科
調和系工学研究室
修士2年神戸瑞樹

steady. 2017年8月号, 宝島社, pg.20
1
ファッション業界では感性や印象が重
要な役割を果たしている
non-no 2018年3月号, 集英社, pg.55
研究背景
主役級の甘め柄
こ
っ
く
り
甘
く
レ
ト
ロ
可
愛
く
大人ガーリー

研究背景 2
かわいい夏らしいワンピースかわいいガーリーワンピース
夏らしい:0.7 ガーリー:0.6かわいい: 0.9
ワンピース:0.9
・印象は一定の共通認識が存
在するが，人によって変わり得
る
・印象の定量的な評価ができ
ない
visual attributes impression attributes
定量的な評価ができれば，
• 売れ筋の分析，商品開発に還元
• ECサイトで店頭と同じような推薦
が可能

印象の定量評価
• 服に対してある印象を定量評価した時の正解を，その印象
が当てはまると思う人の割合と考える
– マーケティングを行うためのツールとして用いることを考えると，
マーケティングの対象となる人達の中で当てはまると思う人の割合
• しかし，対象全員に聞くのは不可能
• 本研究では，ファッションの専門学校生に服の印象を聞き，
その平均を正解とする
3

先行研究 4
Fashion Dataset
• 多様なファッションアイテムを扱う研究[1]
• タグやランドマークといった補足情報を扱う研究[2]
• 外観を表すタグが主
• 印象を表すタグはほぼない
[1] Kiapour, M.H., Han, X., Lazebnik, S., Berg, A.C., Berg, T.L.: Where to Buy It: Matching Street Clothing Photos in Online Shops. In:
2015 IEEE International Conference on Computer Vision (ICCV). pp. 3343–3351. IEEE (2015)
[2] Liu, Z., Luo, P., Qiu, S., Wang, X., Tang, X.: DeepFashion: Powering Robust Clothes Recognition and Retrieval with Rich
Annotations. In: 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 1096–1104. IEEE (2016)
[3] Zhao, B., Feng, J., Wu, X., Yan, S.: Memory-Augmented Attribute Manipulation Networks for Interactive Fashion Search. In: 2017
IEEE Conference on Computer Vision and Pattern Recognition (CVPR). pp. 6156–6164. IEEE (2017)
[4] Talebi, H., Milanfar, P.: NIMA: Neural Image Assessment. IEEE Transactions on Image Processing 27(8), 3998–4011 (2018)
Attribute Learning
• ファッションの分野では，同一商品の画像検索[2]，あるタグを持っている服飾の検索
[3]に用いられている
• 印象を表すタグを学習する研究も存在[4]
• タグ数・データ数の規模が小さい
• タグ数・画像枚数を大幅に増やしたデータセットを作成・学習
• 効果的なデータセットの作成方法の調査

研究目的
• 印象の学習可能性を検証
– Fashion Impression Datasetの作成・学習
• タグ数・画像枚数を多くしたデータセット
• 1枚に1人でタグ付け
• 様々な制約条件がある中でどのようにデータを作るのが良
いか調査
– Fashion Multi-Impression Datasetの作成・学習
• 1枚に複数人でタグ付け
• 総タグ付け回数を一定とした時，画像枚数と1枚にタグ付けする
人数を変化させて調査
5

Fashion Impression Dataset (FID)
• ECサイトで公開されている服飾画像71658枚
• タグは全部で158個
– デザイナーの意見を参考に厳選
– カテゴリ評価，4段階評価，バイナリ評価のタグが存在
• 一つの画像に対して一人の判断で付与
• ファッションの専門学校生52人で作業
6
タグの例
ブラウス
デート
ガーリー
…
ガーリー
大人っぽい
無地
カットソー
ブラウス
スカート
かわいい
きれい
おしゃれ
スカート
かわいい
ガーリー
…

4段階評価・バイナリ評価のタグ 7
4段階評価は「どちらかというと当てはまら
ない」「どちらかというと当てはまる」が多く
なる傾向
バイナリ評価のほとんどのタグで分布が
偏っている
外観を表すタグの方が印象を表すタグよ
りも偏っている
タグ1,2,…,87 タグ1,2,…,55

8
外観を表すタグの平均 76.8%
印象を表すタグの平均 65.6%
・印象を表すタグより外観を表すタグの方が
評価値が高い傾向
→外観の方が人の意見が一致しやすく個人
差が小さくなるためと考えられる
「花柄」の出力値例
「ストライプ」の出力値例
「ガーリー」の出力値例
「ボーイッシュ」の出力値例
ResNet-50を用いて学習
Fashion Impression Datasetの学習
・テストデータも一つの画像に一人でタグ付けしており、100%正解することは困難
・出力値例から傾向を掴めている
→学習できている

FIDのまとめと課題
• データを大量に用意することで印象を学習できることを示した
• しかし，1枚に対して1人でタグ付けを行い，データを大量に用意
する方法が最適かは分からない
• データセットを作る際は様々な制約条件がある
– 予算の上限，集められる人数，所持している画像枚数など
• こうした制約条件の中でより良いデータセットを作りたい
– 色々な作成方法を比較できるデータセットが必要
9
Fashion Multi-Impression Datasetを作成
– 1枚に複数人でタグ付け
– 画像枚数と1枚にタグ付けする人数を変化させて最適なバランスを調
査

Fashion Multi-Impression Dataset (FMID)
• 10人が集まった時に，総タグ付け回数が10000という制約の元
でデータを作成することを考える
• (画像枚数) * (1枚にタグ付けする人数) = 10000
– 1000 * 10
– 2500 * 4
– 5000 * 2
– 10000 * 1
• 1枚の画像にタグ付けする人数は異なるが，それぞれの作成方法
において10人それぞれがタグ付けする回数は等しい
– 10000*1でも，1人で10000枚にタグ付けするのではなく，10人で
1000枚ずつタグ付けをして合計10000枚にタグ付けする
• 上記とは別にテストデータに1000*10を用意
10

Fashion Multi-Impression Dataset (FMID) 11
愚直に作ると50000回のタグ付けが必要だが作り方を工夫す
ることで，タグ付け回数を36000回まで減らすことが出来る
1500枚
2500枚
5000枚
1000枚
1000枚
1000枚
1500枚
1000枚
1500枚
2500枚
5000枚
2500枚
1000枚
1500枚
1000枚
1000枚
タグ付けするデータ
テストデータ
訓練データ
1000枚*10
人分のタグ
2500枚*4
人分のタグ
5000枚*2
人分のタグ
10000枚*1
人分のタグ
求める人数分のタグを
ランダムに抽出

Fashion Multi-Impression Dataset (FMID)
• タグはFIDで付与された回数が多いものと4段階評
価をされたものから10個を選択
– 絶対的な正解がないデータの効果的な作り方の検証を
行うため，タグの数は少なくても問題ない
• 4段階で評価
• ファッションの専門学校生10人で作成
– タグ付けアプリ使用
12
おしゃれ
きれい
クール
セクシー
かわいい
フェミニン
モテ服
デート
カジュアル
通勤・オフィス
タグ一覧
タグ付けアプリ
1 当てはまらない
2
どちらかというと
当てはまらない
3
当てはまる
4 当てはまる
4段階評価

FMIDのサンプル 13
割
合
タグごとにおける4段階評価の割合

全員が当てはまるといっているようなものはほぼない（カジュアルに少しのみ）
山になっているタグ5個と，左に偏っているタグ5個がある
タグごとに平均値と分散でヒストグラムの形状は似通っている
（平均値で山になっていれば，分散でも山になっている）
14平均値と分散のヒストグラム
平均値のヒストグラム分散のヒストグラム
10人分のタグが付けられた画像2000枚を対象
おしゃれ
きれい
デート
カジュアル
通勤・オフィス
クール
セクシー
かわいい
フェミニン
モテ服
2
3
当てはまる
4 当てはまる

人ごとのタグ付けの傾向 15
全体的に「当てはまらない」が多い
人によってその程度が変わる
10人分のタグが付けられた画像2000枚を対象
user_id 1の割合 2の割合 3の割合 4の割合
1 0.753 0.017 0.109 0.121
2 0.654 0.079 0.113 0.153
3 0.617 0.123 0.165 0.095
4 0.349 0.113 0.266 0.272
5 0.510 0.258 0.192 0.040
6 0.546 0.113 0.164 0.178
7 0.427 0.165 0.209 0.198
8 0.735 0.072 0.160 0.033
9 0.392 0.156 0.224 0.228
10 0.717 0.116 0.093 0.074
平均 0.570 0.121 0.169 0.139
2
3
当てはまる
4 当てはまる
1の割合 2の割合 3の割合 4の割合
FMID 0.589 0.128 0.170 0.113
FID 0.163 0.318 0.327 0.192
FIDで4段階評価だったタグでの比較 FIDでは，「どちらかというと当てはまら
ない」「どちらかというと当てはまる」の
割合が多く，傾向が大きく違う
→コミュニティの違い，タグ付けした年
代の違いなど

学習方法
• ResNet-50で学習
– 最適化手法：AdamWR, fine-tuning
• 1枚の画像に対して複数のラベルが与えられる
– 学習時は平均を取らずにそれぞれ別のデータとして扱う
16
・・・
user_id おしゃれきれいクールセクシーかわいい …
1 3 3 1 1 1 …
2 4 2 1 1 1 …
3 4 2 3 1 4 …
4 3 1 4 3 1 …
5 3 1 1 1 2 …
6 3 3 1 1 3 …
7 4 1 2 1 4 …
8 3 1 2 1 2 …
9 2 1 2 1 2 …
10 4 1 2 1 1 …
おしゃれきれいクールセクシーかわいい …
3 3 1 1 1 …
3 1 4 3 1 …
4 2 1 1 1 …
4 2 3 1 4 …
2
3
当てはまる
4 当てはまる

分布の偏りの補正
• 分布の偏りをロスの重み付けで対処する
17
k 選択肢教師ラベル
1 当てはまらない 0.0
2
0.333
3
当てはまる
0.667
4 当てはまる 1.0
𝐿𝑜𝑠𝑠𝑖 =
1
𝑁𝑖
𝑗=1
𝑁 𝑖
𝑤 𝑝 𝑖,j
−𝑝𝑖,𝑗 log 𝑞𝑖 − 1 − 𝑝𝑖,𝑗 log 1 − 𝑞𝑖
ラベルに対して重み付けし，𝑤 𝑘 =
𝑘の出現回数
データ数
(𝑘 = 1,2,3,4) とすると，服𝑖に対
する1つのタグのロスは，
ラベルに対してではなく，服に対して重み付けを行う
𝑖:服に対するID
𝑁𝑖:服𝑖にタグ付けする人数
𝑝𝑖,𝑗:服𝑖にタグ付けしたj番目の人のラベル
𝑞𝑖:服𝑖に対するCNNの出力
1枚の画像に複数のラベルが与えられている場合はその平均を出力することが望ましい
しかし，このように重み付けすると，ロスが最小となる出力が平均からずれる

分布の偏りの補正
• w 𝑣をラベルの平均が𝑣の服の重み，𝑛 𝑣をラベルの平均が𝑣の服の数とし，
w 𝑣 𝑛 𝑣 = w 𝑣′ 𝑛 𝑣′ となるように設計
18
あるタグに対して1,2,3,4のそれ
ぞれをつけた人数とその重み
w 𝑣 =
min
𝑥
(𝑛 𝑥)
𝑛 𝑣
𝑤𝑣の最大値を1とすると，
𝐿𝑜𝑠𝑠𝑖 =
𝑤 𝑝 𝑖,𝑎𝑣𝑔
𝑁𝑖
𝑗=1
𝑁 𝑖
−𝑝𝑖,𝑗 log 𝑞𝑖 − 1 − 𝑝𝑖,𝑗 log 1 − 𝑞𝑖
𝑖:服に対するID
𝑁𝑖:服𝑖にタグ付けする人数
𝑝𝑖,𝑗:服𝑖にタグ付けしたj番目の人のラベル
𝑝𝑖,𝑎𝑣𝑔:服𝑖に対するタグの平均値
𝑞𝑖:服𝑖に対するCNNの出力
1
(当てはまらない)
2(どちらかと
いうと当て
はまらない)
3(どちらかと
いうと当て
はまらない)
4
(当てはまる)
平均重み
服A 10 0 0 0 1 1/3
服B 0 0 0 10 4 1
服C 0 5 5 0 2.5 1/2
服D 5 0 0 5 2.5 1/2
服E 10 0 0 0 1 1/3
服F 10 0 0 0 1 1/3
平均でロスが最小となる

評価方法
• 10人分のタグが付いた画像1000枚を用いる
• ラベルを0,0.333,0.667,1に変換して平均とCNNの出力を
比較
– 区間正解率
• 正解ラベルの値が0~0.25,0.25~0.5,0.5~0.75,0.75~1である
区間ごとに正解率を測る
• 出力が正解ラベル±0.1以内なら正解とする
• 分布の偏りを考慮した指標
• 5回平均を用いる
19
当てはまらない 0
0.333
当てはまる
0.667
当てはまる 1

実験1：効果的なデータ作成方法の調査
• 総タグ付け回数が一定の時，データの作り方を変化させて比較
20
1000*10では，0.75~1が低い
→10人全員が当てはまるといっているものが「カジュアル」にしかない
1枚にタグ付けする人数が少ないと0.75~1での正解率は高くなるが，
0~0.25での正解率は低くなる
→ 10人中1人しかかわいいと言わなくても，かわいいという方を抽出してし
まうと少数派の意見の影響が大きくなる
2500*4が最も良い
訓練データ 0~0.25 0.25~5 0.5~0.75 0.75~1 平均
1000*10 0.633 0.555 0.44 0.187 0.454
2500*4 0.593 0.496 0.437 0.357 0.471
5000*2 0.384 0.436 0.488 0.559 0.466
10000*1 0.23 0.361 0.564 0.55 0.426
X*YはY人分のタグが付けられた画像がX枚あることを示す

実験2：総タグ付け回数と効果的なデータ作成方法 21
総タグ付け回数を変化させた時に，画像枚数と1枚にタグ付け
する人数の最適なバランスも変化するか調べる
CNN：ResNet-50
最適化手法：AdamWR
Fine-tuning
X*YはY人分のタグが付けられた画像がX枚あることを示す
• 1000*10
• 2500*4
• 5000*2
• 10000*1 ランダムに抽出
• 100*10
• 250*4
• 500*2
• 1000*1
• 200*10
• 500*4
• 1000*2
• 2000*1
……
総タグ付け回数を1000から10000まで1000ごとに変化させて比較
5回平均で評価

結果 22
総タグ付回数が少ない時は，画像枚数を増やした方がよく，
総タグ付け回数が多くなると1枚にタグ付けする人数を増やした方が良い

まとめ
• Fashion Impression Datasetを作成し，データ数が多け
れば印象を学習できることを示した
• Fashion Multi-Impression Datasetを作成し，効果的な
データセットの作成方法を調査
• データセットの作り方次第で重み付けの効果が変化
• 総タグ付け回数を変化させた時の画像枚数と1枚にタグ付
けする人数が精度に与える影響を明らかにした
23

研究業績
・国際学会口頭発表、査読あり
1)○Mizuki Kambe, Soichiro Yokoyama, Tomohisa Yamashita, Hidenori Kawamura, Estimating impressions for
clothing, landscape, and indoor images using CNN, The 23rd Asia Pacific Symposium on Intelligent and
Evolutionary Systems (IES 2019), Tottori, Japan(2019)
・国内学会口頭発表査読なし
1) ○神戸瑞樹，横山想一郎，山下倫央，川村秀憲，畳み込みニューラルネットワークを用いた服飾画像に対するアノ
テーションの推定, 社会システムと情報技術研究ウィーク2018(WSSIT), 虻田郡留寿都村(2018)
2) ○神戸瑞樹，横山想一郎，山下倫央，川村秀憲，服飾画像に対する印象語の推定のための畳み込みニューラルネッ
トワーク学習方法の検討, 人工知能と知識処理研究会(AI)，札幌市(2018)
3) ○神戸瑞樹，横山想一郎，山下倫央，川村秀憲，CNNを用いた服飾・風景画像に対する印象の推定，第18回情報科
学技術フォーラム(FIT)，岡山(2019)
4) ○神戸瑞樹，横山想一郎，山下倫央，川村秀憲，服飾画像に対する印象推定のためのデータセットの構築, 社会シス
テムと情報技術研究ウィーク2020(WSSIT), 虻田郡留寿都村(2020)，発表予定
・展示会
1) GTC Japan ポスター出展(2018/09/13-14 東京)
2) ビジネスEXPO ポスター出展 (2018/11/8-9 札幌)
24

深層学習を用いた服飾画像の印象推定に関する研究

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (7)

深層学習を用いた服飾画像の印象推定に関する研究

Editor's Notes