kambe

CNNを用いた服飾画像に対する
アノテーションの学習に関する研究
北海道大学工学部
情報エレクトロニクス学科情報理工学コース
複雑系工学講座調和系工学研究室
学部4年神戸瑞樹
A study on Learning of annotation
for clothing images using CNN

steady. 2017年8月号, 宝島社, pg.20
2
服飾は「大人っぽい」「ガーリー」
などの印象的な語と
「ストライプ」「花柄」といった
形状的な語によって表現される
明確な定義がなく、受け手によって変わり得る
ものの一定の共通認識がある
non-no 2018年3月号, 集英社, pg.55
研究背景主役級の甘め柄
こ
っ
く
り
甘
く
レ
ト
ロ
可
愛
く
大人ガーリー

研究目的
3
・調査できる範囲が狭い
(サンプル数百、影響を与える要因数個のみ)
・複数のアノテーションを学習する
にはモデルが複数必要
(段々と画像を直接扱うように)
万単位の服飾画像から複数のアノテーションを
定量的に抽出・評価する方法の確立
先行研究
・「パンツシルエット」[1]「プリーツ数とスカートの丈」[2]が服飾の印象に与え
る影響の調査
・重回帰[3]やニューラルネット[4]，CNN[5]によるアノテーションの学習
何が売れてるかの分析から
何故売れてるかの分析に移行できる
[1]藤井一枝. パンツシルエットが着装評価に及ぼす影響. 繊維機械学会誌,
Vol.52, No.11, pp. T255–T262, 1999
[2]李正和, 丸田直美, 廣川妙子. プリーツ数とスカート丈の変化が年齢層
別プリーツスカートの視覚的イメージに及ぼす影響. 日本感性工学会論文
誌, Vol.11, No.3, pp. 397–406, 2012
[3]今村亮介, 椎塚久雄. 重回帰分析を用いた T シャツデザインの感性評価.
工学院大学研究報告, Vol. 101, pp. 135–139, 2006
[4]太田茂, 竹之内宏, 徳丸正孝. 深層ニューラルネットワークによる特徴
抽出を用いた衣服の感性検索. 日本感性工学会論文誌, Vol.16, No.3, pp.
277–283, 2017
[5] Hossein Talebi and Peyman Milanfar. NIMA: Neural Image Assessment

アプローチ方法
4
ガーリー：0.6
CNN
…
アノテーションの付与
学習方法決定
印象的なもの、形状的なもの
カットソー
無地
ガーリー
結果の解釈
CNN
損失関数
最適化手法
評価方法
出力の可視化
ガーリー
大人っぽい
甘い
無地
花柄
カットソー
アノテーションの例
CNNの入力と出力例
カットソー：0.9
無地：0.8
10
可視化の例
CNNの出力(ガーリーと付与される確率)
ガ
ー
リ
ー
と
付
与
ア
ノ
テ
ー
シ
ョ
ン
ガ
ー
リ
ー
と
付
与
さ
れ
て
い
な
い

アノテーションについて
印象的なものと形状的なものが存在
5
印象的
4段階
バイナリ
6個
77個
{1.0, 0.66, 0.33, 0.0}
{1, 0}
形状的
65個バイナリ
10個カテゴリ当てはまるもの1つを選択
データ提供元のアパレルメーカーが付与
一人の判断で付与している
一つの商品に対して色違いで複数枚の画像が存在
同じアノテーション
横一列は色違い商品数23852 、画像枚数71658
とても当てはまる
やや当てはまる
あまり当てはまらない
全く当てはまらない

ワンピース
パンツ
アノテーションの例(カテゴリ) 6
カットソー
ブラウス
ニット
コート
ジャケット
ブルゾン
スカート
パンツ
ワンピース
スーツ
カテゴリ一覧
スカート

アノテーションの例(バイナリ(形状的))
7
ふわふわ Aラインバンドカラー
ひらひら
コクーンシルエット、
丸みを帯びた
ノーカラー、
襟がない
もこもこ
ふんわり、
ふわっとしたシルエット
スキッパー
とろみ、テロテロした、
ツヤツヤした
ボックスシルエットカシュクール
さらりとした、
さらっとした
アシメントリータートルネック
なめらか、しなやかなボーイフレンドボートネック
薄手の無地 Vネック
厚手の花柄
ハイネック、
モックネック
パステルボーダー
袖コンシャス、
袖に特徴がある
ヴィヴィッド、鮮やかストライプバックコンシャス
ジャストサイズラメハイウエスト
ワイドシルエットチェックウエストマーク
タイトシルエットドットリボンが使われている
スキニーシルエットレーススリットが入っている
ショート丈刺繍ファー
ミディ丈ボヘミアンフリル
ミモレ丈アニマル柄プリーツ
マキシ丈ペイズリー柄ギャザー
アンクル丈星柄デコルテ見せ
フレアドロップショルダーリメイク調
Iラインオフショルダーロゴ入り
オープンカラー肌見せ
バイナリのアノテーション(形状的)一覧
付与付与されていない
花柄

アノテーションの例(4段階評価)
8
4段階評価のアノテーション一覧
かわいい
きれい
かっこいい、クール
モテ服、モテる
セクシー
おしゃれ
とても当てはまる全く当てはまらない
かわいい

アノテーションの例(バイナリ(印象的)) 9
光沢感がある
個性的、
個性の強い、独特の
季節を選ばず着られる、
シーズンレス
透け感があり甘い
腕を細く見せられる、
二の腕カバー
落ち感がある辛い
リラックスできる、
くつろげる
春らしい、春に着たい可愛らしい
解放感のある、
自由な気分になれる
夏らしい、夏に着たい大人っぽいヘルシー、健康的に見える
秋らしい、秋に着たい爽やか
体のラインを美しく見せて
くれる
冬らしい、冬に着たい華やかハレの日、人生のイベント
カジュアル軽やか
高級感を感じさせる、高見
えする
定番、ベーシック、シンプルフレッシュな、若々しい子どもの入学式
コンサバ清潔感がある、きれいめ、上品入社式
ナチュラル、飾らない、自然体の
清楚、清らか、
育ちが良さそうな
新生活、新しい職場での始
まりに
ストリート
きちんとしている、
仕事で着ていけそう
マリン、海、ビーチ
ガーリー
好感が持てる、
好感度アップする
お祭り、花火大会
フェミニン
親しみやすい、
親近感アップする
アウトドア
モード優しい感じがする美術館巡り、芸術鑑賞
クール、スタイリッシュ周りから浮かない紅葉
エレガント、優雅な落ち着いた雰囲気クリスマス
エスニック、異国風な伸縮性がある通勤、オフィス
クラシック、
トラディショナルな
通気性が良い休日のお出かけに
マニッシュ、男性的な着回しやすそう
オンオフ兼用（仕事でも休
日でも）
ボーイッシュ、男の子っぽい
着痩せしそう、
スタイルアップ
子どもの送り迎えに行ける
スポーティー美脚に見えそう合コン（異性ウケする）
元気、アクティブ、
活動的な、活発な
インパクト抜群、
インパクトが強い
女子会（同性ウケする）
都会的、アーバンな
スタイリングの
主役アイテムになる
デート
シックな、垢ぬけている、
洗練されている
着てインスタに投稿したくなる、
インスタ映え
パーティー
盛れる、自分を
よりよく見せてくれる
旅行
バイナリのアノテーション(印象的)一覧
ガーリー

アノテーションのばらつき 10
印象的なアノテーションは似た服飾画像に付与されている場合
と付与されていない場合がある
形状的なアノテーションは似た服飾画像には同一のアノテー
ションが付与される場合が多い
ガーリー
ワンピース
パンツ
スカート

CNNの構造
11
画像認識のデファクトスタンダードであるCNNを使用
ネットワーク構造
カテゴリ、4段階評価、バイナリ評価のものを
学習するため3つに枝分かれ
正解ラベル
カテゴリ:ワンホットラベル
4段階:マルチラベル
バイナリ:マルチラベル
出力
カテゴリ:アノテーションの付く確率
4段階:アノテーションの度合い
バイナリ:アノテーションの付く確率
予備実験でVGG16[1], Inception-v3[2],
Resnet[3]からResnetを選択
基本ユニットからなるブロックが複数存在
し、ブロックごとに次元数が異なる
[1]Karen Simonyan and Andrew Zisserman. Very Deep Convolutional
Networks for Large-Scale Image Recognition. Sep 2014.
[2] Christian Szegedy, Vincent Vanhoucke, Sergey Ioffe, Jonathon
Shlens, and Zbigniew Wojna. Rethinking the Inception Architecture
for Computer Vision. dec 2015.
[3] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep
Residual Learning for Image Recognition. dec 2015.

損失関数
12
カテゴリ:クロスエントロピー
4段階:重み付きMSE
(各段階の数) × (各段階の重み) = const
スケールを合わせたものを全体の損失
重み付けしないとデータ数の影響が大きい
(各段階の数) × (各段階の重み) = const
バイナリ:重み付きシグモイドクロスエントロピー
各アノテーションに対して全て0と答えるだけで平均正解
率が87.9%となってしまい、学習が進まない
𝑙1 = −
𝑘=1
𝑁 𝑐
𝑥 𝑘 log 𝑧 𝑘
𝑥：CNNの出力 𝑧：正解ラベル
w 𝑘1 = 1 𝑙2 =
1
𝑛 𝑏𝑎𝑡𝑐ℎ
1
𝑁4
𝑚=0
𝑛 𝑏𝑎𝑡𝑐ℎ
𝑘=1
𝑁4
( 𝑥 𝑘𝑚 − 𝑧 𝑘𝑚 𝑤 𝑘𝑧 𝑘𝑚
)2
𝑤 𝑘𝑗 =
𝑛 𝑘1
𝑛 𝑘𝑗
, ,
𝑙3 =
1
𝑁2
𝑘=1
𝑁2
(−α 𝑘 𝑥 𝑘 log 𝑧 𝑘 − (1 − 𝛼 𝑘)(1 − 𝑥 𝑘) log(1 − 𝑧 𝑘))α 𝑘 =
𝑛 𝑘1
𝑛k1 + 𝑛 𝑘0
,

最適化手法
13
予備実験でAdadelta[1], Adam[2],
SGDR[3]からSGDRを選択
何度か学習率を0にしてから戻す段階で
鞍点を抜けると考えられ、
アンサンブル効果が期待できる
SGD+Momentumの学習率を
コサインアニーリングで変化させる
[1]Matthew D. Zeiler. ADADELTA: An Adaptive Learning Rate
Method. Dec 2012.
[2]DiederikP. Kingma and Jimmy Ba. Adam: A Method for
Stochastic Optimization. dec 2014.
[3] Ilya Loshchilov and Frank Hutter. SGDR: Stochastic Gradient
Descent with Warm Restarts. aug 2016.

実験
14
目的アノテーションの学習に適した手法、
パラメータの探索
設定
・from scratch
・fine-tuning from block3
・fine-tuning from block4
の３つの方法
初期学習率はlr ={0.1, 0.05}の2通り
計6通りで学習、比較
赤で囲まれた部分を学習
・他はimagenetの学習済みモデル
の重みで固定
評価方法
カテゴリ:top1 accuracy
4段階:MAE
バイナリ:感度と特異度の平均
訓練テスト
商品数 21466 2386
画像枚数 64462 7196
データ数
30, 70, 150エポックのアンサンブル
batch_size:50, epoch:150,
weight decay:0.0001, momentum:0.9

結果
15
MAE
(4段階)
感度と特異
度の平均
(バイナリ)
Top1
accuracy
(カテゴリ)
from scratch
(lr=0.1)
0.241 65.6% 89.6%
from scratch
(lr=0.0.5)
0.237 65.8% 89.8%
Fine-tuning
from block3
(lr=0.1)
0.241 67.7% 90.8%
Fine-tuning
from block3
(lr=0.05)
0.239 68.1% 91.3%
Fine-tuning
from block4
(lr=0.1)
0.242 68.1% 91.0%
Fine-tuning
from block4
(lr=0.05)
0.238 69.0% 91.4%
ファインチューニングの方が良い
・ゼロから学習する部分を増やすに
はデータ数が足りない
通常の正解率は全部0と答えれば8割超え
感度(1とついたものを当てられた確率)
特異度(0とついたものを当てられた確率)
平均を取るとチャンスレベルは50％
F値だとアノテーションごとにチャンスレ
ベルが変わってしまう
バイナリは最高でも69%だが、学習で
きていないのではなく、意見が別れる
ものを一人でつけたというデータの性
質によるものと考えられる
個別の結果を見て検証
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ

スーツと付与された画像群
カットソーブラウスニット
カットソーと認識した画像群
結果(カテゴリ)
16
スーツが低いのはアノテーション
に問題あり
カテゴリ
Top1
accuracy
商品数
①カットソー 83.2% 3291
②ブラウス 92.2% 3657
③ニット 93.5% 5172
④コート 88.3% 908
⑤ジャケット 75.0% 907
⑥ブルゾン 64.1% 449
⑦スカート 98.5% 3536
⑧パンツ 95.3% 2431
⑨ワンピース 96.4% 3424
⑩スーツ 7.41% 77
全体 91.4% 23852
カテゴリとTop1 accuracy
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
① 858 85 58 6 5 1 0 0 18 0
② 52 997 14 0 0 0 2 0 16 0
③ 69 11 1785 9 7 1 9 3 16 0
④ 0 1 10 219 7 8 0 1 2 0
⑤ 5 1 5 14 174 31 0 0 2 0
⑥ 2 3 3 4 24 66 0 0 1 0
⑦ 0 0 1 0 0 0 912 13 0 0
⑧ 0 1 2 0 0 0 27 690 4 0
⑨ 5 10 11 2 0 0 1 0 877 4
⑩ 1 0 0 0 0 0 0 0 24 2
予測
トップスがボトムスと比べて低めなのは
違いがはっきりしていないから
ア
ノ
テ
ー
シ
ョ
ン
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ

結果(4段階評価のアノテーション)
17
1.0 0.66 0.33 0.0 ALL
かわいい 0.302 0.142 0.253 0.515 0.241
きれい 0.320 0.125 0.267 0.532 0.240
かっこいい、クール 0.449 0.226 0.169 0.330 0.257
モテ服、モテる 0.411 0.189 0.188 0.383 0.230
セクシー 0.509 0.266 0.136 0.305 0.237
おしゃれ 0.394 0.144 0.223 0.495 0.224
重みをつけたが、
未だに数の影響がある
4段階評価のアノテーションとMAE
どれだけ人に近いか検証
付与数が最小の段階
平均1734商品
付与数が最大の段階
平均9603商品
複数人でアノテーションを
付け、CNNの出力と比較
右側にかわいい服が多いこと
を専門家に確認してもらった
とても当
てはまる
(1.0)
ア
ノ
テ
ー
シ
ョ
ン
1.00.0 CNNの出力(かわいさの度合い)
やや当て
はまる
(0.66)
全く当て
はまらな
い(0.0)
あまり当
てはまら
ない(0.33)
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ

結果(バイナリのアノテーション)
18
無地 83.6%
花柄 89.3％
ボーダー 81.3%
甘い 61.7%
ハレの日、人生の
イベント
67.6%
お祭り、花火大会 69.8%
休日のお出かけに 57.4%
親しみやすい、親
近感アップする 59.0%
軽やか 59.2%
印象的なものは感度と特異度の平均が低く、
形状的なものは高い傾向
印象的なものの方が人の意見が分かれる
平均
印象的 65.2%
形状的 73.5%
全体 69.0%
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ
0
10
20
30
40
50
60
70
80
90
40~60% 60~70% 70~80% 80~90% 90%~
印象的形状的全体

CNNの出力とアノテーション
19
甘い(61.7％)
色は甘いけどトレンチコートなので甘くない
甘
い
と
付
与
ア
ノ
テ
ー
シ
ョ
ン
0 CNNの出力(甘いと付与される確率) 1
甘
い
と
付
与
さ
れ
て
い
な
い

CNNの出力とアノテーション
20
どれだけ人間に近いか検証が必要
夏らしい、夏に着たい (73.9％)
アノテーションは付いていないが半袖の
シャツ、ブラウスなので夏らしい
付いていたアノテーションにバラつきはあるが、
右側に夏らしい服が多いことを専門家に確認してもらった
10
複数人でアノテーションを付け、CNNの出力と比較
夏
ら
し
い
と
付
与
ア
ノ
テ
ー
シ
ョ
ン
CNNの出力(夏らしいと付与される確率)
夏
ら
し
い
と
付
与
さ
れ
て
い
な
い

まとめ
21
アノテーションの学習を行うために以下を行った
・23852商品にアノテーションを付与
・結果の解釈
印象的、形状的なアノテーション
・学習機構の決定
CNN構造の選択、損失関数の設定、最適化手法の選択
実用における有効性の検証
複数人でアノテーションを付与し、CNNの出力と比較
バイナリは69％の精度だった
形状的なものは73％で印象的なものは65％
一人の判断で付与したことを考慮すると学習できていると考えられる

kambe

Recommended

Recommended

More Related Content

More from harmonylab

More from harmonylab (20)

Recently uploaded

Recently uploaded (9)

kambe