More Related Content
More from harmonylab (20)
kambe
- 2. steady. 2017年8月号, 宝島社, pg.20
2
服飾は「大人っぽい」「ガーリー」
などの印象的な語と
「ストライプ」「花柄」といった
形状的な語によって表現される
明確な定義がなく、受け手によって変わり得る
ものの一定の共通認識がある
non-no 2018年3月号, 集英社, pg.55
研究背景 主役級の甘め柄
こ
っ
く
り
甘
く
レ
ト
ロ
可
愛
く
大人ガーリー
- 3. 研究目的
3
・調査できる範囲が狭い
(サンプル数百、影響を与える要因数個のみ)
・複数のアノテーションを学習する
にはモデルが複数必要
(段々と画像を直接扱うように)
万単位の服飾画像から複数のアノテーションを
定量的に抽出・評価する方法の確立
先行研究
・「パンツシルエット」[1]「プリーツ数とスカートの丈」[2]が服飾の印象に与え
る影響の調査
・重回帰[3]やニューラルネット[4],CNN[5]によるアノテーションの学習
何が売れてるかの分析から
何故売れてるかの分析に移行できる
[1]藤井 一枝. パンツシルエットが着装評価に及ぼす影響. 繊維機械学会誌,
Vol.52, No.11, pp. T255–T262, 1999
[2]李 正和, 丸田 直美, 廣川 妙子. プリーツ数とスカート丈の変化が年齢層
別プリーツスカートの視覚的イメージに及ぼす影響. 日本感性工学会論文
誌, Vol.11, No.3, pp. 397–406, 2012
[3]今村 亮介, 椎塚 久雄. 重回帰分析を用いた T シャツデザインの感性評価.
工学院大学研究報告, Vol. 101, pp. 135–139, 2006
[4]太田 茂, 竹之内 宏, 徳丸 正孝. 深層ニューラルネットワークによる特徴
抽出を用いた衣服の感性検索. 日本感性工学会論文誌, Vol.16, No.3, pp.
277–283, 2017
[5] Hossein Talebi and Peyman Milanfar. NIMA: Neural Image Assessment
- 9. アノテーションの例(バイナリ(印象的)) 9
光沢感がある
個性的、
個性の強い、独特の
季節を選ばず着られる、
シーズンレス
透け感があり 甘い
腕を細く見せられる、
二の腕カバー
落ち感がある 辛い
リラックスできる、
くつろげる
春らしい、春に着たい 可愛らしい
解放感のある、
自由な気分になれる
夏らしい、夏に着たい 大人っぽい ヘルシー、健康的に見える
秋らしい、秋に着たい 爽やか
体のラインを美しく見せて
くれる
冬らしい、冬に着たい 華やか ハレの日、人生のイベント
カジュアル 軽やか
高級感を感じさせる、高見
えする
定番、ベーシック、シンプル フレッシュな、若々しい 子どもの入学式
コンサバ 清潔感がある、きれいめ、上品 入社式
ナチュラル、飾らない、自然体の
清楚、清らか、
育ちが良さそうな
新生活、新しい職場での始
まりに
ストリート
きちんとしている、
仕事で着ていけそう
マリン、海、ビーチ
ガーリー
好感が持てる、
好感度アップする
お祭り、花火大会
フェミニン
親しみやすい、
親近感アップする
アウトドア
モード 優しい感じがする 美術館巡り、芸術鑑賞
クール、スタイリッシュ 周りから浮かない 紅葉
エレガント、優雅な 落ち着いた雰囲気 クリスマス
エスニック、異国風な 伸縮性がある 通勤、オフィス
クラシック、
トラディショナルな
通気性が良い 休日のお出かけに
マニッシュ、男性的な 着回しやすそう
オンオフ兼用(仕事でも休
日でも)
ボーイッシュ、男の子っぽい
着痩せしそう、
スタイルアップ
子どもの送り迎えに行ける
スポーティー 美脚に見えそう 合コン(異性ウケする)
元気、アクティブ、
活動的な、活発な
インパクト抜群、
インパクトが強い
女子会(同性ウケする)
都会的、アーバンな
スタイリングの
主役アイテムになる
デート
シックな、垢ぬけている、
洗練されている
着てインスタに投稿したくなる、
インスタ映え
パーティー
盛れる、自分を
よりよく見せてくれる
旅行
バイナリのアノテーション(印象的)一覧
ガーリー
付与 付与されていない
- 12. 損失関数
12
カテゴリ:クロスエントロピー
4段階:重み付きMSE
(各段階の数) × (各段階の重み) = const
スケールを合わせたものを全体の損失
重み付けしないとデータ数の影響が大きい
(各段階の数) × (各段階の重み) = const
バイナリ:重み付きシグモイドクロスエントロピー
各アノテーションに対して全て0と答えるだけで平均正解
率が87.9%となってしまい、学習が進まない
𝑙1 = −
𝑘=1
𝑁 𝑐
𝑥 𝑘 log 𝑧 𝑘
𝑥:CNNの出力 𝑧:正解ラベル
w 𝑘1 = 1 𝑙2 =
1
𝑛 𝑏𝑎𝑡𝑐ℎ
1
𝑁4
𝑚=0
𝑛 𝑏𝑎𝑡𝑐ℎ
𝑘=1
𝑁4
( 𝑥 𝑘𝑚 − 𝑧 𝑘𝑚 𝑤 𝑘𝑧 𝑘𝑚
)2
𝑤 𝑘𝑗 =
𝑛 𝑘1
𝑛 𝑘𝑗
, ,
𝑙3 =
1
𝑁2
𝑘=1
𝑁2
(−α 𝑘 𝑥 𝑘 log 𝑧 𝑘 − (1 − 𝛼 𝑘)(1 − 𝑥 𝑘) log(1 − 𝑧 𝑘))α 𝑘 =
𝑛 𝑘1
𝑛k1 + 𝑛 𝑘0
,
- 14. 実験
14
目的 アノテーションの学習に適した手法、
パラメータの探索
設定
・from scratch
・fine-tuning from block3
・fine-tuning from block4
の3つの方法
初期学習率はlr ={0.1, 0.05}の2通り
計6通りで学習、比較
赤で囲まれた部分を学習
・他はimagenetの学習済みモデル
の重みで固定
評価方法
カテゴリ:top1 accuracy
4段階:MAE
バイナリ:感度と特異度の平均
訓練 テスト
商品数 21466 2386
画像枚数 64462 7196
データ数
30, 70, 150エポックのアンサンブル
batch_size:50, epoch:150,
weight decay:0.0001, momentum:0.9
- 15. 結果
15
MAE
(4段階)
感度と特異
度の平均
(バイナリ)
Top1
accuracy
(カテゴリ)
from scratch
(lr=0.1)
0.241 65.6% 89.6%
from scratch
(lr=0.0.5)
0.237 65.8% 89.8%
Fine-tuning
from block3
(lr=0.1)
0.241 67.7% 90.8%
Fine-tuning
from block3
(lr=0.05)
0.239 68.1% 91.3%
Fine-tuning
from block4
(lr=0.1)
0.242 68.1% 91.0%
Fine-tuning
from block4
(lr=0.05)
0.238 69.0% 91.4%
ファインチューニングの方が良い
・ゼロから学習する部分を増やすに
はデータ数が足りない
通常の正解率は全部0と答えれば8割超え
感度(1とついたものを当てられた確率)
特異度(0とついたものを当てられた確率)
平均を取るとチャンスレベルは50%
F値だとアノテーションごとにチャンスレ
ベルが変わってしまう
バイナリは最高でも69%だが、学習で
きていないのではなく、意見が別れる
ものを一人でつけたというデータの性
質によるものと考えられる
個別の結果を見て検証
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ
- 16. スーツと付与された画像群
カットソー ブラウス ニット
カットソーと認識した画像群
結果(カテゴリ)
16
スーツが低いのはアノテーション
に問題あり
カテゴリ
Top1
accuracy
商品数
①カットソー 83.2% 3291
②ブラウス 92.2% 3657
③ニット 93.5% 5172
④コート 88.3% 908
⑤ジャケット 75.0% 907
⑥ブルゾン 64.1% 449
⑦スカート 98.5% 3536
⑧パンツ 95.3% 2431
⑨ワンピース 96.4% 3424
⑩スーツ 7.41% 77
全体 91.4% 23852
カテゴリとTop1 accuracy
① ② ③ ④ ⑤ ⑥ ⑦ ⑧ ⑨ ⑩
① 858 85 58 6 5 1 0 0 18 0
② 52 997 14 0 0 0 2 0 16 0
③ 69 11 1785 9 7 1 9 3 16 0
④ 0 1 10 219 7 8 0 1 2 0
⑤ 5 1 5 14 174 31 0 0 2 0
⑥ 2 3 3 4 24 66 0 0 1 0
⑦ 0 0 1 0 0 0 912 13 0 0
⑧ 0 1 2 0 0 0 27 690 4 0
⑨ 5 10 11 2 0 0 1 0 877 4
⑩ 1 0 0 0 0 0 0 0 24 2
予測
トップスがボトムスと比べて低めなのは
違いがはっきりしていないから
ア
ノ
テ
ー
シ
ョ
ン
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ
- 17. 結果(4段階評価のアノテーション)
17
1.0 0.66 0.33 0.0 ALL
かわいい 0.302 0.142 0.253 0.515 0.241
きれい 0.320 0.125 0.267 0.532 0.240
かっこいい、クール 0.449 0.226 0.169 0.330 0.257
モテ服、モテる 0.411 0.189 0.188 0.383 0.230
セクシー 0.509 0.266 0.136 0.305 0.237
おしゃれ 0.394 0.144 0.223 0.495 0.224
重みをつけたが、
未だに数の影響がある
4段階評価のアノテーションとMAE
どれだけ人に近いか検証
付与数が最小の段階
平均1734商品
付与数が最大の段階
平均9603商品
複数人でアノテーションを
付け、CNNの出力と比較
右側にかわいい服が多いこと
を専門家に確認してもらった
とても当
てはまる
(1.0)
ア
ノ
テ
ー
シ
ョ
ン
1.00.0 CNNの出力(かわいさの度合い)
やや当て
はまる
(0.66)
全く当て
はまらな
い(0.0)
あまり当
てはまら
ない(0.33)
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ
- 18. 結果(バイナリのアノテーション)
18
無地 83.6%
花柄 89.3%
ボーダー 81.3%
甘い 61.7%
ハレの日、人生の
イベント
67.6%
お祭り、花火大会 69.8%
休日のお出かけに 57.4%
親しみやすい、親
近感アップする 59.0%
軽やか 59.2%
印象的なものは感度と特異度の平均が低く、
形状的なものは高い傾向
印象的なものの方が人の意見が分かれる
平均
印象的 65.2%
形状的 73.5%
全体 69.0%
印象的
4段階
バイナリ
6個
77個
形状的
65個バイナリ
10個カテゴリ
0
10
20
30
40
50
60
70
80
90
40~60% 60~70% 70~80% 80~90% 90%~
印象的 形状的 全体