Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

oke_b

1,747 views

Published on

Published in: Technology
  • Be the first to comment

  • Be the first to like this

oke_b

  1. 1. CNNを利用した 服飾画像の特徴量抽出に 関する基礎研究 A Study on Learning Similarity Metric on Clothing Based on Convolutional Neural Network 卒業論文発表 北海道大学 工学部 情報エレクトロニクス学科 複雑系工学講座 調和系工学研究室 4年 桶智輝 1
  2. 2. 研究背景・目的 [1] Kota Yamaguchi, M Hadi Kiapour, Luis E Ortiz, Tamara L Berg 2014 “Retrieving Similar Styles to Parse Clothing” [2] Si Liu, Zheng Song, Guangcan Liu, Changsheng Xu, Hanqing Lu, Shuicheng Yan“Street-to-Shop: Cross-Scenario Clothing Retrieval via Parts Alignment and Auxiliary Set” 服飾同定に関する研究[1] 服飾領域に関する研究[2] ・インターネット上の服飾画像の増加 ・ディープラーニングによる画像処理分野の発展 服飾画像に関する研究が増加 問題点 ・着用に伴う変形 ・重ね着による隠れ ・撮影環境 服飾画像特有の変化要因 特有の要因に左右されない、服飾画像の特徴量抽出を行いたい 2
  3. 3. 研究背景・目的 服飾画像から変化要因に左右されない特徴量を抽出したい 求める特徴量 同じ衣類からは異なる画像でも同じ値となる特徴量 関連研究 同じ衣類の撮影環境の異なる消費者画像とアパレルサイト画像を同定 消費者画像・・撮影環境の整えられていない日常の服飾写真 商品画像・・撮影用に環境を整えて撮影された服飾写真 ・オートエンコーダを用いて学習させたCNNのエンコーダ [1] ・トリプレットロスを用いて学習させたCNN[2] [1] Kiapour, M. HadiHan, Xufeng Lazebnik, Svetlana Berg, Alexander C.Berg, Tamara L. (2016) Where to buy it: Matching street clothing photos in online shops [2] Liu, Ziwei, Qiu, Shi Wang, Xiaogang (2016) DeepFashion : Powering Robust Clothes Recognition and Retrieval with Rich Annotations 服飾画像の特徴量抽出の基礎研究として、関連研究の手法を用 いた特徴量抽出の同定の精度を検証し、同定の成功例と失敗例 からその精度を向上させるための特徴を定性的に評価したい 消費者画像例 商品画像例 3 同定方法 データベース内の衣類と特徴量を比較し、最も特徴量距離の小さいものに同定する 基礎研究として上半身を覆う衣類(Tシャツ)について対象範囲
  4. 4. AlexNetのCNNの構造 入力サイズ 出力サイズ カーネルサイズ ストライド パディング 畳み込み層 3*227*227 96*55*55 11 4 0 最大プーリング層 96*55*55 96*27*27 3 2 0 畳み込み層 96*27*27 256*27*27 5 1 2 最大プーリング層 256*27*27 256*13*13 3 2 0 畳み込み層 256*13*13 384*13*13 3 1 1 畳み込み層 384*13*13 384*13*13 3 1 1 畳み込み層 384*13*13 256*6*6 3 1 1 最大プーリング層 256*6*6 1*4096 3 2 0 全結合層 1*4096 1*4046 - - - 全結合層 1*4096 1*4096 - - - 4
  5. 5. AlexNetのオートエンコーダの構造 入力サイズ 出力サイズ カーネルサイズ ストライド パディング 全結合層 1*4096 1*4096 - - - 全結合層 1*4096 1*4096 - - - 逆プーリング層 256*6*6 256*13*13 3 2 0 逆畳み込み層 256*13*13 384*13*13 3 1 1 逆畳み込み層 384*13*13 256*13*13 3 1 1 逆畳み込み層 256*13*13 384*13*13 3 1 1 逆プーリング層 384*13*13 384*27*27 3 2 0 逆畳み込み層 384*27*27 96*27*27 5 1 2 逆プーリング層 96*27*27 96*55*55 3 2 0 逆畳み込み層 96*55*55 3*227*227 11 4 0 5 ※折り返し後の ネットワーク構成
  6. 6. トリプレットロスを用いた学習法 同じ性質を持つ画像間の特徴量同士の距離(L2ノルム)は小さく,異なる性質を持つ画像 間の特徴量同士の距離(L2ノルム)は大きくなるように学習を進める a 基準となるアンカー画像の特徴量 p 同じ性質の画像の特徴量 n 異なる性質の画像の特徴量 と定義したとき (a,p,n)の3枚1組からな るトリプレットをそれ ぞれ重みを共有した CNNに並行に入力し, 特徴量を取得する. これらから定義される トリプレットロスを CNNに逆伝播し学習を 進めていく. 6
  7. 7. 実験 実験方法 2通りの学習手法でネットワークに衣類画像の特徴量を学習させる 1枚のTシャツに対して消費者画像と商品画像の2枚を持つペアを100組, 計200組の画像を用意する. 1枚の消費者画像と100枚の商品画像との間の類似度を計算する. 消費者画像のペアとなる画像との類似度は100枚と計算された商品画像の類似度の 中で何位なのか算出する 全ての消費者画像に対してこの順位を算出する n位(1 ≦ n ≦ 100)以内にペアの商品画像との類似度が入っているものの消費者画像の 個数を集計する この個数と、計算された類似度に基づいて並べられた画像を手法間で比較する ・AlexNetをオートエンコーダで学習させたネットワークから得られる特徴量のL1ノルム ・AlexNetをオートエンコーダで学習させたネットワークから得られる特徴量のL2ノルム ・AlexNetをトリプレットロスで学習させたネットワークから得られる特徴量のL2ノルム 比較対象 関連研究の手法を用いた特徴量抽出の同定の精度を検証し、同定の成功例と 失敗例からその精度を向上させるための特徴を定性的に評価したい 検証内容 7
  8. 8. データセット画像例 商品画像 消費者画像 Tシャツについて同じ衣類で商品画像と消費者画像のペアを作成。 100組の衣類ペアがテストデータ。 学習に用いる画像もテストデータと同様ペア画像である。 8
  9. 9. 実験 ・AlexNetをオートエンコーダで学習させるネットワーク ・AlexNetをトリプレットロスで学習させるネットワーク 学習経過 175000 iteration時点のパラメータを採用 175000 iteration時点のパラメータを採用 9
  10. 10. 結果 ・トリプレットロスを 用いて学習したネット ワークが3種類のネット ワークを比較したとき に最も高い結果 ・3つの手法の中で最も 高い結果を示したトリ プレットロスでも5位以 内にペアが入っている ものは17件,10位以内 にペアが入っているも のは22件 n位(1 ≦ n ≦ 100)以内にペアの商品画像との特徴量距離の順位が入っている消費者画像の個数 10
  11. 11. 結果 複数枚の消費者画像に対して、1~10位まで特徴量距離順に並べた商品画像の比較 1位 2位 3位 4位 5位 6位 7位 8位 9位 10位消費者画像 ペアの順位 1位 1位 97位 94位 8位 9位 プリントTシャツや、柄物のTシャツなどの模様の入ったTシャツのペア順位は高くなっている。 斜めに撮影されている写真と、無地の写真はペア順位が低くなっている。 ペア順位に関わらず、模様は識別しているが色は識別できていないように見える。 11
  12. 12. まとめ 手法の元論文の課題である衣類同定に対しては、トリプレットロス による学習方法が最も高い結果となった。 プリント柄や柄付きといった、模様付きの衣類の特徴量は抽出出来 ている。 正面から撮影されていない衣類と無地の衣類の特徴量は抽出出来て いない。 12

×