Advertisement
Advertisement

More Related Content

Similar to 【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究(20)

More from harmonylab(16)

Advertisement

Recently uploaded(20)

【卒業論文】深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究

  1. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 深層生成モデルを用いたユーザ意図に基づく 衣服画像の生成に関する研究 2023/02/07 北海道大学 工学部 情報エレクトロニクス学科 情報理工学コース 複雑情報工学分野 調和系工学研究室 学部4年 竹田悠哉
  2. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 2 背景 意思伝達が難しいと想定される場面 もう少しコンサバな… 顧客→店員:うまく言語化できない 店員→顧客:イメージがわかない [1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144 双方が印象を理解するための印象表現手法が求められる 印象を表すファッション用語は個人の感覚に依存し曖昧[1] → 正確な意思伝達は言語のみでは困難な場合がある (印象の例:かわいい、かっこいい、コンサバ、カジュアル、フェミニンなど)
  3. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 3 各々がその印象を知覚する対象の集合は異なるが、 共通している部分もある 印象の相互理解のためには、 まず共通項を埋めることが必要 印象表現の目標: 1. 共通項としての印象を学習 2. パーソナライズされた印象を表現 本研究では共通項としての印象を対象とする (次段階でユーザごとに最適化) 背景・目的 ユーザAのかわいい B C D E 本研究で扱う 印象の領域
  4. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 4 衣服画像の印象に基づく生成モデルを提案 印象タグに基づく条件付き生成モデルの学習により ファッション画像から印象を抽出 印象で条件付けて画像を生成 研究概要 生成モデル 数値化 条件付き生成 生 成 器 seed 印象 かっこいい 1 4 「かっこいい」が 1の画像 「かっこいい」が 4の画像
  5. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 先行研究 5 • 服飾画像の印象でタグ付けされたデータ セットを構築 • 印象推定器を作成 ResNet-50 研究 概要 モデル 服飾画像の 印象推定 [2] Recommendation of Compatible Outfits Conditioned on Style [3] • アウトドア、フォーマルなどのonline portalな分類 (≒印象)に基づく全身コーディネート推薦 • トップスと百分率で表した分類項目を与えると、 ボトムス、靴、アクセサリーをビームサーチで出力 Style-Compatibility- Attention Network + Style Encoder Network (ResNetベース) 検 索 Fashion Intelligence System [4] • ZOZO研究所等による印象に基づく検索システム • 全身コーディネート画像とファッション特有の曖昧かつ 多様な表現を学習・解釈 • ファッションに関する選択・行動を支援 Visual-Semantic Embedding (CNN、BOWで写像) 定 量 化 深層学習で衣服の印象を扱った研究 [2]神戸瑞樹 (2020). 深層学習を用いた服飾画像の印象推定に関する研究. [3] Banerjee, D., Dhakad, L., Maheshwari, H., Chelliah, M., Ganguly, N. and Bhattacharya (2022). A.: Recommendation of Compatible Outfits Conditioned on Style, Lecture Notes in Computer Science (including subseries Lecture Notes in Artificial Intelligence and Lecture Notes in Bioinformatics), Vol.13185 LNCS, pp.35–50 [4] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto (2022) .Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags, https://doi.org/10.1016/j.eswa.2022.119167. 推 薦
  6. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 先行研究 6 • 属性のテクスト入力で操作可能な人物画像生成 • 既存の生成モデルでは難しい形や質感を高品質に再現 • 2ステージで生成;解析器が出力したマスク画像に 階層的コードブックを用いた生成器で服の質感を付与 解析器:U-netベース 生成器:VQVAE2ベース 研究 概要 モデル TEXT2HUMAN [5] ADGAN [6] • ソース画像の属性による制御が可能な人物画像合成 • 属性は潜在空間に埋め込まれ(Pose Code, Style Code)、 Style Codeを編集することで制御・生成 • Style Block接続を備えた2つのエンコーディング経路 VGGエンコーダ+GAN (StyleGANライク) 生 成 [5] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4). https://doi.org/10.1145/3528223.3530104 [6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition 衣服画像生成では印象が反映されていない
  7. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 7 モデルの選定 衣服画像生成の先行研究 GANを利用 StyleGANを利用した画像生成 アーキテクチャと滑らかな潜在空間 手法 モデルの選定
  8. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 8 生成モデルにはGANを使用 VQVAEなどベクトル量子化を用いた生成モデルが成果を 上げているが、潜在空間が離散化されるのは本研究では 好ましくない また、研究の目的に対して、超高画質の画像生成は不要 手法:モデル選定 深層生成モデル アーキテクチャ 推論 GAN 生成器 G(z) 識別器 D(x) 単体では不可能 (エンコーダを導入) 拡散モデル 逆過程 拡散過程 可能 𝑝(𝐱𝐫)𝚷𝐭𝐩(𝐱𝐭−𝟏|𝐱𝐭) Π𝑡𝑞(𝐱𝐭|𝐱𝐭−𝟏)
  9. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 9 モデルの選定 衣服画像生成の先行研究 GANを利用 StyleGANを利用した画像生成 アーキテクチャと滑らかな潜在空間 手法
  10. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. StyleGANを利用した画像生成 10 潜在空間𝒲の性質により印象を反映した画像を生成 [7] Karras, T., & Aila, T. (n.d.). (2020). Analyzing and Improving the Image Quality of StyleGAN. [8] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila (2020). Training Generative Adversarial Networks with Limited Data. NeurIPS. StyleGAN2の生成器 synthesis network mapping network d-Latent 非線形写像 𝑓により 𝑧 をdisentanglement 歪んだ潜在空間 整った潜在空間 スタイルブロック: コンテンツ情報(A)をもとに スタイルに応じた画像を生成 条件 StyleGAN2 ADA(Adaptive Discriminator Augmentation)[7,8] のアーキテクチャ
  11. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 11 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察
  12. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 12 印象タグ付きの衣服画像を用いた教師なし学習 実験:データセット かわいい きれい かっこいい モテる セクシー おしゃれ 3 4 1 3 2 4 3 4 1 3 2 4 3 4 2 2 2 3 3 3 1 3 2 3 ・・・ カジュアル ガーリー 甘い 1 0 0 1 0 0 0 0 0 0 0 0 ・ ・ ・ タグA(6種類) タグB(142種類) (71781点) 色違い Fashion Impression Dataset [2] • ECサイトの画像に対して、デザイナーの意見から厳選されたタグを、 ファッションの専門学校生52名でアノテーション [2]神戸瑞樹. .(2020). 深層学習を用いた服飾画像の印 象推定に関する研究.
  13. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 13 ファッション用語の印象は、[1]のアンケート調査における 数量化Ⅲ類では図のようなマトリックスで可視化されている 先行研究をもとにデータセットを分析し、タグAのうち 「かわいい」「かっこいい」を使用し学習 実験:印象の選択 [1]友部 直美, 柳田 佳子『ファッションスタイルに対するファッ ションイメージ用語の適合性に関する一考察』 かわいさ 活動性 タグAの相関行列 かわいい きれい かっこいい モテる セクシー おしゃれ かわいい 1 0.1375 -0.1960 0.3887 0.1015 0.2466 きれい 0.1375 1 0.1369 0.2674 0.0907 0.2139 かっこいい -0.1960 0.1369 1 0.0904 0.3346 0.2010 モテる 0.3887 0.2674 0.0904 1 0.3802 0.4261 セクシー 0.1015 0.0907 0.3346 0.3802 1 0.2789 おしゃれ 0.2466 0.2139 0.2010 0.4261 0.2789 1 かわいい かっこいい
  14. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 14 カテゴリに基づく分類に分けて学習 実験:カテゴリ分類について 分類 カテゴリ データ数 トップス カットソー 10719 ブラウス 10650 ニット 18693 コート 2481 ジャケット 2180 ブルゾン 1112 ワンピース ワンピース 9313 カテゴリを「トップス」「ワンピース」 に分け、 それぞれ学習 カットソー ブラウス ワンピース ブルゾン
  15. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 15 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験
  16. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 実験:学習 16 systhesis network mapping network 印象を付与 した画像 出力 入力 印象 (整数値) 反復回数:800000 バッチ数:16 最適化:Adam 学習率:0.0025 画像サイズ:256×256 データ拡張:ADA 学習設定 印象タグの入力 ・単一の印象で 学習をおこなう ①かわいい:1,2,3,4 ②かっこいい:1,2,3,4 条件付きでStyleGAN2 ADAを学習 Seed 印象タグ付きの衣服画像を用いた教師なし学習
  17. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 17 実験結果 生成画像 変化の品質には幅がある 色や形、柄、装飾などが変化 同一の衣服において、印象に基づく 変化がなされることが適切 生成画像における品質の割合 (各72枚を手作業で分類) 変化が過剰なもの 変化に乏しいもの 印象 かわいい かっこいい カテゴリ分類 トップス ワンピース トップス ワンピース 変化に乏しい 29.17% 45.83% 8.33% 33.33% 変化が適切 58.33% 41.67% 33.33% 45.83% 変化が過剰 12.50% 12.50% 58.33% 20.83% 条件値:1 条件値:4 入力値:1 条件値:4
  18. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 18 実験結果 生成画像 タグ:かわいい トップス ワンピース 1.当てはまらない 2.どちらかというと 当てはまらない 3.どちらかというと 当てはまる 4. 当てはまる ・色合いが明るく ・ウエストが締まり、 肩紐が細く 変化 ・色合いが明るく ・ウエストが締まり、 袖が短く ・下部にプリーツ
  19. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 19 実験結果 生成画像 タグ:かっこいい 1.当てはまらない 2.どちらかというと 当てはまらない 3.どちらかというと 当てはまる 4. 当てはまる ・色合いが濃く ・襟が付き,全体的に 角ばったフォルムに 変化 ・服地の青色が濃く トップス ワンピース 1と4の生成画像を用いてアンケートを実施
  20. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 20 目的:印象に基づく衣服画像生成の検証 実験 データセット Fashion Impression Dataset 扱う印象とカテゴリ分類について モデルの学習と生成画像の分析 アンケート調査 概要 印象「かわいい」「かっこいい」ごとの結果と考察 実験
  21. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 21 目的:生成モデルが付与した印象が見た目として現れているか調査 20代男女14名(各7名ずつ)にアンケート調査を実施 質問形式は次スライド①~④の4種類 計28問(①4問、②8問、③8問、④8問) ①②は印象の4択で、選択肢は[1]のPCAをもとに選定 アンケート調査 かわいさ 活動性 かわいい かっこいい エレガント アクティブ 「印象を付与」の例 [1]友部 直美, 柳田 佳子 (2014) ファッションスタイルに対するファッションイメージ用語の適合性に関する一考察. 日本感性工学会論文誌 2014 年13巻1号 p.137-144
  22. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 22 アンケート調査:質問形式 ③ ある印象がどのくらい変化したと思うか回答 意図:付加された印象がわかるか、どれくらいか ④ 足した印象を開示した上で、どの程度感じるか回答 意図:付加された印象に同意が得られるか ① データセットの画像の印象を4択で回答 目的:回答者の印象に対する理解の調査 ② 足された印象を4択で回答 目的:付加された印象がわかるか
  23. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 23 集計方法 ①、②は、印象を選択肢から回答 →そのまま4択として集計 ③、④は、追加した印象が増加した ように感じた割合 →2択にして正答率として集計 概観 正答率は全体として71~79%(95%信頼区間) かわいいの方が、かっこいいより高い トップスの方が、ワンピースより高い クイズ形式の③の方が、 同意を問う形式の④より高い 全体としての数字にユーザーごとの 大きな偏りはなかった アンケート調査:結果 回答者ごとの正答率 印象、質問形式、カテゴリごとの正答率 ① ② ③ ④
  24. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 24 かわいい 正答率が高かったものは 細部の変化が大きい プリーツの追加 ウエストが絞られる 正答率が低かったものは 大域的に変化 服地の色や柄の変化 ベルトの追加 丈が短くなる アンケート調査:印象の違いによる結果 Q24:かわいいを足して生成、かわいいという印象が 足されたと感じるか? Q17:ある印象を足して生成、かっこいいという印象が 足されたと思うか? 全員正解だった設問(形式③) 全員正解だった設問(形式④)
  25. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 25 かわいい 正答率が高かったものは 細部の変化が大きい プリーツの追加 ウエストが絞られる 正答率が低かったものは 大域的に変化 服地の色や柄の変化 ベルトの追加 丈が短くなる アンケート調査:印象の違いによる結果 Q23:かわいいを足して生成、かわいいという印象が 足されたと感じるか? Q5:ある印象を足して生成、どの印象が足されたと思うか? 正答率が低かった設問(形式②) 正答率が低かった設問(形式④)
  26. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 26 アンケート調査:印象の違いによる結果 かっこいい かわいいよりも正答率が低い ワンピースが特に低い <理由として考えられること> Q26:かっこいいを足して生成、かっこいいという印象が 足されたと感じるか? かっこいいとワンピースの相性 ワンピースというカテゴリが かわいい寄りである 明確な記号の有無 形やプリーツといった、多くの人が 同意する特徴が少ない可能性がある 正答率が低かった設問(形式②) 正答率が低かった設問(形式④) Q5:ある印象を足して生成、どの印象が足されたと思うか?
  27. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 27 アンケート調査:印象の違いによる結果 かっこいい かわいいよりも正答率が低い ワンピースが特に低い <理由として考えられること> かっこいいとワンピースの相性 ワンピースというカテゴリが かわいい寄りである 明確な記号の有無 形やプリーツといった、多くの人が 同意する特徴が少ない可能性がある データセットにおける ワンピースの印象内訳 (上:かわいい、 下:かっこいい)
  28. Copyright © 2020 調和系工学研究室 - 北海道大学 大学院情報科学研究院 情報理工学部門 複合情報工学分野 – All rights reserved. 28 まとめと展望 生成モデルで印象を付与できるか、第一弾の検証として、 印象による条件付き生成の手法による結果をアンケート調査 生成結果に対するアンケートは、正答率100%がある一方、 あまり賛同を得られない設問もあった →生成モデルでの印象の付与に一定の有効性 他の印象での検証 手法の改良:生成における印象の付与の改善 学習時に細部の変化が大きくなるような項を追加 潜在空間の解析と利用 マルチラベルでの安定した学習と生成 マルチモーダルモデル 画像を入力とする まとめ 展望

Editor's Notes

  1. 深層生成モデルを用いたユーザ意図に基づく衣服画像の生成に関する研究
  2. 1.1 一般消費者における印象 1.2 専門家の共通認識としての印象 ・最終的には各々の印象 ・まずは,共通項の部分を ・コミュニケーションの円滑化には,まず共通認識→パーソナライズ ・本研究では~
  3. 研究の概要図 印象付与後の画像の例が欲しい 具体的なseedや生成方法は後のスライドで
  4. [4] Peebles, W., Zhang, R., Torralba, A., Efros, A. A., Berkeley, U. C., & Ai, F. (n.d.). GAN-Supervised Dense Visual Alignment. (2022) [5] Alaluf, Y., Patashnik, O., & Cohen-Or, D. (2022). ReStyle: A Residual-Based StyleGAN Encoder via Iterative Refinement. 6691–6700. https://doi.org/10.1109/iccv48922.2021.00664 (2021) [6] Ryotaro Shimizu, Yuki Saito, Megumi Matsutani, Masayuki Goto, Fashion intelligence system: An outfit interpretation utilizing images and rich abstract tags, https://doi.org/10.1016/j.eswa.2022.119167. (2022)
  5. [2] Jiang, Y., Yang, S., Qiu, H., Wu, W., Loy, C. C., & Liu, Z. (2022). Text2Human: Text-Driven Controllable Human Image Generation. ACM Transactions on Graphics, 41(4). https://doi.org/10.1145/3528223.3530104 [3] Hou, Y., Vig, E., Donoser, M., & Bazzani, L. (2022). Learning Attribute-driven Disentangled Representations for Interactive Fashion Retrieval. 12127–12137. https://doi.org/10.1109/iccv48922.2021.01193 [6] Men, Y., Mao, Y., Jiang, Y., Ma, W. Y., & Lian, Z. (2020). Controllable person image synthesis with attribute-decomposed gan. In Proceedings of the IEEE/CVF conference on computer vision and pattern recognition
  6. [8] Karras, T., & Aila, T. (n.d.). Analyzing and Improving the Image Quality of StyleGAN. (2020) [9] Tero Karras, Miika Aittala, Janne Hellsten, Samuli Laine, Jaakko Lehtinen, Timo Aila Training Generative Adversarial Networks with Limited Data. NeurIPS. (2020)
  7. 印象が反映されない,衣服の変化が大きすぎる(色や形が別の商品と 言えるほど変化したり,カテゴリーが変わったりする)といった生成における 問題点の解消や,モード崩壊を防ぐため
  8. 角度や微妙な照明の違いで同じに見える 母集団:71539 信頼レベル90%、許容誤差5% →271.2 < 72 * 4 (= 288)
  9. かっこいいの方が低いものが多い 低いものは色は変わっていても細部の変化が少ない? p3p4を見ると,かっこいいのワンピースが特に低い →かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り) 「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
  10. かっこいいの方が低いものが多い 低いものは色は変わっていても細部の変化が少ない? p3p4を見ると,かっこいいのワンピースが特に低い →かっこいいとワンピースが,そもそも相性が悪い?(ワンピースというカテゴリーが既にかわいい寄り) 「かわいい」にはリボンが付くといった明確に記号があるが,「かっこいい」の
  11. アプリとして使う上で必要と思われること ピクセル値の変化や識別ネットワークでの数値化により生成画像の変化の度合いを取得 ルールベースやヒューリスティックで条件付けに用いる数値を改良 展望は目的に照らし合わせて
Advertisement