トピックモデルを用いた
潜在ファッション嗜好の推定
Fashion Tech Meetup #1
2015/11/10
Takashi Kaneda
Ryosuke Goto
自己紹介
金田 卓士 @kndt84
データサイエンティスト
• 2009年に大学院を修了 専攻は計量経済学
• 一休.com、ソフトバンク・テクノロジーを
経て現職
• 趣味では、VRミニ四駆という作品を作って、
Maker Faire に出展したりしてます!
1ABOUT iQON
!
60,000 !
	
!
500 	
600 !
	
10,000
	
4.3
4.5
( :7,009 )
( :7,009 )
iQON No.1 !
!
LIKE
No.1 No.1 No.1
No.1 No.1 No.1
200 	
!
600 1/3
現在ユーザーのタイムラインには、フォロースタ
イリストのコンテンツを除き、全てのユーザーに
同じコンテンツが表示されている
新着コーデ 人気コーデ
問題意識
ユーザーの嗜好に近いコンテンツを露出することで、
より感動体験を届けることができるのでは?
モード系 かわいい系
モチベーション
しかし、ファッションの嗜好という抽象的な概念
をどうサービスに組み込めばよいのか?
トピックモデルが使えるのでは!
課題
どうにかして、行動データからユーザーのファッ
ションの潜在的な嗜好を推定したい
トピックモデルとは?
• 自然言語処理における潜在意味解析の分野から発展してき
た手法で、主に文章解析に使われることが多い
• 大量の文章から人の手を介すことなく、話題になっている
トピックの抽出が可能
• また、それぞれの文章がどのトピックに属すのかを判別す
ることもできる
出典:岩田具治『トピックモデル』講談社, 2015年
国会
首相
内閣
衆議院
選挙
:
選手
ゴール
ボール
試合
球場
:
病院
薬
健康
手術
難病
:
トピックを抽出
それぞれの文章がもつトピックを推定
サッカー協会
は代表の強化
のため…
時期衆議院選
挙に向けて与
党は…
難病医療に関
する法律案が
国会
文章集合
スポーツ 政治 医療+政治
政治 スポーツ 医療
• 明示的に「ファッション」という単語が出ていなく
ても、ファッションの話題であることを理解できる
• トピックごとに確率的に出現しやすい単語があると
考える
人とカブらないのがいい!ヴィンテージ柄

コーデでおしゃれ上級者に
今買い足すならトレンド感も取り入れたおしゃれなデザインを
選びたい。
今 買い足す トレンド 取り入れた おしゃれ デザイン
1 1 1 1 1 1
• 文章を単語ベクトル(Bag of Words)に変換
• ベクトル化することで共起を統計モデルとして扱える
• 単語の順番や、文章の構造は無視
Bag of Words (BoW)
出典:Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM
文章中の単語は、文章のトピック分布から確率的に生成
されると仮定してモデル化
ユーザーのファッション嗜好の推定に使えるのでは!
パンツ:dazzlin
ブラウス:COCO DEAL
カーディガン:MERCURYDUO
カチューシャ:Jennifer Ouellette
イヤーカフ:Serendip three
バッグ:INDEX
靴:CARVEN ROND POINT
ファッションも、その人が何のブランドを着てい
るかで、なんとなくその人の嗜好がわかる!

ex. 赤文字系、モード系、きれいめOL系
文章からトピックを判別するのと同じでは!?
Cartier Christian Louboutin DRESSTERIOR Grace Continental IENA TOMORROWLAND
1 1 1 1 1 1
• ユーザーのブランドLike情報をベクトル化
• ベクトル化してしまえば、文章と同様に扱える!
Bag of Brands
CHANEL
Chloe
MOUSSY
Dior
CELINE
:
EGOIST
SLY
moussy
MURUA
rienda
:
addidas
X-girl
NIKE
WEGO
VANS
:
ファッションのカテゴリを抽出
それぞれのユーザーが嗜好するカテゴリを推定
EGOIST
SLY
EMODA
STUSSY
TOMMY
CONVERSE
MOUSSY
EGOIST
MURUA
ユーザーの
ブランドLike集合
ギャル ストリート OL+ギャル
OL系 ギャル系 ストリート系
LDAのグラフィカル表現
出典:Blei, David M. (2012), “Probablistic Topic Models”, Communications of the ACM
一般的な文章解析の場合 ファッションの嗜好推定
α θの事前分布を生成するパラメータ 同左
η βの事前分布を生成するパラメータ 同左
θ 潜在トピックの確率分布 ファッションカテゴリの確率分布
β 単語の確率分布 ブランドLikeの確率分布
D 文章数 ユーザー数
N 1文章の単語出現回数 ユーザーのブランドLike
K トピック数 ファッションのカテゴリ数
Z 単語の潜在トピック ファッションカテゴリ
W 単語の集合 ブランドLike集合
文章解析との比較
• 約7000ブランドから上位1000ブランドに限定
• 70万人分の500万個のブランドLikeデータを使用
• GoogleのCloud Dataproc上で、SparkのMLlib
を利用して計算
• LDAの推定には、EMアルゴリズムを利用
データと計算環境
• ユーザーのブランドLike情報をベクトル化して、
トピックモデルを適用したところ、ファッション
カテゴリの抽出に成功
• また、それぞれのユーザーが、どういったファッ
ションのカテゴリを嗜好するかの判別も可能に
推定結果
青山・表参道OL系
1 CHANEL
2 Chloe
3 BLACK BY MOUSSY
4 Christian Louboutin
5 Christian Dior
6 BURBERRY
7 CELINE
8 Cher
9 FRAY I.D
10 deicy
ペルソナ
青山・表参道
sweet
モテ
OL
28-35
さえこ
元vivi読者
結婚
主婦
ママ友
セレブ好き
ランウェイ系
1 EGOIST
2 LIP SERVICE
3 EMODA
4 SLY
5 moussy
6 MURUA
7 rienda
8 SPIRAL GIRL
9 DURAS
10 CECIL McBEE
ペルソナ
渋谷・原宿
runway系
ギャルと言われがちな人
22-28歳
クラブ・フェス好き
SNS好き
セレクトショップ系
1 URBAN RESEARCH
2 URBAN RESEARCH DOORS
3 UNITED ARROWS
4 ROSSO
5 kate spade new york
6 KBF
7 IÉNA
8 nano・universe
9 TOMORROWLAND
10 Spick and Span
ペルソナ
セレクトショップ好き
ニューバランス
スニーカーはマスト
海外旅行いく
25-32歳
ベーシック

そこそこいいものが欲しい
単価12000円くらい
モール好き
ストリート系
1 adidas
2 adidas Originals
3 X-girl
4 NIKE
5 adidas NEO Label
6 WEGO
7 VANS
8 STUSSY
9 TOMMY HILFIGER
10 adidas by Stella McCartney
ペルソナ
原宿・渋谷
スポーツ

エッジ
髪の毛に気合い入れる
彼氏もストリート系
ナイロンが愛読書
20-28歳
ユーザーの嗜好カテゴリの推定
今後の課題
• 実際のプロダクトへの実装
• ブランドLike情報以外の、閲覧履歴情報の取り込み
• 階層構造や補助情報を取り込んだモデルへの拡張
まとめ
• ユーザーのブランドLike情報をトピックモデルに適用する
ことで、ファッションカテゴリを抽出することが可能に
• また、個々のユーザーのファッションカテゴリの嗜好も数
値として表せるように プロダクトへ実装可能
We are hiring !
「ファッション ビックデータ」
の分野を一緒に開拓しましょう!

トピックモデルを用いた 潜在ファッション嗜好の推定