料理レシピサービスにおける検索語の意味
変化に関する分析
深澤祐援(東京大学/クックパッド株式会社)
原島純(クックパッド株式会社)
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
• 今後について
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
• 今後について
食の傾向について
研究の背景と目的
• クックパッドには、食に関する検
索ワードのデータがたくさんある
• これを使って、食の傾向に関す
る何らかの分析ができないか
検索ワード分析サービス「たべみる」
食の傾向に関する先行研究
• アンケート調査が殆ど
– 仁藤(1995)…10年間の家庭料理の実態調査
– 池田(2003)…中学生の食事調査
• クックパッドのデータを用いた分析
– 桐本(2016)…つくれぽ数の頻度変化を用いて、レ
シピを食生活の季節性に基づいて分類した
→頻度を用いた分析
研究の背景と目的
検索ワードの”意味”に
着目した分析
• これまでの研究では、表面的なアンケート調査
や集計した頻度に留まっているものが多い
• →”Word2Vec”を用いて得られる分散表現を
活かした分析の必要性
• クックパッド内の検索履歴を用いれば、検索
ワードの意味変化を分析可能
• →食の傾向についての、より深い分析
研究の背景と目的
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
• 今後について
用いるデータ
• クックパッド内に蓄積された検索
語共起履歴を使用
• 2015年9月から2016年6月ま
でのデータを抽出
• 検索語共起履歴を一月ごとに分
割し、各月ごとに組み合わせが何
回出現したかを集計
手法について
word1 word2 num
簡単 カレーライス 50
豚肉 玉ねぎ 40
パプリカ サラダ 30
ピーマン おいしく 20
鍋 ピリ辛 10
参考図
手法について
本研究で用いた手法の先行研究
“Statistically Significant Detection
of Linguistic Change”
Proceedings of the 24th International
Conference on World Wide Web, Pages 625-635
Proceedings of the 20th ACM SIGKDD
international conference on Knowledge
discovery and data mining, Pages 701-710
“DeepWalk: online learning of
social representations”
手法について
https://github.com/viveksck/langchangetrack
https://github.com/phanein/deepwalk
上述した手法は筆者の方がコードを公開しています
共起語ネットワークの形成
手法について
豚肉
人参
じゃがい
も
簡単
鍋
50
40
60
45
7030
20
• 検索共起語のword1と
word2をそれぞれノードと見な
し、エッジを張る
• 出現回数をエッジの重みとする
• これを2015年9月-2016年6
月までのデータそれぞれで行い、
10ヶ月の共起語ネットワークを
形成
“DeepWalk”によって
ノードの分散表現を獲得
手法について
豚肉
人参
じゃがい
も
簡単
鍋
• “DeepWalk”…perozzi(2014)
によって提案された手法
• ランダムな初期位置からnノード進
むエージェントを用いて、n個の単語
からなる一文を形成
• 本研究ではネットワークごとに10
ノード進むランダム・ウォークを10万
回行い、データセットを作り、それに
対してWord2Vecを適用
簡単 豚肉 人参 じゃがいも
得られた分散表現を
マッピングする
手法について
• Vivek(2014)により提案された手法
• Word2Vecによって得られた表現空間はそのままだと時系列的に
比較することが出来ない
• そのために、全時点で共通している単語のみで表現空間を再構成
する必要がある
• 具体的にはpiecewise linear regression modelを用いて、t
時点の分散表現を基準に表現空間が一致するようにする
全時点における共通語がk個存在する場合に,
t時点におけるある単語w(k-nearest neighbor空間内)の
分散表現行列について
マッピング前を𝜃′
𝑡 𝑤 , マッピング後を𝜃𝑡 𝑤 とする時に, 上式
を満たす線形変換𝑊 𝑡′→𝑡(𝑤)を求める.
表現ベクトルから
意味変化の大きさとして
距離を算出する
手法について
• Vivek(2014)により提案された手法
• 予め0時点に表現空間を揃えておく
• 0時点の表現ベクトルとt時点の表現ベクトルの間の距離𝜆 𝑡(𝑤𝑖)を
算出し、それを”意味変化の大きさ”とする
t時点の分散表現を
線形変換して0時点に揃える
t時点の分散表現を線形変換して
n時点に揃え, L2ノルムを計算する
0時点の分散表現
0時点の分散表現の
L2ノルム
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
• 今後について
得られたデータ
• 各単語の意味変化推移
(9月起点)
• 各単語の月ごとの分散表
現
分析観点
ひなまつり
簡単
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
0.025
0.00
zoom
T-SNEで200次元から2次元に圧縮したもの(9月)
Agenda
• 研究の背景と目的
• 手法について
• 分析
– 単語のカテゴライズ
– 時系列データに対する分析
– 分散表現に対する分析
• 結果と考察
• 今後について
予め単語を分類する
• クックパッド内で運用されている辞書(+手分類)
に基づいて各単語を分類していく
分析観点
材料
メニュー
加工食品
目的
調味料
お菓子
味覚表現
調理器具
豚肉・玉ねぎ
カレー・親子丼
カップラーメン
簡単・夕飯 オーブン・レンジ
ピリ辛・こってり
チョコ・ケーキ
生姜・オリーブオイル
Example
Agenda
• 研究の背景と目的
• 手法について
• 分析
– 単語のカテゴライズ
– 時系列データに対する分析
– 分散表現に対する分析
• 結果と考察
• 今後について
カテゴリごとの変動性
(時系列データより)
• 単語ごとに 標
準偏差を算出
• それをカテゴリで
平均し、比較
分析観点
標準偏差:ひなまつり…0.0075, 簡単…0.0026
ひなまつり
簡単
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
0.025
0.00
ピークがどれだけあるのか
• 意味変化の時系列データにピークがどれだけあるのかを
見てみる
• カテゴリごとに結果を集計し傾向を調査
分析観点
「ひな祭り」 「簡単」
0.03
0.00
0.01
0.02
• 10ヶ月の点(10個)
をもとにスプライン補
間してデータ量を増
やす
• 補間したデータに対
して極大値を抽出
• 0.01以下のピーク
は無視する
Agenda
• 研究の背景と目的
• 手法について
• 分析
– 単語のカテゴライズ
– 時系列データに対する分析
– 分散表現に対する分析
• 結果と考察
• 今後について
カテゴリごとの変動性
(分散表現より)
• 分散表現から月による変化を測る
– 月によってカテゴリごとに散布図での分布状況が変化している
– 今回は月ごとにカテゴリの共分散を計算してその推移を見る
分析観点
2015年9月 2015年10月
Similar wordsの分析
• 分散表現が取れているので, ある単語wについて月ごと
に似ている(コサイン類似度が高い)単語を抽出すること
が出来る
• カテゴリレベルでその変化を概観する
分析観点
2015年10月
(メニューが多い)
2015年9月
(材料・目的などがある)
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
– カテゴリの情報
– 時系列データ:意味変化の変動性,ピーク検出
– 分散表現:意味変化の変動性,Similar Words
• 今後について
カテゴリに属する単語の情報
結果と考察
今回のデータにおける
各カテゴリの単語数
今回のデータにおける
各カテゴリの単語の
平均出現頻度数
多い:材料・メニュー・目的
少ない:味覚表現・調理器具
多い:材料・加工食品・調理器具
少ない:メニュー・味覚表現
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
– カテゴリの情報
– 時系列データ:意味変化の変動性,ピーク検出
– 分散表現:意味変化の変動性,Similar Words
• 今後について
意味変化の変動性
(時系列データより)
• カテゴリごとの意味変化の変動性について, 標準偏差の平均を
計算した
結果と考察
• 最も標準偏差が大きいのは
sweets(お菓子)
 季節特有の物が多い?
• 最も標準偏差が小さいのは
menu(メニュー)
• 全体的に大きな差は見受け
られない
具体例(時系列一次元データ)
結果と考察
恵方巻
(menu)
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
簡単クッキー
(sweets)
0.20
ピークがどれだけあるのか
• カテゴリごとにピークの数(4,3,2,1,0)を合算して, 割合で示す+
期待値を出す
結果と考察
ピークの数
• 分布で見てみると全体的
な傾向は殆ど同じ
• 期待値が最も高いのは
ingredient(材料)
• 期待値が最も低いのは
tool(調理器具)
ピーク数の
期待値
具体例(ピーク数)
結果と考察
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
ホタルイカ
(ingredient)
Value
具体例(ピーク数)
結果と考察
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
フライパン
(tool)
Value
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
– カテゴリの情報
– 時系列データ:意味変化の変動性,ピーク検出
– 分散表現:意味変化の変動性,Similar Words
• 今後について
意味変化の変動性
(分散表現より)
• カテゴリごとの意味変化の変動性について, 分散表現 (二次元)
の共分散の推移を見る
結果と考察
共分散推移の標準偏差
カテゴリごとの
共分散推移
Processed_food(加工食品)の関係性変化が最も小さく
Taste(味覚表現)の関係性変化が最も大きかった
具体例(共分散の推移)
結果と考察
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
Similar wordsの分析
結果と考察
• 似ている単語の推移をカテゴリレベルで分析する
ベースのカテゴリ:材料
ベースのカテゴリ:味覚
表現
9月 10月 11月 12月 1月 2月 3月 4月 5月 6月
Similar wordsの分析
結果と考察
• 基本的にmenu(メニュー)・purpose(目的)が近いことが多い
– 検索語の共起関係として出現しやすいからか
– カテゴリの単語数と近い単語としての出現しやすさがかなり近い関係にある
ように思える→改善点
• Taste(味覚表現),tool(調理器具)は近い単語のカテゴリが変
化しやすいか
具体例(menu:ぶっかけうどん)
結果と考察
2015年9月 2015年12月
2016年6月 2016年3月
具体例(taste:ピリカラ)
結果と考察
2015年9月
2015年12月
2016年6月
2016年3月
結論
• 先行研究で提案された、ネットワークの分散表現を獲得する手
法・及び分散表現の時系列分析を可能にする手法を用いて、
食事に関する検索語の傾向に関する分析を行った
• 季節性の大きさ、意味変化の変動性、類似単語の推移という
観点で分析を行った
結果と考察
結論
• 意味変化の変動性…
– 時系列データでは変動性が小さくても、分散表現では変動性が大きいカ
テゴリ(メニュー・加工食品)を発見した
– つまりメニューカテゴリ内の単語それぞれについて、似ている単語は変化して
いないが、別カテゴリの動きに合わせてメニューカテゴリ内での分布状況が
変化している可能性がある
• ピーク数について最も期待値が高いのは材料・期待値が最も低いのは調理器
具だった
 調理器具カテゴリは季節性が小さい単語を多く含んでいるといえる
• Similar Wordsの推移について、味覚表現・調理器具カテゴリ
は特に変化が大きかった
– 他のカテゴリと多様な関係性を持ちやすい、と言える
結果と考察
Agenda
• 研究の背景と目的
• 手法について
• 分析
• 結果と考察
• 今後について
改善点
• 分類体系の精緻化
– メニュー・目的のカテゴリに対して、味覚表現・調理器具のカテゴリは単語
数に大きく差がある。
– メニューや目的のカテゴリをさらに細分化することで、より詳細な分析が可
能になる.
– 例えば、目的カテゴリはイベントや季節、キャラクタ等のカテゴリに細分化で
きると考えている。
• データの拡充
– 本研究においてはデータ蓄積状況の関係から10 ヶ月分のデ ータを用い
て分析を行った。
– しかし, 一年分のデータを用いれば一年間を通してどれだけの意味変化が
生まれたか、検出することが可能だと考えられる。
結果と考察

料理レシピサービスにおける検索語の意味変化に関する分析