0610 TECH & BRIDGE MEETING

6/10（土）開催
TECH & BRIDGE MEETING 〜講演会〜
テーマ：人工知能・機械学習・ディープラーニング Vol.2
講演会主催・運営会社：株式会社エージェントゲート
講演者：三上威様（フリーランスITエンジニア）
#techandbridge

takemikami’s note – http://takemikami.com/
レコメンドアルゴリズムの基礎
及び、応用のための周辺知識と実装方法
TECH & BRIDGE MEETING 〜エンジニア講演会〜
第2回人工知能・機械学習・ディープラーニング〜初級者向け〜
Copyright (C) Takeshi Mikami. All rights reserved. 2
三上威(フリーランスITエンジニア) twitter: @takemikami
2017.6.10 TKPガーデンシティ渋谷ホールB
機械学習レコメンド

はじめに
• 対象：機械学習未経験のエンジニア
• テーマ：レコメンドアルゴリズムとその応用
• 内容
• Pythonを使った機械学習の紹介
• レコメンドアルゴリズムの基礎
• レコメンドの周辺知識と実装方法
本日の勉強会でお話しする内容について説明します

自己紹介
• 三上威 (@takemikami)
• フリーランスITエンジニア
• データ分析及び機械学習等の応用システム開発
• マーケティングデータ分析基盤のシステム開発
• 略歴
• 情報通信ネットワーク・確率論 @ 甲南大学理学部応用数学科
• Web系システムの開発・構築 @ NEC系SIer
• 旅行系ECサイトのマーケティングデータ分析 @ DeNA
• データ分析及び機械学習等の応用システム開発 @ フリーランス
• 最近扱っている技術領域
• Python, TensorFlow/Keras, Hadoop&Spark, hivemall, AWS
発表者のプロフィールを紹介します

機械学習を応用するためのスキル
※丸山宏・山田敦・神谷直樹共著「データサイエンティスト・ハンドブック」（近代科学社）を参考に作成
ビジネス力
(business problem solving)
データエンジニアリング力
(data engineering)
データサイエンス力
(data science)
ビジネス課題を
理解・解決するスキル
統計・機械学習等の情報科学を
理解・活用するスキル
データの加工・運用環境
を実装するスキル
機械学習を応用するために必要なスキルを紹介します
データサイエンティスト
に求められるスキルとして
よく示されるものです

ビジネス力とは
• ビジネス課題を整理する
「このデータ分析によって解きたいビジネス課題は何か」を考える
→課題を明確にしておかないと成果に結びつかない
• ビジネス課題を説明する
レポーティングやプレゼンスキル
→意思決定者が理解出来ないと実行できない
機械学習を応用するためのビジネス力について説明します

データサイエンス力とは
• アルゴリズムを理解する
統計学や機械学習のアルゴリズムの理解
→理解していないとチューニングが行えない
• データ・アルゴリズムの特性を理解する
データの特性、それらを計算するための計算資源の見
→実用的にデータを活用するための設計に必要
機械学習を応用するためのデータサイエンス力について説明します

データエンジニアリング力とは
• アルゴリズムの実装スキル
ライブラリの活用スキル、アルゴリズムの実装スキル
→システム化するために必要
• システムインフラの運用スキル
ビッグデータ、並列分散処理などの理解と運用スキル
→大量のデータを扱う場合に必要
機械学習を応用するためのデータエンジニアリング力について説明します

本日扱う分野 (機械学習を応用するためのスキル)
ビジネス力
(business problem solving)
データエンジニアリング力
(data engineering)
データサイエンス力
(data science)
データサイエンス・エンジニアリング
を中心にお話しします
機械学習を応用するためのスキルの中で、本日お話する分野を示します

Pythonを使った機械学習の紹介
scikit-learnによる機械学習
回帰、分類、クラスタリング、次元削減
TensorFlowによる機械学習
画像のクラス分類

データ分析のアプローチ
• データ分析のアプーチは以下の３つに分類できる
アプローチ説明例手法
説明的データ分析
(descriptive)
事実を説明する・見
つける
・どんな人が何を買っているか？
・ある広告がどれだけ売上に貢献して
いるか？
BI、クラスタリン
グ、アソシエー
ション分析
予測的データ分析
(predictive)
(未来や欠測値を)予
測する
・ある商品群を閲覧した人の性別は？
・広告を出稿したら、どれだけ売上が
上がるか？
分類・回帰、統計
的機械学習
指示的データ分析
(prescriptive)
最適解を探す・利益を最大化するための、最適な仕
入れ量は？
・売上を最大化するには、どこに広告
を出稿すべきか？
最適化、実験計画
→ 実施したい「分析のアプローチ」が何かを認識し、適切な「手法」を適用する
３つのデータ分析のアプローチを紹介します

代表的な機械学習の手法
教師種類手法活用方法
教師あり
(supervised
learning)
分類
(classification)
ロジスティック回帰
決定木
SVM
ニューラルネットワーク
離脱顧客判定
スパムメールの判定
回帰
(regression)
線形回帰分析
ベイズ線形回帰分析
販売予測
教師なし
(unsupervised
learning)
クラスタリング
(clustering)
k-means法
混合正規分布モデル
顧客のセグメント分け
次元削減
(dimentionality reduction)
主成分分析
特異値分解
商品の類似性を可視化
※教師あり/なし以外にも強化学習(reinforcement learning)という手法もあります
代表的な機械学習の手法を紹介します

クラスタリング(clustering)と分類(classification)
分類(classification) クラスタリング(clustering)
教師教師あり教師なし
説明与えられたデータを
適切なクラスに振り分ける
与えられたデータを
複数のグループ分ける
イメージ
既存データを元に作ったルールで
新規データを振り分ける
データの特徴を元に
意味あるグループが無いか見つける
A
ルール
B C
クラスタリングと分類（教師あり学習と教師なし学習）の違いを示します

scikit-learnの紹介をします
scikit-learnとは
• Pythonの代表的な機械学習ライブラリ
• 分類・回帰、クラスタリング・次元削減などのアルゴリズムを多数備え
る
• NumPy, SciPyというPythonの数値計算ライブラリと連携動作する
scikit-learnで試しながら
それぞれの手法を紹介していきます
Pythonのオープンソースの機械学習ライブラリ

scikit-learnで利用できるアルゴリズムを紹介します
scikit-learnで利用できるアルゴリズム
分類
クラスタリング
回帰
次元削減
引用元: http://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
アルゴリズム選択
のチャート図

可視化・レポーティング環境〜jupyter notebook, matplotlib
可視化・レポーティング用ツールとしてjupyter notebook, matplotlibを紹介します
Pythonのコード
（分析のプロセス）
Pythonの処理結果
（分析の結果）
jupyter notebook
→ 分析のプロセスと結果の記録
matplotlibによる可視化
matplotlib
→ 分析の結果の可視化
Pythonのコード
（分析のプロセス）
Pythonの処理結果
（分析の結果）

教師あり学習の基本
教師あり学習の基本的な考え方を説明します
やりたいこと：
「xの値」が与えられた時に「yの値」を予測したい
→ 𝑦 = 𝑓 𝑥 という関数を求めたい
𝑦 = 𝑓(𝑥)
目的変数説明変数
予測モデル目的変数が離散値→分類
目的変数が連続値→回帰

教師あり学習の基本
教師あり学習の基本的な考え方を説明します
x y
データ１ 1 2
データ２ 2 4
データ３ 3 6
データ４ 4 8
データ５ 5 ?
y = 2x
①教師データを取得
教師あり学習の手続き：
②教師データから y=f(x) を導く
１０
③未知の値を予測する
予測(prediction)
学習
(fitting, training)

回帰(regression) 線形回帰による回帰の例
• 最小二乗法とは
「残差の二乗和が最小になる係数を決定する手法」
線形回帰分析を例に分類のアルゴリズムを紹介します
線形回帰の例
標本回帰直線からの残差の二乗和
これを最小にする、a,bを求める

• 残差平方和を最小にする𝑎, 𝑏を求める
𝑖=1
𝑛
𝑒𝑖
2
= 𝑖=1
𝑛
{𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖)}2
• 残差平方和を𝑎, 𝑏で偏微分すると
𝑛𝑎 + 𝑏 𝑥𝑖 = 𝑦𝑖 , 𝑎 𝑥𝑖 + 𝑏 𝑦𝑖
2
= 𝑥𝑖 𝑦𝑖
• この連立一次方程式を解くと
𝑏 =
𝑛 𝑥 𝑖 𝑦 𝑖−( 𝑥 𝑖)( 𝑦 𝑖)
𝑛 𝑥 𝑖
2−( 𝑥 𝑖)2 , 𝑎 =
1
𝑛
𝑦𝑖 − 𝑏
1
𝑛
𝑥𝑖
線形回帰分析を例に分類のアルゴリズムを紹介します

scikit-learnでの線形回帰分析を紹介します
ライブラリ・データを読み込みます

データを描画してみます
x: 説明変数
y: 目的変数

学習・検証データに分割し
学習させます

回帰直線と検証データを
描画します

分類(classification) 決定木の例
決定木を例に分類のアルゴリズムを紹介します
No 風気温海水浴
1 弱高行く
2 弱低行かない
3 弱高行く
4 弱中行く
6 弱高行かない
7 強高行かない
8 強低行かない
9 強中行かない
10 強高行く
気温：高気温：中気温：低
風：弱行く行く行かない
風：強行かない行かない行かない
目的変数：海水浴行く・行かない
説明変数：風・気温
これを樹木モデルに
当てはめて考えてみる
元データ行動パターン判断結果
やりたいこと：風・気温から海水浴に行くかを判断する

• ジニ係数(Gini Index)を用いて分岐点を計算
• 分布の不純度の尺度
値が大きいほど、不純度が高い（データがばらついている）と判断
• 値が大きい点から枝を分岐していく
t:ノード数 i：クラス p:比率

• 分岐前の状態のジニ係数を算出
1 弱高行く
3 弱高行く
4 弱中行く
10 強高行く
GI(分岐前）
= 1-[(4/10)2 + (6/10)2] = 0.48

• 風の強弱を分岐点とするジニ係数を算出
1 弱高行く
3 弱高行く
4 弱中行く
10 強高行く
GI(風=弱）
= 1-[(3/6)2 + (3/6)2] = 0.5
GI(風=強）
= 1-[(1/4)2 + (3/4)2] = 0.375
GI(風=強・弱）
= GI分岐前
– 6/10GI(風=弱) - 4/10(風=強)
= 0.032

• 気温の高中低を分岐点とするジニ係数算出
1 弱高行く
3 弱高行く
4 弱中行く
10 強高行く
GI(気温＝高）
= 1-[(2/5)2 + (3/5)2] = 0.48
GI(気温＝中低）
= 1-[(4/5)2 + (1/5)2] = 0.32
GI(気温=高・中低)
= GI(分岐前)
- 5/10GI(気温=高)-5/10GI(気温=中低)
= 0.08
同様に、
GI(気温=中・高低)=0.05
GI(気温=低・高中)=0.137

• （最も大きい）ジニ係数から分岐点を決める
GI(風=強・弱） = 0.032
GI(気温=高・中低) = 0.08
GI(気温=中・高低) = 0.05
GI(気温=低・高中) = 0.137
気温：高気温：中気温：低
風：弱行く行く行かない
風：強行かない行かない行かない
①
②
①
②
第１ノードは気温の高中・低で分岐。
同様にして第2ノード以降も求めていく

使用するデータセット(iris)の説明をします
• 使用するirisのデータは分類の例でよく使われるデータセット
setosa vergicolor virginica
目的変数：アヤメの品種(setosa, vergicolor, virginca)
説明変数：花びら・がく片の大きさ
petal
sepal
※画像はwikipedia.org, ja.wikipedia.orgから

使用するデータセット(iris)の説明をします
(目的変数)
アヤメの品種
(説明変数)
花びら・がく片の大きさ
アヤメの品種種別
データ50件づつ

scikit-learnでの決定木を紹介します
ライブラリ・データを読み込み
学習させます

scikit-learnでの決定木を紹介します
生成した決定木を
描画します

クラスタリング(clustering) k-meansの例
k-meansを例にクラスタリングのアルゴリズムを紹介します
やりたいこと：データセットを指定した数のクラスタに分ける
• クラスタ数(k)を決める
• クラスタの中心点を対象データからランダムにk個決める
• 繰り返し
• 各データを最も近くにある中心点のクラスタに割り当てる
• クラスタ内のデータの平均値を新たなクラスタの中心点にする
• クラスタの中心点が変化しなくなったら終了
→次のスライドから、
k-means法で最適なクラスタを探索する流れをイメージで示します。

クラスタリングを行いたいデータセットを用意する

✓
✓
クラスタの中心点を対象データからランダムにk個決める(この図では２個)

各データを最も近くにある中心点のクラスタに割り当てる
✓
✓

クラスタ内のデータの平均値を新たなクラスタの中心点にする
✓
✓
✓
✓

✓
✓
✓
✓

✓
✓
✓
✓
✓
✓

✓
✓
✓
✓
✓
✓
✓ ✓

✓
✓
✓
✓
✓
✓
✓ ✓
→クラスタの中心点が変化しなくなった ⇒ 終了

k-means法の計算で利用する距離について説明します
ユークリッド距離コサイン距離
式
式
(２変数
の時)
説明データ間の直線距離データをベクトルで表現した時の
角度の近さ
※一部の変数の大きさの偏りに影響を受けない
d(Xa - Xb ) = (xaj - xbj )2
j=1
r
å s(Xa - Xb ) =
xaj xbj
j=1
r
å
xaj
2
j=1
r
å xbj
2
j=1
r
å
d(Xa - Xb ) = xa1 - xb1( )
2
+(xa2 - xb2 )2 s(Xa - Xb ) =
xa1xb1 + xa2 xb2
xa1
2
+ xa2
2
xb1
2
+ xb2
2

scikit-learnでのk-meansを紹介します
学習させます

scikit-learnでのk-meansを紹介します
クラスタリング結果と
元データのターゲットを表示します

次元削減(dimensionality reduction) PCAの例
• 次元削減とは変数の数(データの次元数)を削減すること
次元削減(dimensionality reduction)について説明します
x1 x2 … xn y
#１ 1 3 … 1 2
#２ 2 5 … 4 4
#３ 3 6 … 5 6
#４ 4 7 … 4 8
#５ 5 8 … 2 10
x’1 x’2 y
#１ 4 4 2
#２ 3 7 4
#３ 6 8 6
#４ 5 7 8
#５ 6 8 10
元の説明変数
数が多い目的変数目的変数
次元削減後の
説明変数
→データ圧縮・データの類似性の可視化に利用できる
※ PCA = Principal Component Analysis (主成分分析)

scikit-learnでのPCA(主成分分析)を紹介します
学習させます

scikit-learnでのPCA(主成分分析)を紹介します
次元削減結果を描画します

ニューラルネットワークとは
• パーセプトロンとは、視覚と脳の機能をモデル化したもの
• 入力信号(x)と重み(w)の乗算の総和に対して、出力信号(y)が決まる
パーセプトロン・ニューラルネットワークについて説明します
𝑥1
𝑥2
𝑦
𝑤1
𝑤2
入力層出力層
重み
→パーセプトロンを多層に重ね、
中間層を多くしたものが
ディープニューラルネットワーク
入力層中間層出力層

TensorFlowとは
• DistBeliefというGoogleのサービスに使われている社内ツールを
OpenSourceにしたもの
• ニューラルネットワーク/ディープニューラルネットが実装できる
• TensorBoardによってモデル・学習状況等を可視化できる
• データフローグラフによって、
自由度の高いネットワークを記載できる
• 画像処理の関数も用意されている
TensorFlowの紹介をします
オープンソースの機械学習ライブラリ
→画像のクラス分類などに利用できる (チュートリアルがそれ)

ニューラルネットワーク CNNの例
tensorflow/kerasでのCNN(畳み込みニューラルネット)を紹介します
• MNISTデータセットは画像処理の機械学習の例でよく使われるデータ
• 手書きで書かれた数字を畳み込みニューラルネットを使って分類
目的変数：数字(0〜9)
説明変数：手書きの画像データ
↓ ↓ ↓ ↓
５０４１

※ CNN = Convolutional Neural Network (畳み込みニューラルネット)
ライブラリの読み込みと
パラメータの設定
※ここでは手短にコードを書くため、
kerasという、tensorflow上で動作する
高水準ニューラルネットライブラリを使用しています。

テストデータの準備

ニューラルネットワークの作成

学習の実行

TensorBoardでの可視化
ネットワークの可視化
学習の進行と
精度の変化

レコメンドアルゴリズムの基礎
レコメンドとは
レコメンドの手法
協調フィルタリングのアルゴリズム
ユーザベース、アイテムベース、ALS(交互最小二乗法)

レコメンドエンジンとは
• レコメンドエンジンとは
レコメンドエンジンの説明、パーソナライズについて示します
「対象ユーザに対し、その嗜好を予測し、アイテムを推薦するシステム」
Amazon Googleニュース
閲覧中の本を買った人が、
買ったことがある本
地域に合わせたニュース
ユーザ属性や行動に
あわせたニュース

レコメンドの手法：パーソナライズ
レコメンドの手法「パーソナライズ」について説明します
パーソナライズ非パーソナライズ
説明ユーザの特徴にもとづいた推薦
→ユーザ毎に推薦されるアイテムが異なる
万人に向けたおすすめ
→全ユーザに同じアイテムが推薦される
アルゴ
リズム
協調フィルタリング
内容ベース型フィルタリング
閲覧履歴 etc
ベストセラー
新着
販売店担当者のおすすめ etc
レコメンドというとパーソナライズを指すことが多いが、
ユーザ属性不明の場合などに対応する為、非パーソナライズの手法も組み合わせる。

レコメンドの手法：協調型・内容ベース型
レコメンドの手法「協調型」と「内容ベース型」の違いについて説明します
協調型 (collaborative filtering) 内容ベース型 (content based filtering)
説明他のユーザの嗜好行動を元に、
対象ユーザへのアイテムを推薦
アイテムの特徴・説明と、
ユーザの特徴・行動を用いて推薦
イメージ
他のユーザの嗜好から、
対象ユーザへアイテムを推薦
アイテム・ユーザの特徴を用いて推薦
課題ある程度の量の他のユーザのデータが必要
新規アイテム・ユーザに適切な推薦ができない
アイテムの特徴データのメンテナンスが必要
→各手法に課題があるため、これらを組み合わせたハイブリッドアプローチをとることも多い。
コールドスタート問題
・
・
・
○
×
×
×
×
○
○
○ ？
特徴A
特徴B
特徴C
特徴A’

レコメンドの手法：リアルタイム・バッチ処理
レコメンドの手法「リアルタイム」「バッチ処理」について説明します
バッチ処理リアルタイム
説明ユーザ・アイテムの特徴・行動を元に、
事前に推薦アイテムのリストを作成しておく
ユーザの行動を元にして、
リアルタイムにアイテムを推薦する
適用例パーソナライズおすすめアイテムメール
マイページでのおすすめアイテム掲出 etc
はじめて訪問したユーザへのおすすめアイテム
掲出 etc
特徴A
特徴B
特徴C
特徴収集
特徴A’
推
薦
事前に処理
インタラクション
特徴A
特徴B
特徴C
特徴A’

協調フィルタリング(ユーザベース)のイメージ
ユーザベースの協調フィルタリングのイメージを示します
「ユーザ１〜４のアイテムの評価」と「対象ユーザのアイテムA〜Dの評価」
→「対象ユーザのアイテムEの評価」を予測
アイテムA アイテムB アイテムC アイテムD アイテムE
対象ユーザ 5 3 4 4 ?
ユーザ１ 3 1 2 3 3
ユーザ２ 4 3 4 3 5
ユーザ３ 3 3 1 5 4
ユーザ４ 1 5 5 2 1
予測
1(最も好まない)〜5(最も好む)

協調フィルタリング(ユーザベース)の手続き
• 対象ユーザ以外のユーザに対して、
対象ユーザとの類似度を求める
• 類似するユーザを選ぶ
• 類似ユーザの対象アイテムの評価から、加重平均を算出
ユーザベースの協調フィルタリングを行う手続きを示します
ユーザベースの協調フィルタリングで予測を行う流れをイメージで示します。

協調フィルタリング(ユーザベース)の手続き〜イメージ1
ユーザベースの協調フィルタリングのイメージ
アイテムA アイテムB アイテムC アイテムD アイテムE 類似度
対象ユーザ 5 3 4 4 ? 1
ユーザ１ 3 1 2 3 3 0.85
ユーザ２ 4 3 4 3 5 0.70
ユーザ３ 3 3 1 5 4 0.00
ユーザ４ 1 5 5 2 1 -0.79
アイテムA〜Dの評価値を使って、
対象ユーザとの類似度を計算
※ここでは、ピアソンの相関係数(Pearson correlation coefficient)を使って類似度を計算しています。

対象ユーザ 5 3 4 4 ? 1
ユーザ１ 3 1 2 3 3 0.85
ユーザ２ 4 3 4 3 5 0.70
ユーザ３ 3 3 1 5 4 0.00
ユーザ４ 1 5 5 2 1 -0.79
類似度をみて、
類似するユーザを選ぶ

対象ユーザ 5 3 4 4 4.87 1
ユーザ１ 3 1 2 3 3 0.85
ユーザ２ 4 3 4 3 5 0.70
ユーザ３ 3 3 1 5 4 0.00
ユーザ４ 1 5 5 2 1 -0.79
類似ユーザの「アイテムEの評価」と「類似度」
から加重平均を計算し
→対象ユーザのアイテムEの評価を予測

協調フィルタリング(アイテムベース)のイメージ
アイテムベースの協調フィルタリングのイメージを示します
「旅行者１〜５の旅先別の旅行回数」と「対象ユーザの旅先別の旅行回数」
→「対象ユーザが行く可能性が高い旅先」を予測
台北バンコクホノルルグァム
対象ユーザ 0 1 0 0
旅行者１ 2 1 0 0
旅行者２ 1 0 0 0
旅行者３ 0 0 3 2
旅行者４ 2 3 1 0
旅行者５ 1 0 2 5
行く可能性が高い
旅先を予測
旅行回数

協調フィルタリング(アイテムベース)の手続き
• 対象ユーザ以外のユーザの評価値から、
各アイテム間の類似度を求め、類似度行列を算出する
• 対象ユーザの評価値と類似度行列の積を求める
アイテムベースの協調フィルタリングを行う手続きを示します
アイテムベースの協調フィルタリングで予測を行う流れをイメージで示します。

協調フィルタリング(アイテムベース)の手続き〜イメージ1
アイテムベースの協調フィルタリングのイメージ
対象ユーザ 0 1 0 0
旅行者１ 2 1 0 0
旅行者２ 1 0 0 0
旅行者３ 0 0 3 2
旅行者４ 2 3 1 0
旅行者５ 1 0 2 5
台北との
類似度
1 0.8 0.34 0.29
旅行者1〜5の旅行回数を使って、
台北との類似度を計算
※ここでは、コサイン類似度(cosine similarity)を使って類似度を計算しています。

対象ユーザ 0 1 0 0
旅行者１ 2 1 0 0
旅行者２ 1 0 0 0
旅行者３ 0 0 3 2
旅行者４ 2 3 1 0
旅行者５ 1 0 2 5
台北 1 0.8 0.34 0.29
バンコク 0.8 1 0.25 0.25
ホノルル 0.34 0.25 1 0.79
グァム 0.29 0.0 0.79 1
類似度行列が出来る
同様に、
バンコク,ホノルル,グァムについても計算

台北 1 0.8 0.34 0.29
バンコク 0.8 1 0.25 0.25
ホノルル 0.34 0.25 1 0.79
グァム 0.29 0.0 0.79 1
台北バンコ
ク
ホノルルグァム
対象ユーザ 0 1 0 0
×
＝
台北 0.8
バンコク 1
ホノルル 0.25
グァム 0.0
「対象ユーザの旅先訪問回数」
「類似度行列」の積
訪問したことがあるバンコクを除くと、
台北を旅先に選ぶ可能性が高い

協調フィルタリング(アイテムベース)のメリット
台北 1 0.8 0.34 0.29
バンコク 0.8 1 0.25 0.25
ホノルル 0.34 0.25 1 0.79
グァム 0.29 0.0 0.79 1
台北バンコ
ク
ホノルルグァム
対象ユーザ 0 1 0 0
×
＝
台北 0.8
バンコク 1
ホノルル 0.25
グァム 0.0
アイテム間の「類似度行列」は、
事前にバッチで作成が可能
新たなユーザに対しても、
類似度行列の再作成なしに、レコメンドが可能

類似度の計算
協調フィルタリングの手続きで用いた類似度について説明します
ピアソンの相関係数コサイン類似度
式
説明ユーザベース向きの尺度アイテムベース向きの尺度
データをベクトルで表現した時の角度の近さ
※一部の変数の大きさの偏りに影響を受けな
い
X: 評価値行列
ρ: 要素数
Xa, Xb: 類似度の比較対象

協調フィルタリング(ALS)のイメージ
ALS(交互最小二乗法)による協調フィルタリングのイメージを示します
やりたいこと：「評価値行列」を使って、ユーザとアイテムをk個の特徴量で表す
A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
アイテムの
特徴量行列
ユーザの
特徴量行列
ユーザ
「評価値行列」から、
ユーザ・アイテムの特徴量行列を求める
（k個の因子でユーザ・アイテムを説明したい）
アイテム
※ ALS = Alternative Least Squares (交互最小二乗法)

最小二乗法について〜ALS(『交互』最小二乗法)の前に
• 最小二乗法とは
「残差の二乗和が最小になる係数を決定する手法」
最小二乗法について説明します
線形回帰の例
標本回帰直線からの残差の二乗和
これを最小にする、a,bを求める

協調フィルタリング(ALS)の手続き
• 特徴量の数を決める
• アイテムの特徴量行列を初期化する
• 収束するまで以下を繰り返す
• 評価値行列・アイテムの特徴量行列から、
ユーザの特徴量を最小自乗法で計算
• 評価値行列・ユーザの特徴量行列から、
アイテムの特徴量を最小自乗法で計算
ALS (交互最小二乗法)による協調フィルタリングの手続きを示します
ALS(交互最小二乗法)による協調フィルタリングの流れをイメージで示します。

協調フィルタリング(ALS)の手続き〜イメージ1
ALS(交互最小二乗法)による協調フィルタリングのイメージ
A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
列数
特徴量の数を決める
アイテムの
特徴量行列
行数
ユーザの特徴量行列

A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
アイテムの
特徴量行列
ユーザの特徴量行列
アイテム毎の評価値の平均を算出
十分に小さい値で乱数をふる

A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
アイテムの特徴量行列ユーザの特徴量行列
=×
線形回帰の例で「a,b」にあたる線形回帰の例で「x」にあたる線形回帰の例で「y」にあたる
以下の誤差が最小になるようにユーザの特徴量を計算
・「ユーザの特徴量行列」と「アイテムの特徴量」の積
・「評価値行列」

A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
=×
線形回帰の例で「x」にあたる線形回帰の例で「a,b」にあたる線形回帰の例で「y」にあたる
以下の誤差が最小になるようにユーザの特徴量を計算
・「ユーザの特徴量行列」と「アイテムの特徴量」の積
・「評価値行列」

A B C D E
1
2
3
4
A B C D E
1
2
3
4
評価値行列
=×
誤差が収束するまで、
これらの特徴量の再計算を繰り返す
誤差が収束するまで、
これらの特徴量の再計算を繰り返す

レコメンドの周辺知識と実装方法
システム構成と周辺知識
ライブラリを用いた協調フィルタリングの実装
協調フィルタリングの応用例

マーケティングデータ分析と機械学習
マーケティングデータ分析における、機械学習の位置づけを示します
顧客との
チャネル
データ分析
顧客
社会・
業界
リアル広告イベント
・・・
Data Warehouse
SNS
収集施策
実店舗
収
集
DataMart
Web広告ECサイト
BIツール
機械学習
加工マーケター
データサイエンティスト
施策の検討・意思決定を機械学習で支援

レコメンドシステムの構成例
レコメンドシステムの構成例を紹介します
Webサイト
販売系
システム
backend db
datalake
recommendDB
user interaction DB
アイテム
情報
売上
情報
行動
ログ
行動ログ
データ収集
サーバ
ログ収集
サーバ
アイテム情報
ランキング情報
類似度行列
アイテム情報
レコメンド
サーバ
(online)
アイテム
類似度計算
ログ・売上
集計
ユーザ情報
レコメンド
サーバ
(batch)

Webサイト
販売系
システム
backend db
datalake
recommendDB
user interaction DB
アイテム
情報
売上
情報
行動
ログ
行動ログ
データ収集
サーバ
ログ収集
サーバ
アイテム情報
類似度行列
アイテム情報
レコメンド
サーバ
(online)
アイテム
類似度計算
ログ・売上
集計
ユーザ情報
レコメンド
サーバ
(batch)
ユーザの行動を収集し
学習する流れ

Webサイト
販売系
システム
backend db
datalake
recommendDB
user interaction DB
アイテム
情報
売上
情報
行動
ログ
行動ログ
データ収集
サーバ
ログ収集
サーバ
アイテム情報
類似度行列
アイテム情報
レコメンド
サーバ
(online)
アイテム
類似度計算
ログ・売上
集計
ユーザ情報
レコメンド
サーバ
(batch)
リアルタイムに
ユーザの行動を収集する流れ
ユーザの行動を応じた
レコメンド情報を表出する流れ
ユーザの行動は
Key-Value Store
でユーザ単位に管理
アイテムベースでのレコメンド

Webサイト
販売系
システム
backend db
datalake
recommendDB
user interaction DB
アイテム
情報
売上
情報
行動
ログ
行動ログ
データ収集
サーバ
ログ収集
サーバ
アイテム情報
類似度行列
アイテム情報
レコメンド
サーバ
(online)
アイテム
類似度計算
ログ・売上
集計
ユーザ情報
レコメンド
サーバ
(batch)
バッチ処理での
レコメンド情報表出の流れ
(メール配信など)
ユーザベースでのレコメンド

Apache Hadoopとは
• 「データ保存のための分散ファイルシステム」
「データ処理のための並列処理システム」
によってビッグデータの分散処理を実現する
• ４つのモジュールで構成される
• 共通ユーティリティ (Hadoop Common)
• 分散ファイルシステム (Hadoop HDFS)
• クラスタリソース・ジョブ管理 (Hadoop YARN)
• 並列データ処理システム (Hadoop MapReduce)
Apache Hadoopの紹介をします
ビッグデータ分散処理のフレームワーク
レコメンドでは、
たくさんのデータ(ユーザ×アイテム)を扱うため
ビッグデータ処理を考える必要がある

Hadoop Clusterの全体像
• Hadoop Clusterは『分散ファイルシステム』『並列処理システム』の組
み合わせ構造になる
Hadoop Clusterの全体像を示します
Hadoop Cluster
Client NameNode
ResourceManager
DataNode
NodeManager
DataNode
NodeManager
DataNode
NodeManager
Job
Job
Job
Job
Job
Job
Job
Job
Job
Master node Slave node
各Nodeにある
データを処理
Hadoop Clusterは、
各Nodeに分散保存されているデータに対して、
そのNode上で処理を実施できるので効率が良い。
（処理対象データを取得するための通信が不要）

Apache Sparkとは
• 高速に動作する(Apache HadoopのMapreduceよりも)
• メモリ上にデータを持つので反復処理に強い
• SparkSQL, Streaming, MachineLearning(MLlib), Graph(GraphX) など
の応用利用が出来る
• Hadoop, Standalone, Mesosなどの様々な環境で動作する
Apache Sparkの紹介をします
高速な並列データ処理システム

Apache Hadoop上でのSpark
Apache Hadoop上でのSparkの利用イメージを示します
Hadoop Cluster
Client NameNode
ResourceManager
DataNode
NodeManager
DataNode
NodeManager
DataNode
NodeManager
Job
Job
Job
Job
Job
Job
Job
Job
Job
Master node Slave node
各Nodeにある
データを処理
Hadoop Clusterは、
各Nodeに分散保存されているデータに対して、
そのNode上で処理を実施できるので効率が良い。
（処理対象データを取得するための通信が不要）
• Hadoop Cluster上のJobをSparkによって実行することが出来る

協調フィルタリング ALSの例
使用するデータセット(MovieLens)の説明をします
• 使用するMovieLensデータは、協調フィルタリングの例でよく使われる
データセット
以下の対応が入っている
・ユーザID (userId)
・映画ID (movieId)
・評価 (rating)

Spark MLlibでのALSを紹介します
学習
検証
データ準備
ライブラリ読込

Spark MLlibでのALSを紹介します
検証データ
予測データ

協調フィルタリングの応用例アイテムベースの組み合わせ
• 海外旅行航空券の推薦
• 目的地と出発空港を組み合わせたアイテムベースの協調フィルタリング
• 手続き
• 事前に、過去のユーザの渡航履歴から以下を算出
• 出発空港利用履歴の類似度行列
• 目的地利用履歴の類似度行列
• サイトに訪問したユーザの出発空港利用履歴と目的地利用履歴を取得
• 以下を計算
• 出発空港利用履歴と出発空港利用履歴の類似度行列の積
• 目的地利用履歴と目的地利用履歴の類似度行列の積
• スコアの高い目的地順に並べ、
その目的地に対してスコアが最も高い出発空港を紐付け、
さらに最も価格が安い航空券の情報を推薦
協調フィルタリングの応用例を示します
→アイテムではなく「属性」の類似度行列を作ることで、
類似度行列をコンパクトにしてシステム負荷↓ アイテムのコールドスタート問題の回避

協調フィルタリングの応用例メルマガタイトルの最適化
• メルマガタイトルの最適化
• メルマガ内に掲載されているアイテムの中で
もっともユーザにマッチするアイテム名称をメルマガタイトルに差し込む
• 手続き
• 商品担当者がおすすめ商品をピックアップ、ライターがメルマガを書く
• 協調フィルタリングで、
メルマガ配信先ユーザごとに、メルマガ内のおすすめ商品の推薦スコアを算出
• 推薦スコアがトップの商品名をメルマガタイトルに差し込む
協調フィルタリングの応用例を示します
→ライターが作成したコンテンツの見やすさ・わかりやすさなどを生かしたまま、
パーソナライズによって、よりユーザの関心を引く方法の例
※メルマガは開いてもらうことが重要なので「件名」のパーソナライズは効果が見込める

レコメンドの適用で気をつけたいこと
• レコメンド導入の目的・評価指標を決めておく
• 単純に売上増などを目的にすると、サイトの特性によっては成果が出にくい
その場合、売れ筋商品のランキングに反応しなかったユーザが反応したか等を評
価するようにする
※売れ筋に反応しないユーザに対する処置を行っていなかったサイトは、売れ筋
に反応する顧客しか来なくなっている可能性が高いので、成果が出るまでに時間
がかかる
• モデルを破壊するユーザに気をつける
• 社内でのテストバイ、業者の大量購入などに引きずられて相関が崩れることがあ
るので学習対象から除いておく
• 他の手法も検討する
• 顧客の分類(classification)によるパーソナライズで要件を満たせることも多い
レコメンドの適用で気をつけたいことを紹介します

付録
環境構築の方法
参考文献リスト

• scikit-learn/tensorflowの環境構築
• Anacondaをインストールします
(pyenvを利用している場合)
• 決定木のサンプルを動かす場合はgraphviz, pydotplusをインストール
(homebrewを利用している場合)
• TensorFlowのサンプルを動かす場合はtensorflow, kerasをインストール
付録
本資料の内容を実行するための環境構築について説明します
$ pyenv install anaconda3-4.3.0
$ brew install graphviz
$ conda install -c conda-forge pydotplus
$ conda install -c conda-forge tensorflow
$ conda install -c conda-forge keras

• ApacheSpark/MLlibの環境構築 ※python環境は前提です
• ApacheSparkをインストールします
(homebrewを利用している場合)
付録
$ brew install apache-spark

• jupyter notebookの起動
• tensorboardの起動
• pysparkの起動
付録
$ jupyter notebook
$ tensorboard
$ pyspark
→http://localhost:8888/ でアクセス
→http://localhost:6006/ でアクセス

参考文献リスト
• 斎藤康毅「ゼロから作るDeepLearning」オライリージャパン 2016
• 丸山宏、神谷直樹、山田敦「データサイエンティスト・ハンドブック」近代科学社 2015
• Dietmar Jannach・Markus Zanker・Alexander Felfernig・Gerhard Friedrich・田中克己・角谷和俊
「情報推薦システム入門〜理論と実践」共立出版 2012
• 兼子毅「Rで学ぶ多変量解析」日科技連出版社 2011
• Sean Owen・Robin Anil・Ted Dunning・Ellen Friedman「Mahout in Action」Manning Pubns Co.
2011
• 宮本定明「クラスター分析入門 -ファジィクラスタリングの理論と応用」森北出版 2010
• 金明哲「Rによるデータサイエンスデータ解析の基礎から最新手法まで」森北出版 2007
• 朝野煕彦「入門多変量解析の実際」講談社 1996
• 稲垣宣生・山根芳知・吉田光雄「統計学入門」裳華房 1992
付録
本資料作成にあたって参考にした文献リストです

参考Webサイトリスト
• 奥健太「情報推薦システム入門：講義スライド」
http://www.slideshare.net/KentaOku/ss-50762836
• @soonraah「Apache Spark による推薦システム案件例」
https://speakerdeck.com/soonraah/apache-spark-niyorutui-jian-sisutemuan-jian-li
• Bugra Akyildiz「Alternating Least Squares Method for Collaborative Filtering」
http://bugra.github.io/work/notes/2014-04-19/alternating-least-squares-method-for-
collaborative-filtering/
• Apache Mahout「Recommender Architecture」
https://mahout.apache.org/users/algorithms/recommender-overview.html
付録
本資料作成にあたって参考にしたWebサイトリストです

0610 TECH & BRIDGE MEETING

Recommended

Recommended

More Related Content

Similar to 0610 TECH & BRIDGE MEETING

Similar to 0610 TECH & BRIDGE MEETING (20)

0610 TECH & BRIDGE MEETING

Editor's Notes