ベイジアンネット技術とサービス工学におけるビッグデータ活用技術

ベイジアンネットワーク技術と

サービス工学におけるビッグデータ活用技術

最近の応用事例から

（独）産業技術総合研究所
サービス工学研究センター副研究センター長,
デジタルヒューマン工学研究センター兼務
統計数理研究所客員教授＆東京工業大学連携准教授

本村陽一

行動履歴系ビッグデータ

からのモデリング

•  状況依存性のある行動の履歴データ[購買・移動など]

•  一人十色の複雑化した生活者の多様性[非一様・混合]

•  変動する外的環境のもとでの大きな不確実性

•  他人の影響、相互作用による社会的行動

以上のような特性を反映したビッグデータへの対応

2

大規模データ活用技術

•  ID付POSデータなど大量データが蓄積

•  数千人規模のアンケートも容易に実施可能

•  ただし、データ分析、データマイニングだけでは、結
果の活用が限定的（従来通りの施策の実施のため
）飛躍的生産性向上に結び付きにくい。

•  そこで、大規模データを計算モデル化し、その結果を
ITで活用できるようにする。

•  「顧客の見える化」「生活者起点」を促進するために

大規模データからの顧客モデル構築と活用技術
Center
for
Service
Research,
AIST

人間の認知評価構造・
生活行動モデル�

楽しい�
日常の時間・空間的に展開し�
統計的学習�
大量データ� 認識モデル� 動きが�
だから� 好き・嫌い�
センサ統合�
場所が�
PLSI 怖い・危険�
データー統合 SQL DB, etc… だから�

アンケート状況が�
・インタビューだから� 笑い・怒り�
生成モデル�

欲しい・�
買いたい�
サービス適用�� モノが�
Web, 携帯電話だから�
SNS, etc…�
快適・安心�
確率分布を出力�
実サービス�
再利用可能な計算モデル

例：顧客接点におけるダイナミクスの例
（消費者行動選択とプロセスモデル）

デジタル

店頭での会員勧誘
メルマガクーポン
サイネージ
接客支援ツール
興味ドライバー
来店ドライバー
入店ドライバー
購買ドライバー

実物を見たい
実物を見たい
実感（似合う、機能）

商品情報
買い物の日
フィッティング
揃える（色・デザイン）

ノベルティ
イベント
素材感
安心（保有・確保）

話題
同行者として
時間がある
接客に惹かれて

季節感
なんとなく
ディスプレイに
：
：
：
惹かれて

：
購買
入店・閲覧
会員入会
メルマガ受信
来店
リピート

ロイヤリティ向上

大規模データに基づくサービスの最適設計ループ
•  要素として顧客を含んだ包括的な系

•  顧客の反応を通じたフィードバックループ
Short range
設計
適用
サービスプロセスモデル顧客の評価構造・行動モデル
（バリューチェーン）
分析
観測
Long range
需要
興味
行動
喚起
サービス要素の適応・修正

顧客接点最適化

顧客への情報推奨技術（プ顧客の心理・行動分析・理
ロモーション）解技術既存サービスの評価・改良

動的商品管理・顧客情報管大規模データ理解技術（心理・
理（カテゴリ抽出）技術行動マイニング）
新規サービスの設計・提供
プロセス最適化

生活密着型の地域活性化
と生活価値向上
生活連携・地域活性
生活者理解技術の共有
・異種サービス連携大規模データを活用した
サービス最適化

サービス工学：サービス（価値共創）システム
（サービス場面の人々の活動を対象としたシステム）

「モノの伝達」から「コトの伝達」へのパラダイムシフト

顧客接点
提供者（企業）
Point of Service
受容者（顧客）

製品設計
製品利用
サービス利用
サービス設計
バックヤード
フロントヤード
購買行動
日常生活
価値・評価・ライフスタイル

サービス現場(顧客接点)での相互作用（ダイナミクス）
を観測・予測・制御するために大規模データを活用する

大規模データを通じた人々の活動：社会のシステムダイナミクス（オートポイエーシス）

サービスの特性
l 無形性：手に取ったり、見たりできない

l 消滅性：保存しておくことができない

l 同時性：サービスの提供と消費が同時

l 異質性：サービスの価値は均一ではなく、

標準化できない

こうした特質から、バリューチェーンをシステム化

することが難しく、顧客の価値評価モデルを用いた

予測・制御・最適化が必要
8

The unified service theory

The unified service theory
(Sampson 2006)
Service can be characterized by Users’ feedback

サービス現場利用者 Inputs
提供者
実社会
経営者
Produc4on

Suppliers
users
日常生活 process
inputs
outputs

How can we realize input from users ?

サービスシステムダイナミクスの計算モデル化
サービスデザイン
生活者の計算モデル化と

最適化
情報サービス

シミュレーション
To
be
支援技術
大規模・大量

のデータ

POSデータ

As
is
アンケートなど

からのモデル化
サービス現場
サービス活動中に
実社会
利用者
人間行動取得できるよう実験
提供者観測技術
計画されたデータ
日常生活
経営者

データ収集

生活中の履歴データなどの大規模 
データから再利用可能な計算モデルへ
従来の統計（母集団依存性大）

l 各事例の保存と検索（データベース）
l 単独の頻度、集計、統計
l 複数の変数の間の関係（相関、独立性）
l ある変数を説明するルール、予測モデル
l 変数群の依存関係の条件付確率(確率的知識)

l 因果的構造のネットワーク（計算モデル）
有用な知識（再利用性大）
集めたデータの説明から、そのデータ以外にも成り立つ知識、
すなわち過去の経験から、『次』に活かせる知識へ！！

ベイジアンネット
和文書籍
ベイジアンネットワーク技術：東京電機大学出版局（本村・岩崎）
ベイジアンネットワーク概説：培風館（繁桝・植野・本村）

条件付確率：
P(目的変数| 説明変数)
条件付確率 P(X3|X1,X2）

X1 X3 X5

条件付確率 P(X4|X2)
X2 X4 X2 0 1
X4
0 0.8 0.4
1 0.2 0.6

ベイジアンネットの 
ベイズ的世界観
•  ドメインを全て確率変数として表現
•  ドメインの状態は各確率変数の同時分布
•  観測可能、決定的な場合を包含
•  末端の変数は事前確率分布を仮定

•  目的：知りたい対象の変数の事後確率分布を計算
•  この時、主要な依存関係のみをグラフとして表し、モ
デル化することで記述量、計算量を劇的に削減。

P(X1,X2,…,Xn)
=
P(X1|X2)P(X2|…)P(Xn)

ベイジアンネットの学習（モデル構築）

確率変数の選択
情報量の高い、重要な変数の抽出

グラフ構造の学習
情報量基準による（局所）モデル選択

条件付確率（パラメータ）の学習

離散確率変数： CPT (cond prob table) 連続変数：パラメトリックモデル
事例の頻度から確率化
のパラメータ学習 or 離散化
P P
B
B
A
A
{P1 (a1|b1), P2 (a2|b2), …}

条件付確率表

Ｘ1 Ｙ
Ex.
P1 0.3
P2 0.4
Ｘ2 P3 :
Ｙ
P4
P5 条件付確率表
：
P6 P(Y|X) = p I j
：
X
ベイジアンネットの条件付確率表
Ｘn

完全データの場合：

n 
クロス集計表の正規化で最尤推定量が得られる。

ベイジアンネットの学習（グラフ構造の探索）

Ｘ
Ｙ
？
OR Ｘ
Ｙ
？

Ｙ
Ex.
Ｙ
Ex.
n1 3
P1 0.3
n2 4
n3 P2 0.4
: P3
n4 :
n5 クロス集計表
P4
P5 条件付確率表
n6 度数|Y, X| = n
X xy P6 P(Y|X) = p xy
X
X,Yに関するクロス集計表
ベイジアンネットの条件付確率表
カイ二乗検定により変数間の
条件付依存性を情報量基準(AIC, MDL)
独立・従属性を判定
により判定しモデルを選択（ベイズ比検定）

この検定を一つの子ノード毎に、複数の親ノードに対して繰り返し行う。

確率推論（belief
propaga4on）
Observation e+

X1 P(X1|e+) CPT:P(X2|X1)
X1 0 1
X2
もっとも単純な場合（基本系）
0 0.8 0.4
Belief(X2) P(X2|X1) 1 0.2 0.6
= P(X2|e+, e-)
=P(X2|X1) P(X1|e+) ・ P(X2|X3) P(X3|e-) X2

P(X2|X3)

P(X3|e-) X3

Observation e-

Belief
propaga4onアルゴリズム
Pr( X = x) = αλ ( x)π ( x). U1 …… Ui
π ( x) = ∑ P( X | U = u)∏π
u UiX
(Ui),
Ui π UX (u) Xからの出力

λ ( x) = ∏ λ λXU (u)
YjX ( x),
Yj Xへの入力
π (x) X λ (x)
π XYj ( x) = π ( x)∏ λYkX ( x),
k≠ j π XY (x)
Xへの入力

λYX (x)
λ XUi (u ) = ∑ λ ( x )∑ P ( x | U )∏π UkX (u k ).
Xからの出力

x k ≠i k ≠i
Y1 …… Yj

ベイジアンネットワーク構築・推論ソフト BayoNet

（1998：IBIS、AI学会などにて発表） 
（2003∼：商用ソフトとして販売, COMDEX出展） 
（2005∼ 本格的実用化によりソリューションビジネスも提供）

ベイジアンネット技術とその深化
•  大規模実データの中から、

・非線形・交互作用を含むゆるやかな因果的連鎖構造
を自動的に抽出し、

・計算機上のモデルとして作成し、

・推論やシミュレーション、制御などに活用できる

•  表形式の離散変数（SQL-‐DB)だけでなく、

・センサ、画像、テキスト、電子カルテ、ID-‐POSデータ
など、日常で集積されつつある大規模データを適用可
能にする技術研究

BN
+
テキストマイニング/
潜在クラス分析
/
特徴抽出

・応用による社会問題解決の同時遂行が重要
20

大規模データモデリング技術
サービス工学における最適設計ループの実現のための

•  大規模データ(ID-‐POS,
アンケート,
操作履歴,
テキスト)

•  カテゴリセット抽出（PLSA,
クラスタリング,
質的調査）

•  構造・関係モデル構築(BN,
情報量基準)

•  Man-‐Machine
Lifelong
Learning(IT+コミュニティの学習)

Trident/POSEIDON
APOSTOOL/BayoNet
ID-‐POS
主
アンケート
時客

Log
場動
テキスト
IT+コミュニティ
顧客セグメント・潜在クラス計算モデル → ダイナミクス
etc
機能・情緒ベネフィット
（サービスシステム）

対象：モデルと進め方：ダイナミクス

生活と技術のデザイン
生活者の計算モデル化と

最適化
情報サービス

モデル：制御対象
To
be
導入と振り返り
大規模データ
モデル化
対象：生活
As
is

サービス活動中に
人間行動取得できるよう実験
観測技術
計画されたデータ

客観的なデータの観測

大規模データ活用技術

•  ID付POSデータなど大量データが蓄積

•  数千人規模のアンケートも容易に実施可能

•  ただし、データ分析、データマイニングだけでは、結
果の活用が限定的（従来通りの施策の実施のため
）飛躍的生産性向上に結び付きにくい。

•  そこで、大規模データを計算モデル化し、その結果を
ITで活用できるようにする。

•  「顧客の見える化」「生活者起点」を促進するために

大規模データからの計算モデル化の事例紹介
Center
for
Service
Research,
AIST

•  カテゴリマイニング：小売商材−顧客の自動分類

–  ライフスタイルや価値観に関するアンケート結果から、利
用者視点の商品カテゴリ初期値を作成

–  ID-‐POSデータから、商品カテゴリに対して、似たような購買

行動をとる顧

客カテゴリを

作成

–  商品−顧客カ

テゴリの機械

学習（ベイジ

アンネット）を

繰り返す

24

ニーズ分析と計算モデル化アプローチ

大規模なID-‐POSデータ、全てを用いた分析コスト、手間

–  データの件数約数十億トランザクション

データイメージ

**

「商品」を「いつ買ったか」というレベルの表現にとどまる

•  そこで、自動的に大規模データを処理するとと
もに、「誰が」「どういう理由で」購買したかを
推定し、「もしもこうしたら、どうなる」というシミ
ュレーションにも活用できる計算モデルを構築す
る

pLSIによる顧客ー商品の同時分類 
(Ishigaki, Takenaka, Motomura, IEEE ICDM 2010 
人工知能学会論文誌vol.26, No.6D, 2011他)
ID-POSデータに基づく購買履歴から顧客と商品群を自動で同時に分類
・2008年9月から2009年9月までの1２カ月分のID-POSデータ
・アンケート対象者３９８１人と購買回数上位1000商品に関して同時分類
・確率的潜在意味解析法(PLSI法)の適用により自動的に分類

属計算結果
属計算結果
カテゴリ数は情報量規準により
商品１
確
率・・・
２０カテゴリと自動的に決定
確
率・・・
顧客１
 

 

カテゴリ１

属

属

商品２
確確
・・・
・・・
顧客２
率率
 

 
 

 
・・・

属属

商品３
確確
顧客３
率
・・・
カテゴリ２０
率・・・
 

 

属属

商品４
顧客４
確
率
顧客と商品を  確
率・・・
・・・
 

 
・・・
各カテゴリへ分類

・・・

推定結果：顧客がある意味カテゴリに属する確率
推定結果：商品がある意味カテゴリに属する確率
推定されたカテゴリ所属確率が最大となったカテゴリへ分類


POSデータ
アンケート・インタ
商品データベース
・・・
大規模・大量データ
ビューデータ


【大規模実データに基づいた自動カテゴリ分類】

顧客
×
商品
顧客
×
コンテンツ
顧客
×
注文

顧客
×
志向
家族構成
×
コンテンツ
利用状況
×
注文
・・・

・・・

・・・
生活品質・生活価値を計算するための変数とパラメータの設計・抽出

生活品質・生活価値を計算可能なモデルへ

生活者の計算モデル化
【PLSI+Bayesian networkの統合モデリング】
① 生活者視点での顧客と商品のカテゴリ分類（確率的潜在意味解析）
数千∼数万の顧客や商品を数個から十数個のカテゴリに次元圧縮できる
顧客意味カテゴリ商品

料理好き

・・・
健康志向

顧客と商品を購買履歴から潜在意味カテゴリに同時クラスタリング
② 離散確率変数間の確率的依存関係構造を表す計算モデルを構築
⇒個人性、状況依存性を因果的にモデル化し、確率推論によりシミュレーションが可能
状況
商品属性

1

購買行動の
確率シミュレーション 0.8

時
顧客属性
曜曜
間・・・
魚
意味カテゴリ
惣肉・・・

0.6

日
日
類
菜
類
帯
0.4

スブこ
低
年家タラだ 0.2

・・・

価・・・

齢
族
インわ
格
0

ル
ド
り
変数群

ダイレクトメールを用いた

大規模なライフスタイルアンケートの実施
• ２００９年１２月にコープこうべの組合員約１万７千人へ，ＤＭハガキを用いてアン
ケートを送付．約４０００名の回答を得た．

アンケート項目：３５問
• デモグラ：年齢・性別・家族構成・家族人数・職業
• 生活時間：来店頻度（スーパー，ドラッグストア），
家事時間，テレビ視聴時間
• 食生活：家庭での朝食，夕食頻度，お弁当
• 健康への不安：病気，ダイエット
• 食に対する意識：料理志向，ダイエット，国産品
• 消費傾向：無駄遣い，家計簿，新商品への関心
• パーソナリティ：ビッグ５法を利用

消費者のライフスタイルや価値観に着目し，
様々な先行研究をもとに質問項目を構築
した．
29

ライフスタイルアンケート結果の分析による

６つの消費・生活因子の抽出

因子分析から，特長のある６つの
因子が抽出できた．ベイジアン
ネットワークによっても同様の傾
向が検出された．

(因子の妥当性を確認)

⇒これらの因子の組み合わせと
して消費者の分類を行う

第１因子：こだわり消費派：高くても健康に良いものを選び，産地への関心，こだわりのブランドがある

第２因子：家庭生活充実派：料理が好きで食事も生活も充実している．気分も安定している

第３因子：アクティブ消費派：外向的で，新商品や話題の商品は試しに買ってみる．ただ無駄遣いは多い

第４因子：節約消費派：チラシを見てお得な商品を買う．安ければ少々遠い店にも行く．高い商品は買わない

第５因子：堅実生活派：几帳面で家計簿をつけ，無駄遣いはしない．毎日の献立はスーパーに行く前に決める

第６因子：パパっと消費派：スーパーでの買い物はできるだけ早くすませたい．お弁当を作ることがある

ライフスタイルアンケート結果の分析による

６つの消費・生活因子の抽出
各顧客に対して6軸の因子に対する得点を付与できる

＜例＞
こだわり消費派のAさん
節約消費派のBさん
4.5

5

4

4
3.5

3

3
2.5

2

2

1.5

1
1

0.5

0
0

こだわり家庭生アクティ節約消堅実生パパっこだわ家庭生アクティ節約消堅実生パパっ
消費
活充実
ブ
費
活
と消費
り消費
活充実
ブ
費
活
と消費
各因子に属するアンケート項目の4段階回答を合計し、項目数で正規化した得点
最大4点、最小1点

第１因子：こだわり消費派：高くても健康に良いものを選び，産地への関心，こだわりのブランドがある

第２因子：家庭生活充実派：料理が好きで食事も生活も充実している．気分も安定している

第３因子：アクティブ消費派：外向的で，新商品や話題の商品は試しに買ってみる．ただ無駄遣いは多い

第４因子：節約消費派：チラシを見てお得な商品を買う．安ければ少々遠い店にも行く．高い商品は買わない

第５因子：堅実生活派：几帳面で家計簿をつけ，無駄遣いはしない．毎日の献立はスーパーに行く前に決める

第６因子：パパっと消費派：スーパーでの買い物はできるだけ早くすませたい．お弁当を作ることがある

大規模ID-POSとアンケート結果の統合１ 
（各クラスタに属する顧客の心理特性の可視化）
各クラスタに対して6軸の因子に対する得点を計算⇒
各クラスタに分類された顧客のパーソナリティの傾向を可視化可能に
（分類された顧客が持つ得点を合計、0が平均値となるように正規化）
0.1

0.06

0.04
0.05

0.02
0

こだわり家庭生活アクティブ
節約消費
堅実生活
パパっと
0
-‐0.05
消費
充実
消費
こだわり家庭生活アクティブ
節約消費
堅実生活
パパっと
-‐0.02
-‐0.1

消費
充実
消費
-‐0.04
-‐0.15

-‐0.06
-‐0.2

クラスタ番号１１（お手軽栄養派）
クラスタ番号２８（自炊系（肉・パン））
バナナ、ヨーグルト
鶏肉、食パン
0.15

0.1

ID-‐POSに基づき分類された商品クラスタ
0.05

と、アンケートに基づき算出された顧客
0

こだわり家庭生活アクティ節約消費
堅実生活
パっと
パパーソナリティ因子の関係を計算可能
-‐0.05
消費
充実
ブ
消費
に

-‐0.1

クラスタ番号３１（格安派）
野菜見切り品、果物見切り品

大規模ID-POSとアンケート結果の統合（計算モデル化）

顧客パーソナリティ因子と商品群の関係をPOSデータからベイジアンネット化
（青い線：各ライフスタイルカテゴリーに対して全商品カテゴリーで得点が高い３商品カテゴリー）
（赤い線：各商品カテゴリー内で1番得点が高いライフスタイルカテゴリー）

ライフスタイルカテゴリー
既存の

新しい商品カテゴリー
商品分類
アンケート（アンケートから抽出）
（ID-‐POSから抽出）
項目
果物自炊的
健康飲料的
野菜
デモグラ

お手軽夕食的
菓子のお伴的
こだわり消費派
日常行
動・生活酒飲み健康的
お手軽栄養的
肉・
時間
家庭生活充実派
魚・卵
パン食的
肉不使用自炊的
健康意
冷凍・
識
アクティブ派
野菜自炊的
しっかり野菜的
レトル
食に対ト

する意節約消費派
おやつ的
和風朝食的
総菜
識

飲料
洋風朝食的
おかずもう一品的
消費傾水・酒
向
堅実生活派
類
牛乳・清涼飲料的
見切り品的
パーソナ
リティ
パパっと消費派
しっかり自炊的
日用品的
日用
雑貨
PB的
肉自炊的

利用者の特徴を表すベイジアンネットモデル
顧客特徴データベースを用いて、カテゴリ分類、ID-POS解析、 
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。
ベイジアンネットワーク：関係の強い変数間の関係を自動的に発見することができる
方法論。また、全体や各変数の確率も効率的に計算可能。

顧客の特徴についてのベイジアンネットワーク
（データ数3695件、計算時間約1分、Greedy サーチ、構造探索スコア：AIC）

利用者の心理特性（アンケート結果）をモデル化したベイジアンネットの例
各商品カテゴリを購入している利用者の解釈（アンケート回答との関係性）

Class06
おやつ的

Class07
洋風朝食的

利用者の購買行動を表すベイジアンネットモデル
対象ジャーナルデータを用いて、カテゴリ分類、ID-POS解析、 
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。

ジャーナルデータについてのベイジアンネットワーク
（データ数420万件、計算時間約48時間、Greedy サーチ、構造探索スコア：AIC ）

ベイジアンネットを用いたシミュレーション
作成したモデルを用いて状況依存性についての確率推論を行った。

Ｐ（回答家庭生活充実してない | お手軽夕食商品, 夕方に購入） → 高い確率
0.3

家庭生活充実していない
それ以外
0.25

0.2

0.15

0.1

0.05

0

夕方
0
0
1
1
夏
0
1
0
1

お手軽夕食的クラスタ商品

来店行動予測モデル→ 需要予測への応用

非対称な分散の構造をモデル化したベイジアンネットによる予測結果の補正
・ベースモデルの予測残差に対しベイジアンネットモデル（ＢＮモデル）を作成

・予測外れが大きい変数に対して、予測結果を補正

外れの大きい値に対して
事後確率の期待値を

ベイジアンネット構築
予測結果に加算

下ブレ外れの上ブレ外れの
大きい範囲大きい範囲 ①上ブレ、下ブレ、両者の内
（-2σ, -1σ以下）
（1σ, 2σ以上）
使用する補正の有無を判定
↓

30

②各日の説明変数をＢＮへ
↓
20

③大きな予測外れが起こる
10

事後確率を推論
↓

0

-200 0 200 400 ④事後確率の期待値により
外れの値
予測結果を補正
残差のヒストグラム
外れ方の構造
（ベイジアンネットモデル）

非対称分散構造モデルによる需要予測補正効果

条件付層別差分モデル（ベイジアンネット）による予測結果の補正
・補正が必要なブレの大きい日についてのみ、限定的に補正する

・下ブレ、上ブレの判定→ 符号関数ξ（x）をBNでモデル化したものを用いる

上ブレ残差
下ブレ残差
σup
σlow

10 20 30

y ! z = diff (x) " # ! (x)k" P(! (x)k" | x)
k=1,2

0

-200 0 200 400

符号関数ξ(x)は上ブレ(y-z>σ)の時+1, 下ブレ(y-z<σ)の時-1それ以外では0

セグメント毎予測＋BN残差モデル補正による予測結果の改善率
①前年同月同曜日 ②線形予測 ③セグメント毎 ④線形＋ＢＮ補正 ⑤セ+BN補正 ①からの改善 ②からの改善

平均予測再現率 92.7％
96.2％
96.4%
96.4％
96.4%
-
-
残差合計 -2835人
-762人
-516人
-555人
-141人
2694人
621人
絶対残差合計 3285人
1599人
1542人
1549人
1501人
1784人
98人

ベイジアンネットによる
大規模データ�からのモデリングと情報サービス�

アプリケーション�
Web, 携帯、カーナビ� 様々な状況・ユーザ�
レストラン情報�
ネット配信音楽� システムなど� 操作履歴
�
ユーザの好みを予測し、� 履歴・属性�
フィードバック� データベース�
最適なコンテンツを推奨�
頻度データから条件�
嗜好性を表す� 付確率を求め�
確率モデル� 依存関係の強さに従い�
ベイジアンネットを自動的に構築�

GUI

ベイジアンネット構築・推論ソフト�
モデルの分析、データマイニング�

リコメンデーションの例（CFからBN）
・協調フィルタリング(CF)
（ex. ｱﾏｿﾞﾝ、ｱｽｸﾙ）:P(X) ∝∑類似度(u) 購入経験(u,X)
u

購買履歴
類似度
他の

コンテンツ

ユーザ

ユーザu x

・アスペクトモデル：P(X)= ∑P(X|H)P(H|U)
H

関心
ユーザ
アスペクト
H
内容
コンテンツ
x

構造を持つ確率モデル＝

ユーザが対象が興味深いと評価する確率を推定して、
その確率の高いコンテンツ（X）を推奨。
より複雑な依存関係(選択理由、個人属性など)を取り込めばよい。

人間の心理的特性のモデル化
Ｕ：ユーザの特徴を表すベクトル
（年齢や所得など）
Ｘ：コンテンツ（レストラン情報）の属性ベクトル
（客層や平均予算など）
Ｅ：ユーザUがXをどのくらい「好き」だと思うか
（例えば１から５までの５段階評価）

Ｕ、ＸからＥを予測する確率モデル
P(E=5|U=u, X=x)＝８０％
: アンケートデータ
P(E=1|U=u, X=x)＝５％
（統計）

ユーザ・状況属性の追加
Ｘ１
Ｘ２
対象
P（E｜X , U , S)
Ｘ３
の特徴
Ｘ４
Ｅ（好き）
Ｕ１
Ｕ２
年齢などの
Ｕ３
ユーザ属性
Ｕ４
Ｕ５
S（状況）
•  ユーザUにXを評価させた統計データから条件付確率を獲得。
•  情報量の高い属性、特徴ベクトルを抽出。
n  意味のある状況Sを導入した「状況依存モデル」の状況の発見。

ユーザ適応型カーナビ（レストラン推薦） 
（本村・岩崎「ベイジアンネットワーク技術」東京電機大出版局）

コンテンツプロバイダ車両用情報システム
ジャンルベイジアンネットワーク提案コンテンツ
コストレストラン音楽推論
提案候補 /スコア
距離情報
センターコンテンツデータ C Ｈ1 A 推論結果ステーキXY店
1
60
季節 CBカレー
状況データ
年齢ＳＨ2 2
40
時間
性別ユーザ嗜好モデルビストロAB
ユーザデータ 3
U 30

履歴
学習ステーキ店
同乗者現在地：

例：カーナビでのレストラン選択のモデル

（デンソーITLとの共同研究、iPhoneアプリ化）
年齢層
自動車運転歴
ﾕｰｻﾞ層
可処分

食事の好み

所得ユーザー属性
（休日夜）

主客層
ﾒｲﾝ
レストラン属性
ﾃﾞｨｯｼｭ
平均
予算
高級感

ﾌﾗﾝﾁｬｲｽﾞ
ﾚｽﾄﾗﾝ

ｶﾃｺﾞﾘ

状況

気温
急ぐ
時間
状況

携帯電話によるユーザ適応型知的情報サービス： 
小野（KDDI研究所）・本村・麻生:User
Modeling
2007など

２７００人へのアンケート結果からモデルを構築、デモサービスを実演 à プレス発表・NHK放映

•  映画推薦サービスにより集積する大規模データをマーケティングに活用

（ＫＤＤＩ研究所、松竹との共同研究）

観測・モデル化（状況を入力）
auOneラボのサービス
手段→映画館
状況
誰と→恋人と
気分→感動したい
状況
誰と
TPOに応じた
「恋人と、
コンテンツ
映画館で、
どんな気分
推薦エンジン
感動したい」
（嗜好性モデル）
感じ方
評価
プロフィール
推薦
感動した
結果
性別
年齢
癒された
好む
確率
デートにぴったりの
映画でうれしい★
「30代、男性、  コンテンツ情報
ストーリー重視」
ジャンル
製作国

個人プロファイル（年齢、性別等）
過去の履歴情報（視聴、購買等）
数万コンテンツ
数千人アンケート、過去の視聴履歴（パートナー企業提供）
映画ＤＢ
など大規模データ収集・嗜好性モデル構築
利用しながらモデル更新（連続・動的最適化）
水平展開

他のサービスにも利用できる再利用可能な計算モデル（知的基盤）

映画宣伝支援システムの利用例

どんな顧客？

どんな映画？

予測結果

「実話に基づいている」という

具体的な点をアピールすることにより、

ユーザーの鑑賞意欲を

効果的に増加できると推測できる。

※差分=P(UI|C(U), V=positive) – P(UI|V=positive)

予測結果を基に、ストーリーのリード部分を修正し、

実話が基になっていることを強調した

（落合,
下角,
小野,
麻生,
本村,
人工知能学会全国大会2009）

２０代と３０代では、同じ映画であっても

訴求ポイントが明確に異なる

２０代の結果
３０代の結果

２０代向けの雑誌には、
３０代向けの雑誌には、

ハリウッドナンバー１ビューティー、「シャーロット・グレイ」の実力派女流
キャサリン・ゼタ＝ジョーンズ主演監督、ジリアン・アームストロング最
最新作という切り口で紹介
新作という切り口で紹介

例：通信販売支援へのベイジアンネット活用
既存データからは推測できない顧客のニーズやCSRの販売ノウハウをモデル化して活用

顧客全体

従顧客データ
新たな購買履歴データによるモデルの改良
CSRによる売込結果
来商品データ
購買履歴データ
ベイジアン・アプローチ
分

お薦め商品潜在顧客
析
既存データベース

行行センターの画面に
約５００万件/月

動
予
動
予
抽出
・勧める商品
・理由
の大量データ
測測
・売込フレーズ
*

ー

を応答時に表示

顧客ニーズ知識

商品知識
分
析モデライズ社
ー

カスタマーサポートセンター
*

：クロスセル以外の様々な分析
や予測にも共通的に活用可能

ベテラン社員の知識と販売データから

現場の知識をモデル化し組織全体で活用
売り上個数

ベイジアンネットとし
てモデル構築
上位オペレータの
知識をシステム化
げ
底上

下位オペレータを
システムが底上げ
平均

0 50 100 150 200 250
オペレータ数

利用者計算モデル活用技術

デジタルサイネージへの応用シナリオ

デジタルサイネージ�
店舗内キオスク端末、
ライフスタイル
提案� 携帯、インターネット�
�
生活コミュニケーション促進
大規模�
ID-POSデータ
データベース�
（生活満足度向上）� と連携�
生活品質評価�
顧客セグメント推定・
認知・興味喚起を行う
コンテンツ選択
カテゴリマイニング技術

オンラ
イン分
析

ベイジアンネット技術� 顧客理解・サービス品質の評価�

店頭端末：POSEIDON 全国30店舗、利用総数約4000件
小売現場での活用事例購買回数向上, 会員誘導効果が大
(2011.5 )

顧客
POS
商品
POS
メルマガ

クーポンに

店頭よる再来店

POSデー全店舗集計

タ
独自のＤＢ

イベント、
入力
天気など
レシートデータ
店頭端末

状況パラメータ
顧客行動履歴

（POSEIDON）全国30店舗導入

最適クーポン
分析エンジン
履歴データ
購買傾向の基本統計量
レコメンド
顧客モデル化
予測モデル
フィードバック


カテゴリー勤怠管理
生産管理
マイニング
（ＰＬＳＩ）
キャンペーン
APOSTOOL

企画

店舗間比較
活用
商品企画

店舗施策

小売サービスにおける支援技術パッケージ
顧従業員報告（従業員アンケート・店舗レポート等）

基本DB関連客
顧客行動（閲覧履歴・アンケート等）

商品情報データ
接
店舗情報データ
点 POSEIDON
商品店舗レコメンド・

データ
データ
支アンケート結果
援

POSインタラクション
実店舗

データ
メルマガクーポン
ECサイト
POSデータ

CRMデータ
時空間意味統合

データベース

マージ済みデータ

加工済みデータ

APOSTOOL
店舗フィードバック

ECサイト時空間意味DB
（分析サーバー）
売上関連分析結果

店舗比較情報

データ
顧客動向・売れ筋等
オフィスフィードバック
APOSTOOL
業務日誌・ブログ
各種分析結果
EC系データ

売上データ
レベル別閲覧
会員データ
自動レポート閲覧
経営層向け
配送データ

楽天データ
マネージャ向け
Amazonデータ
手動レポート
一般社員向け

生産管理
従業員支援
最適化
在庫管理
経営者支援

生活中の履歴データなどの大規模データから
再利用できる知識（因果的構造）の獲得

従来の統計（母集団依存性大）
l 各事例の保存と検索（データベース）
l 単独の頻度、集計、統計
Digital Human Research Center

l 複数の変数の間の関係（相関、独立性）
l ある変数を説明するルール、予測モデル
l 変数群の依存関係の条件付確率(確率的知識)
l 因果的構造のネットワーク（因果的知識）

有用な知識（再利用性大）
集めたデータの説明から、そのデータ以外にも成り立つ知識、
すなわち過去の経験から、『次』に活かせる知識へ！！

因果的知識の例
  事故が発生したという事象から過去に遡る。
  つくば市立の保育所での調査アンケートの例

Q1:その事故が起きたのは直接には何が原因ですか？

Q2: Q1の出来事が起きたのはなぜですか？関連するもの
を全て挙げてください。
Q3: Q2の出来事が起きたのは、それぞれなぜですか?関
連するものを全て挙げてください。

事故の分析：保育園でのひやりはっと事例

状況
モノ
前の日に
コンクリの
掃除する
雨
上に砂

滑る

外で遊びたい
行動
はしゃぐ
事故=high
事故=low

児童
活発な性格
そそっかしい
注意する
12/10/21
61

日常生活における因果的構造とは？
例：個人の認知・評価構造
  「なぜ」を繰り返すインタビューによる気づき
  無意識的な行動の背景にある動機が明らかに

クッションが  背もたれが高いから

よさそうだから
体によさそうだから

それはなぜ 
なぜこちらを  よいのですか？
気分が良いか
選びましたか？
ブランド
ら
安いから
インタビューから選択理由を挙げ、対象の属
性から評価に至る認知構造

運転中の走行シーンの認知構造
（画像提供：トヨタ自動車）

どちらが危険と判断するか？
より危険と認識するのは何が原因か(コンストラクト)?
それはなぜか(理由・原因)？
もしそうであれば、どんなことが起こるか（因果的結果）？


安全�
危険�
初心者（運転は年一回位）の認知構造の例

初心者の回答例

  「注意を引くものがある、多いと怖い」
  「バスやトラックなどの大きな車が気になる」
  「ぶつかりそう、よけにくそうだと危険」

  「相手が動くとよりぶつかりそう」

Digital Human Research Center 熟練者（運転歴１５年、週5回以上）の認知構造の例

安全� 危険�

熟練者の回答例

  「自転車は後ろを見てないので危険」
  「こっちを見ている相手は大丈夫」
  「自分が止まるだけで良いのは安心」

  「操作が忙しいときは回避できず危険」
  「次の状態が予測できるときは安心」

危険性の評価・認知構造
走行シーンの認知・評価の因果的階層構造には下図のような
個人差がある。
・運転者の初心者／熟練者の識別
・熟練者：危険初心者：安全となるシーンについて初心者に
危険であることを伝える支援システムへ

相手の動き
が不明
ベテランドライバー（15年）：
次の場面が
予測できない
運転は週５回くらい
初心者である
対処
先が
ことを運転操
走行
見えない
できない
作から識別し、
シーン
やるべき
ベテランと異
カーブ
動作が多い
危険
なる状況判断
スピードが
出ていそう
について支
ぶつかる
援・教育を可
能に！
障害物が
ある
初心者ドライバー（3年）：

事前知識を活用して、統計データの情報を補う
認知・評価構造の定量的モデリング
Y.Motomura, T.Kanade :Probabilistic Human Modeling based on
Personal Construct Theory”, J.Robot&Mechatronics, 17/6, (2005).

統計的学習（頻度データ）
欠損（未回答）データの場合
定量調査
→EMアルゴリズム

アンケート

統計的言語処理

評価グリッド
Bayesian network

認知・評価構造モデル

初期構造（潜在変数）

[事故事例を知識化し、制御するために]

事故予防のための行動と状況を含んだ因果構造をモデル化�

A

• 重症事故の数
制御したい対象

• 事故死の数
多くの場合、
そのままでは制御困難

事故制御理論�

• A,B,Cの因果構造の解明

• Bを用いてAを制御する理論�
B

C

制御可能な対象

制御不能な対象

• モノの設計（メーカー）
子どもの月齢・天候・発達・季節
• 保護者の意識・環境調整
・時間

日常生活を知識化する
  例：子どもの事故予防の場合
  事故(unusual)の因果的関係をモデル化
  個々のケースの原因(行動、モノ)を知り、制御することで事故を
予防可能に

事故発生
その子の予防すべき事故原因
日常
∼が∼した
ので
∼が∼して
ケガ

それぞれの日常生活の理解

}  平常状態(usual)から異常(unusual)までを定量的に評価
}  起きても仕方ない事故と特殊な事故を見分けていく
}  許容できる日常と危険状態のボーダーを制御していく

事故履歴データ（受診200事例）からの 
子供の事故状況のモデル化

Location

Object


Time

Injury

Size

Season

Age

Body part

Gender

Behavior

Intension

事故の関係モデルを使った確率推論
Set:

女児, 1歳 , 冬,
器具による事故


Results

(highest):

ヤケド 94%

不注意 67%

腕 90%

リビング 62%

日中 67%

ベイジアンネットによる大規模データからのモデリ
ング：子供の事故データ（約200件/月）の例
 


事故サーベイランスシステム

国立成育医療センター

事故調査表・テキスト
電子カルテ

事例：事故データを計算論的にモデル化することで
将来の事故予測・予防に活用
子どもの事故データ（約200件/月）
子供の属性、生活時間

事故サーベイ

ランスシステム
子供の日常生活行動
環境要因

カルテ
事故調査表

事故の程度・確率

事故履歴データからの知識化
1.  使用データ：国立成育医療センター子供の事故
n  使用データ件数：1,791件（2,430件中）
n  事故の種類を6種類に限定
n  事故に関係したモノと事故直前の行動のどちらも空欄の場
合は用いていない
800

700
600
使用データ
500
400
300
200
100
0
はさむ

刺される
噛まれる

おぼれる
転落

転倒

衝突

やけど

誤飲

誤嚥

窒息

その他
交通事故

自由記述テキストデータの加工
1.  自由記述テキストデータの構文解析
n  文章を単語に分割
n  単語の原文を表示
n  品詞タグ

表3 構文解析結果
行ID 文章ID 単語ID 見出し語
原形
置換語
品詞
係り先
1 1 1 自宅の
自宅
自宅
名詞
2
1 1 2 家具
家具
家具
名詞
-1
2 2 3 木製の
木製
木製
名詞
4
2 2 4 ローテーブル
ローテーブル
ローテーブル
名詞
-1

… … … …
… …
… …

2.  類義語辞書
n  表記ゆれやターミノロジーの問題の解消のため，
類義語辞書を作成
n  表記ゆれは，同音・同意味の単語で文字表記が異
なること

n  ターミノロジーの問題は，同じ意味を有する単語が
別の言い回しで呼ばれるような問題のこと

表4 作成した類義語辞書（一部）
代表語
品詞
単語
遊ぶ
動詞
遊ぶ
あそぶ
いじる
つかまり立ち
動詞
つかまり立ち
掴まり立ち
掴まりたち
つかまり立つ

… … … … … …

n  モノ・行動はたくさんあり，それをすべて用いて
確率・因果的構造モデルを構築すれば，膨大
な情報量となり，理解するのが困難である

3.  モノ・行動の特徴辞書

n  モノ・行動には事故に関係する特徴がある

例）ストーブ，加湿器，コタツ→熱いモノ

ボタン電池，タバコ →口に入れられるか

モノや行動の特徴を項目とし，
確率・因果的構造モデルで

事故との関係を推論する！

表5 作成した特徴辞書
上下
全頭上水静
半半
身部下平止
身身作触動取
動動作動動動
動動

ー

ー
ー
作作作作作

作作動大中小

後

飲触走触立
走飲走飲
立立立

起起触
噛開跳開飲跳触寝跳

n 作成した類義語辞書，特徴辞書をもとに構文
解析した事故データを離散変数に変換した

Digital Human Research Center 事故データのモデル化

確率・因果的構造のモデル化
男の子，1歳以上6歳未満が多い
n 「転落」の場合
11歳以上はほとんどない
起きている時間帯が多い
寝ている（深夜）はほとんどない

こども
時間帯

モノ
行動

乗れるモノ，物の高さ，
静止動作，全身動作，
身体を支えられるモノが多い
上下動作が多い

子どもの危険行動シミュレーション

  140万人の会員を有する企業（ベネッ
セコーポレーション）と共同で開発と
評価．

2005年12月12日より会員向けサービス開始
2007年3月より一般向け英語版・日本語版公開� 83

持続的発展可能な事故予知支援システム

意識と現事故
アンケート
実のずれデータベース
21,482件（07/1/29現在）
検出

ユーザの理解・
ユーザ履歴
モデル化
科学的知見
データベース

（
認識ずれを
医事国
補正するコン療故家
テンツ作成
費予
サービス
防

現象
理論
社会
現象
理論
削

）
技術
構築
応用
記述
構築
減

Kuhn型
一体型

WEB WEBサービスの
社会・研究の進化・深化
サービス
提供・アンケート
の改善
（個人レベル）
子どもの事故予知支援サービス
安心・安全 
サービス
05/12/12開始
行動モデル・事故シミュレータ
4,471人保護者に
で動画作成
61,147件動画配信
（保護者の知らない事故
（07/1/29現在）
・最近多発している事故）

行動認識（子供の行動識別の例）�

魚眼カメラ�

超音波受信器307個�

日常生活空間を模擬した部屋�
4×4×2.7[m]

超音波発信器�
（3次元タグ）�

Digital Human Research Center 子供の行動は場所に依存して発生している

水色：「立っている」
白色：「歩いている」
紫色：「座っている」
緑色：「よじ登っている」
橙色：「這い這い」
黄色：「うつ伏せ」
青色：「仰向け」
桃色：「寝返り」

行動ラベルの場所依存性

ベイジアンネット技術とサービス工学におけるビッグデータ活用技術

ベイジアンネット技術とサービス工学におけるビッグデータ活用技術

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (6)

Similar to ベイジアンネット技術とサービス工学におけるビッグデータ活用技術

Similar to ベイジアンネット技術とサービス工学におけるビッグデータ活用技術 (20)

ベイジアンネット技術とサービス工学におけるビッグデータ活用技術