• Like
  • Save
東大計数特別講義20130528
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

東大計数特別講義20130528

  • 1,665 views
Published

2013年5月28日本郷での特別講義資料(一部修正)

2013年5月28日本郷での特別講義資料(一部修正)

Published in Education
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
1,665
On SlideShare
0
From Embeds
0
Number of Embeds
3

Actions

Shares
Downloads
0
Comments
0
Likes
5

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. ビッグ・データからの確率的行動モデリング  によるサービスと日常の工学   独立行政法人 産業技術総合研究所 サービス工学研究センター 副研究センター長, デジタルヒューマン工学研究センター 兼務 統計数理研究所客員教授&東京工業大学連携准教授              本村 陽一
  • 2. 背景:「モノ」から「コトへ」  車           vs                    家族でのドライブ   家           vs       家庭生活  SNS                            vs    知人の近況、いいね  SNS                                   vs       膨大な広告視聴者  SNS                                                                  vs            行動変容・社会変革  ビッグデータ(ベース)    vs                    リアルな社会情勢    (凄い)「モノ」 そのものよりも、  「モノ」を通じて得られる(善いこと)「コト」が大事!
  • 3. モノの価値からコトの価値へ •  価値モノ =  f(モノ)  =  f(what,  α)  (α  =  何らかの前提)  •  価値コト =  f(コト)=f(5W1H)                                                  =f(what,  who,where,  when,…  )          =f(モノ、人、状況、etc….)  •  価値モノと価値コトではその自由度が異なる    (不確実性、ダイナミクスが伴う)  
  • 4. コト(サービス)の特性 l 無形性:手に取ったり、見たりできない  l 消滅性:保存しておくことができない  l 同時性:提供と消費が同時  l 異質性:価値は均一ではなく、標準化できない   こうした特質から、物理・機械・情報工学的な扱いだけではなく人、人々、状況、環境(場)とその関係性まで含めたモデル化が必要
  • 5. 人が入る系(システム)の研究 •  全体システムの中に人のモデル(ヒューマンモデル)を入れて最適な動作を設計する  →「コト」の工学研究 制御対象としてのシステムの中に人を含める。 →全体システムの中では人はもっとも不確実 狭義のシステム ヒューマンモデル
  • 6. 製品設計 日常生活 バックヤード フロントヤード 経験価値 購買行動 「製品(モノ)を伝える」から「経験価値(コト)を伝える」へサプライサイドだけではなくデマンドサイドも積極的に扱う 時代的要請:「モノ」の工学から「コト」の工学へ新たなプロダクト・サービスデザインのための技術製品利用 サービス設計 サービス利用 視点 供給側の視座 顧客からの視座 視点 視点 顧客接点 Point of Service 受容者(顧客) 「モノ」から「コト」へのパラダイムシフト 生活現場 研究・開発現場
  • 7. サービス:顧客との共創 日常生活利用者提供者経営者実社会 サービス現場Suppliers ProducCon  process users The unified service theory(Sampson 2006) Inputs 問:いかにしてユーザからのインプットをフィードバックするか  ? inputs outputs Service can be characterized by Users’ feedback
  • 8. 生活(サービス)現場における行動履歴データの収集とモデル化のために生活者の計算モデル化と  情報サービス  大規模データモデル化 As  is To  be サービス活動中に取得できるよう実験計画されたデータ 最適化 人間行動観測技術 リアルデータの観測 生活と技術のデザイン 支援技術 モデル:制御対象 コト:生活
  • 9. Center  for  Service  Research,  AIST  •  ID付POSデータなど大量データが蓄積  •  数千人規模のアンケートも容易に実施可能  •  ただし、データ分析、データマイニングだけでは、結果の活用が限定的(従来通りの施策の実施のため)飛躍的生産性向上に結び付きにくい。  •  そこで、大規模データを計算モデル化し、その結果をITで活用できるようにする。  •  「顧客の見える化」「生活者起点」を促進するために  大規模データからのコトの計算モデル構築と活用技術 大規模データ活用技術  類型化と構造化に基づく計算モデリング
  • 10. 生活中の履歴データなどの大規模
データから再利用可能な計算モデルへ l 各事例の保存と検索(データベース) l 単独の頻度、集計、統計 l 複数の変数の間の関係(相関、独立性) l ある変数を説明するルール、予測モデル l 変数群の依存関係の条件付確率(確率的知識)  l 因果的構造のネットワーク(計算モデル)  集めたデータの説明から、そのデータ以外にも成り立つ知識、 すなわち過去の経験から、『次』に活かせる知識へ!! 従来の統計(母集団依存性大) 有用な知識(再利用性大)
  • 11. 構造的モデリング技術:ベイジアンネット X1X2 X4X3 X5X2 0 1X40 0.8 0.41 0.2 0.6条件付確率 P(X4|X2)説明変数)P(目的変数|条件付確率 P(X3|X1,X2) 条件付確率: 和文書籍 ベイジアンネットワーク技術:東京電機大学出版局(本村・岩崎) ベイジアンネットワーク概説:培風館(繁桝・植野・本村)
  • 12. ベイジアンネットの学習(モデル構築)  確率変数の選択 グラフ構造の学習 条件付確率(パラメータ)の学習  AB{P1 (a1|b1), P2 (a2|b2), …}P離散確率変数: CPT (cond prob table)事例の頻度から確率化 BAP連続変数:パラメトリックモデル のパラメータ学習 or 離散化 情報量基準による(局所)モデル選択 情報量の高い、重要な変数の抽出
  • 13. 条件付確率表 ベイジアンネットの条件付確率表 X条件付確率表 P(Y|X) = pY P1P2P3P4P5P6I jEx.0.30.4:XnY X2X1: : n  完全データの場合:  クロス集計表の正規化で最尤推定量が得られる。
  • 14. X Y ベイジアンネットの学習(グラフ構造の探索) ベイジアンネットの条件付確率表 X条件付確率表 P(Y|X) = pY P1P2P3P4P5P6 xyEx.0.30.4:X,Yに関するクロス集計表 Xクロス集計表 度数|Y, X| = nY n1n2n3n4n5n6xyEx.34:カイ二乗検定により変数間の 独立・従属性を判定 条件付依存性を情報量基準(AIC, MDL)により判定しモデルを選択(ベイズ比検定) X Y OR ? ? この検定を一つの子ノード毎に、複数の親ノードに対して繰り返し行う。
  • 15. 確率推論(belief  propagaCon) P(X3|e-)P(X1|e+)X1X3P(X2|X3)X2Observation e+P(X2|X1)Observation e-Belief(X2)= P(X2|e+, e-)=P(X2|X1) P(X1|e+) ・ P(X2|X3) P(X3|e-)X1 0 1X20 0.8 0.41 0.2 0.6CPT:P(X2|X1)もっとも単純な場合(基本系)
  • 16. Belief  propagaConアルゴリズム .)()|()()(,)()()(,)()(,)()|()().()()Pr(∏∑∑∏∏∏∑≠≠≠=======ikkUkXikxXUijkYkXXYjYjYjXUiUiXuuUxPxuxxxxxUiuUXPxxxxXπλλλππλλπππλα)(xλ)(xπ XU1 UiY1 Yj…………)(xXYπ)(uXUλXへの入力 Xへの入力 Xからの出力 Xからの出力 )(uUXπ)(xYXλ
  • 17. ベイジアンネットの
ベイズ的世界観 •  ドメインを全て確率変数として表現 •  ドメインの状態は各確率変数の同時分布 •  観測可能、決定的な場合を包含 •  末端の変数は事前確率分布を仮定  •  関係性と構造を全体システムとしてモデル化 •  目的:知りたい対象の変数の事後確率分布を計算 •  この時、主要な依存関係のみをグラフとして表し、モデル化することで記述量、計算量を劇的に削減。 P(X1,X2,…,Xn)  =  P(X1|X2)P(X2|…)P(Xn)  
  • 18. ベイジアンネットワーク構築・推論ソフト BayoNet    (1998:IBIS、AI学会などにて発表)
(2003~:商用ソフトとして販売, COMDEX出展)
(2005~ 本格的実用化によりソリューションビジネスも提供)
  • 19. ベイジアンネット技術とその深化 •  大規模実データの中から、  ・非線形・交互作用を含むゆるやかな因果的連鎖構造を自動的に抽出し、  ・計算機上のモデルとして作成し、  ・推論やシミュレーション、制御などに活用できる  •  表形式の離散変数(SQL-­‐DB)だけでなく、  ・ センサ、画像、テキスト、電子カルテ、ID-­‐POSデータなど、日常で集積されつつある大規模データを適用可能にする技術研究  BN  +  テキストマイニング/  潜在クラス分析  /  特徴抽出    ・ 応用による社会問題解決の同時遂行が重要    
  • 20. 確率的行動モデル •  行動:    例えば購買行動  (yes  or  not)  ある商品を購入した人が10人、  同じ条件で購入しなかった人が90人いた場合,    P(buy=yes)  =  10/(10+90)  =  0.1    •  条件ごと異なる購買確率:  P(buy|condiCon)  •  例えば化粧品の購買確率,                            P(buy|female)  >  P(buy|male)  •  平日と週末により異なる場合,              P(buy|female,  weekend)>P(buy|female,  weekday)    
  • 21. 消費者行動の計算モデリング 会員入会 メルマガ受信 来店 入店・閲覧 購買 興味ドライバー 来店ドライバー 購買ドライバー 入店ドライバー 商品情報  ノベルティ  話題  季節感    : 実物を見たい  買い物の日  イベント  同行者として  なんとなく    : 経験価値・生活満足度向上 メルマガクーポン 新規顧客 デジタル  サイネージ 接客支援ツール 実物を見たい  フィッティング  素材感  時間がある  ディスプレイに  惹かれて    : 実感(似合う、機能)  揃える(色・デザイン)  安心(保有・確保)  接客に惹かれて    : リピート
  • 22. 事象指向の計算モデル化技術 サービス工学における最適設計ループの実現のための  •  大規模データ(ID-­‐POS,  アンケート,  操作履歴,  テキスト)  •  カテゴリセット抽出(PLSA,  クラスタリング,  質的調査)  •  構造・関係モデル構築(BN,  情報量基準)  •  Man-­‐Machine  Lifelong  Learning(IT+コミュニティの学習)  時主客場 動ID-­‐POS アンケート Log テキスト etc 顧客セグメント・潜在クラス機能・情緒ベネフィット IT+コミュニティ→ ダイナミクス(サービスシステム) 5W1Hを反映した構造的計算モデル POSEIDON APOSTOOL    BayoNet 類型化 構造化
  • 23.  大規模ID-­‐POSデータの活用事例  –  データの件数約数十億トランザクション    ID-­‐POS:「誰が」「商品」を「どの店舗で」「いつ買ったか」    •  付加的なデータも加え、因果的な構造としてモデル化することで、「どういう理由で」購買したかを推定し、  「もしもこうしたら、どうなる」というシミュレーションにも活用できる計算モデルを構築する  データイメージ **
  • 24. Center  for  Service  Research,  AIST  •  ID付POSデータなど大量データが蓄積  •  数千人規模のアンケートも容易に実施可能  •  ただし、データ分析、データマイニングだけでは、結果の活用が限定的(従来通りの施策の実施のため)飛躍的生産性向上に結び付きにくい。  •  そこで、大規模データを計算モデル化し、その結果をITで活用できるようにする。  •  「顧客の見える化」「生活者起点」を促進するために  大規模データからの計算モデル化の事例紹介 大規模データ活用技術
  • 25. スーパーでの購買行動のモデル化
  • 26. 大規模データからのモデリング •  カテゴリマイニング:小売商材−顧客の自動分類  –  ライフスタイルや価値観に関するアンケート結果から、利用者視点の商品カテゴリ初期値を作成  –  ID-­‐POSデータから、商品カテゴリに対して、似たような購買  行動をとる顧  客カテゴリを  作成  –  商品−顧客カ  テゴリの機械  学習(ベイジ  アンネット)を  繰り返す  
  • 27. [PLSA]y x u P(u)P(x|u) P(y|u)Customer xiItem yjObserved variablesLatent class ukスーパーのID-POS データ“購買履歴+customer and item ID”•  期間:Oct.1. 2008 – Sep.30.2009 (1 year)•  データ数 : 669,511,467 transactions.ProbabilisCc  Latent  SemanCc  Analysis  (PLSA) Step 1 : 顧客と商品の共起行列を作成Step 2 : 対数尤度を最大化するような P(x|u), P(y|u), P(u) をEM法で探索Step 3 : uを増やし1,2を繰り返して情報量規準により潜在クラスの数を決定Step 4: argmaxu P(u|x) and P(u|y) により顧客xと商品yが所属     する潜在クラスu を決める。うち、アンケートにも回答している3,981 人のデータと売上が上位の1,000 items を抽出→ 約420万 transactions を対象 P(xi, yj) = P(xi | uk)P(yj | uk)k∑ P(uk)
  • 28. Step1  :  共起行列 User1 buy Item1 and Item M,User2 buy Item1 and Item2,:User N buy Item2 ID POS data Co-occurrence matrix 顧客iと商品j共起頻度: Nij共起行列:N11, …. NNM
  • 29. P(uk | xi, yj ) =P(xi, yj,uk )P(xi, yj )=P(uk )P(xi | uk )P(yj | uk )P(uk )P(xi | uk )P(yj | uk )kU∑P(xi | uk ) =Nij P(uk | xi, yj )iX∑Nij P(uk | xi, yj )jY∑iX∑ P(uk ) =Nij P(uk | xi, yj )jY∑iX∑Nij P(uk | xi, yj )kU∑jY∑iX∑P(yj | uk ) =Nij P(uk | xi, yj )iX∑Nij P(uk | xi, yj )jY∑iX∑[E-step][M-step] 対数尤度 L を最大化する P(xi|uk), P(yj|uk) , P(uk) の更新式.Step2  :  EMアルゴリズムによるパラメータ推定 1 PLSAのパラメータ             の初期値は乱数で設定.2 次のE-step (expectation), M-step (Maximization) を対数尤度                 が収束するまで繰り返す L = Nij logP(xi, yj )j∑i∑P(xi | uk), P(yj | uk), P(uk)
  • 30. Step3  :  潜在クラスの数を増やしながら情報量規準      を観測→ 最小のモデル(潜在クラス数 U  )を採用 122600000  122800000  123000000  123200000  123400000  123600000  123800000  124000000  124200000  124400000  124600000  AICscoreThe number of latent item category UAveragely, optimalnumber
  • 31. Step4: 潜在クラス分析(PLSA)による顧客ー商品の同時分類 ID-POSデータに基づく購買履歴から顧客と商品群を自動で同時に分類 顧客1 
属確率 顧客2 
属確率
 顧客3 
属確率 顧客4 
属確率 ・・・ 商品1 
属確率 商品2 
属確率
 商品3 
属確率 商品4 
属確率 ・・・ カテゴリ1 カテゴリ20 ・・・ 顧客と商品を
各カテゴリへ分類 推定結果:顧客がある意味カテゴリに属する確率 推定結果:商品がある意味カテゴリに属する確率 カテゴリ数は情報量規準により 20カテゴリと自動的に決定 計算結果 計算結果 ・2008年9月から2009年9月までの12カ月分のID-POSデータ ・アンケート対象者3981人と購買回数上位1000商品に関して同時分類 ・確率的潜在意味解析法(PLSA法)の適用により自動的に分類 ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ ・・・ 推定されたカテゴリ所属確率が最大となったカテゴリへ分類
  • 32. ライフスタイルアンケート結果の分析による  6つの消費・生活因子の抽出 第1因子:こだわり消費派:高くても健康に良いものを選び,産地への関心,こだわりのブランドがある  第2因子:家庭生活充実派:料理が好きで食事も生活も充実している.気分も安定している  第3因子:アクティブ消費派:外向的で,新商品や話題の商品は試しに買ってみる.ただ無駄遣いは多い  第4因子:節約消費派:チラシを見てお得な商品を買う.安ければ少々遠い店にも行く.高い商品は買わない  第5因子:堅実生活派:几帳面で家計簿をつけ,無駄遣いはしない.毎日の献立はスーパーに行く前に決める  第6因子:パパっと消費派:スーパーでの買い物はできるだけ早くすませたい.お弁当を作ることがある 因子分析から,特長のある6つの因子が抽出できた.ベイジアンネットワークによっても同様の傾向が検出された.  (因子の妥当性を確認)    ⇒これらの因子の組み合わせとして消費者の分類を行う  
  • 33. 顧客パーソナリティ因子と商品群の関係をPOSデータからベイジアンネット化 (青い線:各ライフスタイルカテゴリーに対して全商品カテゴリーで得点が高い3商品カテゴリー) (赤い線:各商品カテゴリー内で1番得点が高いライフスタイルカテゴリー) 大規模ID-POSとアンケート結果の統合(計算モデル化) ライフスタイルカテゴリー  (アンケートから抽出) 新しい商品カテゴリー  (ID-­‐POSから抽出) 堅実生活派 節約消費派 こだわり消費派 家庭生活充実派 アクティブ派 パパっと消費派 野菜 既存の  商品分類 肉・魚・卵 冷凍・レトルト  総菜 飲料水・酒類 日用雑貨 デモグラ  日常行動・生活時間  食に対する意識  健康意識  消費傾向  パーソナリティ  アンケート項目 果物自炊的 お手軽夕食的 酒飲み健康的 パン食的 野菜自炊的 おやつ的 洋風朝食的 牛乳・清涼飲料的 しっかり自炊的 PB的 健康飲料的 菓子のお伴的 お手軽栄養的 肉不使用自炊的 しっかり野菜的 和風朝食的 おかずもう一品的 見切り品的 日用品的 肉自炊的
  • 34. 商品属性  魚類 惣菜 肉類 ・・・  PLSA+BNによる顧客行動のモデル化 商品② 変換した意味カテゴリと顧客属性、商品属性、状況を表すベイジアンネットを構築⇒個人性、状況依存性を因果的にモデル化し、確率推論により購買行動が予測できる【PLSI+Bayesian networkの統合モデリング】① PLSAにより数千~数万の顧客や商品を数十個のカテゴリに次元圧縮(変換)健康志向・・・顧客・・・  曜日 曜日 時間帯 低価格 ブランド こだわり ・・・  年齢 家族 スタイル ・・・  0  0.2  0.4  0.6  0.8  1  購買行動の確率シミュレーション購買確率意味カテゴリ  状況  顧客属性  料理好き意味カテゴリ数千〜数万人 数十カテゴリ 数千〜数万アイテム
  • 35. 利用者の特徴を表すベイジアンネットモデル 顧客特徴データベースを用いて、カテゴリ分類、ID-POS解析、
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。 ベイジアンネットワーク:関係の強い変数間の関係を自動的に発見することができる方法論。また、全体や各変数の確率も効率的に計算可能。 顧客の特徴についてのベイジアンネットワーク (データ数3695件、計算時間約1分、Greedy サーチ、構造探索スコア:AIC)
  • 36. Class06  おやつ的 Class07  洋風朝食的 利用者の心理特性(アンケート結果)をモデル化したベイジアンネットの例各商品カテゴリを購入している利用者の解釈 (アンケート回答との関係性)
  • 37. コトの理解(5W1H) •  Who:  どんな顧客が  •  What:  何を  •  Why:  なぜ  購入しているか、  についての理解ができる。  (さらにWhen,  Where,  Howも追加する)    さらに、その顧客がどの位来店するかがわかれば、店舗でのアクションが最適化できる。
  • 38. 利用者の購買行動を表すベイジアンネットモデル 対象ジャーナルデータを用いて、カテゴリ分類、ID-POS解析、
アンケートデータ解析の結果を統合した、ベイジアンネットワークモデルを構築した。 ジャーナルデータについてのベイジアンネットワーク (データ数420万件、計算時間約48時間、Greedy サーチ、構造探索スコア:AIC )
  • 39. ベイジアンネットを用いたシミュレーション 作成したモデルを用いて状況依存性についての確率推論を行った。 P(回答”家庭生活充実してない”| お手軽夕食商品, 夕方に購入) → 高い確率 お手軽夕食的クラスタ商品 0  0.05  0.1  0.15  0.2  0.25  0.3  家庭生活充実していない それ以外 夕方 0 0 1 1 夏 0 1 0 1
  • 40. 時間情報と場所情報の活用 •  Who:  どんな顧客セグメントが  •  What:  何を  •  When:  いつ  •  Where:どこで  •  Why:  なぜ  購入しているか、についての消費者行動理解    その顧客セグメントが何人位いるか、どのように行動するかがわかれば、店舗でのアクションが最適化できる。
  • 41. 空間情報を用いた消費者行動分析の事例  〜ショッピングモールの共通ポイントカードデータ〜 •  関東のあるショッピングモールにおける大規模なID-­‐POSデータの利用を考える。 –  2011年4月〜2012年3月  –  280万レコード、15万人分  (敷地面積:約8万m2,  約200店舗) •  経営者の課題  –  在庫管理  –  店舗配置 –  顧客理解  把握 有効な施策
  • 42. ショッピングモールのポイント利用履歴  データからの潜在クラス分析 •  顧客と購買店舗エリアとの関係から潜在クラス抽出 •  使用データ –  購買履歴データ200店舗1年分 –  店舗エリアは3階分計15エリア ID store size zone category 10001 A店 50 1A レストラン 10002 B店 100 2B ファッション 10003 C店 20 3D ライフスタイル : : : : : 10999 Z店 50 2A ファッション
  • 43. •  顧客と空間が右の7つのエリアに同時分類 areaGareaEareaDareaCareaBareaFareaAareaF areaFareaFareaFareaEareaEareaCareaB3F2F1FPLSAにより抽出された顧客の買い回り行動(空間)に関する潜在クラス
  • 44. PLSAによる潜在クラス分析
大まかな傾向 •  areaA:優良顧客タイプ1 •  areaB:優良顧客タイプ2 •  areaC:食事と買い物 •  areaD:一般生活型 •  areaE:高齢者優良顧客 •  areaF:若者ファッション型 •  areaG:書籍少数店舗 消費者の行動をより具体的に分析するため、  潜在クラスを説明するベイジアンネットを構築
  • 45. 顧客クラスAの構造
 30代 areaA 平均利用金額 普通 女性 ファッション フロア遷移 1回 来店周期 1週間 正の相関 負の相関 レストラン •  30代・女性、年間利用金額が普通  •  来店周期は一週間より頻繁で、フロア間移動は多い
  • 46. 特性
(年代分布等) •  30代・女性・市外が多い。 •  リピート率は他より低めだが、一日の利用金額が高め ⾏行行ラベル areaA areaB areaC areaD areaE areaF areaG 総計女性 20135 14292 15099 19968 18539 20500 13518 122051男性 3260 2969 3039 2757 3423 4107 6631 261860 3 310 16 19 28 139 21 172 186 58120 2470 2162 2828 1646 1002 4555 3726 1838930 7908 4049 4914 4826 3899 6211 4334 3614140 5805 4527 4140 7152 5165 7653 4809 3925150 3397 3460 3027 4065 4367 3339 3699 2535460 1843 1736 1714 2453 4192 987 1692 1461770 529 404 551 873 1797 209 752 511580 75 83 105 156 370 61 176 102690 4 5 4 15 1 13 42不明 1349 821 826 1411 1134 1416 762 7719⾏行行ラベル areaA areaB areaC areaD areaE areaF areaG 総計女性 20135 14292 15099 19968 18539 20500 13518 122051男性 3260 2969 3039 2757 3423 4107 6631 261860 3 310 16 19 28 139 21 172 186 58120 2470 2162 2828 1646 1002 4555 3726 1838930 7908 4049 4914 4826 3899 6211 4334 3614140 5805 4527 4140 7152 5165 7653 4809 3925150 3397 3460 3027 4065 4367 3339 3699 2535460 1843 1736 1714 2453 4192 987 1692 1461770 529 404 551 873 1797 209 752 511580 75 83 105 156 370 61 176 102690 4 5 4 15 1 13 42不明 1349 821 826 1411 1134 1416 762 7719
  • 47. 特性
(よく利用するジャンル等) —  総計の利用ジャンル割合と類似している。 —  レストランが少ないことからファッションかライフスタイルが多い 0%#10%#20%#30%#40%#50%#60%#70%#80%#90%#100%#areaA# areaB# areaC# areaD# areaE# areaF# areaG#
  • 48. 顧客クラスBの構造 •  年間利用金額が高いが、来店周期は1週間。フロア間の移動は1回、移動距離は少ない フロア遷移 1回 areaB 来店周期 1週間 年間利用金額 多い ライフスタイル 女性 移動距離 20マス以下 正の相関 負の相関
  • 49. 特性
(年代分布等) •  市内・一日の利用金額・リピート率が高い。 •  年代は30〜50代と幅広い。 ⾏行行ラベル areaA areaB areaC areaD areaE areaF areaG 総計女性 20135 14292 15099 19968 18539 20500 13518 122051男性 3260 2969 3039 2757 3423 4107 6631 261860 3 310 16 19 28 139 21 172 186 58120 2470 2162 2828 1646 1002 4555 3726 1838930 7908 4049 4914 4826 3899 6211 4334 3614140 5805 4527 4140 7152 5165 7653 4809 3925150 3397 3460 3027 4065 4367 3339 3699 2535460 1843 1736 1714 2453 4192 987 1692 1461770 529 404 551 873 1797 209 752 511580 75 83 105 156 370 61 176 102690 4 5 4 15 1 13 42不明 1349 821 826 1411 1134 1416 762 7719⾏行行ラベル areaA areaB areaC areaD areaE areaF areaG 総計女性 20135 14292 15099 19968 18539 20500 13518 122051男性 3260 2969 3039 2757 3423 4107 6631 261860 3 310 16 19 28 139 21 172 186 58120 2470 2162 2828 1646 1002 4555 3726 1838930 7908 4049 4914 4826 3899 6211 4334 3614140 5805 4527 4140 7152 5165 7653 4809 3925150 3397 3460 3027 4065 4367 3339 3699 2535460 1843 1736 1714 2453 4192 987 1692 1461770 529 404 551 873 1797 209 752 511580 75 83 105 156 370 61 176 102690 4 5 4 15 1 13 42不明 1349 821 826 1411 1134 1416 762 7719
  • 50. 特性
(よく利用するジャンル等) —  総計の利用ジャンル割合と類似している。 —  レストランも少なくなくファッション・ライフスタイルも多い 0%#10%#20%#30%#40%#50%#60%#70%#80%#90%#100%#areaA# areaB# areaC# areaD# areaE# areaF# areaG#
  • 51. 人間の心理的特性のモデル化 U:ユーザの特徴を表すベクトル (年齢や所得など) X: コンテンツ(レストラン情報)の属性ベクトル (客層や平均予算など) E: ユーザUがXをどのくらい「好き」だと思うか (例えば1から5までの5段階評価) U、XからEを予測する確率モデル P(E=5|U=u, X=x)=80% :P(E=1|U=u, X=x)=5% アンケートデータ (統計)
  • 52. リコメンデーションの例(CFからBN) ・協調フィルタリング(CF) (ex. アマゾン、アスクル):P(X) ∝∑類似度(u) 購入経験(u,X)                             u                 ・アスペクトモデル:P(X)= ∑P(X|H)P(H|U) H 構造を持つ確率モデル=  ユーザが対象が興味深いと評価する確率を推定して、 その確率の高いコンテンツ(X)を推奨。 より複雑な依存関係(選択理由、個人属性など)を取り込めばよい。 ユーザ 他の ユーザuコンテンツ xユーザ アスペクト Hコンテンツ x購買履歴 類似度 関心 内容
  • 53. ユーザ・状況属性の追加 •  ユーザUにXを評価させた統計データから条件付確率を獲得。 •  情報量の高い属性、特徴ベクトルを抽出。 X1  X2   X3    X4 U1  U2   U3    U4     U5 E(好き) S(状況) n  意味のある状況Sを導入した「状況依存モデル」の状況の発見。 年齢などの ユーザ属性 対象 の特徴 P(E|X , U , S)
  • 54. ユーザ適応型カーナビ(レストラン推薦)
(本村・岩崎「ベイジアンネットワーク技術」東京電機大出版局) ベイジアンネットワーク推 論SUH1H2ACユーザ嗜好モデル車両用情報システム学 習CBカレーステーキXY店ビストロAB604030123・・・・・・提案候補 /スコアジャンルコスト レストラン 音楽距離 情報センターコンテンツプロバイダ同乗者性別年齢季節時間現在地コンテンツデータ状況データユーザデータ提案コンテンツ推論結果履歴ステーキ店:ベイジアンネットワーク推 論SUH1H2ACユーザ嗜好モデル車両用情報システム学 習CBカレーステーキXY店ビストロAB604030123・・・・・・提案候補 /スコアジャンルコスト レストラン 音楽距離 情報センターコンテンツプロバイダ同乗者性別年齢季節時間現在地コンテンツデータ状況データユーザデータ提案コンテンツ推論結果履歴ステーキ店:
  • 55. 例:カーナビでのレストラン選択のモデル  (デンソーITLとの共同研究、iPhoneアプリ化) 状況 気温 可処分所得 自動車ユーザ層 急ぐ 時間 運転歴 レストラン カテゴリ 主客層 平均予算 高級感 メイン ディッシュ フランチャイズ 食事の好み(休日夜) 年齢層 状況 レストラン属性 ユーザー属性
  • 56. 携帯電話によるユーザ適応型知的情報サービス:
小野(KDDI研究所)・本村・麻生:User  Modeling  2007など 2700人へのアンケート結果からモデルを構築、デモサービスを実演 à プレス発表・NHK放映
  • 57. •  映画推薦サービスにより集積する大規模データをマーケティングに活用  (KDDI研究所、松竹との共同研究)  観測・モデル化(状況を入力) 個人プロファイル(年齢、性別等) 過去の履歴情報(視聴、購買等) 推薦 数千人アンケート、過去の視聴履歴など大規模データ収集・嗜好性モデル構築 映画DB 「恋人と、  映画館で、  感動したい」 誰と どんな気分 性別 年齢 ジャンル 製作国 癒された 感動した 好む 確率 プロフィール コンテンツ情報 状況 感じ方 評価 結果 「30代、男性、
ストーリー重視」 TPOに応じたコンテンツ推薦エンジン(嗜好性モデル)数万コンテンツ(パートナー企業提供)利用しながらモデル更新(連続・動的最適化) デートにぴったりの 映画でうれしい★ 手段→映画館 誰と→恋人と 気分→感動したい 状況 他のサービスにも利用できる再利用可能な計算モデル(知的基盤) 水平展開 auOneラボのサービス
  • 58. どんな映画? どんな顧客? 映画宣伝支援システムの利用例
  • 59. 予測結果 「実話に基づいている」という  具体的な点をアピールすることにより、  ユーザーの鑑賞意欲を  効果的に増加できると推測できる。 ※差分=P(UI|C(U), V=positive) – P(UI|V=positive)
  • 60. 20代の結果 30代の結果 20代と30代では、同じ映画であっても  訴求ポイントが明確に異なる 20代向けの雑誌には、  ハリウッドナンバー1ビューティー、キャサリン・ゼタ=ジョーンズ主演最新作という切り口で紹介 30代向けの雑誌には、  「シャーロット・グレイ」の実力派女流監督、ジリアン・アームストロング最新作という切り口で紹介
  • 61. 例:通信販売支援へのベイジアンネット活用  既存データからは推測できない顧客のニーズやCSRの販売ノウハウをモデル化して活用 行動予測 行動予測 顧客データ 商品データ 購買履歴データ  既存データベース  従来分析 ー分析 カスタマーサポートセンター モデライズ社 ベイジアン・アプローチ   顧客全体  お薦め商品潜在顧客 抽出  ー センターの画面に ・勧める商品 ・理由 ・売込フレーズ を応答時に表示  商品知識  顧客ニーズ知識   ベイジアンネット  * * : クロスセル以外の様々な分析  や予測にも共通的に活用可能  CSRによる売込結果   新たな購買履歴データによるモデルの改良 約500万件/月 の大量データ
  • 62. ベテラン社員の知識と販売データから  現場の知識をモデル化し組織全体で活用 底上げ 0 50 100 150 200 250売り上個数 オペレータ数 平均 下位オペレータをシステムが底上げ 上位オペレータの 知識をシステム化 ベイジアンネットとしてモデル構築
  • 63. フィードバック 店頭POSデータ 全店舗集計 レシートデータ 独自のDB 履歴データ 顧客 POS 商品 POS イベント、天気など状況パラメータ顧客行動履歴 ベイジアンネット 最適クーポン 購買傾向の基本統計量 レコメンド 活用 入力 予測モデル カテゴリーマイニング (PLSI) 店舗間比較  キャンペーン企画 商品企画 店舗施策 顧客モデル化   勤怠管理 生産管理 分析エンジン APOSTOOL メルマガ  クーポンに  よる再来店  店頭端末:POSEIDON小売現場での活用事例(2011.5〜)店頭端末  (POSEIDON) 全国30店舗導入  全国30店舗、利用総数約4000件購買回数向上, 会員誘導効果が大
  • 64. POSEIDON・APOSTOOL:  サービスの支援技術 「 10.食事中、食事後アンケート」画面へ 「7.スタッフのいちおし」画面へ 「8.銀座四丁目のおすすめ」画面へ 「9.こだわりの逸品」画面へ 店舗スタッフごとの  お薦め料理 小柴, 竹中, 本村:ステイクホルダー分析と実データに基づく経営者支援システムの開発人工知能学会社会とAI研究会, 2012年3月 研究奨励賞受賞
  • 65. 活きたビッグデータ活用  ライセンシング→共同研究 技術:  ID有/無データからの顧客・商品分類技術:PLSIを用いた潜在クラス分析,    需要予測コーザルDB,サービス接点でのインタラクション支援技術,など  組み合わせ自由な機能(API)を使って、ユーザ(店長・マネージャ)のニーズに  もとづいて,機能・UI設計,需要予測システムを提供した後に、共同研究  APOSTOOL(サービス分析機能)Trident(データ収集配信基盤)POSEIDON(サービス接点インタラクション支援)顧客分類需要予測・・・天候収集・記録データ整形・集計DB,Webサーバ,  WiFiルータ,CMS,etc.飲食系のITコンサル企業で活用中 ITベンダ経由で小売企業にて活用中ユーザ(顧客・店長等)APOSTOOL  Web-‐‑‒API店 頭バックヤード
  • 66. 「コト」指向ビッグデータ活用 •  サービス工学の一つのアプローチ:  「サービス現場で生成される大規模データ活用」と「コト:生活現場での情報収集と提示」  •  「利用者セグメント」と「状況」により場合分けされた層別の分析   → 生活者行動分析の高精度化  •  コト=5W1Hを含めた複雑なダイナミクスの理解へ  •  包括的データに基づく全体システムのモデリングへ  
  • 67. 生活現場での課題解決アプローチ •  現場情報を包括的にデータとして収集  •  この時、データを入力すると何かが得られる、実用的なサービスとして設計することが重要  •  行動変容を促す生活現場での「アクションリサーチ」の実践  •  現場に介入し、問題解決をはかる仕組み作りを目指す。    •  「現場に入る」ために:初期の解決すべき課題  •  「現場でループをまわす」ために:持続的な観測を可能に  •  「現場でループが回り続ける」ために:解決課題の継続的探索  •  初期課題は何か? → コミュニティ参加によりヒアリング  •  初期課題の例:医療・看護、事故予防、生活支援、復興支援  
  • 68. 業務支援ツールへの拡張(医薬看護介護も含む) 0.010.020.030.040.050.060.0連絡バイタル測定移動記録作成声掛け準備・片付け更衣介助備品確認その他の処置消毒(分)リーダー作業内容の可視化記録ツール(iPhoneなど)業務プロセスの可視化開始時刻 看護実施(2011/5/23) 作業名: 介助 終了時刻 対象利用者 電子カルテ呼び出し機能:ナースステーション アラート情報業務日誌入力機能 基本情報 123456誘導声掛け排泄介助移乗介助品質作業の評価入力画面直接関与/非直接関与時間の可視化 26.9%44.8%73.1% 55.2%0%10%20%30%40%50%60%70%80%90%100%プロセス変更前 変更後⽐比率率率(%)非直接関与時間直接関与時間123456速さ 強さ 丁寧さスキルの可視化行動時点記録新人・メンバー「サービス現場」における人の活動(ソーシャルダイナミクス)を支援する情報技術としてをパッケージ化、提供予定 (佐賀大学, 長崎大学病院、小児歯科学会他) 顧客接点支援端末 時空間データベース 分析ツールキット 制御モジュール
  • 69. タブレット端末による看護業務見える化 •  7’  Androidタブレット+看護支援アプリ.  •  バーコードスキャナー+WiFiアクセスポイント  による操作履歴をデータベース化して、業務分析    Android tablet Micro-server Bar-code scanner
  • 70. コミュニティ参加型サービス工学  (ホールシステムズアプローチの援用)
  • 71. 事前知識を活用して、統計データの情報を補う  認知・評価構造の定量的モデリング 定量調査 アンケート 評価グリッド Bayesian network認知・評価構造モデル 統計的学習(頻度データ) 初期構造(潜在変数) 統計的言語処理 欠損(未回答)データの場合 →EMアルゴリズム ”Y.Motomura, T.Kanade :Probabilistic Human Modeling based onPersonal Construct Theory”, J.Robot&Mechatronics, 17/6, (2005).
  • 72. 日常生活を知識化する •  例:子どもの事故予防の場合  •  事故(unusual)の因果的関係をモデル化  •  個々のケースの原因(行動、モノ)を知り、制御することで事故を予防可能に  その子の日常 ケガ 事故発生 ので ~が~した ~が~して それぞれの日常生活の理解 予防すべき事故原因  }  平常状態(usual)から異常(unusual)までを定量的に評価  }  起きても仕方ない事故と特殊な事故を見分けていく  }  許容できる日常と危険状態のボーダーを制御していく
  • 73. 国立成育医療センター 電子カルテ 事故調査表・テキスト 事故サーベイランスシステム ベイジアンネットによる大規模データからのモデリング:子供の事故データ(約200件/月)の例  

  • 74.  事例:事故データを計算論的にモデル化することで                 将来の事故予測・予防に活用 ベイジアンネット 事故の程度・確率 環境要因 子供の属性、生活時間 子供の日常生活行動 カルテ 事故調査表 事故サーベイ ランスシステム 子どもの事故データ(約200件/月)
  • 75. 事故履歴データからの知識化 1. 使用データ:国立成育医療センター子供の事故 n  使用データ件数:1,791件(2,430件中) n  事故の種類を6種類に限定 n  事故に関係したモノと事故直前の行動のどちらも空欄の場合は用いていない 0100200300400500600700800転落転倒衝突やけど誤飲誤嚥はさむ交通事故噛まれる刺される窒息おぼれるその他使用データ
  • 76. 代表語 品詞 単語 遊ぶ 動詞 遊ぶ あそぶ いじる つかまり立ち 動詞 つかまり立ち 掴まり立ち 掴まりたち つかまり立つ    … …  …  …  …  …表4 作成した類義語辞書(一部) 2.  類義語辞書 n  表記ゆれやターミノロジーの問題の解消のため,類義語辞書を作成 n  表記ゆれは,同音・同意味の単語で文字表記が異なること n  ターミノロジーの問題は,同じ意味を有する単語が別の言い回しで呼ばれるような問題のこと 自由記述テキストデータの加工
  • 77. 自由記述テキストデータの加工 n 作成した類義語辞書,特徴辞書にもとづきテキストデータ → 属性ベクトルに変換 全身動作 頭部動作 上半身動作 下半身動作 触動作 取後動作 上下動作 水平動作 静止動作 ー大 ー中 ー小 立 飲 触 走 触 立 立 走 飲 走 立 飲 起 噛 開 跳 開 飲 跳 触 寝 跳 起 触 モノ・行動を属性に変換
  • 78. 変換後の事故データの構造モデル化
  • 79. n 「転落」の危険確率の推定結果 事故発生確率の予測(確率推論)
  • 80. 子どもの危険行動シミュレーション   140万人の会員を有する企業(ベネッセコーポレーション)と共同で開発と評価. 2005年12月12日より会員向けサービス開始 2007年3月より一般向け英語版・日本語版公開�
  • 81. 持続的発展可能な事故予知支援システム ユーザ履歴 データベース WEBサービスの 提供・アンケート ユーザの理解・ モデル化 (国家) 事故予防 医療費削減 子どもの事故予知支援サービス アンケート 21,482件(07/1/29現在) 4,471人保護者に 61,147件動画配信 (07/1/29現在) 行動モデル・事故シミュレータ で動画作成 (保護者の知らない事故 ・最近多発している事故) 社会・研究の進化・深化 WEB  サービス の改善 事故 データベース 認識ずれを補正するコンテンツ作成 (個人レベル) 安心・安全
サービス 意識と現実のずれ検出 05/12/12開始 科学的知見 現象 技術 理論 構築 社会 応用 サービス 現象 記述 理論 構築 Kuhn型 一体型
  • 82. 超音波受信器307個�超音波発信器�(3次元タグ)�魚眼カメラ�日常生活空間を模擬した部屋�4×4×2.7[m] 子供の行動パターン認識(ベイズ推定)�
  • 83. 子供の行動は場所に依存して発生している 水色 :「立っている」 白色 :「歩いている」 紫色 :「座っている」 緑色 :「よじ登っている」 橙色 :「這い這い」 黄色 :「うつ伏せ」 青色 :「仰向け」 桃色 :「寝返り」  行動ラベルの場所依存性
  • 84. ラベル空間� ベイジアンネットを用いた状況依存ベイズ推定モデル  (本村・西田:情報処理学会CVIM誌,  2007  他) ( ) ( ) ( )SCPCxPSxCP iii ×∝,� 超音波センサ,動画像�学習・判別� ベイジアンネットワーク�(確率的因果構造の導入)� 高次自己相関特徴・Naïve Bayes識別器(尤度の計算)�ボトムアップ トップダウン
  • 85. センサデータから構築した行動予測モデル •  行動推定を行うための確率変数  –     方向の速度:  –  子供の高さ:  –  1秒前の行動:  –  子供の位置情報  •  子供の位置情報 室内の絶対座標系での表現モデル�クッション�テーブル�壁�壁�クッション�クッション�モノとの相対距離で表したモデル)(Z tyx, )(V yx, t)1(C −t
  • 86. センサデータと画像による子供の行動認識への応用�
  • 87. モデルの再利用性の評価 サンプル数 最尤推定 モデル1 モデル2 被検者2 3089 49.33% 65.98% 75.17% 被検者3 2328 37.20% 51.37% 59.54% •  被験者1のセンサデータを使用してモデルを構築し,他の被験者のデータに対して行動を推定•  再利用性を考慮したモデル2が識別率が安定して高いモデルの再利用性の評価異なる被験者に対しても安定したラベル化が可能に。  子供の日常生活理解へ  被験者2 :「1歳3か月 男児」 モデル1 :「室内環境における因果構造モデル」 被験者3 :「1歳か2月 男児」 モデル2 :「再利用可能な因果構造モデル」
  • 88. 日常生活の確率的因果構造のモデル化  長期生活型情報収集システムによる観測と分析 加速度センサ エコモニター ウェアラブルカメラ 位置計測センサ
  • 89. 動画・発言→ラベル化 時間 (sec)行動 目的 X,Y,Z(mm)1 立つ TVオン 2797,1809,-22542  TVオン  1649,1000,-28583  TVオン  1721,631,-28814 TVオン TVオン 1997,268,-19785  TV視聴  1733,711,-28686  TV視聴  1737,1464,-28637 座る TV視聴 1997,1811,-19788  飲む 1721,1910,-22819  飲む  1649,1890,-225810 飲む 飲む 2797,1879,-225411 飲む 飲む 2687,1904,-2253
  • 90. 大規模データから構築したベイジアンネットモデル
  • 91. 日常生活行動を予測するベイジアンネット 温度 時間 色・形 モノ 明るさ 場所 TV 視聴 温度 時間 色・形 モノ 明るさ 場所 行動 温度 色・形 モノ 明るさ 時間:夜 場所:ソファ TV 視聴:0.9 ベイジアンネットワークでできること ・大量のデータから依存関係のモデルを構築 ・モデルを用いた事象の起こりやすさの予測
  • 92. 実験例2 (掃除行動の分析) •  掃除行動実験   ・5人の被験者対象   ・ほぼ同じ状態の部屋を自由に掃除してもらう     →5人の行動の違いを見る •  掃除中、思ったこと感じたことを発言してもらう     →5人の発言の違いを見る やるぞ! やだなぁ A B
  • 93. 個人属性・行動・欲求の確率的因果構造 行動計測結果とプロトコル分析による欲求構造と 個人属性との間の関係を計算論的にモデル化できた
  • 94. 気仙沼〜絆prj: 五右衛門が原仮設住宅 浄化槽コンテナ ※帝人 技術支援トレーラ 多目的支援トレーラ (仮設診療所等) 物販・支援トレーラ 仮設住宅エリア §  「技術支援トレーラ」1台の運用・管理は産総研にて実施。 §  全トレーラの設置に関する規制や国、関係組織との調整は、「産総研 スマートライフ コンソーシアム」が担当。 §  「物販・支援トレーラ」については、コンソーシアムが市に無償貸与契約を結び §  市より公募をかけ、物販支援の運用業者を募る。 (2) 実証拠点整備
  • 95. トレーラーハウスの運用•  トレーラーハウス3棟を設置–  1:  物販、カフェスペース–  2:  多目的室–  3:  研究者居住・ワークスペース
  • 96. サーバー カード認証機 ありがとうカード 仮設住民カードとしてデザイン(裏面にバーコード) どこで、どんな時、どんなニーズが生まれているかを動的に分析・モデル化現場を支援するアプリやサービス設計に活用 地域内サービス行動観測・分析技術
  • 97. 「被災後の子どもの心の支援に関する研究」  厚労科研:イベントを通じた支援情報サービスと分析 子どもイベントなどでの相談会 気仙沼仮設商店街南町Cadocco 12/8,23
  • 98. 好き・嫌い�楽しい�怖い・危険�快適・安心�笑い・怒り�欲しい・�買いたい�動きが�〜だから�場所が�〜だから�状況が�〜だから�モノが�〜だから�センサ統合�データー統合日常の大量データ�再利用可能な計算モデル 認識モデル�生成モデル�サービス適用��PLSISQL DB, etc…Web, 携帯電話SNS, etc…�時間・空間的に展開し�統計的学習�確率分布を出力�人間の認知評価構造・生活行動モデル�実サービス�アンケート・インタビュー
  • 99. サービス 社会実装 研究開発(基礎から応用まで) 社会受容 法・制度 認証 コト:研究対象は生活現場にある 初期の課題解決をしながら社会実装と研究開発を同時に推進 結果として死の谷とダーウィンの海を先に渡ってしまう 合わせて同時に検討
  • 100. まとめ  行動履歴系ビッグデータからのモデル構築と活用技術 •  “Data  to  AcCon”    具体的行動につながる『ビッグデータの活用』のために  •  サービス現場の『インタラクション』を通じたデータ収集とモデル化  •  実社会の中のダイナミクスとして持続させる仕組み化  •  「コト」(人,コミュニティ,場,支援技術を創るため)の工学 適用(サービス・システム再設計)現場観測(生活現場への埋込)モデル化(カテゴリ・コンテクスト・ダイナミクス)モデル化(計算モデル化) シミュレーション大規模データの活用技術