Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Tokyo webmining発表資料 20111127

6,598 views

Published on

「データマイニング現場 24時」
第16回 データマイニング+WEB 勉強会@東京( #TokyoWebmining 16th)-リアルタイム分散 Web解析・自然言語処理 祭り-
発表資料

  • Be the first to comment

Tokyo webmining発表資料 20111127

  1. 1. データマイニング現場24時データマイニング現場24時 現場24 回 データマイニング+WEB @東京 ( #TokyoWebmining 16th)-リアルタイム分散 Web解析・自然言語処理 祭り- 第16回 データマイニング -リアルタイム分散 解析・自然言語処理 事業企画室マネージャー 菅 由紀子
  2. 2. 会社概要 会社概要 事業概要社名 株式会社ALBERT設立 2005年7月1日資本金 3億3,900万円株主 デジタル・アドバタイジング・コンソーシアム株式会社、 IVP Incubator, L.P、株式会社ニッセンホールディングス、 MUハンズオンキャピタル株式会社、 OYベンチャービジネス育成ファンド、 オリックス・キャピタル株式会社、株式会社ジャフコ、 三生キャピタル株式会社、東洋キャピタル株式会社、 ニュー・フロンティア・パートナーズ株式会社、 SMBCベンチャーキャピタル株式会社、信金キャピタル株式会社、 PE&HR株式会社、大和企業投資株式会社、 株式会社シーエー・モバイル、役員および従業員役員 代表取締役会長 山川 義介 代表取締役社長 上村 崇 取締役 徳久 昭彦(DAC取締役CTO) 非常勤監査役 保月 英機顧問 北 研二 (徳島大学工学部教授、工学博士) 獅々堀 正幹 (徳島大学工学部准教授、工学博士) 2005年7月設立。事業コンセプトは『分析力をコアとする情報最適化企業』。事業内容 CRMソリューションの開発・提供 高度なレコメンデーション、情報の最適化を実現するテクノロジーとして、前 ・Web最適化システム 身のインタースコープで培ったマーケティングリサーチ、統計解析、データマ ・One to oneマーケティングソリューション イニング、テキスト解析に加え、徳島大学との共同開発による画像解析、豊 ・コンタクトセンターソリューション 富な導入実績に裏付けられた信頼のWeb、モバイル、ITインフラ技術を保有。 レコメンドエンジンの開発・提供 これらのキーテクノロジーをベースに独自開発のレコメンドエンジンとして、行 ・Webレコメンドエンジン 動履歴を使った推薦を安く簡単に『おまかせ!ログレコメンダー』のほか、対 ・モバイルレコメンドエンジン 話型の意思決定システム『Bulls eye』等をECサイトやメーカーダイレクトサイ ・感性検索システム トに提供。行動ターゲティング広告、広告のマッチングや最適化、Webサイト 行動ターゲティング広告システムの開発・提供 の最適化、One to oneマーケティングを実現するCRMソリューション等の情報 ・広告配信の最適化 の最適化など、分析力を強みとしたマーケティング支援も行なっています。 ・広告クリエイティブの最適化
  3. 3. 300サイトを超える導入実績 家電系サイト アパレルサイト イマージュ ハースト婦人画報社 ヤマダ電機 ケーズホールディングス サルース ナラカミーチェ 金融サイト GENO アイ・オー・データ機器 三菱東京UFJ銀⾏ ソニー銀⾏ マネックス証券 楽天銀⾏ モバイルサイト ホビー商材サイト 新星堂 あみあみ 豊通エレクト インフォコム mediba ロニクス リテールコム menue ネオ・ウィング ハピネットオンライン
  4. 4. 自己紹介 菅 由紀子 @kan_yukiko http://www.facebook.com/kan.yukiko http://www.facebook.com/kan.yukiko 株式会社ALBERT 株式会社ALBERT 事業企画室 マネージャー 会社 中央大学経済学部卒。2004年株式会社サイバーエージェント入社。 中央大学経済学部卒。2004年株式会社サイバーエージェント入社。 年株式会社サイバーエージェント インタースコープ社との協業でネットリサーチ事業立ち上げや営業、広 告の販売や企画などに携わる。 告の販売や企画などに携わる。 2006年 月に株式会社ALBERT ALBERTに転じ、消費者向けウェブサイトの立ち 2006年3月に株式会社ALBERTに転じ、消費者向けウェブサイトの立ち 上げ等に関わる。 2008年 月頃より、データ分析を担当。 2008年8月頃より、データ分析を担当。
  5. 5. こんなことをお話こんなことをお話します ・ALBERTのデータマイニング現場ご紹介 ALBERTのデータマイニング現場ご のデータマイニング現場 ・データマイニングは直感? ひらめきを得 ・データマイニングは直感? ひらめきを得るには 直感 ・ALBERTの分析最新事例 ALBERTの
  6. 6. ALBERTのデータマイニング現場ごALBERTのデータマイニング現場ご紹介 のデータマイニング現場 ALBERT 事業企画室 レコメンドエンジンASP レコメンドエンジンASP コンサルティング ・ASPのレコメンドエンジンのチューニングと ASPのレコメンドエンジンのチューニングと ・レコメンドエンジン開発のクライアントに それに必要なデータ分析 独自のアルゴリズム策定コンサルティング ・顧客からの分析依頼対応 約300サイト以上の導入実績 大規模EC/コンテンツ系 多様な業種・業態 大容量かつ趣味嗜好が現れやすい 多様なデータ データ 広告配信最適化 その他一切のデータ分析 その他一切のデータ分析 他一切のデータ ・広告配信最適化のための ・マーケティングリサーチ結果の分析 データマイニング ・レコメンドアルゴリズム等の研究・開発 超大規模データ 場合によっては小サンプル 変数多数 リアルタイム性 高度なレポーティング 大規模から小規模、レコメンドにとどまらず多種多様な分析を なっております。 大規模から小規模、レコメンドにとどまらず多種多様な分析を行なっております。 から小規模 多種多様
  7. 7. データマイニングと統計の違い 統計は仮説検証、 データマイニングは知識発見 圧倒的データ量の違い→ 金鉱を掘り当てる 手法自体は似ている
  8. 8. ALBERTのデータマイニング現場ALBERTのデータマイニング現場 のデータマイニング 試行錯誤の連続
  9. 9. 知識にたどり着かない場合 どうするか?
  10. 10. 課題に直面した際に突破口になるのは 「直感」「ひらめき」ではないか?(#tokyowebmining 第14回 での議論)直感やひらめきを呼び起こすには?
  11. 11. 分析を分析を行う際の大前提 (1)分析しようとする問題そのものについての理解 そのデータの意味やその背景にある状況が分からなければ分析方針を決められない。 分析課題の整理からはじめ、問題そのものやデータについての理解を深める (2)分析手法についての理解 データマイニングすれば「それなりの結果」は出てしまうが、分析手法を理解していないと相 応しくない分析をしていたときに気づかない。 (3)分析結果に対する判断力 予想通りか? 予想外か? データの取得方法や処理方法が間違っていたのか、分析手法が間違っていたのか? 見 極めが必要。 想定外の結果が出たときこそ、柔軟 に頭を働かせて様々な可能性を考えるべきこれらを大前提としたうえで「ひらめきを得るためのアクション」これらを大前提としたうえで「ひらめきを得るためのアクション」を実行 大前提としたうえで
  12. 12. ひらめきを得ひらめきを得るために 大胆に変える
  13. 13. データの形式を大胆に データの形式を大胆に変える 形式 集計したデータを用いた分析 集計したデータを用いた分析 したデータを商品ID単位の集計ではなく1レイヤー、 レイヤー上 概念での商品ID単位の集計ではなく1レイヤー、2レイヤー上の概念での分析 ID単位 ではなく での分析 分析に えうるデータでない場合は データの階層を える」 分析に耐えうるデータでない場合は、データの階層を「考える」 場合 階層
  14. 14. データの形式を大胆に える/集計したデータを用いた分析データの形式を大胆に変える/集計したデータを用いた分析 形式 したデータを 大胆に変える 大胆に 例1:データ形式の変換 データ形式の 形式 1/0データ n/0 データ 例2:集計したデータを用いた分析 集計したデータを用いた分析 したデータを 顧客ID 商品ID ALB0001 199242 顧客ID 購入数 顧客ID 102820 105602 112000 120388 121846 170161 190466 199242 ALB0001 112000 ALB0001 3 ALB0001 1 1 1 ALB0002 170161 ALB0002 1 ALB0002 1 ALB0004 102820 ALB0004 1 ALB0004 1 ALB0005 190466 ALB0005 1 ALB0005 1 ALB0008 120388 ALB0008 1 ALB0008 1 ALB0010 105602 ALB0010 1 ALB0010 1 ALB0001 121846 クラスター分析では、 きな違いが出 クラスター分析では、大きな違いが出ることもあります 分析では
  15. 15. ひとつ上・ふたつ上のレイヤーで考ひとつ上・ふたつ上のレイヤーで考える 大胆に変える 大胆に 商品ID カテゴリ テイスト ブランド Tシャツ(レディース) (色) (色) Tシャツ(メンズ) レッド ブランドAAA ブール ワインレッド ブランドBBB パンプス ピンク ブランドCCC サンダル オレンジ ブランドDDD バッグ イエロー ブランドEEE インナー・下着 ブラウン ブランドXXX ・ ブラック ・ ・ ホワイト ・ ・ オフホワイト ・ ・ ・ たとえば、商品ID単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等 たとえば、商品 単位のログデータも、商品データのカテゴリ・テイスト・ブランド情報等 ・ とかけあわせることで、様々な情報を得ることができます。
  16. 16. 分析に えうるデータでない場合データの階層分析に耐えうるデータでない場合データの階層を「考える」 場合データの階層を える」 大胆に変える 大胆に 例4:分析に耐えうるデータでない場合は、データの階層を「考える」 (例) 生データにおけるタグ数が2,000 生データにおけるタグ数が2,000 そのうち8 そのうち8割以上に履歴がない(ほかのデータと紐付かない) ただし、1でも2 ただし、1でも2でもデータとして存在するので無視はできない タグそのものの情報を分析し、意味がありかつ履歴数が一定以上になるよう 階層構造を持たせるデータに変換 ※階層構造は、データ分析を行った結果と内容が適しているか 【before】 【after】 どうかを検証しています。 ジャンル名 データ数 大ジャンル1 ジャンル1 ジャンル1 1 ジャンル2 ジャンル2 1 ジャンル4 ジャンル3 100 大ジャンル2 ジャンル3 ジャンル4 1 大ジャンル3 ジャンル5 ジャンル5 100 ジャンル6
  17. 17. カテゴリレベルの分析の重要性 ~ なぜパンパースとアサヒではなくおむつとビールなのか ~ パンパース コットンケア ウルトラジャ アサヒ スーパードライ ンボ S 104枚 パンパース 350ml×24缶 ASIN: B0015XN55S ASIN: B001TZAWD0 SKUレベルでは大量のデータが必要となり、すべての商品の相関関係を見いだすことは不可能です。 より低いレベルの相関関係を根拠に顧客行動を予測することは困難ですが、カテゴリは普遍的であるため予 測が可能です。 つまり、SKU単位の相関よりカテゴリ単位 カテゴリ単位の相関のほうがはるかに カテゴリ単位 パワフルで精緻な購買予測が可能となります。 おむつ ビール
  18. 18. カテゴリレベルの分析のカテゴリレベルの分析の重要性 分析パワフルな購買予測手法「CTB分析」を提唱 「カテゴリ」に加え、同じ上位概念である「テイスト」「ブランド」の分析により顧客の理解が深まる。 Category 大分類、小分類 Taste 色、模様、サイズ Brand ブランド、キャラクター
  19. 19. 事例:買ってくれるお客さんはどんな人?
  20. 20. ロイヤルカスタマーの分析ロイヤルカスタマーの分析 優良顧客が何をどのように購入しているかを分析し、非優良顧客と比較することで顧客単価、購入頻度を向上 させるきっかけを見出します。 高 優良顧客 きっかけとなる特徴を データマイニングによって導出 平均的な Monetary 顧客 購入金額 非優良 顧客 低 高 低 Frequency:購入頻度
  21. 21. M(金額)で優良顧客を特定し分析した事例 購買実績データのうち、3カ月分のデータを用いて顧客別の「購入金額」を集計、売上全体の7割を占める25.6%の顧客を優良 顧客:H(High)、20%を占める22.4%の中間層をM(Middle)、売上全体の10%であるが52%超を占める下位層をL (Low)として購入した商品に特徴がみられるかを分析。 顧客の中での割合 25.6 22.4% 52.0% % H M L
  22. 22. 消耗品購入率の違い 購買層別にカテゴリ単位での購入率を算出してみたところ、購入金額が高い層、購入頻度の多い層の方が低い層に比べ、特定 の消耗品カテゴリを購入する割合が高いことがわかりました。 消耗品カテゴリの購入率 n=3887 n=4448 n=9019
  23. 23. 事例:買いたいタイミングを予測
  24. 24. ライトタイム・マーケティングの登場ライトタイム・マーケティングの登場 ここ60年のマーケティングコンセプトは、製品中心の4P・4Cマーケティングから顧客中心のSTP マーケティングに移行してきた。そして今、環境の変化に伴い、STPマーケティングを超えたライト タイム・マーケシングへのパラダイムシフトが起きています。 RT-M STP-M 4P・4C-M 最適な顧客に最適な商品・情報を適切なタイミング・チャネルで送 最適な顧客に最適な商品・情報を適切なタイミング・チャネルで送る なタイミング・チャネルで
  25. 25. どのカテゴリがいつ売れるのか? 11月上旬 11月中旬 11月下旬 スキー スキー 毛布 スポーツ⾐料 スノーボード カバー類 食品 スポーツ⾐料 こたつ インテリア_家具_シーツ・カバー スポーツ_衣料_スキーウェア スポーツ_衣料_スキーウェア 雑貨_衛生_ハンドクリーム スポーツ_衣料_スノーボードウェア スポーツ_衣料_スノーボードウェア インテリア_寝具_こたつ布団 メンズ_スポーツウェア_インナー 食品_生鮮食品_野菜 インテリア_寝具_毛布 雑貨_化粧品_ハンドクリーム メンズ_スポーツウェア_インナー 雑貨_その他_家電 雑貨_雑貨その他_カイロ インテリア_カバー類_カバーその他 雑貨_清掃_清掃用具 子供_玩具_大型玩具 インテリア_寝具_毛布 レディース衣料_アウター_ベスト 食品_生鮮食品_乳製品 食品_生鮮食品_肉類 メンズ_アウター_コート インテリア_寝具_毛布 メンズ_スポーツウェア_機能性ウェア 雑貨_清掃_歯ブラシ メンズ_スポーツウェア_トップス 生活雑貨_衛生用品_カイロ 子供服_アウター_コート メンズ_スポーツウェア_トレーナー スポーツ_衣料_機能性ウェア メンズ_スポーツウェア_パンツ インテリア_寝具_毛布 スポーツ_衣料_トレーナー 食品_生鮮食品_その他 スポーツ_衣料_トレーナー レディース_衣料_機能性ウェア レディース_アウター_コート スポーツ_衣料_ブルゾン・ジャケット 子供_衣料_機能性ウェア レディース_雑貨_ブーツ1 食品_加工食品_肉 スポーツ_衣料_トレーナー 子供服_雑貨_ブーツ 食品_加工食品_魚 子供_寝具_子供用毛布 メンズ_アウター_ブルゾン スポーツ_スポーツグッズ_スキー スポーツ_スポーツグッズ_スノーボード メンズ_アウター_セーター スポーツ_スポーツグッズ_スノーボード 雑貨_トイレタリー_風呂雑貨 レディース_アウター_セーター 雑貨_トイレタリー_風呂雑貨 雑貨_トイレタリー_トイレ雑貨 レディース_スポーツウエア_トレーナー 雑貨_トイレタリー_トイレ雑貨 スポーツ_スポーツウェア_トレーニング 雑貨_化粧品_乳液 子供_寝具_子供用毛布 メンズ_衣料_コート
  26. 26. 推薦すべきカテゴリとそのタイミング推薦すべきカテゴリとそのタイミング 商品カテゴリによって推薦すべきタイミングに違いがあることがわかります。 ■分析方法 ▲ Aパターン:短期間に複数回購入されるカテゴリ ( 購入日 ) 10/3 10/30 12/04 ▲ ▲ ▲ ■分析結果:上位3カテゴリ Tシャツ・カットソー 1.71回 ソックス 1.63回 約400日間 ワンピース・ドレス 1.32回 Bパターン:短期間内に複数回購入のないカテゴリ 10/1 ▲ ■分析結果:下位3カテゴリ コート 1.09回 バッグ 1.02回 約400日間 ラック 1.02回 カテゴリ単位で分析することにより、知見を得ることが可能に。
  27. 27. ご清聴ありがとうございました @kan_yukiko yukiko@albert2005.co.jp

×