Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

オープンソースを利用した新時代を生き抜くためのデータ解析

2,039 views

Published on

In this slide, i'm talking about data analysis using oss for big data.
オープンソースを利用したビッグデータの解析事例とその意味を述べる

Published in: Data & Analytics
  • Be the first to comment

オープンソースを利用した新時代を生き抜くためのデータ解析

  1. 1. オープンソースを利用した新時代 を生き抜くのためのデータ解析 中原 孝信 ( 専修大学 商学部 ) 2014年6月26日(木)KSKアナリティクス主催 第二部:【統計・データマイニング ソリューションセミナー】 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  2. 2. ビッグデータの特徴 データの形式が非定型   マルチメディアデータ テキストデータ 更新頻度が頻繁 データ量が膨大   アクセスログデータ ソーシャルメディデータ ウェブサイトデータ データが多様 オフィスデータ オペレーションデータ カスタマーデータ 競競争争力力のの源源泉泉ははデデーータタ!!!! Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  3. 3. 大量データが集まれば価値に 出所)  h�p://www.google.org/flutrends/intl/ja/about/how.html 量が集まると今まで見えなかった事が見えてくる事がわかってきた。 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  4. 4. Twitterが株式市場を予測する 出所)  h�p://www.wired.com/wiredscience/ 2010/10/twi�er-­‐crystal-­‐ball/ インディアナ大学の情報工学の研究者 ダウ・ジョーンズ工業株平均 $40 million 市場のムード/センチメントを測定でき れば、株価予測が可能となる? Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  5. 5. データサイエンティスト   ビッグデータの分析をビジネスに活用するために、 「データサイエンティスト」が脚光を浴びる   コンピュータ・サイエンス、統計解析、高度な データ分析の専門家   次の10年で最もセクシーな仕事   全ては欧米発 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  6. 6. スモールデータを利用し尽くす   まずは自社で所有しているデータから –  ビッグデータの解析手法をスモールデータに適用   ビッグデータを分析すると… –  興味深い分析結果が得られてもビジネスに活かせると は限らない   基本は仮説検証型の分析 –  ドメイン知識に基づいた仮説 –  データと仮説と分析手法のマッチング –  分析することで仮説を検証   データ分析基盤 –  オープンソース・プラットフォーム –  データ分析ツール:Nysol –  統計パッケージ:R Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  7. 7. 日本型データサイエンティスト   ビジネスの現場で、課題解決のための仮説を設 定し、データ分析で検証し、事業部門に働きか ける存在   現場からのボトムアップでデータ解析が実施さ れるような環境を構築   現場の人たち全員がデータ分析官 日本型データサイエンティストの黎明期を担う のは、分析に対する感度の高い皆さんです!! Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  8. 8. ビッグデータをどのように活用するか!? Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  9. 9. 外部データとして有効活用 1.  Web APIを用いたデータ収集 –  Web APIとは、Webサイトの開発などのために、イ ンターネット経由で利用できるAPI(Application Programming Interface) 2.  Web文書をダンロード –  HTML文書の中から必要な情報を収集する   ニュースなどのコンテンツの全文取得   掲示板   文書中のリンクURL Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  10. 10. ビッグデータも前処理が命   データマイニングは前処理が命   実は前処理までがビッグデータ!!   分析のためのデータ加工 –  大量データの変換処理 –  非定型データから定型データへの変換 Ex.)  テキストデータ → 形態素解析   MapReduce or Hadoop  → インデックス処理 or テキストデータの構造化 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  11. 11. 膨大なデータが集まれば何か分かりそう!   センチメント分析:消費者の商品やイベントに 関する感情を測定する分析:主にテキストデー タが対象   Tweetを対象にロンドンオリンピックで何がつ ぶやかれていたかを要約することが目的。   オリンピックの各種イベントとtweetのセンチメ ント(楽観-悲観)の関係を分析する。 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  12. 12. センチメントの推定 名名詞詞 極極性性 おめでた お楽しみ お家騒動 勝利 違反 : pos pos neg pos neg : 出所)  h�p://cl.naist.jp/~inui/research/EM/sen�ment-­‐lexicon.html   上記URLより以下の2つの辞書をダウンロードして利用した。    1)  日本語評価極性辞書(用言編)ver.1.0(2008年12月版)    2)  日本語評価極性辞書(名詞編)ver.1.0(2008年12月版)   Twitter のつぶやきから、世の中のセンチメント(ムード、 感情)の極性(悲観[neg]⇔楽観[pos])を推定する。 用用言言 極極性性 悔しい 辞める 憎い 楽しい 頑張る : neg neg neg pos pos : → 日本語評価極性辞書を利用 日本語評価極性辞書(名詞編)の例 日本語評価極性辞書(用言編)の例 pos 単語:3,352、neg 単語:3,958 pos 単語:2,108、neg 単語:3,172 これらの辞書に登録された悲観単語と楽 観単語が tweet に出現した回数をカウン トすることでセンチメントを推定する。 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  13. 13. センチメントとニュース* を重ねてみると 男子サッカー韓国に敗れる。韓 国選手竹島プラカード掲げる。 開会式 メダルラッシュ 韓国、中国女子バトミントン無 気力試合、佐々木監督、対ブ ラジル戦で2位でもよい発言 韓国ヨット監督飲酒運転 追放、競泳韓国選手失格 北島メダル逃す、韓国選 手が絡む誤審、開会式イ ンド一般女性更新 北朝鮮と韓国 国旗間違える 竹島プラカード問 題まだ消えず 楽 観 強 �                    悲 観 強 �   男子サッカー スペイン破る サッカー女子   銀メダル バレー女子   銅メダル ボクシング   村田金メダル 閉会式 サムスンヘッドフォ ンでIOCに圧力 競泳選手「プール で用をたす」発言 * 日別のtweet内容の視覚化から、日々の主だったニュースを抜粋した Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  14. 14. 掲示板データを利用したバースト検知   Yahooファイナンス掲示板を利用。   上場銘柄別に掲示板のタイトルをクローリング。   投稿間隔がポアソン分布に従うとの過程のもとバースト 検知を実施。 実験で設定したパラメータ:  パラメータ: burst度=2.0, 同一 状態遷移確率=0.6 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  15. 15. 花王のバースト、株価、投稿数 [bID=10014]   参加,不買,運動, 違う,降りる,スポ ンサー,講義,と く,批判,対する   [bID=10032]   不買、運動、企業、 日本、支持、ボケ、 ランキング、参加  [bID=10120]   回る、証明、上方、修正、99%   0   100   200   300   400   0   0.2   0.4   0.6   0.8   1   20000104   20000324   20000614   20000831   20001121   20010214   20010508   20010725   20011012   20020107   20020328   20020618   20020903   20021125   20030219   20030512   20030729   20031017   20040113   20040331   20040622   20040908   20041201   20050223   20050518   20050804   20051025   20060118   20060406   20060627   20060913   20061205   20070227   20070521   20070807   20071026   20080122   20080410   20080701   20080918   20081210   20090305   20090528   20090814   20091106   20100129   20100420   20100712   20100930   20101221   20110315   20110607   20110824   20111115   [bID=10096]   歩く、あんた、立つ、 起こす、提供、座る、 サカキ、隠蔽、合掌、 花、捨てる、アホ   [bID=10118]   科学、回収、エコナ、混入、爆 弾、違う、分解、一過性   [bID=10119]   問、審査、認める、返上、めぐ る、許可、NHK、停止、糾弾   自社に対す不特定多数の意見を集約し、ムードや感情 などを捉えるために、ビッグデータは利用できます。 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  16. 16. 2次データとして利用する際の注意点   利用できるTwitterの投稿データは、全ツイート の数%のみ   ユーザーの偏り:20、30、40代が圧倒的   デモグラフィック属性が利用できるのは一部   データの偏りなどの特性を把握した上でデータ を分析することが重要 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  17. 17. 購買履歴データを使った分析例   消費者のマインドとして、商品を購入する際に 想起する店を知りたい。   健康志向と非健康志向の顧客群によるマインド の違いはどのようなものか? 平成25年度データ解析コンペティションの研究成果Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  18. 18. 健康志向 or 非健康志向   アンケート調査 –  1食でより多くの食材が摂れるように料理をしますか? –  1汁3菜を意識して料理を作りますか? –  1食あたりのカロリーや塩分・脂質・糖分・食物繊維な どを意識しながら食事を作りますか? –  自分の健康・体調管理よりも、家族の健康・体調管理 を意識して料理をしますか? 5:  あてはまる   4:  まああてはまる   3:  どちらともいえない   2:  あまりあてはまらない       1:  あてはまらない 平均スコアよりも高ければ健康志向 そうでなければ非健康志向 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  19. 19. マインドの把握   購買した店とその商品を利用して消費者の購買 行動を概念化 → マインド セブン&i 系_食品 ライフ_食 品 ダイエー 系_食品 サンドラッ グ_食品 その他 スーパー_ 日用品 百貨店_ 食品 その他購入 先_食品 クリエイト_ 食品 クリエイト_ 日用品 マツモトキヨ シ_日用品 マツモトキヨ シ_食品 お客さんが購入した店と商品ペアをノードで表し、 購入したことのある店商品ペアをエッジで結ぶ 関係の強い領域を取り出す → 完全グラフの列挙 ダイエー 系_食品 その他 スーパー_ 日用品 百貨店_ 食品 その他購 入先_食品 ・・ ・・ ・・ クリエイト _日用品 マツモトキヨ シ_日用品 マツモトキ ヨシ_食品 ダイエー 系_食品 百貨店_ 食品 その他スー パー_日用品 サンドラッグ _食品 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  20. 20. グラフクリーニング 密度の高い部分をクリークに!! 密度の低い部分の枝を取り除く!! この方法を「グラフ研磨」と呼ぶ A B C D E F A B C D E F X 共通する友達が多 いなら枝を追加 共通する友達が少 ないなら枝を削除   Facebookの友達推薦のアイデア(link prediction) 類似度グラフにグラフ研磨を適用しグラフを再構築 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  21. 21. グラフ研磨 完全グラフの列挙 元の グラフ 研磨後 グラフ 店商品ペアの関係が強い グループ構造 → マインド ダイエー系_半生菓子 ダイエー系_生麺・ゆで麺 ダイエー系_食パン ダイエー系_その他畜産 ダイエー系_牛乳 ダイエー系_菓子パン ダイエー系_ヨーグルト ダイエー系_豆腐 ダダイイエエーーママイインンドド ダイエー系_加工食品 西友系_加工食品 その他一般小売店_生鮮食品 セブン&i系_家庭用品 マツモトキヨシ_化粧品 その他100円ショップ(ダ イソーなど)_化粧品 小小売売混混合合ママイインンドド 合計約1,400 のマインド Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  22. 22. 回帰モデル: 非健康志向のマインド把握 不健康の代名詞と なる食品群 コンビニ・自販機 の既成食品 コンビニ飲料 加工食品・菓子・ ツマミ系   非健康志向の消費 者は、お腹が空い たらコンビニでス ナック、即席麺   喉が乾いたらコー ラにコンビニ飲料   スーパーといえば、 惣菜・ソーセー ジ・加工食品 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  23. 23. 回帰モデル:健康志向のマインド把握 圧倒的にスーパー・ドラッグストアを利用 コンビニでも生菓子派   健康志向の消費者は、お腹が空いたら家 で料理、食材はスーパーへ、そして日用 品・雑貨といえばドラッグストア   ご贔屓は「セイジョー」「ダイエー」「生 協」「マツモトキヨシ」「サンドラッ グ」「ケーヨー」「ヤオコー」 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  24. 24. まとめ   自社データに加えて、ビッグデータを活用する ことで、マクロな視点を補った情報として利用 できます。   お見せしたデータ解析の事例では全てNYSOLと Rを使っています。   オープンソースの特性を知り、得意分野を使い 分ければビジネスに活かすことができます。 共同研究やってます。これまでにも色々な企業とやっ てきました。データお持ちの企業様大歓迎です!! Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  
  25. 25. 今後の世界   SNSにより人同士がつながりました。   更にデータがどんどんつながります。   ものがインターネットにつながる時代   人同士のつながりにデータ生成器としてマ シンが加わります。   データの価値はより一層高まります。 Copyright  ©  Takanobu  Nakahara  All  Rights  Reserved.  

×