『 DataSpider 接続先技術動
 向 - ソーシャル、ビッグ
       データ』
          

     株式会社アプレッソ
    代表取締役副社長 CTO
       小野 和俊 


                      1
アジェンダ


• 最近の技術トレンド
• 今後の DataSpider で検討中の機能
• ディスカッション




                           2
ソーシャルメディアと
エンタープライズソーシャル




                3
ソーシャルメディアの市場


• ソーシャルメディア
 – Facebook: 全世界で 9 億人以上のユーザー
 – Twitter: 全世界で 1 億 4000 万人のユーザー
 – フォーチューン 100 社中、 61% が Facebook を企業
   利用 (2011 年 )


• エンタープライズ・ソーシャル
 – 世界の企業が 2010 年末までにエンタープライズ・ソ
   ーシャル・ソフトウェアに費やすコストは 6 億
   6,440 万ドル。 2011 年は 16% 増の 7 億 6,920 万ド
   ル。
   (Gartner, 2010 年 12 月 http://bit.ly/sERyoQ )

                                                  4
ソーシャルメディア利用者の推移




In the looop 「 2012 年 3 月最新ニールセン調査」より http://bit.ly/IjiUWt
                                                             5
エンタープライズソーシャル




 In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK
                                                        6
エンタープライズソーシャル




In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK
                                                       7
エンタープライズソーシャルツール




In the looop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK
                                                       8
DataSpider とソーシャルメディア


ソーシャルメディアやエンタープライズソーシャルと
 社内の各種システムとの双方向の連携を実現できる
• 例.
  – 企業の Facebook ページのメッセージごとの「いいね
    」を付けたユーザーの属性情報を取得し、社内のシ
    ステムに反映させたり、レポート出力したりする
  – 売れ筋商品が入荷したら Facebook で「ファン」に通
    知する
  – 宿泊予約サイトで当日にキャンセルが発生したら当
    日限定の格安情報を Facebook ページで知らせる
  – 社内ソーシャルメディアに社内システムから上がっ
    てきたアラート情報を自動的に書き込む
                                    9
ビッグデータの
エンタープライズ活用




             10
Cookpad たべみるの事例




  Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より
              http://slidesha.re/azyROS   11
Cookpad たべみるの事例




  Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より
              http://slidesha.re/azyROS   12
Cookpad たべみるの事例




  Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より
              http://slidesha.re/azyROS   13
ビッグデータとは


• ビッグデータの例
 –   ウェブサーバーのログ
 –   センサーから得られるデータ
 –   モバイル聞きが生成するデータ
 –   音声や動画などのマルチメディアデータ
ビッグデータの事例


• アンデルセンの直営ベーカリー、パン・菓子の
  製造・卸販売などの原価計算システム。
• 従来は原材料原価から製品原価を算出するバッ
  チ処理に毎日 4 時間かかっており、原価の変動
  に応じて毎日何度も再計算処理をさせることが
  難しかった。
• PL/SQL をクラウド上の Hadoop/Asakusa FW に
  置き換え、処理時間を 4 時間から 20 分に短縮
  。
http://cloud.watch.impress.co.jp/docs/news/2012
  0507_531036.html
                                                  15
ビッグデータの事例


• 自動車に搭載したコンピュータから運転情報を
  収集し、急ブレーキが多い交差点が見つかると
  、それに基づき車線の配置を変更して事故を未
  然に防止できた。
• 保険契約者の車に GPS 搭載の機器を設置して運
  行情報を収集、走行パターンに応じて保険料金
  を毎月決定 ( 深夜高速等のハイリスク走行パタ
  ーンが多いと高くなる等 )
http://japan.zdnet.com/cio/sp_bigdata2011/350
  07790/3/
ビッグデータの事例


• マーケティング : SNS の書き込みや検索結果か
  ら消費者がほしい商品を瞬時に判断してオスス
  メ
• 医療 : 患者の血圧、心拍数などの情報から病状
  の悪化を事前に察知
• 防犯 : クレジットカード決済時に購入パターン
  から不正利用者を発見
• 交通 : GPS 情報から、渋滞に巻き込まれないよ
  うに自動車の走行経路の変更を提案
http://www.toyokeizai.net/business/industrial/de
  tail/AC/4dbc5d85726430bd1c51b46ac99918
  4a/
• 一方・・・
 – 「そもそも統計学はビッグデータを不要にする技術
   なはず」
 – 「統計の基本的な考え方は、大きなデータを全部見
   なくても、サンプリングで傾向が導き出せるという
   点。こういう統計技術があったため、今までセンサ
   ーデータを採らなくても、分析ができていた。ビッ
   グデータを声高に唱える人は、こういう統計の基礎
   の習得が不十分なのではないか?と思われることが
   多い」
 – 例 . テレビの視聴率
   http://ascii.jp/elem/000/000/687/687170/

                                              18
DataSpider とビッグデータ


          ビッグデータ関連の技術
       (Hadoop / NoSQL / NewSQL 等 )
         と社内システムの連携を実現

• 例.
  – 原価計算に必要な原価データその他の関連情報を各
    システムから抽出し、 Hadoop に渡す
  – フォーマットの異なるログを正規化しながら Hadoop
    に渡す
  – 社内データベースを抽出・マージしてクラウド上の
    NoSQL に同期
  – 社内データベースの内容をクラウド上の NoSQL にバ
    ックアップ
                                      19
今後の DataSpider で検討中の機能




                         20
• 操作パフォーマンス・ユーザビリティ向上
 – ペルソナ・シナリオ法
• 実行パフォーマンス高速化
 – スマートコンパイラ
 – ファイル系アダプタのループ処理高速化




                        21
DataSpider とペルソナ・シナリオ法




 ペルソナ   =
 本物の人間ではないけれど、デザインのプロセスの過程で本物の人
 間の代わりになるもの。実際のユーザーの仮説的な原型。
 ( 「コンピューターはむずかしすぎてつかえない!」より


 主要ペルソナ   =
 利用者として想定される、もっとも典型
 的な
 ユーザー。



                      アプレッソで使用しているペルソナ


                                         22
参考 : PSP( パラレルストリーミング ) 機能


       抽出処理   変換処理   書込処理




                             1
 1
 2                    2
 3
               3
 4
        4




 一定の分割単位で各処理を並列に処理させるため
     、理論上データ容量の制限なし。
                                 23
• CSV 、データベース、固定長 / 可変長などのテ
  ーブルモデル型の結果データを持つアダプタで
  対応。
• 一部の Mapper ロジックは PSP 未対応 ( ヘルプ
  に対応一覧表あり )
• スクリプト作成時に PSP
  有効 / 無効を選択
• 結果データを複数の出力先
  で使用できません。



                                   24
パフォーマンス例




    非 PSP     47 秒   4秒           15 秒      65 秒
    ( メモリ )
    非 PSP     59 秒   36 秒         41 秒      136 秒
    ( 大容量 )                                 (2.07)
    PSP       -      -            -         59 秒
                                            (0.9)

※100 バイト / カラム、 100 カラム / 行、 10 万行 ( 約 1GB) CSV ファイル

  • メモリ処理で一番処理に時間がかかっているコンポーネント
    の処理時間 +α まで高速化可能。しかも理論上データ容量に
    制限なし。
  • ある処理だけがとても遅い ( 例えば全体の 90% など ) 場合に
    は、 PSP のパフォーマンス効果は少ない。
                                                       25
スマートコンパイラ

                今後対応予定

     PSP 実行部分




     通常実行部分




                         26
まとめ




      27
• 最近の技術トレンド
• 今後の DataSpider で検討中の機能
• ディスカッション




                           28
お問い合わせは…    株式会社アプレッソ
                                            TEL : 03-4321-1111
                                            E-mail : info@appresso.com
                                            URL:http://www.appresso.com/




© 2010 APPRESSO K.K. All Rights Reserved.                                  29

20120822_dstn技術交流会_DataSpider接続先技術動向

  • 1.
    『 DataSpider 接続先技術動 向 - ソーシャル、ビッグ データ』   株式会社アプレッソ 代表取締役副社長 CTO 小野 和俊  1
  • 2.
    アジェンダ • 最近の技術トレンド • 今後のDataSpider で検討中の機能 • ディスカッション 2
  • 3.
  • 4.
    ソーシャルメディアの市場 • ソーシャルメディア –Facebook: 全世界で 9 億人以上のユーザー – Twitter: 全世界で 1 億 4000 万人のユーザー – フォーチューン 100 社中、 61% が Facebook を企業 利用 (2011 年 ) • エンタープライズ・ソーシャル – 世界の企業が 2010 年末までにエンタープライズ・ソ ーシャル・ソフトウェアに費やすコストは 6 億 6,440 万ドル。 2011 年は 16% 増の 7 億 6,920 万ド ル。 (Gartner, 2010 年 12 月 http://bit.ly/sERyoQ ) 4
  • 5.
    ソーシャルメディア利用者の推移 In the looop「 2012 年 3 月最新ニールセン調査」より http://bit.ly/IjiUWt 5
  • 6.
    エンタープライズソーシャル In thelooop 「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK 6
  • 7.
    エンタープライズソーシャル In the looop「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK 7
  • 8.
    エンタープライズソーシャルツール In the looop「企業内にソーシャルの仕組みを」より http://bit.ly/yVUyOK 8
  • 9.
    DataSpider とソーシャルメディア ソーシャルメディアやエンタープライズソーシャルと 社内の各種システムとの双方向の連携を実現できる •例. – 企業の Facebook ページのメッセージごとの「いいね 」を付けたユーザーの属性情報を取得し、社内のシ ステムに反映させたり、レポート出力したりする – 売れ筋商品が入荷したら Facebook で「ファン」に通 知する – 宿泊予約サイトで当日にキャンセルが発生したら当 日限定の格安情報を Facebook ページで知らせる – 社内ソーシャルメディアに社内システムから上がっ てきたアラート情報を自動的に書き込む 9
  • 10.
  • 11.
    Cookpad たべみるの事例 Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より http://slidesha.re/azyROS 11
  • 12.
    Cookpad たべみるの事例 Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より http://slidesha.re/azyROS 12
  • 13.
    Cookpad たべみるの事例 Cookpad 佐々木氏「 961 万人の食卓を支えるデータ解析」より http://slidesha.re/azyROS 13
  • 14.
    ビッグデータとは • ビッグデータの例 – ウェブサーバーのログ – センサーから得られるデータ – モバイル聞きが生成するデータ – 音声や動画などのマルチメディアデータ
  • 15.
    ビッグデータの事例 • アンデルセンの直営ベーカリー、パン・菓子の 製造・卸販売などの原価計算システム。 • 従来は原材料原価から製品原価を算出するバッ チ処理に毎日 4 時間かかっており、原価の変動 に応じて毎日何度も再計算処理をさせることが 難しかった。 • PL/SQL をクラウド上の Hadoop/Asakusa FW に 置き換え、処理時間を 4 時間から 20 分に短縮 。 http://cloud.watch.impress.co.jp/docs/news/2012 0507_531036.html 15
  • 16.
    ビッグデータの事例 • 自動車に搭載したコンピュータから運転情報を 収集し、急ブレーキが多い交差点が見つかると 、それに基づき車線の配置を変更して事故を未 然に防止できた。 • 保険契約者の車に GPS 搭載の機器を設置して運 行情報を収集、走行パターンに応じて保険料金 を毎月決定 ( 深夜高速等のハイリスク走行パタ ーンが多いと高くなる等 ) http://japan.zdnet.com/cio/sp_bigdata2011/350 07790/3/
  • 17.
    ビッグデータの事例 • マーケティング :SNS の書き込みや検索結果か ら消費者がほしい商品を瞬時に判断してオスス メ • 医療 : 患者の血圧、心拍数などの情報から病状 の悪化を事前に察知 • 防犯 : クレジットカード決済時に購入パターン から不正利用者を発見 • 交通 : GPS 情報から、渋滞に巻き込まれないよ うに自動車の走行経路の変更を提案 http://www.toyokeizai.net/business/industrial/de tail/AC/4dbc5d85726430bd1c51b46ac99918 4a/
  • 18.
    • 一方・・・ –「そもそも統計学はビッグデータを不要にする技術 なはず」 – 「統計の基本的な考え方は、大きなデータを全部見 なくても、サンプリングで傾向が導き出せるという 点。こういう統計技術があったため、今までセンサ ーデータを採らなくても、分析ができていた。ビッ グデータを声高に唱える人は、こういう統計の基礎 の習得が不十分なのではないか?と思われることが 多い」 – 例 . テレビの視聴率 http://ascii.jp/elem/000/000/687/687170/ 18
  • 19.
    DataSpider とビッグデータ ビッグデータ関連の技術 (Hadoop / NoSQL / NewSQL 等 ) と社内システムの連携を実現 • 例. – 原価計算に必要な原価データその他の関連情報を各 システムから抽出し、 Hadoop に渡す – フォーマットの異なるログを正規化しながら Hadoop に渡す – 社内データベースを抽出・マージしてクラウド上の NoSQL に同期 – 社内データベースの内容をクラウド上の NoSQL にバ ックアップ 19
  • 20.
  • 21.
    • 操作パフォーマンス・ユーザビリティ向上 –ペルソナ・シナリオ法 • 実行パフォーマンス高速化 – スマートコンパイラ – ファイル系アダプタのループ処理高速化 21
  • 22.
    DataSpider とペルソナ・シナリオ法 ペルソナ = 本物の人間ではないけれど、デザインのプロセスの過程で本物の人 間の代わりになるもの。実際のユーザーの仮説的な原型。 ( 「コンピューターはむずかしすぎてつかえない!」より 主要ペルソナ = 利用者として想定される、もっとも典型 的な ユーザー。 アプレッソで使用しているペルソナ 22
  • 23.
    参考 : PSP(パラレルストリーミング ) 機能 抽出処理 変換処理 書込処理 1 1 2 2 3 3 4 4 一定の分割単位で各処理を並列に処理させるため 、理論上データ容量の制限なし。 23
  • 24.
    • CSV 、データベース、固定長/ 可変長などのテ ーブルモデル型の結果データを持つアダプタで 対応。 • 一部の Mapper ロジックは PSP 未対応 ( ヘルプ に対応一覧表あり ) • スクリプト作成時に PSP 有効 / 無効を選択 • 結果データを複数の出力先 で使用できません。 24
  • 25.
    パフォーマンス例 非 PSP 47 秒 4秒 15 秒 65 秒 ( メモリ ) 非 PSP 59 秒 36 秒 41 秒 136 秒 ( 大容量 ) (2.07) PSP - - - 59 秒 (0.9) ※100 バイト / カラム、 100 カラム / 行、 10 万行 ( 約 1GB) CSV ファイル • メモリ処理で一番処理に時間がかかっているコンポーネント の処理時間 +α まで高速化可能。しかも理論上データ容量に 制限なし。 • ある処理だけがとても遅い ( 例えば全体の 90% など ) 場合に は、 PSP のパフォーマンス効果は少ない。 25
  • 26.
    スマートコンパイラ 今後対応予定 PSP 実行部分 通常実行部分 26
  • 27.
  • 28.
    • 最近の技術トレンド • 今後のDataSpider で検討中の機能 • ディスカッション 28
  • 29.
    お問い合わせは… 株式会社アプレッソ TEL : 03-4321-1111 E-mail : info@appresso.com URL:http://www.appresso.com/ © 2010 APPRESSO K.K. All Rights Reserved. 29

Editor's Notes

  • #30 © 2010, APPRESSO K.K. All Rights Reserved.