避けては通れないビッグデータ周辺の重要課題:
データ基盤、データ管理、そして、オープンデータ




    株式会社テックバイザージェイピー
    栗原 潔
    kkurihara@techvisor.jp




                             TechVisor.JP
テックバイザージェイピー(TVJP)のサービス

                         IT
                      コンサルティング
       カスタム                         翻訳
       リサーチ

                    情報通信技術
             寄稿                      知財
             講演                   コンサルティング
                         特許・商標
                         出願代理
                         出願代理*



*テックバイザー国際特許商標事務所の業務としてご提供いたします


2013/03/07                   2        TechVisor.JP
代表 栗原潔のプロフィール
   日本IBM、ガートナージャパンを経て2005年6月に株式会社テックバ
    イザ ジェイピ を設立 ITコンサルティングと知財コンサルティング
    イザージェイピーを設立、ITコンサルティングと知財コンサルティング
    業務を並行して行なう

   日本国内の大手企業を中心にコンサルティング、リサーチ、講演・執
    日本国内の大手企業を中心に  サ テ  グ リサ チ 講演 執
    筆サービスを提供

   中心的専門分野はクラウド基盤、データウェアハウス、ソーシャル・コ
    ンピューティング、ソフトウェア特許など

   弁理士、技術士(情報工学)

   金沢工業大学 虎ノ門大学院 客員教授

   東京大学工学部卒、米MIT計算機科学科修士課程修了


2013/03/07          3           TechVisor.JP
最近の主な寄稿・講演
 ZDNet に特集「ビッグデータとは何か?」を寄稿
 Teradata Universe Tokyo 2012でビッグデータについて講演
                          2012でビッグデ タについて講演
 IT Initiative 2012年3月発売号に「ビッグデータのテクノロジー戦略を現実的に考える」寄稿
 EnterpriseZineに「ビッグデータテクノロジー戦略を現実的に考える」を寄稿(2012/04)
 日本IBMセミナ 「ビッグデ タ時代の最新ストレ ジ管理術と適用事例」で基調講演(2012/04)
  日本IBMセミナー「ビッグデータ時代の最新ストレージ管理術と適用事例」で基調講演(2012/04)
 日経BP特設サイト『常勝経営』に「改めて「ビッグデータ」の素朴な疑問に答える」を寄稿
  (2012/05)
 IT Initiative 2012年6月発売号に「『脱出速度』を達成する真のイノベーションとは」寄稿
 EnterpriseZineで連載「スタートアップのための知財戦略超入門」(2012/09)
 日経BP主催セミナー「クラウド経営サミット」で基調講演(2012/10)
 週刊ダイヤモンドに「ビ グデ タ に関するインタビ
  週刊ダイヤモンドに「ビッグデータ」に関するインタビュー記事掲載(2012/11)
                             記事掲載(2012/11)
 Teradataユーザー会総会で講演(プライベートイベント)(2012/11)
 MacPeople2012年11月号に「アップルvsサムスン『知財大戦』のゆくえ」を寄稿
 MacPeople2013年1月号に特集記事「デジタル時代の著作権ベーシックガイド」を寄稿
 Softbankテクノロジーフォーラム2012でパネルのモデレータ(2012/11)
 日経デザイン主催セミナー「アップルvsサムスン訴訟:その本質と影響」で講演「アップルの特許に
  見るUI特許のポイント」 (2012/12)

2013/03/07                    4                TechVisor.JP
主な訳書
             「エスケープ・ベロシティ」ジェフリー・ムーア著
               • 「ライ サイクル イノベ シ ン 「キ ズム のジ
                 「ライフサイクル・イノベーション」、「キャズム」のジェフリー・ムーアの最新作
                                             リ ム アの最新作
               • 過去の著作の集大成として13の戦略フレームワークを提言


             「戦略的デ タマネジメント」
             「戦略的データマネジメント」トーマス・レドマン著
               • データ管理テクノロジーではなくデータそのものにフォーカスした実践的ガイド
               • 著者の長年のコンサルティング経験に基づく豊富な事例と具体的指針を提供

             「デジタルネイティブが世界を変える」
             「デジタ ネイテ ブが世界を変える ドン・タプスコット著
               • 「ウィキノミクス」の著者による最新作
               • デジタル・テクノロジーに囲まれて育ってきた世代が成人になることで、社会・教育・ビ
                 ジネス・政治・家庭がどのように変化してきたかを膨大なデータに基づき分析

             「ライフサイクル イノベーション」 ジェフリー・ムーア著
               • ビジネス書の古典的名著「キャズム」の著者による、企業がイノベーションを継続的に
                 行なっていくためのフレームワークの提言
             「イノベーションへの解 実践編」 スコット・アンソニー他著
               • 「イノベーションのジレンマ」で知られるハーバードビジネススクール教授クレイトン・クリ
                 ステンセンが設立したコンサルティング会社のパートナーによる著書
               • 一般企業における「破壊的イノベーション理論」の実践についての豊富な事例とフレー
                   般企業における「破壊的イノベ ション理論」の実践についての豊富な事例とフレ
                 ムワーク、ツールによる解説

2013/03/07        5                               TechVisor.JP
最新の翻訳書のご紹介


             『インテンション・エコノミー』(ドク・サールズ著)
             (2013/3/15発売予定)

              ”Linux Journal”のシニア・エディターであるオープンソース界
               のオピニオン・リーダーによる初の単著
              企業が顧客の関心を惹くことが中心の「アテンション・エコノ
               ミー」から、顧客が購入の意思を企業に効率的に伝える「イン
               テンション・エコノミー」へのパラダイムシフトを大胆に予測
               テンシ ン エコノミ 」 のパラダイムシフトを大胆に予測
              CRMに対応する顧客側のカウンターパートVRM(Vendor
               Relationship Management)の必要性を提言
              「ビッグデータ」、CRM、ソーシャルの先にある世界を知るため
               の本



2013/03/07              6                TechVisor.JP
アジェンダ
 「ビッグデータ」の現状

 「ビッグデータ」が企業ITに与えるパラダイムシフト

  「ビッグデータ」のためのIT基盤


  「ビッグデータ」のための組織作り


  「ビッグデータ」のデータ管理戦略


 オープンデータの活用


2013/03/07        7       TechVisor.JP
「ビッグデータ」の定義
                                   マーケティング用語
                                   ( 便乗商法 に近
                                   ("便乗商法"に近
   データ分析に使われるあらゆるデータ
   デ タ分析に使われるあらゆるデ タ               い)




               大量/多様/リアルタイムのデータ
                                   一般的視
                                     般的視
                                   点
                 一般消費者の行動データ        一部マスメディア
                                    で見られる視点




”ビッグデータ=3つのV(Volume,Variety,Velocity)”が一般的定義
  2013/03/07             8          TechVisor.JP
「ビッグデータ」に対する関心の変化
Google Trendsで見る「ビッグデータ」への関心度の変化




  ビッグデ タ の関心度は2012年度を通じて高く、今後当面は高いと予測される
  ビッグデータへの関心度は2012年度を通じて高く、今後当面は高いと予測される
  →重要キーワードではあるがハイプ(過剰広告)には注意が必要
  2013/03/07             9         TechVisor.JP
「ビッグデータ」は破壊的イノベーションではない
  企業にとってのデータの価値




                         ビッグデ タ
                         ビッグデータ
                         ムーブメント
             データマイニング
             デ タマイニング
                    アナリティクス    データソースの範囲拡大
    データウェアハウス
       ウ    ウ                  データ管理テクノロジーの進化
          ビジネスインテリジェンス                          時間
「ビッグデータ」は過去のデータ中心型アプリケーションの延長線上にあるものだ
 ビッグデ タ」は過去のデ タ中心型アプリケ ションの延長線上にあるものだ
が、外部環境の変化により企業にとっての価値が急激に増大している
2013/03/07                10           TechVisor.JP
「ビッグデータ」のビジネス価値

     米国のヘルスケア産業に3,000億ド
      ルの価値
     ロケーション・データの活用により
      6,000億ドルの価値を消費者に提供
      6 000億ドルの価値を消費者に提供
     小売業企業の営業利益率を60%向
      上可能
     欧州の政府機関に2500億ドルの価
      値を提供
     米国において14万人 19万人の
      米国において14万人~19万人の
      データ分析専門家が必要




出典: McKinsey Global Institute: Big Data: The next frontier for innovation, competition, productivity



2013/03/07                                      11                                 TechVisor.JP
米国企業における「ビッグデータ」の現状
 「ビッグデータ」の主要用途は、顧客ケア(41%)、セールス(26%)、財
  務(23%)、マーケティング(23%)
  務(23%) マ ケティング(23%)
 49%の企業が分析データの急増をきわめて困難な課題とみなしている
 62%の企業が100TB以上のデ タを管理
  62%の企業が100TB以上のデータを管理
 32%の企業が今後2~3年間でデータ量が倍増すると予測
 平均して38%のデ タが非構造化
  平均して38%のデータが非構造化
 89%の企業が「ビッグデータ」ソリューション向けの独立予算を確保
 72%の企業が「ビッグデ タ」の計画プロセスを開始(そのうち 76%が
  72%の企業が「ビッグデータ」の計画プロセスを開始(そのうち、76%が
  1年以内に実装を計画)
 62%の企業が今後2年以内の予測分析やデータマイニングがきわめて
  62%の企業が今後2年以内の予測分析やデ タマイ ングがきわめて
  重要と回答
 53%の企業が非構造化データの分析の拡張がきわめて重要と回答
出典: Microsoft Global Enterprise Big Data Trends:2013 (米国企業282社のIT意思決定者に対するサーベイ結果)

2013/03/07                               12                            TechVisor.JP
「ビッグデータ」の2カテゴリー
              エマージング・ビッグデータ   トラディショナル・ビッグデータ
典型的ユーザー   大規模ネット企業        「クリック・アンド・モルタル」
データタイプ    非構造化中心          構造化中心
典型的ビッグデータ Webログ           トランザクション履歴
          ソーシャルグラフ
                 グ        ドキュメント
                          ド
          マルチメディア(イメージ, 動 E-メール
          画)
水平スケーリング
水平スケ リング  数百台から数千台規模      数十台から数百台規模
既存システムとの           小               大
連携必要性
ソフトウェアの内製
ソフトウ アの内製          大               小
必要性
OSSの必要性            大               中
典型的テクノロジー 自社開発基盤 Hadoop
          自社開発基盤, Hadoop, RBDMS(商用)+α(Hadoop等)
          NoSQL,
          RDBMS(商用+OSS)

    企業は自社がどちらのタイプを中心的に追求しているのかを明確化すべき

 2013/03/07            13             TechVisor.JP
「ビッグデータ」がもたらすパラダイムシフト
                    ビッグデータ前             ビッグデータ後

データ管理基盤       RDBMS               RDBMS+α

ストレージ管理       人力で何とか              自動化が不可欠

リアルタイム性       nice-to-have        不可欠

非構造化データ       nice-to-have        不可欠

スケーラビリティ      数100TB目標            数PB目標

デ タ収集アプロ チ
データ収集アプローチ    特定目的のためにデ タ収集 デ タ収集して活用法を発見
              特定目的のためにデータ収集 データ収集して活用法を発見

データ品質アプローチ    データ洗浄               Just-In-Timeフィルタリング
データソース
デ タ  ス        社内中心                社内+社外

オープンデータ活用     検討対象外               重要案件

専門スキル         ビジネスアナリスト           データサイエンティスト

 2013/03/07                  14           TechVisor.JP
MapReduce/Hadoop≒並列バッチ

                   Map1



                   Map2

              ・・           Reduce
 入力デ タ
 入力データ        ・                      出力デ タ
                                     出力データ



                   Map-n

 MapReduce: 多数のマシンを活用して大容量データを並列処理するた
    p
  めのフレームワーク/プログラミング・モデル
    概念自体はさほど新しいものではない
    Googleのサーチエンジン等の大規模Webサービスの基盤技術のひとつ
     Googleのサ チエンジン等の大規模Webサ ビスの基盤技術のひとつ
 MapReduceの代表的なオープンソース実装がHadoop
2013/03/07          15              TechVisor.JP
RDBMSの得手不得手

    RDBMSの優位性
          優位性              RDBMSの限界
                                               M/Rの
 明確でわかりやすいな表形式ス      インスタンスごとに形式が異なる        得意分野
  キーマ(データ構造)           データを管理しにくい
 更新処理におけるデータ整合性      N:Mの関係、不定長リストなどを         M/Rの
                                               得意分野
  確保(ACID属性)           表現しにくい
 最適化技術の蓄積(高性能)       基本的に集合処理が中心なの
                                                M/Rの
                       で時系列データを処理しにくい          得意分野
 標準化されたクエリー言語
                      (OLTPの場合)数10CPU、
 スキルの蓄積       重要
                       (DWHの場合)数100CPUを越        M/Rの
                                               得意分野
 関連ツールの蓄積             えて水平スケールしにくい
               重要
                      デ タのロ ディングのオ
                       データのローディングのオー            M/Rの
                       バーヘッドがある                得意分野




Hadoop/MapReduceはビッグデータ環境におけるRDBMSの限界をうまく補完できる

2013/03/07            16               TechVisor.JP
DWH環境におけるHadoop/MapReduce活用

  使い分け                    前処理                 疎結合             密結合




              MapReduce
                           DWH                  MapReduce         DWH
DWH                                     DWH                      MapReduce
                                                                   p

                            MapReduce




 データソース                    データソース         データソース              データソース
データソース                    データソース         データソース              データソース
データソース                    データソース         データソース              データソース


 2013/03/07                        17                       TechVisor.JP
事例:eBayにおけるHadoop活用
  EDW/ADW/ODW    「サンドボックス」分析

       RDBMS        RDBMS

         6PB         >10PB



業務系分析               傾向分析          イメージ分析
大規模並行ユーザー           一時的分析         イメージランキング

定型データ               準定型データ        非定型データ
(トランザクション・ログ)       (Webログ)       (イメージ)


 データ分析基盤の中心はRDBMSによるデータウェアハウス
    Webログ解析もRDBMS上で行なっている
    RDBMS向きでない機能をHadoopで補完している

 2013/03/07           18             TechVisor.JP
ポリシーベース管理の考え方

従来型管理の世界


                                      How
                                     の自動化

             管理ポリシー決定   手作業による作業計画


ポリシーベース管理の世界



                           What       How
                           自動化
                          の自動化        自動化
                                     の自動化

             管理ポリシー決定
「ビッグデータ」を扱う環境では、作業の自動化だけではなく、そもそもどのような
 ビッグデ タ」を扱う環境では、作業の自動化だけではなく、そもそもどのような
作業が必要かの判断も含めた自動化が求められる
2013/03/07               19           TechVisor.JP
ストレージ自動階層管理の必然性
       将来的には                      高速
      不揮発性メモリ?

                         DRAM
                        キャッシュ
                 SSD

                         FC/SAS
                            /
                         ディスク
                       SATAディスク
                          /
                          /MAID
                       テープライブラリ
                                       大容量


SSDの低価格化による普及は ビッグデ タ」を高速に処理するために有効で
SSDの低価格化による普及は「ビッグデータ」を高速に処理するために有効で
ある一方でストレージ階層管理を複雑化し、自動階層管理の必要性を増す
2013/03/07                  20         TechVisor.JP
「ビッグデータ」人材問題への対応

      データ・サイエンティスト            コンピテンシ・センター(専門家集団)モデル
                                  社外リソース
              統計                       統計
              スキル                      チ ム
                                       チーム

              IT  ビジネス   社外リソース

             スキル 分析スキル           IT           ビジネス
                                チーム          分析チーム


 米国において、データサイエンティスト           人材不足の問題を組織作りで解決す
  (統計、IT、ビジネス分析のスキルを            る必要がある
  兼ね備えた人材)の不足が続いてい             ITと統計分野では外部リソースの活
                                   統
  る                             用が重要(ビジネス分析はインソース
 日本においては人材の流動性の不足              化が不可避)
  からデータサイエンティスト人材の確            ビジネス分析チームと統計チームの
  保はさらに困難                       協業が特に重要


2013/03/07               21                   TechVisor.JP
「ビッグデータ」管理のポイント
 データはできるだけ加工せず生データのままで保管
    生デ タを残すことで様々な切り口での分析が可能になる
     生データを残すことで様々な切り口での分析が可能になる
    いったんサマリー化してしまったデータは元には戻せない
    ストレージの価格低下により数年前には非現実的だった大量データの保管が十分現
     実的になっている
     実的にな ている
 収集時点では想定していない利用法が考案される可能性を想定
    特定の用途でしか活用できない保管方法は避けるべき
    データを特定部門が囲い込まないように注意が必要
    データ資産の社内での流通に関するルール決めが必要
 「ビッグデ タ」プロジェクトが成功するとデ タ量は急増することを予期
  「ビッグデータ」プロジェクトが成功するとデータ量は急増することを予期
    成功事例に触発されて関連ユースケースが次々と登場する
    一般に分析系アプリケーションはデータが増えれば増えるほど精度が増す
    一般には1年で倍増以上のペースを想定すべき
 消費者プライバシーを十分に考慮
    この分野での規制や業界慣行はまだ確定したとは言い難い
    大原則は「個人情報」をコントロールするのはその個人自身であるということ
2013/03/07            22             TechVisor.JP
当所想定されていなかったデータ活用法の例
例)Google等の検索エンジンで見られる「もしかして」機能




 すべての入力間違いを辞書化しているのか?あるいは、アルゴリズム
  で判定しているのか?→どちらも非現実的
 大量の検索ログを分析し、 「蓮根ミク」を検索した直後に「初音ミク」を
  検索する人が多ければ 「蓮根ミク」は「初音ミク」の入力間違いであると
  推定するという処理で、辞書を自動的に作っていると思われる
   検索ログは「もしかして」機能を実装するために収集していたわけではおそらくない、後
    になって新たなデータの(重要な)活用法が考案され、価値を提供した
   大量のデータ(「ビッグデータ」)があって初めて実現できる機能

 2013/03/07           23             TechVisor.JP
データ品質へのアプローチ

             従来の考え方                ビッグデータの世界で
                                    求められる考え方

異常データを排除する等の「データ洗              ”Just-in-Time”フィルタリング
浄」をバッチで実行



             データ洗浄    ”洗浄済”
                        浄
元データ                   データ           元データ


「ビッグデータ環境での」問題点
 「ビッグデータ」が本質的に持つリア             分析の文脈に応じて、データをオ
  ルタイム性に対応しにくい                   ンデマンドでフィルタリング
 何が「異常データ」であるかは分析              フィルタリングの主導権はデータ
  の文脈により異なる                      サイエンティスト(分析担当者)に
                                 ある

2013/03/07                24                   TechVisor.JP
「ビッグデータ」とプライバシー
 「ビッグデータ」の活用は本質的に個人のプライバシーの権利と必然的
  に衝突することが多い
      直接的には個人識別情報を含まないデータが分析によって個人とヒモ付けされる可
       能性がある
 現時点における「ビッグデ タ」の議論ではプライバシ 問題がほとん
  現時点における「ビッグデータ」の議論ではプライバシー問題がほとん
  ど検討されていないことが多い
      いずれ何らかの形で反動が起きることが十分に予測される
 プライバシー問題への対応には、各種法規制の準拠に加えて、顧客の
  信頼感を得るという基本的要件を満足する必要がある
      法律(個人情報保護法、電気通信事業者法等)、政府ガイドライン、業界ガイドライン
       (自主規制)などへのコンプライアンスは必要条件ではあるが十分条件ではない
      海外で問題がない情報活用形態が日本においても問題がないとは限らない
 基本的には 個人識別情報の排除(匿名化) 情報利用に関する事前
  基本的には、個人識別情報の排除(匿名化)、情報利用に関する事前
  の合意(オプトイン)、情報利用に関する透明性・説明責任、ユーザーが
  望んだ場合のオプトアウトが必須要件
      「利用規約に書いてあるので利用者は合意したはず」という考え方は顧客の信頼を
       「利用規約に書いてあるので利用者は合意したはず という考え方は顧客の信頼を
       得るという観点からは十分ではない
2013/03/07              25             TechVisor.JP
「ビッグデータ」のオープンな活用
      従来型データ活用             将来的なデータ活用
                                          社外デ タ
                                          社外データ
                                          ソース
社内データソース             社内データソース

                                               API
              DWH                  DWH




   部門固有データ               部門固有デ タ
                         部門固有データ

 社内データソース中心        社外のデータソース(商用およびオープン)を積
 部門別データが依然として残る
  部門別デ タが依然として残る     極的に活用
                    商用データに加えて「オープンデータ」も活用
                    部門別データを社内で積極的に「流通」
                    社内で生成されたデータをAPI経由で「外販」

 2013/03/07         26               TechVisor.JP
オープンデータに向かう方向性

データは原則隠す
デ タは原則隠す       データの公開
               デ タの公開          二次利用の促進

                                    Webサービス
                        閲覧
                              XML
                                           データ
                                           分析 加
                                           分析・加工

                                      Webサービス
                              XML


  政府間連・科学研究間連などの特定データは自由に利活用し、価値を付加
   す
   することで公共の福祉に貢献できるようにすべきである
            福祉 貢献     う す   あ
  単なるデータの公開ではなく、コンピューターによる再利用が行ないやすい形
   式での公開をすべきである
  XMLによるデータ記述とWebサービスによるデータ・アクセスがオープン・
   データを推進するためのテクノロジーの柱

 2013/03/07        27               TechVisor.JP
オープンデータ活用における一般的課題
   標準化
     デ タ形式に関する標準化はXML (あるいはJSON)ベ スで進展している
      データ形式に関する標準化はXML (あるいはJSON)ベースで進展している
      が、データの内容のセマンティックス(意味)に関する標準化進展のペースは
      遅い(一部の分野では最終的に完全な標準に至る可能性も低い)
   プライバシー
    プ イバ
     「個人情報をコントロールするのはその個人本人」という大原則が担保され
      ているとは限らない
     国による法律、ポリシーの相違
     データそのものに個人情報が含まれなくとも、他の「ビッグデータ」との突合
      により、プライバシ 侵害になり得る可能性がある
      により、プライバシー侵害になり得る可能性がある
   知的財産権
     生データそのものには著作権はないが、テキスト、イメージ等の場合には問
      題になり得る
     データ作成の「額の汗」を適切に保護できる制度がない(特に日本)
   データ品質
     データの内容の正確性を誰がどの程度保証してくれるのか?
2013/03/07            28            TechVisor.JP
日本のオープンデータ戦略
   2012年6月に新IT戦略本部が「オープンガバメント推進のためのデ
    ータ戦略提言」を公表
      タ戦略提言」を公表
     ①行政の透明性・信頼性向上、②国民参加・官民協業推進に加え、③経済
      効果を目標として設定
     ① 政府自ら積極的に公共データを公開すること、② 機械判読可能な形式
      で公開すること、③ 営利目的、非営利目的を問わず活用を促進すること、
      ④ 取組可能な公共データから速やかに公開等の具体的な取組に着手し
        取組可能な公共データから速やかに公開等の具体的な取組に着手し、
      成果を確実に蓄積していくこと、を基本原則とする
     本年度の具体的施策として、①公共データ活用ニーズの把握、②データ提
      供方法等に係る課題の整理・検討、③民間サービスの開発を挙げる
   2012年7月に「オープンデータ流通推進コンソーシアム」を設立
   現時点では諸外国の動向調査、基本方針・ロードマップの検討という
    段階
     既にサイトを立ち上げてサ ビス開始している欧米(+香港 韓国)と比較し
      既にサイトを立ち上げてサービス開始している欧米(+香港、韓国)と比較し
      て2年程度の遅れと思われる
2013/03/07           29           TechVisor.JP
米国Data.Gov
   「オープン・ガバメント」の一環として2009
    年5月に開設された米国連邦政府が管理
    するウェブサイト
     「行政機関が生成した高価値で、機械可読
      なデータに対する公共のアクセスを拡大す
      る」ことを目的とする
     基本的にデータはXML形式で公開する
     現時点で約45万種のデータセットを公開
     インド政府との協力によりシステムのオープ
      ンソース化を推進中
     米国政府予算問題により「仕分け」が議論さ
      れたことがあった(米国内でも有用性に関す
      る疑義がまったくないわけではない)
      る疑義がま たくないわけではない)
   世界30カ国(欧州、香港、韓国等)におい
    ても同様の取り組みが行なわれている


2013/03/07           30      TechVisor.JP
米国オープンデータ活用事例

flyontime.us
flyontime us
   米交通統計局(data.gov経由)、連
    邦航空局、海洋大気庁などのオー
    プンデータを活用し、米国内空港
    プ デ
    の航空会社別、行き先別、天候別
    の平均遅延時間等のデータを消
    費者に提供するボランティアサイト
    費者に提供するボランテ アサイト
   「雨の水曜日にボストンからロサン
    ゼルスに行く場合に一番遅延の可
    能性が低い便は?」などの質問に
    対応できる
   加えて、セキュリティゲートでの平
    均待ち時間をクラウドソーシング方
    式で収集
   WebサイトのデータをAPIで公開
       サイトのデ タを   で公開


  2013/03/07               31   TechVisor.JP
参考事例:Windows Azure Maketplace Datamarket
 データ販売業者のデータを有料または無料で提供し、他のデータとマッ
  シュアップして活用可能に
    多様なデータをワンストップ化して提供
    デ タアクセス用のAPIを提供
     データアクセス用のAPIを提供
    現時点で152種のデータを提供
 提供デ タの例
  提供データの例
    ILO(国際労働機関)の世界労働統計データ(無料)
    米国の航空機遅延デ タ(無料)
     米国の航空機遅延データ(無料)
    世界各地の気候履歴データ(有料)
    英国内POSデ タ(有料)
     英国内POSデータ(有料)...




2013/03/07              32       TechVisor.JP
まとめと提言
 「ビッグデータ」の定義は人により様々だが、大量(Volume)、多様
  (Variety)、リアルタイム(Velocity)の「3つのV」の特性を持ったデー
  (Variety) リアルタイム(Velocity)の「3つのV」の特性を持ったデ
  タの分析アプリケーションを指すことが多い
 「ビッグデータ」は特別な考え方ではなく、過去から存在するデータウェ
  アハウス、ビジネス・インテリジェンス、アナリティクス、データ・マイニン
  グ等のデータ中心型テクノロジーの延長線上にあるものだが、そのビ
  ジネスにおける重要性が急増している
 「ビッグデータ」活用には、データ管理に対する考え方の一部を変化す
  ることが必要になる
 一般企業の「ビッグデータ」のデータ基盤としてはRDBMS+α アプ
        ビ グデ    デ                 プ
  ローチを中核に置くべきである
 あらゆる「ビッグデータ」プロジェクトにおいて 社外データ オープン
  あらゆる「ビッグデ タ」プロジェクトにおいて、社外デ タ、オ プン
  データの活用による価値についての検討を行なうべきである
 あらゆる「ビッグデータ」プロジェクトにおいて、プライバシーに関する検
  討を最初の段階から(後付けでなく)行なうべきである

2013/03/07           33              TechVisor.JP

避けては通れないビッグデータ周辺の重要課題

  • 1.
    避けては通れないビッグデータ周辺の重要課題: データ基盤、データ管理、そして、オープンデータ 株式会社テックバイザージェイピー 栗原 潔 kkurihara@techvisor.jp TechVisor.JP
  • 2.
    テックバイザージェイピー(TVJP)のサービス IT コンサルティング カスタム 翻訳 リサーチ 情報通信技術 寄稿 知財 講演 コンサルティング 特許・商標 出願代理 出願代理* *テックバイザー国際特許商標事務所の業務としてご提供いたします 2013/03/07 2 TechVisor.JP
  • 3.
    代表 栗原潔のプロフィール  日本IBM、ガートナージャパンを経て2005年6月に株式会社テックバ イザ ジェイピ を設立 ITコンサルティングと知財コンサルティング イザージェイピーを設立、ITコンサルティングと知財コンサルティング 業務を並行して行なう  日本国内の大手企業を中心にコンサルティング、リサーチ、講演・執 日本国内の大手企業を中心に サ テ グ リサ チ 講演 執 筆サービスを提供  中心的専門分野はクラウド基盤、データウェアハウス、ソーシャル・コ ンピューティング、ソフトウェア特許など  弁理士、技術士(情報工学)  金沢工業大学 虎ノ門大学院 客員教授  東京大学工学部卒、米MIT計算機科学科修士課程修了 2013/03/07 3 TechVisor.JP
  • 4.
    最近の主な寄稿・講演  ZDNet に特集「ビッグデータとは何か?」を寄稿 Teradata Universe Tokyo 2012でビッグデータについて講演 2012でビッグデ タについて講演  IT Initiative 2012年3月発売号に「ビッグデータのテクノロジー戦略を現実的に考える」寄稿  EnterpriseZineに「ビッグデータテクノロジー戦略を現実的に考える」を寄稿(2012/04)  日本IBMセミナ 「ビッグデ タ時代の最新ストレ ジ管理術と適用事例」で基調講演(2012/04) 日本IBMセミナー「ビッグデータ時代の最新ストレージ管理術と適用事例」で基調講演(2012/04)  日経BP特設サイト『常勝経営』に「改めて「ビッグデータ」の素朴な疑問に答える」を寄稿 (2012/05)  IT Initiative 2012年6月発売号に「『脱出速度』を達成する真のイノベーションとは」寄稿  EnterpriseZineで連載「スタートアップのための知財戦略超入門」(2012/09)  日経BP主催セミナー「クラウド経営サミット」で基調講演(2012/10)  週刊ダイヤモンドに「ビ グデ タ に関するインタビ 週刊ダイヤモンドに「ビッグデータ」に関するインタビュー記事掲載(2012/11) 記事掲載(2012/11)  Teradataユーザー会総会で講演(プライベートイベント)(2012/11)  MacPeople2012年11月号に「アップルvsサムスン『知財大戦』のゆくえ」を寄稿  MacPeople2013年1月号に特集記事「デジタル時代の著作権ベーシックガイド」を寄稿  Softbankテクノロジーフォーラム2012でパネルのモデレータ(2012/11)  日経デザイン主催セミナー「アップルvsサムスン訴訟:その本質と影響」で講演「アップルの特許に 見るUI特許のポイント」 (2012/12) 2013/03/07 4 TechVisor.JP
  • 5.
    主な訳書 「エスケープ・ベロシティ」ジェフリー・ムーア著 • 「ライ サイクル イノベ シ ン 「キ ズム のジ 「ライフサイクル・イノベーション」、「キャズム」のジェフリー・ムーアの最新作 リ ム アの最新作 • 過去の著作の集大成として13の戦略フレームワークを提言 「戦略的デ タマネジメント」 「戦略的データマネジメント」トーマス・レドマン著 • データ管理テクノロジーではなくデータそのものにフォーカスした実践的ガイド • 著者の長年のコンサルティング経験に基づく豊富な事例と具体的指針を提供 「デジタルネイティブが世界を変える」 「デジタ ネイテ ブが世界を変える ドン・タプスコット著 • 「ウィキノミクス」の著者による最新作 • デジタル・テクノロジーに囲まれて育ってきた世代が成人になることで、社会・教育・ビ ジネス・政治・家庭がどのように変化してきたかを膨大なデータに基づき分析 「ライフサイクル イノベーション」 ジェフリー・ムーア著 • ビジネス書の古典的名著「キャズム」の著者による、企業がイノベーションを継続的に 行なっていくためのフレームワークの提言 「イノベーションへの解 実践編」 スコット・アンソニー他著 • 「イノベーションのジレンマ」で知られるハーバードビジネススクール教授クレイトン・クリ ステンセンが設立したコンサルティング会社のパートナーによる著書 • 一般企業における「破壊的イノベーション理論」の実践についての豊富な事例とフレー 般企業における「破壊的イノベ ション理論」の実践についての豊富な事例とフレ ムワーク、ツールによる解説 2013/03/07 5 TechVisor.JP
  • 6.
    最新の翻訳書のご紹介 『インテンション・エコノミー』(ドク・サールズ著) (2013/3/15発売予定)  ”Linux Journal”のシニア・エディターであるオープンソース界 のオピニオン・リーダーによる初の単著  企業が顧客の関心を惹くことが中心の「アテンション・エコノ ミー」から、顧客が購入の意思を企業に効率的に伝える「イン テンション・エコノミー」へのパラダイムシフトを大胆に予測 テンシ ン エコノミ 」 のパラダイムシフトを大胆に予測  CRMに対応する顧客側のカウンターパートVRM(Vendor Relationship Management)の必要性を提言  「ビッグデータ」、CRM、ソーシャルの先にある世界を知るため の本 2013/03/07 6 TechVisor.JP
  • 7.
    アジェンダ  「ビッグデータ」の現状  「ビッグデータ」が企業ITに与えるパラダイムシフト  「ビッグデータ」のためのIT基盤  「ビッグデータ」のための組織作り  「ビッグデータ」のデータ管理戦略  オープンデータの活用 2013/03/07 7 TechVisor.JP
  • 8.
    「ビッグデータ」の定義 マーケティング用語 ( 便乗商法 に近 ("便乗商法"に近 データ分析に使われるあらゆるデータ デ タ分析に使われるあらゆるデ タ い) 大量/多様/リアルタイムのデータ 一般的視 般的視 点 一般消費者の行動データ 一部マスメディア で見られる視点 ”ビッグデータ=3つのV(Volume,Variety,Velocity)”が一般的定義 2013/03/07 8 TechVisor.JP
  • 9.
    「ビッグデータ」に対する関心の変化 Google Trendsで見る「ビッグデータ」への関心度の変化 ビッグデ タ の関心度は2012年度を通じて高く、今後当面は高いと予測される ビッグデータへの関心度は2012年度を通じて高く、今後当面は高いと予測される →重要キーワードではあるがハイプ(過剰広告)には注意が必要 2013/03/07 9 TechVisor.JP
  • 10.
    「ビッグデータ」は破壊的イノベーションではない 企業にとってのデータの価値 ビッグデ タ ビッグデータ ムーブメント データマイニング デ タマイニング アナリティクス データソースの範囲拡大 データウェアハウス ウ ウ データ管理テクノロジーの進化 ビジネスインテリジェンス 時間 「ビッグデータ」は過去のデータ中心型アプリケーションの延長線上にあるものだ ビッグデ タ」は過去のデ タ中心型アプリケ ションの延長線上にあるものだ が、外部環境の変化により企業にとっての価値が急激に増大している 2013/03/07 10 TechVisor.JP
  • 11.
    「ビッグデータ」のビジネス価値  米国のヘルスケア産業に3,000億ド ルの価値  ロケーション・データの活用により 6,000億ドルの価値を消費者に提供 6 000億ドルの価値を消費者に提供  小売業企業の営業利益率を60%向 上可能  欧州の政府機関に2500億ドルの価 値を提供  米国において14万人 19万人の 米国において14万人~19万人の データ分析専門家が必要 出典: McKinsey Global Institute: Big Data: The next frontier for innovation, competition, productivity 2013/03/07 11 TechVisor.JP
  • 12.
    米国企業における「ビッグデータ」の現状  「ビッグデータ」の主要用途は、顧客ケア(41%)、セールス(26%)、財 務(23%)、マーケティング(23%) 務(23%) マ ケティング(23%)  49%の企業が分析データの急増をきわめて困難な課題とみなしている  62%の企業が100TB以上のデ タを管理 62%の企業が100TB以上のデータを管理  32%の企業が今後2~3年間でデータ量が倍増すると予測  平均して38%のデ タが非構造化 平均して38%のデータが非構造化  89%の企業が「ビッグデータ」ソリューション向けの独立予算を確保  72%の企業が「ビッグデ タ」の計画プロセスを開始(そのうち 76%が 72%の企業が「ビッグデータ」の計画プロセスを開始(そのうち、76%が 1年以内に実装を計画)  62%の企業が今後2年以内の予測分析やデータマイニングがきわめて 62%の企業が今後2年以内の予測分析やデ タマイ ングがきわめて 重要と回答  53%の企業が非構造化データの分析の拡張がきわめて重要と回答 出典: Microsoft Global Enterprise Big Data Trends:2013 (米国企業282社のIT意思決定者に対するサーベイ結果) 2013/03/07 12 TechVisor.JP
  • 13.
    「ビッグデータ」の2カテゴリー エマージング・ビッグデータ トラディショナル・ビッグデータ 典型的ユーザー 大規模ネット企業 「クリック・アンド・モルタル」 データタイプ 非構造化中心 構造化中心 典型的ビッグデータ Webログ トランザクション履歴 ソーシャルグラフ グ ドキュメント ド マルチメディア(イメージ, 動 E-メール 画) 水平スケーリング 水平スケ リング 数百台から数千台規模 数十台から数百台規模 既存システムとの 小 大 連携必要性 ソフトウェアの内製 ソフトウ アの内製 大 小 必要性 OSSの必要性 大 中 典型的テクノロジー 自社開発基盤 Hadoop 自社開発基盤, Hadoop, RBDMS(商用)+α(Hadoop等) NoSQL, RDBMS(商用+OSS) 企業は自社がどちらのタイプを中心的に追求しているのかを明確化すべき 2013/03/07 13 TechVisor.JP
  • 14.
    「ビッグデータ」がもたらすパラダイムシフト ビッグデータ前 ビッグデータ後 データ管理基盤 RDBMS RDBMS+α ストレージ管理 人力で何とか 自動化が不可欠 リアルタイム性 nice-to-have 不可欠 非構造化データ nice-to-have 不可欠 スケーラビリティ 数100TB目標 数PB目標 デ タ収集アプロ チ データ収集アプローチ 特定目的のためにデ タ収集 デ タ収集して活用法を発見 特定目的のためにデータ収集 データ収集して活用法を発見 データ品質アプローチ データ洗浄 Just-In-Timeフィルタリング データソース デ タ ス 社内中心 社内+社外 オープンデータ活用 検討対象外 重要案件 専門スキル ビジネスアナリスト データサイエンティスト 2013/03/07 14 TechVisor.JP
  • 15.
    MapReduce/Hadoop≒並列バッチ Map1 Map2 ・・ Reduce 入力デ タ 入力データ ・ 出力デ タ 出力データ Map-n  MapReduce: 多数のマシンを活用して大容量データを並列処理するた p めのフレームワーク/プログラミング・モデル  概念自体はさほど新しいものではない  Googleのサーチエンジン等の大規模Webサービスの基盤技術のひとつ Googleのサ チエンジン等の大規模Webサ ビスの基盤技術のひとつ  MapReduceの代表的なオープンソース実装がHadoop 2013/03/07 15 TechVisor.JP
  • 16.
    RDBMSの得手不得手 RDBMSの優位性 優位性 RDBMSの限界 M/Rの  明確でわかりやすいな表形式ス  インスタンスごとに形式が異なる 得意分野 キーマ(データ構造) データを管理しにくい  更新処理におけるデータ整合性  N:Mの関係、不定長リストなどを M/Rの 得意分野 確保(ACID属性) 表現しにくい  最適化技術の蓄積(高性能)  基本的に集合処理が中心なの M/Rの で時系列データを処理しにくい 得意分野  標準化されたクエリー言語  (OLTPの場合)数10CPU、  スキルの蓄積 重要 (DWHの場合)数100CPUを越 M/Rの 得意分野  関連ツールの蓄積 えて水平スケールしにくい 重要  デ タのロ ディングのオ データのローディングのオー M/Rの バーヘッドがある 得意分野 Hadoop/MapReduceはビッグデータ環境におけるRDBMSの限界をうまく補完できる 2013/03/07 16 TechVisor.JP
  • 17.
    DWH環境におけるHadoop/MapReduce活用 使い分け 前処理 疎結合 密結合 MapReduce DWH MapReduce DWH DWH DWH MapReduce p MapReduce データソース データソース データソース データソース データソース データソース データソース データソース データソース データソース データソース データソース 2013/03/07 17 TechVisor.JP
  • 18.
    事例:eBayにおけるHadoop活用 EDW/ADW/ODW 「サンドボックス」分析 RDBMS RDBMS 6PB >10PB 業務系分析 傾向分析 イメージ分析 大規模並行ユーザー 一時的分析 イメージランキング 定型データ 準定型データ 非定型データ (トランザクション・ログ) (Webログ) (イメージ)  データ分析基盤の中心はRDBMSによるデータウェアハウス  Webログ解析もRDBMS上で行なっている  RDBMS向きでない機能をHadoopで補完している 2013/03/07 18 TechVisor.JP
  • 19.
    ポリシーベース管理の考え方 従来型管理の世界 How の自動化 管理ポリシー決定 手作業による作業計画 ポリシーベース管理の世界 What How 自動化 の自動化 自動化 の自動化 管理ポリシー決定 「ビッグデータ」を扱う環境では、作業の自動化だけではなく、そもそもどのような ビッグデ タ」を扱う環境では、作業の自動化だけではなく、そもそもどのような 作業が必要かの判断も含めた自動化が求められる 2013/03/07 19 TechVisor.JP
  • 20.
    ストレージ自動階層管理の必然性 将来的には 高速 不揮発性メモリ? DRAM キャッシュ SSD FC/SAS / ディスク SATAディスク / /MAID テープライブラリ 大容量 SSDの低価格化による普及は ビッグデ タ」を高速に処理するために有効で SSDの低価格化による普及は「ビッグデータ」を高速に処理するために有効で ある一方でストレージ階層管理を複雑化し、自動階層管理の必要性を増す 2013/03/07 20 TechVisor.JP
  • 21.
    「ビッグデータ」人材問題への対応 データ・サイエンティスト コンピテンシ・センター(専門家集団)モデル 社外リソース 統計 統計 スキル チ ム チーム IT ビジネス 社外リソース スキル 分析スキル IT ビジネス チーム 分析チーム  米国において、データサイエンティスト  人材不足の問題を組織作りで解決す (統計、IT、ビジネス分析のスキルを る必要がある 兼ね備えた人材)の不足が続いてい  ITと統計分野では外部リソースの活 統 る 用が重要(ビジネス分析はインソース  日本においては人材の流動性の不足 化が不可避) からデータサイエンティスト人材の確  ビジネス分析チームと統計チームの 保はさらに困難 協業が特に重要 2013/03/07 21 TechVisor.JP
  • 22.
    「ビッグデータ」管理のポイント  データはできるだけ加工せず生データのままで保管  生デ タを残すことで様々な切り口での分析が可能になる 生データを残すことで様々な切り口での分析が可能になる  いったんサマリー化してしまったデータは元には戻せない  ストレージの価格低下により数年前には非現実的だった大量データの保管が十分現 実的になっている 実的にな ている  収集時点では想定していない利用法が考案される可能性を想定  特定の用途でしか活用できない保管方法は避けるべき  データを特定部門が囲い込まないように注意が必要  データ資産の社内での流通に関するルール決めが必要  「ビッグデ タ」プロジェクトが成功するとデ タ量は急増することを予期 「ビッグデータ」プロジェクトが成功するとデータ量は急増することを予期  成功事例に触発されて関連ユースケースが次々と登場する  一般に分析系アプリケーションはデータが増えれば増えるほど精度が増す  一般には1年で倍増以上のペースを想定すべき  消費者プライバシーを十分に考慮  この分野での規制や業界慣行はまだ確定したとは言い難い  大原則は「個人情報」をコントロールするのはその個人自身であるということ 2013/03/07 22 TechVisor.JP
  • 23.
    当所想定されていなかったデータ活用法の例 例)Google等の検索エンジンで見られる「もしかして」機能  すべての入力間違いを辞書化しているのか?あるいは、アルゴリズム で判定しているのか?→どちらも非現実的  大量の検索ログを分析し、 「蓮根ミク」を検索した直後に「初音ミク」を 検索する人が多ければ 「蓮根ミク」は「初音ミク」の入力間違いであると 推定するという処理で、辞書を自動的に作っていると思われる  検索ログは「もしかして」機能を実装するために収集していたわけではおそらくない、後 になって新たなデータの(重要な)活用法が考案され、価値を提供した  大量のデータ(「ビッグデータ」)があって初めて実現できる機能 2013/03/07 23 TechVisor.JP
  • 24.
    データ品質へのアプローチ 従来の考え方 ビッグデータの世界で 求められる考え方 異常データを排除する等の「データ洗 ”Just-in-Time”フィルタリング 浄」をバッチで実行 データ洗浄 ”洗浄済” 浄 元データ データ 元データ 「ビッグデータ環境での」問題点  「ビッグデータ」が本質的に持つリア  分析の文脈に応じて、データをオ ルタイム性に対応しにくい ンデマンドでフィルタリング  何が「異常データ」であるかは分析  フィルタリングの主導権はデータ の文脈により異なる サイエンティスト(分析担当者)に ある 2013/03/07 24 TechVisor.JP
  • 25.
    「ビッグデータ」とプライバシー  「ビッグデータ」の活用は本質的に個人のプライバシーの権利と必然的 に衝突することが多い  直接的には個人識別情報を含まないデータが分析によって個人とヒモ付けされる可 能性がある  現時点における「ビッグデ タ」の議論ではプライバシ 問題がほとん 現時点における「ビッグデータ」の議論ではプライバシー問題がほとん ど検討されていないことが多い  いずれ何らかの形で反動が起きることが十分に予測される  プライバシー問題への対応には、各種法規制の準拠に加えて、顧客の 信頼感を得るという基本的要件を満足する必要がある  法律(個人情報保護法、電気通信事業者法等)、政府ガイドライン、業界ガイドライン (自主規制)などへのコンプライアンスは必要条件ではあるが十分条件ではない  海外で問題がない情報活用形態が日本においても問題がないとは限らない  基本的には 個人識別情報の排除(匿名化) 情報利用に関する事前 基本的には、個人識別情報の排除(匿名化)、情報利用に関する事前 の合意(オプトイン)、情報利用に関する透明性・説明責任、ユーザーが 望んだ場合のオプトアウトが必須要件  「利用規約に書いてあるので利用者は合意したはず」という考え方は顧客の信頼を 「利用規約に書いてあるので利用者は合意したはず という考え方は顧客の信頼を 得るという観点からは十分ではない 2013/03/07 25 TechVisor.JP
  • 26.
    「ビッグデータ」のオープンな活用 従来型データ活用 将来的なデータ活用 社外デ タ 社外データ ソース 社内データソース 社内データソース API DWH DWH 部門固有データ 部門固有デ タ 部門固有データ 社内データソース中心 社外のデータソース(商用およびオープン)を積 部門別データが依然として残る 部門別デ タが依然として残る 極的に活用 商用データに加えて「オープンデータ」も活用 部門別データを社内で積極的に「流通」 社内で生成されたデータをAPI経由で「外販」 2013/03/07 26 TechVisor.JP
  • 27.
    オープンデータに向かう方向性 データは原則隠す デ タは原則隠す データの公開 デ タの公開 二次利用の促進 Webサービス 閲覧 XML データ 分析 加 分析・加工 Webサービス XML  政府間連・科学研究間連などの特定データは自由に利活用し、価値を付加 す することで公共の福祉に貢献できるようにすべきである 福祉 貢献 う す あ  単なるデータの公開ではなく、コンピューターによる再利用が行ないやすい形 式での公開をすべきである  XMLによるデータ記述とWebサービスによるデータ・アクセスがオープン・ データを推進するためのテクノロジーの柱 2013/03/07 27 TechVisor.JP
  • 28.
    オープンデータ活用における一般的課題  標準化  デ タ形式に関する標準化はXML (あるいはJSON)ベ スで進展している データ形式に関する標準化はXML (あるいはJSON)ベースで進展している が、データの内容のセマンティックス(意味)に関する標準化進展のペースは 遅い(一部の分野では最終的に完全な標準に至る可能性も低い)  プライバシー プ イバ  「個人情報をコントロールするのはその個人本人」という大原則が担保され ているとは限らない  国による法律、ポリシーの相違  データそのものに個人情報が含まれなくとも、他の「ビッグデータ」との突合 により、プライバシ 侵害になり得る可能性がある により、プライバシー侵害になり得る可能性がある  知的財産権  生データそのものには著作権はないが、テキスト、イメージ等の場合には問 題になり得る  データ作成の「額の汗」を適切に保護できる制度がない(特に日本)  データ品質  データの内容の正確性を誰がどの程度保証してくれるのか? 2013/03/07 28 TechVisor.JP
  • 29.
    日本のオープンデータ戦略  2012年6月に新IT戦略本部が「オープンガバメント推進のためのデ ータ戦略提言」を公表 タ戦略提言」を公表  ①行政の透明性・信頼性向上、②国民参加・官民協業推進に加え、③経済 効果を目標として設定  ① 政府自ら積極的に公共データを公開すること、② 機械判読可能な形式 で公開すること、③ 営利目的、非営利目的を問わず活用を促進すること、 ④ 取組可能な公共データから速やかに公開等の具体的な取組に着手し 取組可能な公共データから速やかに公開等の具体的な取組に着手し、 成果を確実に蓄積していくこと、を基本原則とする  本年度の具体的施策として、①公共データ活用ニーズの把握、②データ提 供方法等に係る課題の整理・検討、③民間サービスの開発を挙げる  2012年7月に「オープンデータ流通推進コンソーシアム」を設立  現時点では諸外国の動向調査、基本方針・ロードマップの検討という 段階  既にサイトを立ち上げてサ ビス開始している欧米(+香港 韓国)と比較し 既にサイトを立ち上げてサービス開始している欧米(+香港、韓国)と比較し て2年程度の遅れと思われる 2013/03/07 29 TechVisor.JP
  • 30.
    米国Data.Gov  「オープン・ガバメント」の一環として2009 年5月に開設された米国連邦政府が管理 するウェブサイト  「行政機関が生成した高価値で、機械可読 なデータに対する公共のアクセスを拡大す る」ことを目的とする  基本的にデータはXML形式で公開する  現時点で約45万種のデータセットを公開  インド政府との協力によりシステムのオープ ンソース化を推進中  米国政府予算問題により「仕分け」が議論さ れたことがあった(米国内でも有用性に関す る疑義がまったくないわけではない) る疑義がま たくないわけではない)  世界30カ国(欧州、香港、韓国等)におい ても同様の取り組みが行なわれている 2013/03/07 30 TechVisor.JP
  • 31.
    米国オープンデータ活用事例 flyontime.us flyontime us  米交通統計局(data.gov経由)、連 邦航空局、海洋大気庁などのオー プンデータを活用し、米国内空港 プ デ の航空会社別、行き先別、天候別 の平均遅延時間等のデータを消 費者に提供するボランティアサイト 費者に提供するボランテ アサイト  「雨の水曜日にボストンからロサン ゼルスに行く場合に一番遅延の可 能性が低い便は?」などの質問に 対応できる  加えて、セキュリティゲートでの平 均待ち時間をクラウドソーシング方 式で収集  WebサイトのデータをAPIで公開 サイトのデ タを で公開 2013/03/07 31 TechVisor.JP
  • 32.
    参考事例:Windows Azure MaketplaceDatamarket  データ販売業者のデータを有料または無料で提供し、他のデータとマッ シュアップして活用可能に  多様なデータをワンストップ化して提供  デ タアクセス用のAPIを提供 データアクセス用のAPIを提供  現時点で152種のデータを提供  提供デ タの例 提供データの例  ILO(国際労働機関)の世界労働統計データ(無料)  米国の航空機遅延デ タ(無料) 米国の航空機遅延データ(無料)  世界各地の気候履歴データ(有料)  英国内POSデ タ(有料) 英国内POSデータ(有料)... 2013/03/07 32 TechVisor.JP
  • 33.
    まとめと提言  「ビッグデータ」の定義は人により様々だが、大量(Volume)、多様 (Variety)、リアルタイム(Velocity)の「3つのV」の特性を持ったデー (Variety) リアルタイム(Velocity)の「3つのV」の特性を持ったデ タの分析アプリケーションを指すことが多い  「ビッグデータ」は特別な考え方ではなく、過去から存在するデータウェ アハウス、ビジネス・インテリジェンス、アナリティクス、データ・マイニン グ等のデータ中心型テクノロジーの延長線上にあるものだが、そのビ ジネスにおける重要性が急増している  「ビッグデータ」活用には、データ管理に対する考え方の一部を変化す ることが必要になる  一般企業の「ビッグデータ」のデータ基盤としてはRDBMS+α アプ ビ グデ デ プ ローチを中核に置くべきである  あらゆる「ビッグデータ」プロジェクトにおいて 社外データ オープン あらゆる「ビッグデ タ」プロジェクトにおいて、社外デ タ、オ プン データの活用による価値についての検討を行なうべきである  あらゆる「ビッグデータ」プロジェクトにおいて、プライバシーに関する検 討を最初の段階から(後付けでなく)行なうべきである 2013/03/07 33 TechVisor.JP