Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
ビッグデータ関連OSS動向調査とニーズ分析
2016年7月15日
日本OSS推進フォーラム
ビッグデータ部会
部会長 吉田 行男
Copyright 2016 Japan OSS Promotion Forum
0 自己紹介
1
【経歴】
 入社当時は、金融端末のソフトウェア開発に従事。
 2000年頃より、Linux/OSSのビジネス開発を担当。
 2012年より、オープンソース専門組織に所属。
【現在の業務】
 OSSを活用したビジネス構築...
※週刊OSSウオッチ(thinkIT)
2
※より賢く活用するためのOSS最新動向(ZDNet Japan)
3
1. 日本OSS推進フォーラムのご紹介
2. ビッグデータ部会の活動について
3. ビッグデータ関連OSS動向調査
4. ニーズ分析
5. 付録
Copyright 2016 Japan OSS Promotion Forum
目次
4
1.日本OSS推進フォーラムのご紹介
Copyright 2016 Japan OSS Promotion Forum 5
6
1-1.フォーラム活動目標
 課題
IT利活用による企業競争力強化の中、ITの中心となるソフトウェアはOSSを外しては考えら
れなくなっている。
会員のOSS利活用を、経済産業省をはじめとする官学や、他団体・コミュニティと連携しなが
ら推...
1-2.2015年度活動目標
Copyright 2016 Japan OSS Promotion Forum 7
日本企業がIT利活用で課題となる、「モバイル」「クラウド」「ビッグデータ」「ソーシャル技術」の分野
を中心に活動。
モバイル...
1-3.日本OSS推進フォーラム体制図(2015年度)
Copyright 2016 Japan OSS Promotion Forum
理事会
理事長: 吉田 正敏 (富士通株式会社)
副理事長: 高橋 千恵子 (日本電気株式会社)
吉田 行...
1-4.会員一覧(2016年度初)①
株式会社HTKエンジニアリング
株式会社SRA
サイオステクノロジー株式会社
新日鉄住金ソリューションズ株式会社
株式会社中電シーティーアイ
東京ガス株式会社
株式会社東芝
トレジャーデータ株式会社
日本オ...
一般会員 56団体・個人
ICTラボラトリーズ株式会社
株式会社アグトラスト
株式会社アシスト
株式会社アピリッツ
株式会社アルファシステムズ
アルプスシステムインテグレーション株式会社
アースインターシステムズ株式会社
株式会社イーサー
伊藤...
 目的
近年ビッグデータOSSはSparkやHadoopといったキーワードをもとに一定の盛り上
がりをみせているが、連携製品の乱立による選択の複雑化、大規模システム構築に
おける導入障壁の高さ、導入効果の不明確さなどで国内における導入の進み具...
 市場概況
 2015 年度の国内のビッグデータ関連投資規模は 535億円と推計
 ユーザー企業のビッグデータへの取り組み状況:
「業務に取り込み済み(2.4%)」、「試験的に運用中(1.7%)」合計で 4.1%
 ビッグデータは Io...
3.ビッグデータ関連OSS動向調査
Copyright 2016 Japan OSS Promotion Forum 13
 主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」
する機能、蓄積・貯蔵したデータを「分析」する機能から構成される
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ...
 ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能
 ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ...
Copyright 2016 Japan OSS Promotion Forum
動向把握のための調査項目
16
洗い出したビッグデータ関連OSSに対して、動向を把握するため以下の観点で調査を実
施
 開発の活発度
コミッター数、コミット数、...
 利用実績
 The Linux Foundation SI Forumの2015年度活用動向調査をもとに実施
 商用版の有無
 商用版の定義:コミュニティ版に対して、独自のパッチやツールを追加したもの。サポートも
含む。
 「OSS...
Copyright 2016 Japan OSS Promotion Forum
開発の活性度
そのソフトウェアは活発に開発されていますか?
18
 Apache Sparkが2014年頃から急成長
Copyright 2016 Japan OSS Promotion Forum
コミッター数の推移(月ごと)
Apache Spark
Talend
19
 年平均成長率ではApache Drillがトップ
 Apache Sparkの他、Apache Mesosも急激に増加
Copyright 2016 Japan OSS Promotion Forum
コミッター数の年平均成長率(2011...
 Apache Sparkが2014年から急成長
 13年:27.8 → 14年:72.1 → 15年:114.7
Copyright 2016 Japan OSS Promotion Forum
月平均コミッター数(2015年)
21
Copyright 2016 Japan OSS Promotion Forum
月平均コミッター数(横軸)と年平均成長率(縦軸)
開発者の数も多く
ますます増加中
開発者の数は
まだまだ少ないが
急増中
22
※軸中の縦横の赤線は平均値であり...
 Elasticsearchの開発が活性化
 コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2016 Japan OSS Promotion Forum
コミット数の推移
Apache Spark
E...
 Elasticsearchの開発が活性化
 コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2016 Japan OSS Promotion Forum
月平均コミット数(2015年)
24
Copyright 2016 Japan OSS Promotion Forum
コミッター数(縦軸)とコミット数(横軸)の相関
開発者の数は
比較的少ないが
開発は非常に活性
開発者の数も多く
開発も活発
25
 Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ
 週休1日以下で頑張っている模様
Copyright 2016 Japan OSS Promotion Forum
開発のアクティビティ
26
Copyright 2016 Japan OSS Promotion Forum
月平均コミット数(横軸)と稼働率(縦軸)の関係
稼働率はあまり高くないが
開発は活発
(一気にやるタイプ)
稼働率が高く
開発も活発
(コツコツやるタイプ)
27
 2006年~2009年にかけてApache Hadoopの議論が活性化
 最近はApache HiveやApache Storm、Apache Kafkaの議論が活発
Copyright 2016 Japan OSS Promotion ...
 Apache KafkaやApache Stormの議論が活性化
 Apache Hiveは2014年をピークとして2015年は落ち着いている模様
Copyright 2016 Japan OSS Promotion Forum
開発者向...
Copyright 2016 Japan OSS Promotion Forum
コミット数(横軸)とメールでの議論量(縦軸)の関係
議論よりも実践
実践よりも
まずは議論
30
 この割合が高いほど特定開発者の影響力が強いコミュニティと言える可能性が高い
Copyright 2016 Japan OSS Promotion Forum
最も開発している人のコミット割合
31
 この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える可能性が高い
Copyright 2016 Japan OSS Promotion Forum
コミット数1位から5位のコミット割合
32
Copyright 2016 Japan OSS Promotion Forum
Top1(横軸)とTop1~5(縦軸)の関係
主導型開発少人数先導型開発
コミュニティ型開発
開発が活性化しているプロジェクトは
コミュニティ型開発が多い
(やは...
Copyright 2016 Japan OSS Promotion Forum
利用の活性度
そのソフトウェアは皆に利用されていますか?
34
 利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2016 Japan OSS Promotion Forum
利用者向けメーリングリストの流量推移
Apache Spark
Apache Casandr...
 利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2016 Japan OSS Promotion Forum
利用者向けメーリングリストの月平均流量(2015年)
36
Copyright 2016 Japan OSS Promotion Forum
開発者(横軸)/利用者(縦軸)メール流量の関係
開発者の議論が活発
利用者の議論が活発
※Apache Sparkの場合
開発自体は非常に活発だが
メールベースの...
 Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)
 次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く
Copyright 2016 Japan OSS Promotion Forum
書籍数...
 日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)
 Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす
Copyright 2016 Japan OSS Promotion ...
 Redisが圧倒的に好評価
 商用展開されているソフトウェアに関しては組織票があるのかもしれない
Copyright 2016 Japan OSS Promotion Forum
GitHubのスター数
40
 Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数
 次いでApache Cassandra、Apache Hadoopが人気
Copyright 2016 Japan OSS Promotion Forum
Twi...
 国内で有償版または有償サポートが提供されているソフトウェアは赤字
 ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能
 Jubatusなどクラウドでサービス提供されているソフトウェアもあり
Copyright 2016...
 The Linux Foundation SI Forumの2015年度活用動向調査より
 全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象
Copyright 2016 Japan OSS Promotion For...
Copyright 2016 Japan OSS Promotion Forum
ソフトウェアの品質
そのソフトウェアは安心して利用できますか?
44
 Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い
 もっとも低いApache Stormにおいても6割のバグは解決済み
Copyright 2016 Japan OSS Promotion Forum
バ...
 重要バグの解決率に限定すると約8割以上は解決済み
 こちらもApache ManifoldCFは解決率が非常に高い
Copyright 2016 Japan OSS Promotion Forum
バグ解決率(重要※Blocker/Cri...
Copyright 2016 Japan OSS Promotion Forum
コミット数(横軸)と重要バグ解決率(縦軸)の関係
開発も活発に行われており
重要バグ解決率も高め
開発も活発ではないが
重要バグ解決率は高め
(≒安定)
重要バグ...
 全体的に脆弱性の検出は少ない
 一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件
Copyright 2016 Japan OSS Promotion Forum
脆弱性(2006年から2016年)...
 SonarQubeのソースコード解析機能で抽出した重複率
 Apache S4、Redisなどは重複が少なく良いソースコードの模様
Copyright 2016 Japan OSS Promotion Forum
ソースコード品質:重複率...
 SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度
 Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック
Copyright 2016 Japan OSS Promoti...
 重複率と複雑度(全体)の間には軽い相関関係がある模様
 ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数
Copyright 2016 Japan OSS Promotion Forum
重複率(横軸...
Copyright 2016 Japan OSS Promotion Forum
まとめ
52
 この様な感じでした
Copyright 2016 Japan OSS Promotion Forum
ちなみに昨年のまとめは…
53
Copyright 2016 Japan OSS Promotion Forum
昨年と同じ軸でまとめてみると…
導入実績多数
導入実績あり
検証実績多数
検証実績あり
ランク外
エンタープライズ適用領域
新技術
ウォッチ領域 先行検討/アーリ...
 ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている
 有償サービスも揃いつつある
 ただし、機能や品質の見極めは当然必要
 Apache Sparkとそのエコシステムは開発、利用ともに活発度が高い
 Elas...
ニーズ分析
Copyright 2016 Japan OSS Promotion Forum 56
2015年12月14日開催の『ビッグデータ&オープンソース最新情報セミナー』においてビッ
グデータ関連OSSに求められるニーズ・課題を分析するため、アンケートを実施。
Copyright 2016 Japan OSS Promotion For...
 回答者の立場
 業種、従業員数、役職、ビッグデータ導入時の立場
 セミナーについて
 内容の分かり易さ、役に立つか?
 特にご興味のあった講演
 Big Dataの取り組みについて
 Big Dataの期待領域
 どのようなデ...
 事前登録者数(関係者含む):69名
当日参加人数(関係者除く):43名
アンケート回収数:39名
Copyright 2016 Japan OSS Promotion Forum 59
回答者の内訳
 SIer,HW/SWが70%、従業員...
Copyright 2016 Japan OSS Promotion Forum 60
セミナーの評価
24%
64%
12%
0%
大いに役立つ 役立つ
現時点では不明 役に立たない
 ポジティブな感想が9割近く、参加者満足度の高いセミナー...
Copyright 2016 Japan OSS Promotion Forum
Big Dataの取り組み
61
 業務の卓越性
例:生産性向上、品質向上(歩留り改善)等ものづくり革新
 顧客親密
例:ソーシャルメディア等による精緻なパーソナライズ
 新事業
例:交通渋滞サブスクリプションサービス
 リスク管理
例:刻々変化するパターンに基づく不正...
ビッグデータにおける期待領域は何か?
Copyright 2016 Japan OSS Promotion Forum 63
 新事業に対する期待は大きいが
 分析したいデータのトップは顧客データの35%
 欧米では顧客親密、リスク管理対...
Copyright 2016 Japan OSS Promotion Forum
Big Dataシステムの状況
64
 HDFSは50%が使用中(含む予定)、MongoDBが健闘
 商用の分析・意思決定製品との連携は進んでおらず、Rが健闘
 Kerberos, Knoxは使われていない。セキュリティ対策が進んでいないことが伺える
Copyright 20...
Copyright 2016 Japan OSS Promotion Forum
ビッグデータシステムの使用状況・計画
66
 拡大を検討・実施中、実システム運用中は3割程度、時期未定・予定なしが
半数以上
 一方PoC実施中、1年以内も1...
 37%がApacheを使用、ディストリビュータの無償版も含めるとサポートなし
で使用しているユーザが相当数と思われる
 クラウド上での拡張、展開を考えているユーザが半分以上
 クラウドとオンプレミスのハイブリッドでの利用はゼロ
 Ha...
Copyright 2016 Japan OSS Promotion Forum
ビッグデータシステム構築の課題
68
 導入効果の明確化と必要性の認識なしを合わせると半数近い
→どのように使えば効果があるのかが明確になっていない状況
Copyright 2016 Japan OSS Promotion Forum
現状の考察および今後の期待
69
 Big Dataの目的・投資効果が明確になっていないため、コストをかけないで何ができ
るのかを模索中のユーザが多いことが推察される
 Hadoopが誕生して10年経過したが、使用ディストリビューションのトップがApache
37%でトップ...
付録
Copyright 2016 Japan OSS Promotion Forum 71
Copyright 2016 Japan OSS Promotion Forum
公式サイト
区分 ソフトウェア 公式サイト
クローラ Apache ManifoldCF http://manifoldcf.apache.org/
Apache...
区分 ソフトウェア オープンソースライセンス
クローラ Apache ManifoldCF Apache License 2.0
Apache Nutch Apache License 2.0
データロード Apache Sqoop Apach...
区分 ソフトウェア 開発者向けメーリングリスト
クローラ Apache ManifoldCF dev@manifoldcf.apache.org
Apache Nutch dev@nutch.apache.org
データロード Apache S...
区分 ソフトウェア 利用者向けメーリングリスト
クローラ Apache ManifoldCF user@manifoldcf.apache.org
Apache Nutch user@nutch.apache.org
データロード Apache...
区分 ソフトウェア 利用しているソースコードリポジトリサービス
クローラ Apache ManifoldCF GitHub(apache/manifoldcf)
Apache Nutch GitHub(apache/nutch)
データロード ...
Copyright 2016 Japan OSS Promotion Forum
Twitterアカウント
区分 ソフトウェア Twitterアカウント
クローラ Apache ManifoldCF @ApacheManifold
Apache...
区分 ソフトウェア Issue Tracker
クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS)
Apache Nutch JIRA(ht...
区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供
クローラ Apache ManifoldCF - ○ ○ -
Apache Nutch - - - -
データロード Apache Sqoop - ○ △ △...
 該当ソフトウェアの3/4はApache License 2.0を採用
 Apache Software Foundation管理のソフトウェアが多い事も理由の一つ
 今後オープンソースベースの有償製品も拡大?(Apache Hadoop...
 最も利用されている言語は「Java」(55.2%)。
 次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。
Copyright 2016 Japan OSS Promotion Forum
どの様なプ...
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ関連OSS鳥瞰図
ビッグデータ
Nutch
ManifoldCF
クローラ
Sqoop
Talend
Flume
Fluentd
Kafka
データ収...
Upcoming SlideShare
Loading in …5
×

ビッグデータ関連Oss動向調査とニーズ分析

2,300 views

Published on

db tech show case 2016 Tokyo

  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • DOWNLOAD THIS BOOKS INTO AVAILABLE FORMAT (Unlimited) ......................................................................................................................... ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download Full EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ACCESS WEBSITE for All Ebooks ......................................................................................................................... Download Full PDF EBOOK here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download EPUB Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... Download doc Ebook here { https://tinyurl.com/y6a5rkg5 } ......................................................................................................................... ......................................................................................................................... ......................................................................................................................... .............. Browse by Genre Available eBooks ......................................................................................................................... Art, Biography, Business, Chick Lit, Children's, Christian, Classics, Comics, Contemporary, Cookbooks, Crime, Ebooks, Fantasy, Fiction, Graphic Novels, Historical Fiction, History, Horror, Humor And Comedy, Manga, Memoir, Music, Mystery, Non Fiction, Paranormal, Philosophy, Poetry, Psychology, Religion, Romance, Science, Science Fiction, Self Help, Suspense, Spirituality, Sports, Thriller, Travel, Young Adult,
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

ビッグデータ関連Oss動向調査とニーズ分析

  1. 1. ビッグデータ関連OSS動向調査とニーズ分析 2016年7月15日 日本OSS推進フォーラム ビッグデータ部会 部会長 吉田 行男 Copyright 2016 Japan OSS Promotion Forum
  2. 2. 0 自己紹介 1 【経歴】  入社当時は、金融端末のソフトウェア開発に従事。  2000年頃より、Linux/OSSのビジネス開発を担当。  2012年より、オープンソース専門組織に所属。 【現在の業務】  OSSを活用したビジネス構築のための支援 • 新しい技術/OSSの発掘・評価検証 • ビジネス・ソリューションの立ち上げ支援 • 現在特にフォーカスしている領域: クラウド基盤(OpenStack, Spark)、 ビッグデータ(Hadoop、NoSQL)、 Enterprise(PostgreSQL, OpenCOBOL) 【社外活動】  日本OSS推進フォーラム 副理事長 兼 ビッグデータ部会長  オープンソースライセンス研究所 理事  OSSコンソーシアム 副会長 兼 クラウド部会リーダ  OBCI(オープンソースビジネス推進協議会) 理事 他
  3. 3. ※週刊OSSウオッチ(thinkIT) 2
  4. 4. ※より賢く活用するためのOSS最新動向(ZDNet Japan) 3
  5. 5. 1. 日本OSS推進フォーラムのご紹介 2. ビッグデータ部会の活動について 3. ビッグデータ関連OSS動向調査 4. ニーズ分析 5. 付録 Copyright 2016 Japan OSS Promotion Forum 目次 4
  6. 6. 1.日本OSS推進フォーラムのご紹介 Copyright 2016 Japan OSS Promotion Forum 5
  7. 7. 6 1-1.フォーラム活動目標  課題 IT利活用による企業競争力強化の中、ITの中心となるソフトウェアはOSSを外しては考えら れなくなっている。 会員のOSS利活用を、経済産業省をはじめとする官学や、他団体・コミュニティと連携しなが ら推進する。  目標 OSSというソフトウェアパラダイムを会員が活用できるための、以下の情報交換・課題共有を 実現し、日本発のOSSを含むOSS利活用を推進し、会員の競争力強化を図る。  OSS利用技術の普及  OSS活用事例の研究  OSS人材育成のためのセミナー開催  グローバル活動 会員の下記活動を支援するために、日中韓活動に加えASEANの人材育成を切り口に ASEAN諸国との交流を深めていく。  日系企業の海外展開向けシステムインテグレーション活動  各国ソフトウェア開発力の活用(オフショアなど)  各国プロジェクトへの参画と現地企業とのビジネス交流  各国のへのOSSを含むソフト製品拡販 Copyright 2016 Japan OSS Promotion Forum
  8. 8. 1-2.2015年度活動目標 Copyright 2016 Japan OSS Promotion Forum 7 日本企業がIT利活用で課題となる、「モバイル」「クラウド」「ビッグデータ」「ソーシャル技術」の分野 を中心に活動。 モバイル・ソーシャル技術 ITシステムの環境が変化してきており、システムの課題は、コンピュータ中心の課題から、モバイルまで含めた システム全体でのモバイル・ソーシャル技術活用に変化してきている。 アプリケーション部会 サーバ上のアプリからモバイル・ロボット等の組込アプリまでを推進する。 クラウド・ビッグデータ 2015年度はOSSクラウドが台頭し、クラウド基盤領域が競争領域から協調領域に変化してきた中で、クラ ウド基盤部分と上位層のビッグデータ部分で活動範囲が広まり、両者を分割して2部会で対応していく。 クラウド技術部会 クラウド基盤部分を中心に活動を推進する。 ビッグデータ部会 ビッグデータ部分を中心に活動を推進する。 グローバルでのOSS利用技術について、中韓だけでなくASEANまで広げる活動を再チャレンジする。 北東アジアOSS推進フォーラム 日中韓の活動は2004年から活動し多くの成果を出してきたが、今年は日本で大会を開催するため、OSS 分野で進化してきた中韓の技術者との交流深化を目指す。 ASEANでのOSS人材育成 既に海外に進出してきた企業も、グローバル企業で見られる「グローバルに統一された標準システム」に移行 のため、グローバルなITシステム運用において、ソフトウェア技術の一端を担うOSSの技術者育成が課題に なってくると想定される。 更なるビジネス拡大が予想されるASEANを対象に、OSS人材育成活動として国家プロジェクトに参画する 方向を目指す。
  9. 9. 1-3.日本OSS推進フォーラム体制図(2015年度) Copyright 2016 Japan OSS Promotion Forum 理事会 理事長: 吉田 正敏 (富士通株式会社) 副理事長: 高橋 千恵子 (日本電気株式会社) 吉田 行男 (株式会社日立ソリューションズ) 理事: 大木 一浩 (日本電気株式会社) 片瀬 成識 (東京ガス株式会社) 黒坂 肇 (サイオステクノロジー株式会社) 野山 孝太郎 (富士通株式会社) 橋本 尚 (株式会社日立製作所) 三浦 広志 (株式会社NTTデータ) 事務局長 黒田知幸 (株式会社パンテル・インターナショナル) グローバル関連WG部会 クラウド技術 部会 総会 部会長: 高橋(NEC) 副部会長 黒坂(SIOS) ビッグデータ 部会 部会長: 吉田(日立Sol) アプリケーション 部会 部会長: 吉田(富士通) 副部会長 片瀬(東京ガス) 理事会 技術開発・ 評価 WG 主査: 鈴木(日立) 主査: 野山(富士通) 主査: 大木(NEC) 適用推進 WG 標準化・ 認証研究 WG ASEAN OSS人材育成活動 北東アジアOSS推進フォーラム WG1,WG2,WG3,WG4 連 携 国内外のOSS関連団体 連 携 連 携 8
  10. 10. 1-4.会員一覧(2016年度初)① 株式会社HTKエンジニアリング 株式会社SRA サイオステクノロジー株式会社 新日鉄住金ソリューションズ株式会社 株式会社中電シーティーアイ 東京ガス株式会社 株式会社東芝 トレジャーデータ株式会社 日本オラクル株式会社 日本電気株式会社 日本マイクロソフト株式会社 日本ユニシス株式会社 正会員 23社 特別会員 8団体 特定非営利活動法人エルピーアイジャパン 慶応義塾大学 国立研究開発法人産業技術総合研究所 一般社団法人情報サービス産業協会 独立行政法人情報処理推進機構 東京大学 一般社団法人日本情報システム・ユーザー協会 The Linux Foundation Copyright 2016 Japan OSS Promotion Forum 全会員 86社・団体・個人 ノベル株式会社 パナソニック株式会社 株式会社PFU 株式会社日立製作所 株式会社日立ソリューションズ 富士通株式会社 株式会社 富士通アドバンストエンジニアリング 株式会社 富士通ソーシアルサイエンスラボラトリ ブラック・ダック・ソフトウェア株式会社 レッドハット株式会社 WANdisco 2015年度正会員入会(2社) 株式会社東芝 日本マイクロソフト株式会社 9
  11. 11. 一般会員 56団体・個人 ICTラボラトリーズ株式会社 株式会社アグトラスト 株式会社アシスト 株式会社アピリッツ 株式会社アルファシステムズ アルプスシステムインテグレーション株式会社 アースインターシステムズ株式会社 株式会社イーサー 伊藤忠テクノソリューションズ株式会社 インプレサリオ株式会社 株式会社ヴァインカーブ 株式会社ヴィクサス 株式会社ウィップス ウチダスペクトラム株式会社 エイチアールワン株式会社 株式会社エヌ・ティ・ティ・データ エヌ・ティ・ティ・データ先端技術株式会社 株式会社エルエスアイ開発研究所 特定非営利活動法人オーユージー 特定非営利活動法人オープンソースソフトウェア・シティ 株式会社キーポート・ソリューションズ キヤノンITソリューションズ株式会社 株式会社クリアコード 株式会社KDDI研究所 株式会社国際開発センター コニカミノルタビジネスソリューションズ株式会社 株式会社シーイーシー jHako開発チーム 住友電気工業株式会社 ターボリナックス株式会社 TIS株式会社 株式会社テクノプロジェクト 東芝デジタルメディアエンジニアリング株式会社 日本アイ・ビー・エム株式会社 一般財団法人ニューメディア開発協会 株式会社ネオシステム 株式会社野村総合研究所 パイオニア株式会社 財団法人ハイパーネットワーク社会研究所 株式会社パンテル・インターナショナル 株式会社フェデルメンテ 富士通エフ・アイ・ピー株式会社 富士通関西中部ネットテック株式会社 株式会社富士通システムズ・イースト 株式会社富士通ビー・エス・シー Profit Cube Inc. 株式会社マインド 株式会社三菱総合研究所 三菱電機インフォメーションシステムズ株式会社 ミラクル・リナックス株式会社 ミランティス・ジャパン合同会社 ユニアデックス株式会社 琉球ソフトビジネス支援センター (個人会員) 長濱 みほ 橋本 明彦 Copyright 2016 Japan OSS Promotion Forum 2015年度一般会員入会(9社) ICTラボラトリーズ株式会社 株式会社キーポート・ソリューションズ コニカミノルタビジネスソリューションズ株式会社 伊藤忠テクノソリューションズ株式会社 jHako開発チーム 日本サード・パーティ株式会社 Profit Cube Inc. ミランティス・ジャパン合同会社 株式会社エヌ・ティ・ティ・データ 正会員から移動 10 1-4.会員一覧(2016年度初)②
  12. 12.  目的 近年ビッグデータOSSはSparkやHadoopといったキーワードをもとに一定の盛り上 がりをみせているが、連携製品の乱立による選択の複雑化、大規模システム構築に おける導入障壁の高さ、導入効果の不明確さなどで国内における導入の進み具合 は芳しくない。そこでビッグデータOSSの普及・推進を行うための一旦として「ビッグデー タ関連OSS動向調査」、「ニーズ分析」を行った。  概要  ビッグデータ関連OSS動向調査 ビッグデータシステムに使われるOSSを洗い出し、それぞれがどのような状況で あるか、いくつかの観点をもとに調査し、「今使えるビッグデータOSSは何か?」 を分析した。  ニーズ分析 ビッグデータ関連OSSに興味をお持ちの方を対象にセミナーを実施(2015年 12月14日開催)し、そこでのアンケートにより、ビッグデータOSSの商用導入に おける現状のニーズ・課題を調査した。 Copyright 2016 Japan OSS Promotion Forum 2.ビッグデータ部会の活動 11
  13. 13.  市場概況  2015 年度の国内のビッグデータ関連投資規模は 535億円と推計  ユーザー企業のビッグデータへの取り組み状況: 「業務に取り込み済み(2.4%)」、「試験的に運用中(1.7%)」合計で 4.1%  ビッグデータは IoT、AI などの進展とともに急速に発展  今後の展望  2016~2017年頃:サービス基盤の低廉化  格安 MVNOの普及。IoT サービス基盤の低廉化。AI 技術は主に金融分野を中心に進展。  2018~2020年頃:新たな技術の実用化  次世代のメモリ、低消費電力ネットワーク、MEMSセンサーが実用化。  2020~2025年頃:応用分野の広がり  遺伝子情報を活用した先制医療、自動運転走行  2025~2030年頃:産業適用のさらなる進展  製造業のスマートファクトリー(産業ロボットの活用などによる工場の自動化) ビッグデータビジネスの現状 Copyright 2016 Japan OSS Promotion Forum 12 (出典:矢野経済研究所、2016年の「ビッグデータ市場に関する調査結果 」)
  14. 14. 3.ビッグデータ関連OSS動向調査 Copyright 2016 Japan OSS Promotion Forum 13
  15. 15.  主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」 する機能、蓄積・貯蔵したデータを「分析」する機能から構成される Copyright 2016 Japan OSS Promotion Forum ビッグデータ基盤を構成する機能 データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre データ蓄積ファイルシステム MIT Kerberos OpenLDAP セキュリティ/認証 MLib 機械学習 R言語 統計解析 Hinemos Zabbix 運用管理/監視 Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak 運用管理/監視 クローラ データロード 収集 CEP Complex Event Processing データ蓄積 ファイルシステム 並列分散処理 データロード 機械学習 統計解析 BI/BAツール 定型業務DB インメモリDB DWH/マートレスDBインメモリDG/分散KVS セキュリティ/認証 準リアルタイムクエリ 14
  16. 16.  ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能  ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要 Copyright 2016 Japan OSS Promotion Forum ビッグデータ基盤を構成する機能へのソフトウェアマッピング データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Apache Kafka Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre ElasticSearch データ蓄積ファイルシステム MLib 機械学習 R言語 統計解析 Pentaho JasperReports BI/BAツール Hinemos Zabbix 運用管理/監視 MySQL PostgreSQL 定型業務RDB ※OSSで著名なもの はない DWH/マートレスDB Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード VoltDB インメモリDB Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak インメモリDG/分散KVS MIT Kerberos OpenLDAP セキュリティ/認証 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ 15
  17. 17. Copyright 2016 Japan OSS Promotion Forum 動向把握のための調査項目 16 洗い出したビッグデータ関連OSSに対して、動向を把握するため以下の観点で調査を実 施  開発の活発度 コミッター数、コミット数、開発者向けメーリングリスト数  利用の活性度 利用者向けメーリングリスト数、書籍数、GitHubのスター数、Twitterのフォロアー数、 商用版・有償サポートの有無、利用実績  ソフトウェアの品質 バグ解決率、脆弱性、ソースコード品質(重複率、複雑度)
  18. 18.  利用実績  The Linux Foundation SI Forumの2015年度活用動向調査をもとに実施  商用版の有無  商用版の定義:コミュニティ版に対して、独自のパッチやツールを追加したもの。サポートも 含む。  「OSS名 商用」あるいは「OSS名 エンタープライズ」でgoogle検索。上位100件につい て調査  有償サポートの有無  サポートの定義としてはコミュニティ版についてQA対応、障害調査、性能調査などを有償に て提供しているもの  「OSS名 サポート」でgoogle検索。上位100位について調査。 ※商用版の有無、有償サポートの有無の調査においては2016/1/5~1/11に実施し た結果です。また別名として提供しているものを含みます。 ex. PostgreSQL ⇒ 商用 PowerGres Copyright 2016 Japan OSS Promotion Forum 17 動向調査における前提条件
  19. 19. Copyright 2016 Japan OSS Promotion Forum 開発の活性度 そのソフトウェアは活発に開発されていますか? 18
  20. 20.  Apache Sparkが2014年頃から急成長 Copyright 2016 Japan OSS Promotion Forum コミッター数の推移(月ごと) Apache Spark Talend 19
  21. 21.  年平均成長率ではApache Drillがトップ  Apache Sparkの他、Apache Mesosも急激に増加 Copyright 2016 Japan OSS Promotion Forum コミッター数の年平均成長率(2011年から2015年) 20
  22. 22.  Apache Sparkが2014年から急成長  13年:27.8 → 14年:72.1 → 15年:114.7 Copyright 2016 Japan OSS Promotion Forum 月平均コミッター数(2015年) 21
  23. 23. Copyright 2016 Japan OSS Promotion Forum 月平均コミッター数(横軸)と年平均成長率(縦軸) 開発者の数も多く ますます増加中 開発者の数は まだまだ少ないが 急増中 22 ※軸中の縦横の赤線は平均値であり、 他の2軸分析においても同様
  24. 24.  Elasticsearchの開発が活性化  コミッター数の増加に比例してApache Sparkの開発も活発 Copyright 2016 Japan OSS Promotion Forum コミット数の推移 Apache Spark Elasticsearch 23
  25. 25.  Elasticsearchの開発が活性化  コミッター数の増加に比例してApache Sparkの開発も活発 Copyright 2016 Japan OSS Promotion Forum 月平均コミット数(2015年) 24
  26. 26. Copyright 2016 Japan OSS Promotion Forum コミッター数(縦軸)とコミット数(横軸)の相関 開発者の数は 比較的少ないが 開発は非常に活性 開発者の数も多く 開発も活発 25
  27. 27.  Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ  週休1日以下で頑張っている模様 Copyright 2016 Japan OSS Promotion Forum 開発のアクティビティ 26
  28. 28. Copyright 2016 Japan OSS Promotion Forum 月平均コミット数(横軸)と稼働率(縦軸)の関係 稼働率はあまり高くないが 開発は活発 (一気にやるタイプ) 稼働率が高く 開発も活発 (コツコツやるタイプ) 27
  29. 29.  2006年~2009年にかけてApache Hadoopの議論が活性化  最近はApache HiveやApache Storm、Apache Kafkaの議論が活発 Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリストの流量推移 Apache Hive Apache Hadoop Apache Storm Apache Kafka 28
  30. 30.  Apache KafkaやApache Stormの議論が活性化  Apache Hiveは2014年をピークとして2015年は落ち着いている模様 Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリストの月平均流量(2015年) 開発は活性化しているが メーリングリストベースの議論は あまり多くない 29
  31. 31. Copyright 2016 Japan OSS Promotion Forum コミット数(横軸)とメールでの議論量(縦軸)の関係 議論よりも実践 実践よりも まずは議論 30
  32. 32.  この割合が高いほど特定開発者の影響力が強いコミュニティと言える可能性が高い Copyright 2016 Japan OSS Promotion Forum 最も開発している人のコミット割合 31
  33. 33.  この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える可能性が高い Copyright 2016 Japan OSS Promotion Forum コミット数1位から5位のコミット割合 32
  34. 34. Copyright 2016 Japan OSS Promotion Forum Top1(横軸)とTop1~5(縦軸)の関係 主導型開発少人数先導型開発 コミュニティ型開発 開発が活性化しているプロジェクトは コミュニティ型開発が多い (やはりコミュニティは大事!) 33
  35. 35. Copyright 2016 Japan OSS Promotion Forum 利用の活性度 そのソフトウェアは皆に利用されていますか? 34
  36. 36.  利用者メーリングリストでもApache Sparkが圧倒的に活発 Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリストの流量推移 Apache Spark Apache Casandra Apache Hadoop Common 35
  37. 37.  利用者メーリングリストでもApache Sparkが圧倒的に活発 Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリストの月平均流量(2015年) 36
  38. 38. Copyright 2016 Japan OSS Promotion Forum 開発者(横軸)/利用者(縦軸)メール流量の関係 開発者の議論が活発 利用者の議論が活発 ※Apache Sparkの場合 開発自体は非常に活発だが メールベースの議論は少なめ 37
  39. 39.  Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)  次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く Copyright 2016 Japan OSS Promotion Forum 書籍数(日本語) 38
  40. 40.  日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)  Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす Copyright 2016 Japan OSS Promotion Forum 書籍数(英語) 39
  41. 41.  Redisが圧倒的に好評価  商用展開されているソフトウェアに関しては組織票があるのかもしれない Copyright 2016 Japan OSS Promotion Forum GitHubのスター数 40
  42. 42.  Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数  次いでApache Cassandra、Apache Hadoopが人気 Copyright 2016 Japan OSS Promotion Forum Twitterのフォロアー数 41
  43. 43.  国内で有償版または有償サポートが提供されているソフトウェアは赤字  ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能  Jubatusなどクラウドでサービス提供されているソフトウェアもあり Copyright 2016 Japan OSS Promotion Forum 有償サポートの有無 データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Apache Kafka Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre データ蓄積ファイルシステム MLib 機械学習 R言語 統計解析 Pentaho JasperReports SAS MicroStorategy BI/BAツール Hinemos Zabbix 運用管理/監視 MySQL PostgreSQL 定型業務RDB ※OSSで著名なもの はない DWH/マートレスDB Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード VoltDB インメモリDB Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak インメモリDG/分散KVS ElasticSearch 全文検索エンジン MIT Kerberos OpenLDAP セキュリティ/認証 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ 42
  44. 44.  The Linux Foundation SI Forumの2015年度活用動向調査より  全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象 Copyright 2016 Japan OSS Promotion Forum 利用実績 導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports 導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre, Apache Cassandra, Apache HBase, Redis, Elasticsearch, Pentaho 検証実績あり VoltDB 導入/検証 実績なし 上記以外(という少し残念な結果) 43
  45. 45. Copyright 2016 Japan OSS Promotion Forum ソフトウェアの品質 そのソフトウェアは安心して利用できますか? 44
  46. 46.  Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い  もっとも低いApache Stormにおいても6割のバグは解決済み Copyright 2016 Japan OSS Promotion Forum バグ解決率(全体) 45
  47. 47.  重要バグの解決率に限定すると約8割以上は解決済み  こちらもApache ManifoldCFは解決率が非常に高い Copyright 2016 Japan OSS Promotion Forum バグ解決率(重要※Blocker/Criticalレベル) 46
  48. 48. Copyright 2016 Japan OSS Promotion Forum コミット数(横軸)と重要バグ解決率(縦軸)の関係 開発も活発に行われており 重要バグ解決率も高め 開発も活発ではないが 重要バグ解決率は高め (≒安定) 重要バグ解決率がやや低く 開発も非活性 (要ウォッチ) 47
  49. 49.  全体的に脆弱性の検出は少ない  一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件 Copyright 2016 Japan OSS Promotion Forum 脆弱性(2006年から2016年) MongoDB JasperReports Pentaho 48
  50. 50.  SonarQubeのソースコード解析機能で抽出した重複率  Apache S4、Redisなどは重複が少なく良いソースコードの模様 Copyright 2016 Japan OSS Promotion Forum ソースコード品質:重複率 ソースコードの 重複が少ない (≒高品質) 49
  51. 51.  SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度  Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック Copyright 2016 Japan OSS Promotion Forum ソースコード品質:複雑度 ソースコードの 複雑度が少ない (≒高品質) 50
  52. 52.  重複率と複雑度(全体)の間には軽い相関関係がある模様  ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数 Copyright 2016 Japan OSS Promotion Forum 重複率(横軸)と複雑度(縦軸)の関係 Riakは外れ値とみなした 51
  53. 53. Copyright 2016 Japan OSS Promotion Forum まとめ 52
  54. 54.  この様な感じでした Copyright 2016 Japan OSS Promotion Forum ちなみに昨年のまとめは… 53
  55. 55. Copyright 2016 Japan OSS Promotion Forum 昨年と同じ軸でまとめてみると… 導入実績多数 導入実績あり 検証実績多数 検証実績あり ランク外 エンタープライズ適用領域 新技術 ウォッチ領域 先行検討/アーリーアダプト領域 昨年「新技術ウォッチ領域」であったVoltDB、 Apache Sparkは順調に成長 Apache Sparkは一気に「エンタープライズ適用領域へ」 54
  56. 56.  ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている  有償サービスも揃いつつある  ただし、機能や品質の見極めは当然必要  Apache Sparkとそのエコシステムは開発、利用ともに活発度が高い  ElasticsearchはGitコミット日の割合が91%程度でとても開発が活発  MongoDBやCephはこの領域では比較的安定期に入りつつある →ただし、状況は変化しており今後も継続的なウォッチが必要 Copyright 2016 Japan OSS Promotion Forum 所感 55
  57. 57. ニーズ分析 Copyright 2016 Japan OSS Promotion Forum 56
  58. 58. 2015年12月14日開催の『ビッグデータ&オープンソース最新情報セミナー』においてビッ グデータ関連OSSに求められるニーズ・課題を分析するため、アンケートを実施。 Copyright 2016 Japan OSS Promotion Forum ニーズ分析概要 57
  59. 59.  回答者の立場  業種、従業員数、役職、ビッグデータ導入時の立場  セミナーについて  内容の分かり易さ、役に立つか?  特にご興味のあった講演  Big Dataの取り組みについて  Big Dataの期待領域  どのようなデータの分析が必要  Big Dataシステムの状況について(顧客への適用・提案を含む)  Big Dataシステムの使用状況・計画  Big Dataシステム導入・構築の課題  使用されている(予定も含め)Hadoop、エコシステム  使用されているHadoop Distribution  Data Node総数、Hadoopクラスタ数、データセンタ数  Hadoopでの高可用性/バックアップ Copyright 2016 Japan OSS Promotion Forum アンケートの質問事項 Big Dataの活用のための 代表的なインフラとしての Hadoopの現状にフォーカス 58
  60. 60.  事前登録者数(関係者含む):69名 当日参加人数(関係者除く):43名 アンケート回収数:39名 Copyright 2016 Japan OSS Promotion Forum 59 回答者の内訳  SIer,HW/SWが70%、従業員数1000人以上が半 数  情報サービス会社(Web企業)は2割以下 Big DataおよびHadoopの一般企業での実情を反映 今後、Big DataおよびHadoopの本格的な拡がりを占 うもの
  61. 61. Copyright 2016 Japan OSS Promotion Forum 60 セミナーの評価 24% 64% 12% 0% 大いに役立つ 役立つ 現時点では不明 役に立たない  ポジティブな感想が9割近く、参加者満足度の高いセミナーとなり、 一定の成果  全般的・広範な話題を カバーする講演への興味大 26% 68% 6% 0% 大変よく理解 理解できた 理解できないところもあり 理解できない 0 2 4 6 8 10 12 14 16 興味のあった講演
  62. 62. Copyright 2016 Japan OSS Promotion Forum Big Dataの取り組み 61
  63. 63.  業務の卓越性 例:生産性向上、品質向上(歩留り改善)等ものづくり革新  顧客親密 例:ソーシャルメディア等による精緻なパーソナライズ  新事業 例:交通渋滞サブスクリプションサービス  リスク管理 例:刻々変化するパターンに基づく不正・異常検知 Copyright 2016 Japan OSS Promotion Forum 62 ビッグデータにおける期待領域は何か? a. 実現済 b 期待大. c 期待 d 不明 0 5 10 15 20 25 30 a b c d a b c d a b c d a b c d 業務の卓越性 顧客親密 新事業 リスク管理 Big Dataへの期待
  64. 64. ビッグデータにおける期待領域は何か? Copyright 2016 Japan OSS Promotion Forum 63  新事業に対する期待は大きいが  分析したいデータのトップは顧客データの35%  欧米では顧客親密、リスク管理対応が先行  “まだ顧客の多くにソーシャルと業務のつながりが認知されていないと感じる”とのコメントもあり 狙う領域が絞られていないのが実情か? どのようなデータ分析が必要と考えるか?
  65. 65. Copyright 2016 Japan OSS Promotion Forum Big Dataシステムの状況 64
  66. 66.  HDFSは50%が使用中(含む予定)、MongoDBが健闘  商用の分析・意思決定製品との連携は進んでおらず、Rが健闘  Kerberos, Knoxは使われていない。セキュリティ対策が進んでいないことが伺える Copyright 2016 Japan OSS Promotion Forum 65 Hadoopエコシステムの利用状況 0 2 4 6 8 10 12 14 16 18 20 Nutch Sqoop Talend Fluentd Flume Storm SparkStreaming HadoopHDFS Ceph GlusterFS Swift MongoDB MR MR2/YARN Spark Hive Tez Impala HBase Drill Pig Solr Cassandra Mahout R Pentaho JasperReport MLlib QlickView Tableau Spark SAS IBMSPSS Teradata Ambari Zookeeper ClouderaManager Kerberos Knox Oozie 収集・検知・ETL 蓄積・クエリ・その他 分析・意思決定 運用・監視 Hadoop Ecosystemの利用状況
  67. 67. Copyright 2016 Japan OSS Promotion Forum ビッグデータシステムの使用状況・計画 66  拡大を検討・実施中、実システム運用中は3割程度、時期未定・予定なしが 半数以上  一方PoC実施中、1年以内も16% →導入のスピードは期待程、高くない?
  68. 68.  37%がApacheを使用、ディストリビュータの無償版も含めるとサポートなし で使用しているユーザが相当数と思われる  クラウド上での拡張、展開を考えているユーザが半分以上  クラウドとオンプレミスのハイブリッドでの利用はゼロ  Hadoopのノード数は最大で30ノード、5ノード以下が半数 Copyright 2016 Japan OSS Promotion Forum 67 Hadoopシステムの現状 31% 0% 23% 46% クラウド上でのHadoop利用について クラウドのみ オンプレとのハイブリッド 今後予定 なし 37% 30% 9% 18% 0%3% 3% 0% Hadoop Distribution Apache Cloudera Hortonworks MapR Oracle BDA Pivotal HD IBM その他
  69. 69. Copyright 2016 Japan OSS Promotion Forum ビッグデータシステム構築の課題 68  導入効果の明確化と必要性の認識なしを合わせると半数近い →どのように使えば効果があるのかが明確になっていない状況
  70. 70. Copyright 2016 Japan OSS Promotion Forum 現状の考察および今後の期待 69
  71. 71.  Big Dataの目的・投資効果が明確になっていないため、コストをかけないで何ができ るのかを模索中のユーザが多いことが推察される  Hadoopが誕生して10年経過したが、使用ディストリビューションのトップがApache 37%でトップであったことを考えると、商用利用を目的として使用している人は少ない  提供サイドはDataレイクということで、「データを捨てないでHadoopに入れておきま しょう」とのメッセージを発信したが、アンケート結果から判断するとエンドユーザに響い ていないと考えられる  Big Dataの入れ物としてHadoopを位置づけているが、Big Dataの利用を広げる にはキラーアプリの出現がポイント →Big DataとIoT、AIと言った話題も出てきており、Big Dataと具体的な利用ケー ス(IoT、AIなど)という観点が必要と考えられる Copyright 2016 Japan OSS Promotion Forum 考察 70
  72. 72. 付録 Copyright 2016 Japan OSS Promotion Forum 71
  73. 73. Copyright 2016 Japan OSS Promotion Forum 公式サイト 区分 ソフトウェア 公式サイト クローラ Apache ManifoldCF http://manifoldcf.apache.org/ Apache Nutch http://nutch.apache.org/ データロード Apache Sqoop http://sqoop.apache.org/ Talend https://www.talend.com/ 収集 Apache Flume https://flume.apache.org/ Apache Kafka http://kafka.apache.org/ Fluentd http://www.fluentd.org/ CEP Apache Storm http://storm.apache.org/ Apache S4 http://incubator.apache.org/s4/ Jubatus http://jubat.us/ Esper http://www.espertech.com/products/esper.php Drools Fusion http://www.drools.org/ Apache Spark Streaming http://spark.apache.org/streaming/ 並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/ Apache Hadoop MapReduce http://hadoop.apache.org/ Apache Hadoop YARN http://hadoop.apache.org/ Apache Mesos http://mesos.apache.org/ Apache Spark http://spark.apache.org/ Apache Tez https://tez.apache.org/ データ蓄積 ファイルシステム Apache Hadoop HDFS http://hadoop.apache.org/ Ceph http://ceph.com/ GlusterFS http://www.gluster.org/ Lustre http://lustre.org/ 準リアルタイムクエリ Apache Drill https://drill.apache.org/ Apache Hive https://hive.apache.org/ Apache Spark SQL http://spark.apache.org/sql/ Impala http://impala.io/ インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/ Apache HBase http://hbase.apache.org/ Infinispan http://infinispan.org/ MongoDB https://www.mongodb.org/ Redis http://redis.io/ Riak http://docs.basho.com/ 全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch 機械学習 Apache Spark MLib http://spark.apache.org/mllib/ 統計解析 R https://www.r-project.org/ BI・BAツール JasperReports http://community.jaspersoft.com/ Pentaho http://community.pentaho.com/ インメモリDB VoltDB https://voltdb.com/ 72
  74. 74. 区分 ソフトウェア オープンソースライセンス クローラ Apache ManifoldCF Apache License 2.0 Apache Nutch Apache License 2.0 データロード Apache Sqoop Apache License 2.0 Talend Apache License 2.0 収集 Apache Flume Apache License 2.0 Apache Kafka Apache License 2.0 Fluentd Apache License 2.0 CEP Apache Storm Apache License 2.0 Apache S4 Apache License 2.0 Jubatus GNU Lesser General Public License v2.1 Esper GNU General Public License v2 Drools Fusion Apache License 2.0 Apache Spark Streaming Apache License 2.0 並列分散処理 Apache Hadoop Common Apache License 2.0 Apache Hadoop MapReduce Apache License 2.0 Apache Hadoop YARN Apache License 2.0 Apache Mesos Apache License 2.0 Apache Spark Apache License 2.0 Apache Tez Apache License 2.0 データ蓄積 ファイルシステム Apache Hadoop HDFS Apache License 2.0 Ceph GNU Lesser General Public License v2.1 GlusterFS GNU General Public License v3 Lustre GNU General Public License v2 準リアルタイムクエリ Apache Drill Apache License 2.0 Apache Hive Apache License 2.0 Apache Spark SQL Apache License 2.0 Impala Apache License 2.0 インメモリDG/分散KVS Apache Cassandra Apache License 2.0 Apache HBase Apache License 2.0 Infinispan Apache License 2.0 MongoDB GNU Affero General Public License v3 Redis BSD License Riak Apache License 2.0 全文検索エンジン Elasticsearch Apache License 2.0 機械学習 Apache Spark MLib Apache License 2.0 統計解析 R GNU General Public License BI・BAツール JasperReports GNU Lesser General Public License Pentaho Apache License 2.0 インメモリDB VoltDB GNU General Public License v3 Copyright 2016 Japan OSS Promotion Forum オープンソースライセンス 73
  75. 75. 区分 ソフトウェア 開発者向けメーリングリスト クローラ Apache ManifoldCF dev@manifoldcf.apache.org Apache Nutch dev@nutch.apache.org データロード Apache Sqoop dev@sqoop.apache.org Talend - 収集 Apache Flume dev@flume.apache.org Apache Kafka dev@kafka.apache.org Fluentd ※Google groupsを利用 CEP Apache Storm dev@storm.apache.org Apache S4 s4-dev@incubator.apache.org Jubatus ※Google groupsを利用 Esper dev@esper.codehaus.org (未集計) Drools Fusion ※Google groupsを利用 Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ 並列分散処理 Apache Hadoop Common common-dev@hadoop.apache.org Apache Hadoop MapReduce mapreduce-dev@hadoop.apache.org Apache Hadoop YARN yarn-dev@hadoop.apache.org Apache Mesos dev@mesos.apache.org Apache Spark dev@spark.apache.org Apache Tez dev@tez.apache.org データ蓄積 ファイルシステム Apache Hadoop HDFS hdfs-dev@hadoop.apache.org Ceph ceph-devel@vger.kernel.org GlusterFS gluster-devel@gluster.org Lustre lustre-devel@lists.lustre.org 準リアルタイムクエリ Apache Drill dev@drill.apache.org Apache Hive dev@hive.apache.org Apache Spark SQL ※Apache Sparkのメーリングリストと同じ Impala ※Google groupsを利用 インメモリDG/分散KVS Apache Cassandra dev@cassandra.apache.org Apache HBase dev@hbase.apache.org Infinispan infinispan-dev@lists.jboss.org MongoDB ※Google groupsを利用 Redis ※Google groupsを利用 Riak ※利用者向けメーリングリストのみ 全文検索エンジン Elasticsearch ※Google groupsを利用 機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ 統計解析 R r-devel@r-project.org BI・BAツール JasperReports - Pentaho - インメモリDB VoltDB - Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリスト 74
  76. 76. 区分 ソフトウェア 利用者向けメーリングリスト クローラ Apache ManifoldCF user@manifoldcf.apache.org Apache Nutch user@nutch.apache.org データロード Apache Sqoop user@sqoop.apache.org Talend - 収集 Apache Flume user@flume.apache.org Apache Kafka users@kafka.apache.org Fluentd ※Google groupsを利用 CEP Apache Storm user@storm.apache.org Apache S4 s4-user@incubator.apache.org Jubatus ※Google groupsを利用 Esper user@esper.codehaus.org (未集計) Drools Fusion ※Google groupsを利用 Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ 並列分散処理 Apache Hadoop Common user@hadoop.apache.org Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ Apache Mesos user@mesos.apache.org Apache Spark user@spark.apache.org Apache Tez user@tez.apache.org データ蓄積 ファイルシステム Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ Ceph ceph-user@lists.ceph.com GlusterFS gluster-users@gluster.org Lustre lustre-discuss@lists.lustre.org 準リアルタイムクエリ Apache Drill user@drill.apache.org Apache Hive user@hive.apache.org Apache Spark SQL ※Apache Sparkのメーリングリストと同じ Impala ※Google groupsを利用 インメモリDG/分散KVS Apache Cassandra user@cassandra.apache.org Apache HBase user@hbase.apache.org Infinispan ※開発者向けメーリングリストのみ MongoDB ※Google groupsを利用 Redis ※Google groupsを利用 Riak riak-users@lists.basho.com 全文検索エンジン Elasticsearch ※Google groupsを利用 機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ 統計解析 R ?(r-help@r-project.org と考える?) BI・BAツール JasperReports - Pentaho ※Google groupsを利用 インメモリDB VoltDB - Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリスト 75
  77. 77. 区分 ソフトウェア 利用しているソースコードリポジトリサービス クローラ Apache ManifoldCF GitHub(apache/manifoldcf) Apache Nutch GitHub(apache/nutch) データロード Apache Sqoop GitHub(apache/sqoop) Apache Kafka GitHub(apache/kafka) Talend - 収集 Apache Flume GitHub(apache/flume) Fluentd GitHub(fluent/fluentd) CEP Apache Storm GitHub(apache/storm) Apache S4 GitHub(apache/incubator-s4) Jubatus GitHub(jubatus/jubatus) Esper GitHub(espertechnic/esper) Drools Fusion GitHub(droolsjbpm/drools) Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common) Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce) Apache Hadoop YARN - Apache Mesos GitHub(apache/mesos) Apache Spark GitHub(apache/spark) Apache Tez GitHub(apache/tez) データ蓄積 ファイルシステム Apache Hadoop HDFS GitHub(apache/hadoop-hdfs) Ceph GitHub(ceph/ceph) GlusterFS GitHub(gluster/glusterfs) Lustre - 準リアルタイムクエリ Apache Drill GitHub(apache/drill) Apache Hive GitHub(apache/hive) Apache Spark SQL ※Apache Sparkと同じ Impala GitHub(cloudera/impala) インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra) Apache HBase GitHub(apache/hbase) Infinispan GitHub(infinispan/infinispan) MongoDB - Redis GitHub(antirez/redis) Riak GitHub(basho/riak) 全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch) 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R - BI・BAツール JasperReports - Pentaho GitHub(pentaho/pentaho-platform) インメモリDB VoltDB GitHub(VoltDB/voltdb) Copyright 2016 Japan OSS Promotion Forum ソースコードリポジトリサービス 76
  78. 78. Copyright 2016 Japan OSS Promotion Forum Twitterアカウント 区分 ソフトウェア Twitterアカウント クローラ Apache ManifoldCF @ApacheManifold Apache Nutch @ApacheNutch データロード Apache Sqoop @sqoopit Talend @Talend 収集 Apache Flume - Apache Kafka @apachekafka Fluentd @fluentd CEP Apache Storm @ApacheStorm Apache S4 - Jubatus @JubatusOfficial Esper - Drools Fusion - Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common @hadoop Apache Hadoop MapReduce ※Apache Hadoopと同じ Apache Hadoop YARN ※Apache Hadoopと同じ Apache Mesos @Apache Mesos Apache Spark @ApacheSpark Apache Tez @ApacheTez データ蓄積 ファイルシステム Apache Hadoop HDFS ※Apache Hadoopと同じ Ceph @Ceph GlusterFS @glusterfs Lustre - 準リアルタイムクエリ Apache Drill @ApacheDrill Apache Hive @ApacheHive Apache Spark SQL ※Apache Sparkと同じ Impala - インメモリDG/分散KVS Apache Cassandra @Cassandra Apache HBase @Hbase Infinispan @infinispan MongoDB @MongoDB Redis @redisfeed Riak - 全文検索エンジン Elasticsearch @Elasticsearch 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R - BI・BAツール JasperReports @jasperreports Pentaho @Pentaho インメモリDB VoltDB @VoltDB 77
  79. 79. 区分 ソフトウェア Issue Tracker クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS) Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH) データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP) Talend - 収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME) Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA) Fluentd GitHub(https://github.com/fluent/fluentd/issues) CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM) Apache S4 - Jubatus GitHub(https://github.com/jubatus/jubatus/issues) Esper - Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS) Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP) Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE) Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN) Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS) Apache Spark JIRA(https://issues.apache.org/jira/browse/spark) Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ) データ蓄積 ファイルシステム Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS) Ceph Redmine(http://tracker.ceph.com/projects/ceph) GlusterFS Bugzilla(https://bugzilla.redhat.com/) Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa) 準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL) Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE) Apache Spark SQL ※Apache Sparkと同じ Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa) インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA) Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE) Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa) MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa) Redis Google Project Hosting(https://code.google.com/p/redis/issues/list) Riak GitHub(https://github.com/basho/riak/issues) 全文検索エンジン Elasticsearch - 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/) BI・BAツール JasperReports - Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa) インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM) Copyright 2016 Japan OSS Promotion Forum Issue Tracker 78
  80. 80. 区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供 クローラ Apache ManifoldCF - ○ ○ - Apache Nutch - - - - データロード Apache Sqoop - ○ △ △ Talend ○ - ○ ○ 収集 Apache Flume - ○ △ △ Apache Kafka - ○ - ○ Fluentd - ○ - - CEP Apache Storm - ○ - △ Apache S4 - - - - Jubatus - - - ○ Esper ○ - - - Drools Fusion ○ - - - Apache Spark Streaming - ○ △ △ 並列分散処理 Apache Hadoop Common ○ ○ ○ ○ Apache Hadoop MapReduce ○ ○ △ ○ Apache Hadoop YARN ○ ○ △ △ Apache Mesos - - - ○ Apache Spark - ○ ○ ○ Apache Tez - ○ - - データ蓄積 ファイルシステム Apache Hadoop HDFS ○ ○ △ △ Ceph ○ ○ △ - GlusterFS ○ ○ ○ - Lustre - - - ○ 準リアルタイムクエリ Apache Drill ○ ○ - △ Apache Hive - ○ ○ △ Apache Spark SQL - ○ △ △ Impala - ○ ○ △ インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○ Apache HBase - ○ ○ ○ Infinispan ○ - - - MongoDB ○ ○ ○ ○ Redis - - ○ ○ Riak ○ - - ○ 全文検索エンジン Elasticsearch - ○ ○ ○ 機械学習 Apache Spark MLib - ○ - △ 統計解析 R ○ ○ ○ ○ BI・BAツール JasperReports ○ ○ ○ ○ Pentaho ○ ○ ○ ○ インメモリDB VoltDB - - - - Copyright 2016 Japan OSS Promotion Forum 国内でのサービス提供状況 79
  81. 81.  該当ソフトウェアの3/4はApache License 2.0を採用  Apache Software Foundation管理のソフトウェアが多い事も理由の一つ  今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大) Copyright 2016 Japan OSS Promotion Forum 採用しているオープンソースライセンス Apache License 2.0 73.7% GNU General Public License 13.2% GNU Lesser General Public License 7.9% その他 5.3% 80
  82. 82.  最も利用されている言語は「Java」(55.2%)。  次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。 Copyright 2016 Japan OSS Promotion Forum どの様なプログラミング言語で開発されているか? Java 55.2% C/C++ 23.1% XML 10.0% Web 3.7% Python 3.4% JavaScript 2.8% CSS 0.8% Ruby 0.8% PHP 0.4% 81
  83. 83. Copyright 2016 Japan OSS Promotion Forum ビッグデータ関連OSS鳥瞰図 ビッグデータ Nutch ManifoldCF クローラ Sqoop Talend Flume Fluentd Kafka データ収集 Storm S4 Jubatus Esper Drools Fusion SparkStreaming CEP Hadoop(HDFS) Lustre GlusterFS Ceph Elasticsearch データ蓄積/ 分散ファイルシステム Spark Hadoop MapReduce Hadoop YARN Tez Mesos 分散処理基盤 Drill Hive Impala SparkSQL 準リアルタイムクエリ MIT Kerberos OpenLDAP セキュリティ MongoDB ドキュメント指向DB InfiniSpan Cassandra Redis Riak HBase KVS Pentaho Talend ETL Pentaho JasperReports BA・BI MySQL PostgreSQL RDB VoltDB インメモリDB 82 R MLlib データ分析

×