SlideShare a Scribd company logo
1 of 83
Download to read offline
ビッグデータ関連OSS動向調査とニーズ分析
2016年7月15日
日本OSS推進フォーラム
ビッグデータ部会
部会長 吉田 行男
Copyright 2016 Japan OSS Promotion Forum
0 自己紹介
1
【経歴】
 入社当時は、金融端末のソフトウェア開発に従事。
 2000年頃より、Linux/OSSのビジネス開発を担当。
 2012年より、オープンソース専門組織に所属。
【現在の業務】
 OSSを活用したビジネス構築のための支援
• 新しい技術/OSSの発掘・評価検証
• ビジネス・ソリューションの立ち上げ支援
• 現在特にフォーカスしている領域:
クラウド基盤(OpenStack, Spark)、
ビッグデータ(Hadoop、NoSQL)、
Enterprise(PostgreSQL, OpenCOBOL)
【社外活動】
 日本OSS推進フォーラム 副理事長 兼 ビッグデータ部会長
 オープンソースライセンス研究所 理事
 OSSコンソーシアム 副会長 兼 クラウド部会リーダ
 OBCI(オープンソースビジネス推進協議会) 理事 他
※週刊OSSウオッチ(thinkIT)
2
※より賢く活用するためのOSS最新動向(ZDNet Japan)
3
1. 日本OSS推進フォーラムのご紹介
2. ビッグデータ部会の活動について
3. ビッグデータ関連OSS動向調査
4. ニーズ分析
5. 付録
Copyright 2016 Japan OSS Promotion Forum
目次
4
1.日本OSS推進フォーラムのご紹介
Copyright 2016 Japan OSS Promotion Forum 5
6
1-1.フォーラム活動目標
 課題
IT利活用による企業競争力強化の中、ITの中心となるソフトウェアはOSSを外しては考えら
れなくなっている。
会員のOSS利活用を、経済産業省をはじめとする官学や、他団体・コミュニティと連携しなが
ら推進する。
 目標
OSSというソフトウェアパラダイムを会員が活用できるための、以下の情報交換・課題共有を
実現し、日本発のOSSを含むOSS利活用を推進し、会員の競争力強化を図る。
 OSS利用技術の普及
 OSS活用事例の研究
 OSS人材育成のためのセミナー開催
 グローバル活動
会員の下記活動を支援するために、日中韓活動に加えASEANの人材育成を切り口に
ASEAN諸国との交流を深めていく。
 日系企業の海外展開向けシステムインテグレーション活動
 各国ソフトウェア開発力の活用(オフショアなど)
 各国プロジェクトへの参画と現地企業とのビジネス交流
 各国のへのOSSを含むソフト製品拡販
Copyright 2016 Japan OSS Promotion Forum
1-2.2015年度活動目標
Copyright 2016 Japan OSS Promotion Forum 7
日本企業がIT利活用で課題となる、「モバイル」「クラウド」「ビッグデータ」「ソーシャル技術」の分野
を中心に活動。
モバイル・ソーシャル技術
ITシステムの環境が変化してきており、システムの課題は、コンピュータ中心の課題から、モバイルまで含めた
システム全体でのモバイル・ソーシャル技術活用に変化してきている。
アプリケーション部会 サーバ上のアプリからモバイル・ロボット等の組込アプリまでを推進する。
クラウド・ビッグデータ
2015年度はOSSクラウドが台頭し、クラウド基盤領域が競争領域から協調領域に変化してきた中で、クラ
ウド基盤部分と上位層のビッグデータ部分で活動範囲が広まり、両者を分割して2部会で対応していく。
クラウド技術部会 クラウド基盤部分を中心に活動を推進する。
ビッグデータ部会 ビッグデータ部分を中心に活動を推進する。
グローバルでのOSS利用技術について、中韓だけでなくASEANまで広げる活動を再チャレンジする。
北東アジアOSS推進フォーラム
日中韓の活動は2004年から活動し多くの成果を出してきたが、今年は日本で大会を開催するため、OSS
分野で進化してきた中韓の技術者との交流深化を目指す。
ASEANでのOSS人材育成
既に海外に進出してきた企業も、グローバル企業で見られる「グローバルに統一された標準システム」に移行
のため、グローバルなITシステム運用において、ソフトウェア技術の一端を担うOSSの技術者育成が課題に
なってくると想定される。
更なるビジネス拡大が予想されるASEANを対象に、OSS人材育成活動として国家プロジェクトに参画する
方向を目指す。
1-3.日本OSS推進フォーラム体制図(2015年度)
Copyright 2016 Japan OSS Promotion Forum
理事会
理事長: 吉田 正敏 (富士通株式会社)
副理事長: 高橋 千恵子 (日本電気株式会社)
吉田 行男 (株式会社日立ソリューションズ)
理事: 大木 一浩 (日本電気株式会社)
片瀬 成識 (東京ガス株式会社)
黒坂 肇 (サイオステクノロジー株式会社)
野山 孝太郎 (富士通株式会社)
橋本 尚 (株式会社日立製作所)
三浦 広志 (株式会社NTTデータ)
事務局長 黒田知幸 (株式会社パンテル・インターナショナル)
グローバル関連WG部会
クラウド技術
部会
総会
部会長:
高橋(NEC)
副部会長
黒坂(SIOS)
ビッグデータ
部会
部会長:
吉田(日立Sol)
アプリケーション
部会
部会長:
吉田(富士通)
副部会長
片瀬(東京ガス)
理事会
技術開発・
評価
WG
主査:
鈴木(日立)
主査:
野山(富士通)
主査:
大木(NEC)
適用推進
WG
標準化・
認証研究
WG
ASEAN
OSS人材育成活動
北東アジアOSS推進フォーラム
WG1,WG2,WG3,WG4
連
携
国内外のOSS関連団体
連
携
連
携
8
1-4.会員一覧(2016年度初)①
株式会社HTKエンジニアリング
株式会社SRA
サイオステクノロジー株式会社
新日鉄住金ソリューションズ株式会社
株式会社中電シーティーアイ
東京ガス株式会社
株式会社東芝
トレジャーデータ株式会社
日本オラクル株式会社
日本電気株式会社
日本マイクロソフト株式会社
日本ユニシス株式会社
正会員 23社
特別会員 8団体
特定非営利活動法人エルピーアイジャパン
慶応義塾大学
国立研究開発法人産業技術総合研究所
一般社団法人情報サービス産業協会
独立行政法人情報処理推進機構
東京大学
一般社団法人日本情報システム・ユーザー協会
The Linux Foundation
Copyright 2016 Japan OSS Promotion Forum
全会員 86社・団体・個人
ノベル株式会社
パナソニック株式会社
株式会社PFU
株式会社日立製作所
株式会社日立ソリューションズ
富士通株式会社
株式会社 富士通アドバンストエンジニアリング
株式会社 富士通ソーシアルサイエンスラボラトリ
ブラック・ダック・ソフトウェア株式会社
レッドハット株式会社
WANdisco
2015年度正会員入会(2社)
株式会社東芝
日本マイクロソフト株式会社
9
一般会員 56団体・個人
ICTラボラトリーズ株式会社
株式会社アグトラスト
株式会社アシスト
株式会社アピリッツ
株式会社アルファシステムズ
アルプスシステムインテグレーション株式会社
アースインターシステムズ株式会社
株式会社イーサー
伊藤忠テクノソリューションズ株式会社
インプレサリオ株式会社
株式会社ヴァインカーブ
株式会社ヴィクサス
株式会社ウィップス
ウチダスペクトラム株式会社
エイチアールワン株式会社
株式会社エヌ・ティ・ティ・データ
エヌ・ティ・ティ・データ先端技術株式会社
株式会社エルエスアイ開発研究所
特定非営利活動法人オーユージー
特定非営利活動法人オープンソースソフトウェア・シティ
株式会社キーポート・ソリューションズ
キヤノンITソリューションズ株式会社
株式会社クリアコード
株式会社KDDI研究所
株式会社国際開発センター
コニカミノルタビジネスソリューションズ株式会社
株式会社シーイーシー
jHako開発チーム
住友電気工業株式会社
ターボリナックス株式会社
TIS株式会社
株式会社テクノプロジェクト
東芝デジタルメディアエンジニアリング株式会社
日本アイ・ビー・エム株式会社
一般財団法人ニューメディア開発協会
株式会社ネオシステム
株式会社野村総合研究所
パイオニア株式会社
財団法人ハイパーネットワーク社会研究所
株式会社パンテル・インターナショナル
株式会社フェデルメンテ
富士通エフ・アイ・ピー株式会社
富士通関西中部ネットテック株式会社
株式会社富士通システムズ・イースト
株式会社富士通ビー・エス・シー
Profit Cube Inc.
株式会社マインド
株式会社三菱総合研究所
三菱電機インフォメーションシステムズ株式会社
ミラクル・リナックス株式会社
ミランティス・ジャパン合同会社
ユニアデックス株式会社
琉球ソフトビジネス支援センター
(個人会員)
長濱 みほ
橋本 明彦
Copyright 2016 Japan OSS Promotion Forum
2015年度一般会員入会(9社)
ICTラボラトリーズ株式会社
株式会社キーポート・ソリューションズ
コニカミノルタビジネスソリューションズ株式会社
伊藤忠テクノソリューションズ株式会社
jHako開発チーム
日本サード・パーティ株式会社
Profit Cube Inc.
ミランティス・ジャパン合同会社
株式会社エヌ・ティ・ティ・データ 正会員から移動
10
1-4.会員一覧(2016年度初)②
 目的
近年ビッグデータOSSはSparkやHadoopといったキーワードをもとに一定の盛り上
がりをみせているが、連携製品の乱立による選択の複雑化、大規模システム構築に
おける導入障壁の高さ、導入効果の不明確さなどで国内における導入の進み具合
は芳しくない。そこでビッグデータOSSの普及・推進を行うための一旦として「ビッグデー
タ関連OSS動向調査」、「ニーズ分析」を行った。
 概要
 ビッグデータ関連OSS動向調査
ビッグデータシステムに使われるOSSを洗い出し、それぞれがどのような状況で
あるか、いくつかの観点をもとに調査し、「今使えるビッグデータOSSは何か?」
を分析した。
 ニーズ分析
ビッグデータ関連OSSに興味をお持ちの方を対象にセミナーを実施(2015年
12月14日開催)し、そこでのアンケートにより、ビッグデータOSSの商用導入に
おける現状のニーズ・課題を調査した。
Copyright 2016 Japan OSS Promotion Forum
2.ビッグデータ部会の活動
11
 市場概況
 2015 年度の国内のビッグデータ関連投資規模は 535億円と推計
 ユーザー企業のビッグデータへの取り組み状況:
「業務に取り込み済み(2.4%)」、「試験的に運用中(1.7%)」合計で 4.1%
 ビッグデータは IoT、AI などの進展とともに急速に発展
 今後の展望
 2016~2017年頃:サービス基盤の低廉化
 格安 MVNOの普及。IoT サービス基盤の低廉化。AI 技術は主に金融分野を中心に進展。
 2018~2020年頃:新たな技術の実用化
 次世代のメモリ、低消費電力ネットワーク、MEMSセンサーが実用化。
 2020~2025年頃:応用分野の広がり
 遺伝子情報を活用した先制医療、自動運転走行
 2025~2030年頃:産業適用のさらなる進展
 製造業のスマートファクトリー(産業ロボットの活用などによる工場の自動化)
ビッグデータビジネスの現状
Copyright 2016 Japan OSS Promotion Forum 12
(出典:矢野経済研究所、2016年の「ビッグデータ市場に関する調査結果 」)
3.ビッグデータ関連OSS動向調査
Copyright 2016 Japan OSS Promotion Forum 13
 主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」
する機能、蓄積・貯蔵したデータを「分析」する機能から構成される
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ基盤を構成する機能
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステム
MIT Kerberos
OpenLDAP
セキュリティ/認証
MLib
機械学習
R言語
統計解析
Hinemos
Zabbix
運用管理/監視
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
運用管理/監視
クローラ
データロード
収集
CEP
Complex Event
Processing
データ蓄積
ファイルシステム
並列分散処理
データロード
機械学習
統計解析
BI/BAツール
定型業務DB
インメモリDB
DWH/マートレスDBインメモリDG/分散KVS
セキュリティ/認証
準リアルタイムクエリ
14
 ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能
 ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ基盤を構成する機能へのソフトウェアマッピング
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Apache Kafka
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
ElasticSearch
データ蓄積ファイルシステム
MLib
機械学習
R言語
統計解析
Pentaho
JasperReports
BI/BAツール
Hinemos
Zabbix
運用管理/監視
MySQL
PostgreSQL
定型業務RDB
※OSSで著名なもの
はない
DWH/マートレスDB
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
インメモリDG/分散KVS
MIT Kerberos
OpenLDAP
セキュリティ/認証
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
15
Copyright 2016 Japan OSS Promotion Forum
動向把握のための調査項目
16
洗い出したビッグデータ関連OSSに対して、動向を把握するため以下の観点で調査を実
施
 開発の活発度
コミッター数、コミット数、開発者向けメーリングリスト数
 利用の活性度
利用者向けメーリングリスト数、書籍数、GitHubのスター数、Twitterのフォロアー数、
商用版・有償サポートの有無、利用実績
 ソフトウェアの品質
バグ解決率、脆弱性、ソースコード品質(重複率、複雑度)
 利用実績
 The Linux Foundation SI Forumの2015年度活用動向調査をもとに実施
 商用版の有無
 商用版の定義:コミュニティ版に対して、独自のパッチやツールを追加したもの。サポートも
含む。
 「OSS名 商用」あるいは「OSS名 エンタープライズ」でgoogle検索。上位100件につい
て調査
 有償サポートの有無
 サポートの定義としてはコミュニティ版についてQA対応、障害調査、性能調査などを有償に
て提供しているもの
 「OSS名 サポート」でgoogle検索。上位100位について調査。
※商用版の有無、有償サポートの有無の調査においては2016/1/5~1/11に実施し
た結果です。また別名として提供しているものを含みます。
ex. PostgreSQL ⇒ 商用 PowerGres
Copyright 2016 Japan OSS Promotion Forum 17
動向調査における前提条件
Copyright 2016 Japan OSS Promotion Forum
開発の活性度
そのソフトウェアは活発に開発されていますか?
18
 Apache Sparkが2014年頃から急成長
Copyright 2016 Japan OSS Promotion Forum
コミッター数の推移(月ごと)
Apache Spark
Talend
19
 年平均成長率ではApache Drillがトップ
 Apache Sparkの他、Apache Mesosも急激に増加
Copyright 2016 Japan OSS Promotion Forum
コミッター数の年平均成長率(2011年から2015年)
20
 Apache Sparkが2014年から急成長
 13年:27.8 → 14年:72.1 → 15年:114.7
Copyright 2016 Japan OSS Promotion Forum
月平均コミッター数(2015年)
21
Copyright 2016 Japan OSS Promotion Forum
月平均コミッター数(横軸)と年平均成長率(縦軸)
開発者の数も多く
ますます増加中
開発者の数は
まだまだ少ないが
急増中
22
※軸中の縦横の赤線は平均値であり、
他の2軸分析においても同様
 Elasticsearchの開発が活性化
 コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2016 Japan OSS Promotion Forum
コミット数の推移
Apache Spark
Elasticsearch
23
 Elasticsearchの開発が活性化
 コミッター数の増加に比例してApache Sparkの開発も活発
Copyright 2016 Japan OSS Promotion Forum
月平均コミット数(2015年)
24
Copyright 2016 Japan OSS Promotion Forum
コミッター数(縦軸)とコミット数(横軸)の相関
開発者の数は
比較的少ないが
開発は非常に活性
開発者の数も多く
開発も活発
25
 Gitにコミットされた日の割合(稼働率)ではElasticsearchがトップ
 週休1日以下で頑張っている模様
Copyright 2016 Japan OSS Promotion Forum
開発のアクティビティ
26
Copyright 2016 Japan OSS Promotion Forum
月平均コミット数(横軸)と稼働率(縦軸)の関係
稼働率はあまり高くないが
開発は活発
(一気にやるタイプ)
稼働率が高く
開発も活発
(コツコツやるタイプ)
27
 2006年~2009年にかけてApache Hadoopの議論が活性化
 最近はApache HiveやApache Storm、Apache Kafkaの議論が活発
Copyright 2016 Japan OSS Promotion Forum
開発者向けメーリングリストの流量推移
Apache Hive
Apache Hadoop
Apache
Storm
Apache
Kafka
28
 Apache KafkaやApache Stormの議論が活性化
 Apache Hiveは2014年をピークとして2015年は落ち着いている模様
Copyright 2016 Japan OSS Promotion Forum
開発者向けメーリングリストの月平均流量(2015年)
開発は活性化しているが
メーリングリストベースの議論は
あまり多くない
29
Copyright 2016 Japan OSS Promotion Forum
コミット数(横軸)とメールでの議論量(縦軸)の関係
議論よりも実践
実践よりも
まずは議論
30
 この割合が高いほど特定開発者の影響力が強いコミュニティと言える可能性が高い
Copyright 2016 Japan OSS Promotion Forum
最も開発している人のコミット割合
31
 この割合が高いほど少人数の開発者の影響力が強いコミュニティと言える可能性が高い
Copyright 2016 Japan OSS Promotion Forum
コミット数1位から5位のコミット割合
32
Copyright 2016 Japan OSS Promotion Forum
Top1(横軸)とTop1~5(縦軸)の関係
主導型開発少人数先導型開発
コミュニティ型開発
開発が活性化しているプロジェクトは
コミュニティ型開発が多い
(やはりコミュニティは大事!)
33
Copyright 2016 Japan OSS Promotion Forum
利用の活性度
そのソフトウェアは皆に利用されていますか?
34
 利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2016 Japan OSS Promotion Forum
利用者向けメーリングリストの流量推移
Apache Spark
Apache Casandra
Apache Hadoop
Common
35
 利用者メーリングリストでもApache Sparkが圧倒的に活発
Copyright 2016 Japan OSS Promotion Forum
利用者向けメーリングリストの月平均流量(2015年)
36
Copyright 2016 Japan OSS Promotion Forum
開発者(横軸)/利用者(縦軸)メール流量の関係
開発者の議論が活発
利用者の議論が活発
※Apache Sparkの場合
開発自体は非常に活発だが
メールベースの議論は少なめ
37
 Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)
 次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く
Copyright 2016 Japan OSS Promotion Forum
書籍数(日本語)
38
 日本語書籍と大きく傾向は変わらず(Rは6,613冊、グラフからは削除)
 Fluentd、Jubatusなど日本人が中心となって開発しているソフトウェアは順位を落とす
Copyright 2016 Japan OSS Promotion Forum
書籍数(英語)
39
 Redisが圧倒的に好評価
 商用展開されているソフトウェアに関しては組織票があるのかもしれない
Copyright 2016 Japan OSS Promotion Forum
GitHubのスター数
40
 Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数
 次いでApache Cassandra、Apache Hadoopが人気
Copyright 2016 Japan OSS Promotion Forum
Twitterのフォロアー数
41
 国内で有償版または有償サポートが提供されているソフトウェアは赤字
 ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能
 Jubatusなどクラウドでサービス提供されているソフトウェアもあり
Copyright 2016 Japan OSS Promotion Forum
有償サポートの有無
データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他
高速化キャッシュ/スケールアウト
データ分析
分析用データ
解析ツール
Apache Hadoop MapReduce
Apache Hadoop YARN
Apache Mesos
Apache Spark
Apache Tez
並列分散処理
Apache ManifoldCF
Apache Nutch
クローラ
Apache Sqoop
Talend
データロード
Apache Flume
Apache Kafka
Fluentd
収集
Apache S4
Apache Spark
Streaming
Apache Storm
Esper
Drools Fusion
Jubatus
CEP
Apache Hadoop HDFS
Ceph
GlusterFS
Lustre
データ蓄積ファイルシステム
MLib
機械学習
R言語
統計解析
Pentaho
JasperReports
SAS
MicroStorategy
BI/BAツール
Hinemos
Zabbix
運用管理/監視
MySQL
PostgreSQL
定型業務RDB
※OSSで著名なもの
はない
DWH/マートレスDB
Webデータ
売上情報など
センサデータ
システムログ
音声
画像
構造化データ
(業務RDB)
非構造化データ
Apache Sqoop
データロード
VoltDB
インメモリDB
Apache Cassandra MongoDB
Apache Hbase Redis
Infinispan Riak
インメモリDG/分散KVS
ElasticSearch
全文検索エンジン
MIT Kerberos
OpenLDAP
セキュリティ/認証
Apache Drill
Apache Hive
Apache Spark SQL
Impala
準リアルタイムクエリ
42
 The Linux Foundation SI Forumの2015年度活用動向調査より
 全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象
Copyright 2016 Japan OSS Promotion Forum
利用実績
導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports
導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre,
Apache Cassandra, Apache HBase, Redis, Elasticsearch,
Pentaho
検証実績あり VoltDB
導入/検証
実績なし
上記以外(という少し残念な結果)
43
Copyright 2016 Japan OSS Promotion Forum
ソフトウェアの品質
そのソフトウェアは安心して利用できますか?
44
 Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い
 もっとも低いApache Stormにおいても6割のバグは解決済み
Copyright 2016 Japan OSS Promotion Forum
バグ解決率(全体)
45
 重要バグの解決率に限定すると約8割以上は解決済み
 こちらもApache ManifoldCFは解決率が非常に高い
Copyright 2016 Japan OSS Promotion Forum
バグ解決率(重要※Blocker/Criticalレベル)
46
Copyright 2016 Japan OSS Promotion Forum
コミット数(横軸)と重要バグ解決率(縦軸)の関係
開発も活発に行われており
重要バグ解決率も高め
開発も活発ではないが
重要バグ解決率は高め
(≒安定)
重要バグ解決率がやや低く
開発も非活性
(要ウォッチ)
47
 全体的に脆弱性の検出は少ない
 一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件
Copyright 2016 Japan OSS Promotion Forum
脆弱性(2006年から2016年)
MongoDB
JasperReports
Pentaho
48
 SonarQubeのソースコード解析機能で抽出した重複率
 Apache S4、Redisなどは重複が少なく良いソースコードの模様
Copyright 2016 Japan OSS Promotion Forum
ソースコード品質:重複率
ソースコードの
重複が少ない
(≒高品質)
49
 SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度
 Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック
Copyright 2016 Japan OSS Promotion Forum
ソースコード品質:複雑度
ソースコードの
複雑度が少ない
(≒高品質)
50
 重複率と複雑度(全体)の間には軽い相関関係がある模様
 ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数
Copyright 2016 Japan OSS Promotion Forum
重複率(横軸)と複雑度(縦軸)の関係
Riakは外れ値とみなした
51
Copyright 2016 Japan OSS Promotion Forum
まとめ
52
 この様な感じでした
Copyright 2016 Japan OSS Promotion Forum
ちなみに昨年のまとめは…
53
Copyright 2016 Japan OSS Promotion Forum
昨年と同じ軸でまとめてみると…
導入実績多数
導入実績あり
検証実績多数
検証実績あり
ランク外
エンタープライズ適用領域
新技術
ウォッチ領域 先行検討/アーリーアダプト領域
昨年「新技術ウォッチ領域」であったVoltDB、
Apache Sparkは順調に成長
Apache Sparkは一気に「エンタープライズ適用領域へ」
54
 ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている
 有償サービスも揃いつつある
 ただし、機能や品質の見極めは当然必要
 Apache Sparkとそのエコシステムは開発、利用ともに活発度が高い
 ElasticsearchはGitコミット日の割合が91%程度でとても開発が活発
 MongoDBやCephはこの領域では比較的安定期に入りつつある
→ただし、状況は変化しており今後も継続的なウォッチが必要
Copyright 2016 Japan OSS Promotion Forum
所感
55
ニーズ分析
Copyright 2016 Japan OSS Promotion Forum 56
2015年12月14日開催の『ビッグデータ&オープンソース最新情報セミナー』においてビッ
グデータ関連OSSに求められるニーズ・課題を分析するため、アンケートを実施。
Copyright 2016 Japan OSS Promotion Forum
ニーズ分析概要
57
 回答者の立場
 業種、従業員数、役職、ビッグデータ導入時の立場
 セミナーについて
 内容の分かり易さ、役に立つか?
 特にご興味のあった講演
 Big Dataの取り組みについて
 Big Dataの期待領域
 どのようなデータの分析が必要
 Big Dataシステムの状況について(顧客への適用・提案を含む)
 Big Dataシステムの使用状況・計画
 Big Dataシステム導入・構築の課題
 使用されている(予定も含め)Hadoop、エコシステム
 使用されているHadoop Distribution
 Data Node総数、Hadoopクラスタ数、データセンタ数
 Hadoopでの高可用性/バックアップ
Copyright 2016 Japan OSS Promotion Forum
アンケートの質問事項
Big Dataの活用のための
代表的なインフラとしての
Hadoopの現状にフォーカス
58
 事前登録者数(関係者含む):69名
当日参加人数(関係者除く):43名
アンケート回収数:39名
Copyright 2016 Japan OSS Promotion Forum 59
回答者の内訳
 SIer,HW/SWが70%、従業員数1000人以上が半
数
 情報サービス会社(Web企業)は2割以下
Big DataおよびHadoopの一般企業での実情を反映
今後、Big DataおよびHadoopの本格的な拡がりを占
うもの
Copyright 2016 Japan OSS Promotion Forum 60
セミナーの評価
24%
64%
12%
0%
大いに役立つ 役立つ
現時点では不明 役に立たない
 ポジティブな感想が9割近く、参加者満足度の高いセミナーとなり、 一定の成果
 全般的・広範な話題を
カバーする講演への興味大
26%
68%
6% 0%
大変よく理解 理解できた
理解できないところもあり 理解できない
0
2
4
6
8
10
12
14
16
興味のあった講演
Copyright 2016 Japan OSS Promotion Forum
Big Dataの取り組み
61
 業務の卓越性
例:生産性向上、品質向上(歩留り改善)等ものづくり革新
 顧客親密
例:ソーシャルメディア等による精緻なパーソナライズ
 新事業
例:交通渋滞サブスクリプションサービス
 リスク管理
例:刻々変化するパターンに基づく不正・異常検知
Copyright 2016 Japan OSS Promotion Forum 62
ビッグデータにおける期待領域は何か?
a. 実現済 b 期待大. c 期待 d 不明
0
5
10
15
20
25
30
a b c d a b c d a b c d a b c d
業務の卓越性 顧客親密 新事業 リスク管理
Big Dataへの期待
ビッグデータにおける期待領域は何か?
Copyright 2016 Japan OSS Promotion Forum 63
 新事業に対する期待は大きいが
 分析したいデータのトップは顧客データの35%
 欧米では顧客親密、リスク管理対応が先行
 “まだ顧客の多くにソーシャルと業務のつながりが認知されていないと感じる”とのコメントもあり
狙う領域が絞られていないのが実情か?
どのようなデータ分析が必要と考えるか?
Copyright 2016 Japan OSS Promotion Forum
Big Dataシステムの状況
64
 HDFSは50%が使用中(含む予定)、MongoDBが健闘
 商用の分析・意思決定製品との連携は進んでおらず、Rが健闘
 Kerberos, Knoxは使われていない。セキュリティ対策が進んでいないことが伺える
Copyright 2016 Japan OSS Promotion Forum 65
Hadoopエコシステムの利用状況
0
2
4
6
8
10
12
14
16
18
20
Nutch
Sqoop
Talend
Fluentd
Flume
Storm
SparkStreaming
HadoopHDFS
Ceph
GlusterFS
Swift
MongoDB
MR
MR2/YARN
Spark
Hive
Tez
Impala
HBase
Drill
Pig
Solr
Cassandra
Mahout
R
Pentaho
JasperReport
MLlib
QlickView
Tableau
Spark
SAS
IBMSPSS
Teradata
Ambari
Zookeeper
ClouderaManager
Kerberos
Knox
Oozie
収集・検知・ETL 蓄積・クエリ・その他 分析・意思決定 運用・監視
Hadoop Ecosystemの利用状況
Copyright 2016 Japan OSS Promotion Forum
ビッグデータシステムの使用状況・計画
66
 拡大を検討・実施中、実システム運用中は3割程度、時期未定・予定なしが
半数以上
 一方PoC実施中、1年以内も16% →導入のスピードは期待程、高くない?
 37%がApacheを使用、ディストリビュータの無償版も含めるとサポートなし
で使用しているユーザが相当数と思われる
 クラウド上での拡張、展開を考えているユーザが半分以上
 クラウドとオンプレミスのハイブリッドでの利用はゼロ
 Hadoopのノード数は最大で30ノード、5ノード以下が半数
Copyright 2016 Japan OSS Promotion Forum 67
Hadoopシステムの現状
31%
0%
23%
46%
クラウド上でのHadoop利用について
クラウドのみ オンプレとのハイブリッド 今後予定 なし
37%
30%
9%
18%
0%3%
3% 0%
Hadoop Distribution
Apache Cloudera Hortonworks MapR
Oracle BDA Pivotal HD IBM その他
Copyright 2016 Japan OSS Promotion Forum
ビッグデータシステム構築の課題
68
 導入効果の明確化と必要性の認識なしを合わせると半数近い
→どのように使えば効果があるのかが明確になっていない状況
Copyright 2016 Japan OSS Promotion Forum
現状の考察および今後の期待
69
 Big Dataの目的・投資効果が明確になっていないため、コストをかけないで何ができ
るのかを模索中のユーザが多いことが推察される
 Hadoopが誕生して10年経過したが、使用ディストリビューションのトップがApache
37%でトップであったことを考えると、商用利用を目的として使用している人は少ない
 提供サイドはDataレイクということで、「データを捨てないでHadoopに入れておきま
しょう」とのメッセージを発信したが、アンケート結果から判断するとエンドユーザに響い
ていないと考えられる
 Big Dataの入れ物としてHadoopを位置づけているが、Big Dataの利用を広げる
にはキラーアプリの出現がポイント
→Big DataとIoT、AIと言った話題も出てきており、Big Dataと具体的な利用ケー
ス(IoT、AIなど)という観点が必要と考えられる
Copyright 2016 Japan OSS Promotion Forum
考察
70
付録
Copyright 2016 Japan OSS Promotion Forum 71
Copyright 2016 Japan OSS Promotion Forum
公式サイト
区分 ソフトウェア 公式サイト
クローラ Apache ManifoldCF http://manifoldcf.apache.org/
Apache Nutch http://nutch.apache.org/
データロード Apache Sqoop http://sqoop.apache.org/
Talend https://www.talend.com/
収集 Apache Flume https://flume.apache.org/
Apache Kafka http://kafka.apache.org/
Fluentd http://www.fluentd.org/
CEP Apache Storm http://storm.apache.org/
Apache S4 http://incubator.apache.org/s4/
Jubatus http://jubat.us/
Esper http://www.espertech.com/products/esper.php
Drools Fusion http://www.drools.org/
Apache Spark Streaming http://spark.apache.org/streaming/
並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/
Apache Hadoop MapReduce http://hadoop.apache.org/
Apache Hadoop YARN http://hadoop.apache.org/
Apache Mesos http://mesos.apache.org/
Apache Spark http://spark.apache.org/
Apache Tez https://tez.apache.org/
データ蓄積
ファイルシステム
Apache Hadoop HDFS http://hadoop.apache.org/
Ceph http://ceph.com/
GlusterFS http://www.gluster.org/
Lustre http://lustre.org/
準リアルタイムクエリ Apache Drill https://drill.apache.org/
Apache Hive https://hive.apache.org/
Apache Spark SQL http://spark.apache.org/sql/
Impala http://impala.io/
インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/
Apache HBase http://hbase.apache.org/
Infinispan http://infinispan.org/
MongoDB https://www.mongodb.org/
Redis http://redis.io/
Riak http://docs.basho.com/
全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch
機械学習 Apache Spark MLib http://spark.apache.org/mllib/
統計解析 R https://www.r-project.org/
BI・BAツール JasperReports http://community.jaspersoft.com/
Pentaho http://community.pentaho.com/
インメモリDB VoltDB https://voltdb.com/
72
区分 ソフトウェア オープンソースライセンス
クローラ Apache ManifoldCF Apache License 2.0
Apache Nutch Apache License 2.0
データロード Apache Sqoop Apache License 2.0
Talend Apache License 2.0
収集 Apache Flume Apache License 2.0
Apache Kafka Apache License 2.0
Fluentd Apache License 2.0
CEP Apache Storm Apache License 2.0
Apache S4 Apache License 2.0
Jubatus GNU Lesser General Public License v2.1
Esper GNU General Public License v2
Drools Fusion Apache License 2.0
Apache Spark Streaming Apache License 2.0
並列分散処理 Apache Hadoop Common Apache License 2.0
Apache Hadoop MapReduce Apache License 2.0
Apache Hadoop YARN Apache License 2.0
Apache Mesos Apache License 2.0
Apache Spark Apache License 2.0
Apache Tez Apache License 2.0
データ蓄積
ファイルシステム
Apache Hadoop HDFS Apache License 2.0
Ceph GNU Lesser General Public License v2.1
GlusterFS GNU General Public License v3
Lustre GNU General Public License v2
準リアルタイムクエリ Apache Drill Apache License 2.0
Apache Hive Apache License 2.0
Apache Spark SQL Apache License 2.0
Impala Apache License 2.0
インメモリDG/分散KVS Apache Cassandra Apache License 2.0
Apache HBase Apache License 2.0
Infinispan Apache License 2.0
MongoDB GNU Affero General Public License v3
Redis BSD License
Riak Apache License 2.0
全文検索エンジン Elasticsearch Apache License 2.0
機械学習 Apache Spark MLib Apache License 2.0
統計解析 R GNU General Public License
BI・BAツール JasperReports GNU Lesser General Public License
Pentaho Apache License 2.0
インメモリDB VoltDB GNU General Public License v3
Copyright 2016 Japan OSS Promotion Forum
オープンソースライセンス
73
区分 ソフトウェア 開発者向けメーリングリスト
クローラ Apache ManifoldCF dev@manifoldcf.apache.org
Apache Nutch dev@nutch.apache.org
データロード Apache Sqoop dev@sqoop.apache.org
Talend -
収集 Apache Flume dev@flume.apache.org
Apache Kafka dev@kafka.apache.org
Fluentd ※Google groupsを利用
CEP Apache Storm dev@storm.apache.org
Apache S4 s4-dev@incubator.apache.org
Jubatus ※Google groupsを利用
Esper dev@esper.codehaus.org (未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common common-dev@hadoop.apache.org
Apache Hadoop MapReduce mapreduce-dev@hadoop.apache.org
Apache Hadoop YARN yarn-dev@hadoop.apache.org
Apache Mesos dev@mesos.apache.org
Apache Spark dev@spark.apache.org
Apache Tez dev@tez.apache.org
データ蓄積
ファイルシステム
Apache Hadoop HDFS hdfs-dev@hadoop.apache.org
Ceph ceph-devel@vger.kernel.org
GlusterFS gluster-devel@gluster.org
Lustre lustre-devel@lists.lustre.org
準リアルタイムクエリ Apache Drill dev@drill.apache.org
Apache Hive dev@hive.apache.org
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra dev@cassandra.apache.org
Apache HBase dev@hbase.apache.org
Infinispan infinispan-dev@lists.jboss.org
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak ※利用者向けメーリングリストのみ
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R r-devel@r-project.org
BI・BAツール JasperReports -
Pentaho -
インメモリDB VoltDB -
Copyright 2016 Japan OSS Promotion Forum
開発者向けメーリングリスト
74
区分 ソフトウェア 利用者向けメーリングリスト
クローラ Apache ManifoldCF user@manifoldcf.apache.org
Apache Nutch user@nutch.apache.org
データロード Apache Sqoop user@sqoop.apache.org
Talend -
収集 Apache Flume user@flume.apache.org
Apache Kafka users@kafka.apache.org
Fluentd ※Google groupsを利用
CEP Apache Storm user@storm.apache.org
Apache S4 s4-user@incubator.apache.org
Jubatus ※Google groupsを利用
Esper user@esper.codehaus.org (未集計)
Drools Fusion ※Google groupsを利用
Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ
並列分散処理 Apache Hadoop Common user@hadoop.apache.org
Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ
Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ
Apache Mesos user@mesos.apache.org
Apache Spark user@spark.apache.org
Apache Tez user@tez.apache.org
データ蓄積
ファイルシステム
Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ
Ceph ceph-user@lists.ceph.com
GlusterFS gluster-users@gluster.org
Lustre lustre-discuss@lists.lustre.org
準リアルタイムクエリ Apache Drill user@drill.apache.org
Apache Hive user@hive.apache.org
Apache Spark SQL ※Apache Sparkのメーリングリストと同じ
Impala ※Google groupsを利用
インメモリDG/分散KVS Apache Cassandra user@cassandra.apache.org
Apache HBase user@hbase.apache.org
Infinispan ※開発者向けメーリングリストのみ
MongoDB ※Google groupsを利用
Redis ※Google groupsを利用
Riak riak-users@lists.basho.com
全文検索エンジン Elasticsearch ※Google groupsを利用
機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ
統計解析 R ?(r-help@r-project.org と考える?)
BI・BAツール JasperReports -
Pentaho ※Google groupsを利用
インメモリDB VoltDB -
Copyright 2016 Japan OSS Promotion Forum
利用者向けメーリングリスト
75
区分 ソフトウェア 利用しているソースコードリポジトリサービス
クローラ Apache ManifoldCF GitHub(apache/manifoldcf)
Apache Nutch GitHub(apache/nutch)
データロード Apache Sqoop GitHub(apache/sqoop)
Apache Kafka GitHub(apache/kafka)
Talend -
収集 Apache Flume GitHub(apache/flume)
Fluentd GitHub(fluent/fluentd)
CEP Apache Storm GitHub(apache/storm)
Apache S4 GitHub(apache/incubator-s4)
Jubatus GitHub(jubatus/jubatus)
Esper GitHub(espertechnic/esper)
Drools Fusion GitHub(droolsjbpm/drools)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common)
Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce)
Apache Hadoop YARN -
Apache Mesos GitHub(apache/mesos)
Apache Spark GitHub(apache/spark)
Apache Tez GitHub(apache/tez)
データ蓄積
ファイルシステム
Apache Hadoop HDFS GitHub(apache/hadoop-hdfs)
Ceph GitHub(ceph/ceph)
GlusterFS GitHub(gluster/glusterfs)
Lustre -
準リアルタイムクエリ Apache Drill GitHub(apache/drill)
Apache Hive GitHub(apache/hive)
Apache Spark SQL ※Apache Sparkと同じ
Impala GitHub(cloudera/impala)
インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra)
Apache HBase GitHub(apache/hbase)
Infinispan GitHub(infinispan/infinispan)
MongoDB -
Redis GitHub(antirez/redis)
Riak GitHub(basho/riak)
全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch)
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports -
Pentaho GitHub(pentaho/pentaho-platform)
インメモリDB VoltDB GitHub(VoltDB/voltdb)
Copyright 2016 Japan OSS Promotion Forum
ソースコードリポジトリサービス
76
Copyright 2016 Japan OSS Promotion Forum
Twitterアカウント
区分 ソフトウェア Twitterアカウント
クローラ Apache ManifoldCF @ApacheManifold
Apache Nutch @ApacheNutch
データロード Apache Sqoop @sqoopit
Talend @Talend
収集 Apache Flume -
Apache Kafka @apachekafka
Fluentd @fluentd
CEP Apache Storm @ApacheStorm
Apache S4 -
Jubatus @JubatusOfficial
Esper -
Drools Fusion -
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common @hadoop
Apache Hadoop MapReduce ※Apache Hadoopと同じ
Apache Hadoop YARN ※Apache Hadoopと同じ
Apache Mesos @Apache Mesos
Apache Spark @ApacheSpark
Apache Tez @ApacheTez
データ蓄積
ファイルシステム
Apache Hadoop HDFS ※Apache Hadoopと同じ
Ceph @Ceph
GlusterFS @glusterfs
Lustre -
準リアルタイムクエリ Apache Drill @ApacheDrill
Apache Hive @ApacheHive
Apache Spark SQL ※Apache Sparkと同じ
Impala -
インメモリDG/分散KVS Apache Cassandra @Cassandra
Apache HBase @Hbase
Infinispan @infinispan
MongoDB @MongoDB
Redis @redisfeed
Riak -
全文検索エンジン Elasticsearch @Elasticsearch
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R -
BI・BAツール JasperReports @jasperreports
Pentaho @Pentaho
インメモリDB VoltDB @VoltDB
77
区分 ソフトウェア Issue Tracker
クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS)
Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH)
データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP)
Talend -
収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME)
Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA)
Fluentd GitHub(https://github.com/fluent/fluentd/issues)
CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM)
Apache S4 -
Jubatus GitHub(https://github.com/jubatus/jubatus/issues)
Esper -
Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS)
Apache Spark Streaming ※Apache Sparkと同じ
並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP)
Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE)
Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN)
Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS)
Apache Spark JIRA(https://issues.apache.org/jira/browse/spark)
Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ)
データ蓄積
ファイルシステム
Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS)
Ceph Redmine(http://tracker.ceph.com/projects/ceph)
GlusterFS Bugzilla(https://bugzilla.redhat.com/)
Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa)
準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL)
Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE)
Apache Spark SQL ※Apache Sparkと同じ
Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa)
インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA)
Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE)
Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa)
MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa)
Redis Google Project Hosting(https://code.google.com/p/redis/issues/list)
Riak GitHub(https://github.com/basho/riak/issues)
全文検索エンジン Elasticsearch -
機械学習 Apache Spark MLib ※Apache Sparkと同じ
統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/)
BI・BAツール JasperReports -
Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa)
インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM)
Copyright 2016 Japan OSS Promotion Forum
Issue Tracker
78
区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供
クローラ Apache ManifoldCF - ○ ○ -
Apache Nutch - - - -
データロード Apache Sqoop - ○ △ △
Talend ○ - ○ ○
収集 Apache Flume - ○ △ △
Apache Kafka - ○ - ○
Fluentd - ○ - -
CEP Apache Storm - ○ - △
Apache S4 - - - -
Jubatus - - - ○
Esper ○ - - -
Drools Fusion ○ - - -
Apache Spark Streaming - ○ △ △
並列分散処理 Apache Hadoop Common ○ ○ ○ ○
Apache Hadoop MapReduce ○ ○ △ ○
Apache Hadoop YARN ○ ○ △ △
Apache Mesos - - - ○
Apache Spark - ○ ○ ○
Apache Tez - ○ - -
データ蓄積
ファイルシステム
Apache Hadoop HDFS ○ ○ △ △
Ceph ○ ○ △ -
GlusterFS ○ ○ ○ -
Lustre - - - ○
準リアルタイムクエリ Apache Drill ○ ○ - △
Apache Hive - ○ ○ △
Apache Spark SQL - ○ △ △
Impala - ○ ○ △
インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○
Apache HBase - ○ ○ ○
Infinispan ○ - - -
MongoDB ○ ○ ○ ○
Redis - - ○ ○
Riak ○ - - ○
全文検索エンジン Elasticsearch - ○ ○ ○
機械学習 Apache Spark MLib - ○ - △
統計解析 R ○ ○ ○ ○
BI・BAツール JasperReports ○ ○ ○ ○
Pentaho ○ ○ ○ ○
インメモリDB VoltDB - - - -
Copyright 2016 Japan OSS Promotion Forum
国内でのサービス提供状況
79
 該当ソフトウェアの3/4はApache License 2.0を採用
 Apache Software Foundation管理のソフトウェアが多い事も理由の一つ
 今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大)
Copyright 2016 Japan OSS Promotion Forum
採用しているオープンソースライセンス
Apache License 2.0
73.7%
GNU
General Public License
13.2%
GNU
Lesser General Public License
7.9%
その他
5.3%
80
 最も利用されている言語は「Java」(55.2%)。
 次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。
Copyright 2016 Japan OSS Promotion Forum
どの様なプログラミング言語で開発されているか?
Java
55.2%
C/C++
23.1%
XML
10.0%
Web
3.7%
Python
3.4%
JavaScript
2.8%
CSS
0.8%
Ruby
0.8%
PHP
0.4%
81
Copyright 2016 Japan OSS Promotion Forum
ビッグデータ関連OSS鳥瞰図
ビッグデータ
Nutch
ManifoldCF
クローラ
Sqoop
Talend
Flume
Fluentd
Kafka
データ収集
Storm
S4
Jubatus
Esper
Drools Fusion
SparkStreaming
CEP
Hadoop(HDFS)
Lustre
GlusterFS
Ceph
Elasticsearch
データ蓄積/
分散ファイルシステム
Spark
Hadoop MapReduce
Hadoop YARN
Tez
Mesos
分散処理基盤
Drill
Hive
Impala
SparkSQL
準リアルタイムクエリ
MIT Kerberos
OpenLDAP
セキュリティ
MongoDB
ドキュメント指向DB
InfiniSpan
Cassandra
Redis
Riak
HBase
KVS
Pentaho
Talend
ETL
Pentaho
JasperReports
BA・BI
MySQL
PostgreSQL
RDB
VoltDB
インメモリDB
82
R
MLlib
データ分析

More Related Content

What's hot

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)hamaken
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~NTT DATA OSS Professional Services
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)NTT DATA OSS Professional Services
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTT DATA OSS Professional Services
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-Keigo Suda
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」オラクルエンジニア通信
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】NTT DATA OSS Professional Services
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向 Masanori Itoh
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Ken SASAKI
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組みNTT DATA OSS Professional Services
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係datastaxjp
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Tatsuya Atsumi
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Cloudera Japan
 

What's hot (20)

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
Ansibleで構成管理始める人のモチベーションをあげたい! (Cloudera World Tokyo 2014LT講演資料)
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
Hadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tkHadoop ecosystem NTTDATA osc15tk
Hadoop ecosystem NTTDATA osc15tk
 
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
 
Yahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用についてYahoo! JAPANでのHadoop利用について
Yahoo! JAPANでのHadoop利用について
 
Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~Hadoop ~Yahoo! JAPANの活用について~
Hadoop ~Yahoo! JAPANの活用について~
 
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-基幹業務もHadoopで!! -ローソンにおける店舗発注業務へのHadoop + Hive導入と その取り組みについて-
基幹業務もHadoopで!! -ローソンにおける店舗発注業務への Hadoop + Hive導入と その取り組みについて-
 
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
Cloudera World Tokyo 2015 Oracleセッション資料 「ビッグデータ/IoTの最新事例とHadoop活用の勘所」
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
 
OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向OpenStack, Hadoop -- OSSクラウドの最新動向
OpenStack, Hadoop -- OSSクラウドの最新動向
 
Hadoopの概念と基本的知識
Hadoopの概念と基本的知識Hadoopの概念と基本的知識
Hadoopの概念と基本的知識
 
Apache Sparkの紹介
Apache Sparkの紹介Apache Sparkの紹介
Apache Sparkの紹介
 
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016Pythonで入門するApache Spark at PyCon2016
Pythonで入門するApache Spark at PyCon2016
 
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
Impala + Kudu を用いたデータウェアハウス構築の勘所 (仮)
 
Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)Apache Spark の紹介(前半:Sparkのキホン)
Apache Spark の紹介(前半:Sparkのキホン)
 

Similar to ビッグデータ関連Oss動向調査とニーズ分析

[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...Insight Technology, Inc.
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...Insight Technology, Inc.
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)Kensuke SAEKI
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...Insight Technology, Inc.
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~Kensuke SAEKI
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixMasaya Ishikawa
 
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]オラクルエンジニア通信
 
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~Yuichi Terada
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Hortonworks Japan
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料Takashi Aoe
 
Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方Tadayoshi Sato
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化Nobuyori Takahashi
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんMana Matsudate
 
Drupal business consortiam in Japan:DBCJ 20140909
Drupal business consortiam in Japan:DBCJ  20140909Drupal business consortiam in Japan:DBCJ  20140909
Drupal business consortiam in Japan:DBCJ 20140909Hidekazu Ikeda
 

Similar to ビッグデータ関連Oss動向調査とニーズ分析 (20)

[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
[db tech showcase OSS 2017] A14: IoT時代のデータストア--躍進するNoSQL、拡張するRDB by OSSコンソーシア...
 
Hadoop基盤を知る
Hadoop基盤を知るHadoop基盤を知る
Hadoop基盤を知る
 
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
[db tech showcase Tokyo 2016] B15: サイバーエージェント アドテクスタジオの次世代データ分析基盤紹介 by 株式会社サイ...
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
ビジネスインテリジェンス入門~OSSでBIを始めよう~version2(公開版)
 
Spring Cloud Data Flow の紹介 #streamctjp
Spring Cloud Data Flow の紹介  #streamctjpSpring Cloud Data Flow の紹介  #streamctjp
Spring Cloud Data Flow の紹介 #streamctjp
 
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
 
ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~ビジネスインテリジェンス入門~OSSでBIを始めよう~
ビジネスインテリジェンス入門~OSSでBIを始めよう~
 
DBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - DelphixDBTS2016 Data as Code - Delphix
DBTS2016 Data as Code - Delphix
 
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
成功事例に学べ! これからの時代のビッグデータ活用最新ベストプラクティス [Oracle Cloud Days Tokyo 2016]
 
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~
OSSで「脱下請け」のススメ ~OSC Tokyo 2014/Spring 講演資料~
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
OSS Market Momentum In Japan
OSS Market Momentum In JapanOSS Market Momentum In Japan
OSS Market Momentum In Japan
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料鹿駆動勉強会 青江発表資料
鹿駆動勉強会 青江発表資料
 
Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方Red Hat の日本でできるグローバルな働き方
Red Hat の日本でできるグローバルな働き方
 
OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化OSSとクラウドによるコンピューティングモデルの変化
OSSとクラウドによるコンピューティングモデルの変化
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
 
HPE×SUSE協業ソリューション
HPE×SUSE協業ソリューションHPE×SUSE協業ソリューション
HPE×SUSE協業ソリューション
 
Drupal business consortiam in Japan:DBCJ 20140909
Drupal business consortiam in Japan:DBCJ  20140909Drupal business consortiam in Japan:DBCJ  20140909
Drupal business consortiam in Japan:DBCJ 20140909
 

ビッグデータ関連Oss動向調査とニーズ分析

  • 2. 0 自己紹介 1 【経歴】  入社当時は、金融端末のソフトウェア開発に従事。  2000年頃より、Linux/OSSのビジネス開発を担当。  2012年より、オープンソース専門組織に所属。 【現在の業務】  OSSを活用したビジネス構築のための支援 • 新しい技術/OSSの発掘・評価検証 • ビジネス・ソリューションの立ち上げ支援 • 現在特にフォーカスしている領域: クラウド基盤(OpenStack, Spark)、 ビッグデータ(Hadoop、NoSQL)、 Enterprise(PostgreSQL, OpenCOBOL) 【社外活動】  日本OSS推進フォーラム 副理事長 兼 ビッグデータ部会長  オープンソースライセンス研究所 理事  OSSコンソーシアム 副会長 兼 クラウド部会リーダ  OBCI(オープンソースビジネス推進協議会) 理事 他
  • 5. 1. 日本OSS推進フォーラムのご紹介 2. ビッグデータ部会の活動について 3. ビッグデータ関連OSS動向調査 4. ニーズ分析 5. 付録 Copyright 2016 Japan OSS Promotion Forum 目次 4
  • 7. 6 1-1.フォーラム活動目標  課題 IT利活用による企業競争力強化の中、ITの中心となるソフトウェアはOSSを外しては考えら れなくなっている。 会員のOSS利活用を、経済産業省をはじめとする官学や、他団体・コミュニティと連携しなが ら推進する。  目標 OSSというソフトウェアパラダイムを会員が活用できるための、以下の情報交換・課題共有を 実現し、日本発のOSSを含むOSS利活用を推進し、会員の競争力強化を図る。  OSS利用技術の普及  OSS活用事例の研究  OSS人材育成のためのセミナー開催  グローバル活動 会員の下記活動を支援するために、日中韓活動に加えASEANの人材育成を切り口に ASEAN諸国との交流を深めていく。  日系企業の海外展開向けシステムインテグレーション活動  各国ソフトウェア開発力の活用(オフショアなど)  各国プロジェクトへの参画と現地企業とのビジネス交流  各国のへのOSSを含むソフト製品拡販 Copyright 2016 Japan OSS Promotion Forum
  • 8. 1-2.2015年度活動目標 Copyright 2016 Japan OSS Promotion Forum 7 日本企業がIT利活用で課題となる、「モバイル」「クラウド」「ビッグデータ」「ソーシャル技術」の分野 を中心に活動。 モバイル・ソーシャル技術 ITシステムの環境が変化してきており、システムの課題は、コンピュータ中心の課題から、モバイルまで含めた システム全体でのモバイル・ソーシャル技術活用に変化してきている。 アプリケーション部会 サーバ上のアプリからモバイル・ロボット等の組込アプリまでを推進する。 クラウド・ビッグデータ 2015年度はOSSクラウドが台頭し、クラウド基盤領域が競争領域から協調領域に変化してきた中で、クラ ウド基盤部分と上位層のビッグデータ部分で活動範囲が広まり、両者を分割して2部会で対応していく。 クラウド技術部会 クラウド基盤部分を中心に活動を推進する。 ビッグデータ部会 ビッグデータ部分を中心に活動を推進する。 グローバルでのOSS利用技術について、中韓だけでなくASEANまで広げる活動を再チャレンジする。 北東アジアOSS推進フォーラム 日中韓の活動は2004年から活動し多くの成果を出してきたが、今年は日本で大会を開催するため、OSS 分野で進化してきた中韓の技術者との交流深化を目指す。 ASEANでのOSS人材育成 既に海外に進出してきた企業も、グローバル企業で見られる「グローバルに統一された標準システム」に移行 のため、グローバルなITシステム運用において、ソフトウェア技術の一端を担うOSSの技術者育成が課題に なってくると想定される。 更なるビジネス拡大が予想されるASEANを対象に、OSS人材育成活動として国家プロジェクトに参画する 方向を目指す。
  • 9. 1-3.日本OSS推進フォーラム体制図(2015年度) Copyright 2016 Japan OSS Promotion Forum 理事会 理事長: 吉田 正敏 (富士通株式会社) 副理事長: 高橋 千恵子 (日本電気株式会社) 吉田 行男 (株式会社日立ソリューションズ) 理事: 大木 一浩 (日本電気株式会社) 片瀬 成識 (東京ガス株式会社) 黒坂 肇 (サイオステクノロジー株式会社) 野山 孝太郎 (富士通株式会社) 橋本 尚 (株式会社日立製作所) 三浦 広志 (株式会社NTTデータ) 事務局長 黒田知幸 (株式会社パンテル・インターナショナル) グローバル関連WG部会 クラウド技術 部会 総会 部会長: 高橋(NEC) 副部会長 黒坂(SIOS) ビッグデータ 部会 部会長: 吉田(日立Sol) アプリケーション 部会 部会長: 吉田(富士通) 副部会長 片瀬(東京ガス) 理事会 技術開発・ 評価 WG 主査: 鈴木(日立) 主査: 野山(富士通) 主査: 大木(NEC) 適用推進 WG 標準化・ 認証研究 WG ASEAN OSS人材育成活動 北東アジアOSS推進フォーラム WG1,WG2,WG3,WG4 連 携 国内外のOSS関連団体 連 携 連 携 8
  • 10. 1-4.会員一覧(2016年度初)① 株式会社HTKエンジニアリング 株式会社SRA サイオステクノロジー株式会社 新日鉄住金ソリューションズ株式会社 株式会社中電シーティーアイ 東京ガス株式会社 株式会社東芝 トレジャーデータ株式会社 日本オラクル株式会社 日本電気株式会社 日本マイクロソフト株式会社 日本ユニシス株式会社 正会員 23社 特別会員 8団体 特定非営利活動法人エルピーアイジャパン 慶応義塾大学 国立研究開発法人産業技術総合研究所 一般社団法人情報サービス産業協会 独立行政法人情報処理推進機構 東京大学 一般社団法人日本情報システム・ユーザー協会 The Linux Foundation Copyright 2016 Japan OSS Promotion Forum 全会員 86社・団体・個人 ノベル株式会社 パナソニック株式会社 株式会社PFU 株式会社日立製作所 株式会社日立ソリューションズ 富士通株式会社 株式会社 富士通アドバンストエンジニアリング 株式会社 富士通ソーシアルサイエンスラボラトリ ブラック・ダック・ソフトウェア株式会社 レッドハット株式会社 WANdisco 2015年度正会員入会(2社) 株式会社東芝 日本マイクロソフト株式会社 9
  • 11. 一般会員 56団体・個人 ICTラボラトリーズ株式会社 株式会社アグトラスト 株式会社アシスト 株式会社アピリッツ 株式会社アルファシステムズ アルプスシステムインテグレーション株式会社 アースインターシステムズ株式会社 株式会社イーサー 伊藤忠テクノソリューションズ株式会社 インプレサリオ株式会社 株式会社ヴァインカーブ 株式会社ヴィクサス 株式会社ウィップス ウチダスペクトラム株式会社 エイチアールワン株式会社 株式会社エヌ・ティ・ティ・データ エヌ・ティ・ティ・データ先端技術株式会社 株式会社エルエスアイ開発研究所 特定非営利活動法人オーユージー 特定非営利活動法人オープンソースソフトウェア・シティ 株式会社キーポート・ソリューションズ キヤノンITソリューションズ株式会社 株式会社クリアコード 株式会社KDDI研究所 株式会社国際開発センター コニカミノルタビジネスソリューションズ株式会社 株式会社シーイーシー jHako開発チーム 住友電気工業株式会社 ターボリナックス株式会社 TIS株式会社 株式会社テクノプロジェクト 東芝デジタルメディアエンジニアリング株式会社 日本アイ・ビー・エム株式会社 一般財団法人ニューメディア開発協会 株式会社ネオシステム 株式会社野村総合研究所 パイオニア株式会社 財団法人ハイパーネットワーク社会研究所 株式会社パンテル・インターナショナル 株式会社フェデルメンテ 富士通エフ・アイ・ピー株式会社 富士通関西中部ネットテック株式会社 株式会社富士通システムズ・イースト 株式会社富士通ビー・エス・シー Profit Cube Inc. 株式会社マインド 株式会社三菱総合研究所 三菱電機インフォメーションシステムズ株式会社 ミラクル・リナックス株式会社 ミランティス・ジャパン合同会社 ユニアデックス株式会社 琉球ソフトビジネス支援センター (個人会員) 長濱 みほ 橋本 明彦 Copyright 2016 Japan OSS Promotion Forum 2015年度一般会員入会(9社) ICTラボラトリーズ株式会社 株式会社キーポート・ソリューションズ コニカミノルタビジネスソリューションズ株式会社 伊藤忠テクノソリューションズ株式会社 jHako開発チーム 日本サード・パーティ株式会社 Profit Cube Inc. ミランティス・ジャパン合同会社 株式会社エヌ・ティ・ティ・データ 正会員から移動 10 1-4.会員一覧(2016年度初)②
  • 12.  目的 近年ビッグデータOSSはSparkやHadoopといったキーワードをもとに一定の盛り上 がりをみせているが、連携製品の乱立による選択の複雑化、大規模システム構築に おける導入障壁の高さ、導入効果の不明確さなどで国内における導入の進み具合 は芳しくない。そこでビッグデータOSSの普及・推進を行うための一旦として「ビッグデー タ関連OSS動向調査」、「ニーズ分析」を行った。  概要  ビッグデータ関連OSS動向調査 ビッグデータシステムに使われるOSSを洗い出し、それぞれがどのような状況で あるか、いくつかの観点をもとに調査し、「今使えるビッグデータOSSは何か?」 を分析した。  ニーズ分析 ビッグデータ関連OSSに興味をお持ちの方を対象にセミナーを実施(2015年 12月14日開催)し、そこでのアンケートにより、ビッグデータOSSの商用導入に おける現状のニーズ・課題を調査した。 Copyright 2016 Japan OSS Promotion Forum 2.ビッグデータ部会の活動 11
  • 13.  市場概況  2015 年度の国内のビッグデータ関連投資規模は 535億円と推計  ユーザー企業のビッグデータへの取り組み状況: 「業務に取り込み済み(2.4%)」、「試験的に運用中(1.7%)」合計で 4.1%  ビッグデータは IoT、AI などの進展とともに急速に発展  今後の展望  2016~2017年頃:サービス基盤の低廉化  格安 MVNOの普及。IoT サービス基盤の低廉化。AI 技術は主に金融分野を中心に進展。  2018~2020年頃:新たな技術の実用化  次世代のメモリ、低消費電力ネットワーク、MEMSセンサーが実用化。  2020~2025年頃:応用分野の広がり  遺伝子情報を活用した先制医療、自動運転走行  2025~2030年頃:産業適用のさらなる進展  製造業のスマートファクトリー(産業ロボットの活用などによる工場の自動化) ビッグデータビジネスの現状 Copyright 2016 Japan OSS Promotion Forum 12 (出典:矢野経済研究所、2016年の「ビッグデータ市場に関する調査結果 」)
  • 15.  主に、様々なデータを「収集・検知」する機能、収集・検知したデータを「蓄積・貯蔵」 する機能、蓄積・貯蔵したデータを「分析」する機能から構成される Copyright 2016 Japan OSS Promotion Forum ビッグデータ基盤を構成する機能 データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre データ蓄積ファイルシステム MIT Kerberos OpenLDAP セキュリティ/認証 MLib 機械学習 R言語 統計解析 Hinemos Zabbix 運用管理/監視 Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak 運用管理/監視 クローラ データロード 収集 CEP Complex Event Processing データ蓄積 ファイルシステム 並列分散処理 データロード 機械学習 統計解析 BI/BAツール 定型業務DB インメモリDB DWH/マートレスDBインメモリDG/分散KVS セキュリティ/認証 準リアルタイムクエリ 14
  • 16.  ビッグデータ基盤をオープンソースをベースとして構成する事は十分に可能  ただし、個々のソフトウェアにおいて品質や成熟度が異なる為、見極めが必要 Copyright 2016 Japan OSS Promotion Forum ビッグデータ基盤を構成する機能へのソフトウェアマッピング データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Apache Kafka Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre ElasticSearch データ蓄積ファイルシステム MLib 機械学習 R言語 統計解析 Pentaho JasperReports BI/BAツール Hinemos Zabbix 運用管理/監視 MySQL PostgreSQL 定型業務RDB ※OSSで著名なもの はない DWH/マートレスDB Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード VoltDB インメモリDB Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak インメモリDG/分散KVS MIT Kerberos OpenLDAP セキュリティ/認証 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ 15
  • 17. Copyright 2016 Japan OSS Promotion Forum 動向把握のための調査項目 16 洗い出したビッグデータ関連OSSに対して、動向を把握するため以下の観点で調査を実 施  開発の活発度 コミッター数、コミット数、開発者向けメーリングリスト数  利用の活性度 利用者向けメーリングリスト数、書籍数、GitHubのスター数、Twitterのフォロアー数、 商用版・有償サポートの有無、利用実績  ソフトウェアの品質 バグ解決率、脆弱性、ソースコード品質(重複率、複雑度)
  • 18.  利用実績  The Linux Foundation SI Forumの2015年度活用動向調査をもとに実施  商用版の有無  商用版の定義:コミュニティ版に対して、独自のパッチやツールを追加したもの。サポートも 含む。  「OSS名 商用」あるいは「OSS名 エンタープライズ」でgoogle検索。上位100件につい て調査  有償サポートの有無  サポートの定義としてはコミュニティ版についてQA対応、障害調査、性能調査などを有償に て提供しているもの  「OSS名 サポート」でgoogle検索。上位100位について調査。 ※商用版の有無、有償サポートの有無の調査においては2016/1/5~1/11に実施し た結果です。また別名として提供しているものを含みます。 ex. PostgreSQL ⇒ 商用 PowerGres Copyright 2016 Japan OSS Promotion Forum 17 動向調査における前提条件
  • 19. Copyright 2016 Japan OSS Promotion Forum 開発の活性度 そのソフトウェアは活発に開発されていますか? 18
  • 20.  Apache Sparkが2014年頃から急成長 Copyright 2016 Japan OSS Promotion Forum コミッター数の推移(月ごと) Apache Spark Talend 19
  • 21.  年平均成長率ではApache Drillがトップ  Apache Sparkの他、Apache Mesosも急激に増加 Copyright 2016 Japan OSS Promotion Forum コミッター数の年平均成長率(2011年から2015年) 20
  • 22.  Apache Sparkが2014年から急成長  13年:27.8 → 14年:72.1 → 15年:114.7 Copyright 2016 Japan OSS Promotion Forum 月平均コミッター数(2015年) 21
  • 23. Copyright 2016 Japan OSS Promotion Forum 月平均コミッター数(横軸)と年平均成長率(縦軸) 開発者の数も多く ますます増加中 開発者の数は まだまだ少ないが 急増中 22 ※軸中の縦横の赤線は平均値であり、 他の2軸分析においても同様
  • 24.  Elasticsearchの開発が活性化  コミッター数の増加に比例してApache Sparkの開発も活発 Copyright 2016 Japan OSS Promotion Forum コミット数の推移 Apache Spark Elasticsearch 23
  • 25.  Elasticsearchの開発が活性化  コミッター数の増加に比例してApache Sparkの開発も活発 Copyright 2016 Japan OSS Promotion Forum 月平均コミット数(2015年) 24
  • 26. Copyright 2016 Japan OSS Promotion Forum コミッター数(縦軸)とコミット数(横軸)の相関 開発者の数は 比較的少ないが 開発は非常に活性 開発者の数も多く 開発も活発 25
  • 28. Copyright 2016 Japan OSS Promotion Forum 月平均コミット数(横軸)と稼働率(縦軸)の関係 稼働率はあまり高くないが 開発は活発 (一気にやるタイプ) 稼働率が高く 開発も活発 (コツコツやるタイプ) 27
  • 29.  2006年~2009年にかけてApache Hadoopの議論が活性化  最近はApache HiveやApache Storm、Apache Kafkaの議論が活発 Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリストの流量推移 Apache Hive Apache Hadoop Apache Storm Apache Kafka 28
  • 30.  Apache KafkaやApache Stormの議論が活性化  Apache Hiveは2014年をピークとして2015年は落ち着いている模様 Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリストの月平均流量(2015年) 開発は活性化しているが メーリングリストベースの議論は あまり多くない 29
  • 31. Copyright 2016 Japan OSS Promotion Forum コミット数(横軸)とメールでの議論量(縦軸)の関係 議論よりも実践 実践よりも まずは議論 30
  • 34. Copyright 2016 Japan OSS Promotion Forum Top1(横軸)とTop1~5(縦軸)の関係 主導型開発少人数先導型開発 コミュニティ型開発 開発が活性化しているプロジェクトは コミュニティ型開発が多い (やはりコミュニティは大事!) 33
  • 35. Copyright 2016 Japan OSS Promotion Forum 利用の活性度 そのソフトウェアは皆に利用されていますか? 34
  • 36.  利用者メーリングリストでもApache Sparkが圧倒的に活発 Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリストの流量推移 Apache Spark Apache Casandra Apache Hadoop Common 35
  • 37.  利用者メーリングリストでもApache Sparkが圧倒的に活発 Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリストの月平均流量(2015年) 36
  • 38. Copyright 2016 Japan OSS Promotion Forum 開発者(横軸)/利用者(縦軸)メール流量の関係 開発者の議論が活発 利用者の議論が活発 ※Apache Sparkの場合 開発自体は非常に活発だが メールベースの議論は少なめ 37
  • 39.  Rは言語系や統計系の観点で書籍多数(450冊、グラフからは削除)  次いでApache Hadoop、MongoDBなどメジャーなソフトウェアが続く Copyright 2016 Japan OSS Promotion Forum 書籍数(日本語) 38
  • 42.  Twitterアカウントの開設時期にも寄るがMongoDBが圧倒的に多数  次いでApache Cassandra、Apache Hadoopが人気 Copyright 2016 Japan OSS Promotion Forum Twitterのフォロアー数 41
  • 43.  国内で有償版または有償サポートが提供されているソフトウェアは赤字  ビッグデータ基盤を有償サポート付きOSSで実現することは充分に可能  Jubatusなどクラウドでサービス提供されているソフトウェアもあり Copyright 2016 Japan OSS Promotion Forum 有償サポートの有無 データソース データ収集・検知 ビッグデータ蓄積・貯蔵・その他 高速化キャッシュ/スケールアウト データ分析 分析用データ 解析ツール Apache Hadoop MapReduce Apache Hadoop YARN Apache Mesos Apache Spark Apache Tez 並列分散処理 Apache ManifoldCF Apache Nutch クローラ Apache Sqoop Talend データロード Apache Flume Apache Kafka Fluentd 収集 Apache S4 Apache Spark Streaming Apache Storm Esper Drools Fusion Jubatus CEP Apache Hadoop HDFS Ceph GlusterFS Lustre データ蓄積ファイルシステム MLib 機械学習 R言語 統計解析 Pentaho JasperReports SAS MicroStorategy BI/BAツール Hinemos Zabbix 運用管理/監視 MySQL PostgreSQL 定型業務RDB ※OSSで著名なもの はない DWH/マートレスDB Webデータ 売上情報など センサデータ システムログ 音声 画像 構造化データ (業務RDB) 非構造化データ Apache Sqoop データロード VoltDB インメモリDB Apache Cassandra MongoDB Apache Hbase Redis Infinispan Riak インメモリDG/分散KVS ElasticSearch 全文検索エンジン MIT Kerberos OpenLDAP セキュリティ/認証 Apache Drill Apache Hive Apache Spark SQL Impala 準リアルタイムクエリ 42
  • 44.  The Linux Foundation SI Forumの2015年度活用動向調査より  全体的に拡大傾向にはあるが、本格的な導入はまだまだこれからという印象 Copyright 2016 Japan OSS Promotion Forum 利用実績 導入実績多数 Apache Hadoop, GlusterFS, MongoDB, JasperReports 導入実績あり Talend, Fluentd, Jubatus, Apache Spark, Ceph, R, Lustre, Apache Cassandra, Apache HBase, Redis, Elasticsearch, Pentaho 検証実績あり VoltDB 導入/検証 実績なし 上記以外(という少し残念な結果) 43
  • 45. Copyright 2016 Japan OSS Promotion Forum ソフトウェアの品質 そのソフトウェアは安心して利用できますか? 44
  • 46.  Apache ManifoldCF、GlusterFS、Rなどでバグの解決率が高い  もっとも低いApache Stormにおいても6割のバグは解決済み Copyright 2016 Japan OSS Promotion Forum バグ解決率(全体) 45
  • 47.  重要バグの解決率に限定すると約8割以上は解決済み  こちらもApache ManifoldCFは解決率が非常に高い Copyright 2016 Japan OSS Promotion Forum バグ解決率(重要※Blocker/Criticalレベル) 46
  • 48. Copyright 2016 Japan OSS Promotion Forum コミット数(横軸)と重要バグ解決率(縦軸)の関係 開発も活発に行われており 重要バグ解決率も高め 開発も活発ではないが 重要バグ解決率は高め (≒安定) 重要バグ解決率がやや低く 開発も非活性 (要ウォッチ) 47
  • 49.  全体的に脆弱性の検出は少ない  一番多いJasperReportsでも11年トータルで10件、次いでMongoDBの7件 Copyright 2016 Japan OSS Promotion Forum 脆弱性(2006年から2016年) MongoDB JasperReports Pentaho 48
  • 50.  SonarQubeのソースコード解析機能で抽出した重複率  Apache S4、Redisなどは重複が少なく良いソースコードの模様 Copyright 2016 Japan OSS Promotion Forum ソースコード品質:重複率 ソースコードの 重複が少ない (≒高品質) 49
  • 51.  SonarQubeのソースコード解析機能で抽出したソースコード全体の複雑度  Apache Hadoop YARN、Apache S4、Jubatusは比較的簡易なロジック Copyright 2016 Japan OSS Promotion Forum ソースコード品質:複雑度 ソースコードの 複雑度が少ない (≒高品質) 50
  • 52.  重複率と複雑度(全体)の間には軽い相関関係がある模様  ただし、Apache Nutchなどを始め、重複は多いが複雑ではないソフトウェアも複数 Copyright 2016 Japan OSS Promotion Forum 重複率(横軸)と複雑度(縦軸)の関係 Riakは外れ値とみなした 51
  • 53. Copyright 2016 Japan OSS Promotion Forum まとめ 52
  • 54.  この様な感じでした Copyright 2016 Japan OSS Promotion Forum ちなみに昨年のまとめは… 53
  • 55. Copyright 2016 Japan OSS Promotion Forum 昨年と同じ軸でまとめてみると… 導入実績多数 導入実績あり 検証実績多数 検証実績あり ランク外 エンタープライズ適用領域 新技術 ウォッチ領域 先行検討/アーリーアダプト領域 昨年「新技術ウォッチ領域」であったVoltDB、 Apache Sparkは順調に成長 Apache Sparkは一気に「エンタープライズ適用領域へ」 54
  • 56.  ビッグデータ基盤をオープンソースで構築することは充分に可能となってきている  有償サービスも揃いつつある  ただし、機能や品質の見極めは当然必要  Apache Sparkとそのエコシステムは開発、利用ともに活発度が高い  ElasticsearchはGitコミット日の割合が91%程度でとても開発が活発  MongoDBやCephはこの領域では比較的安定期に入りつつある →ただし、状況は変化しており今後も継続的なウォッチが必要 Copyright 2016 Japan OSS Promotion Forum 所感 55
  • 57. ニーズ分析 Copyright 2016 Japan OSS Promotion Forum 56
  • 59.  回答者の立場  業種、従業員数、役職、ビッグデータ導入時の立場  セミナーについて  内容の分かり易さ、役に立つか?  特にご興味のあった講演  Big Dataの取り組みについて  Big Dataの期待領域  どのようなデータの分析が必要  Big Dataシステムの状況について(顧客への適用・提案を含む)  Big Dataシステムの使用状況・計画  Big Dataシステム導入・構築の課題  使用されている(予定も含め)Hadoop、エコシステム  使用されているHadoop Distribution  Data Node総数、Hadoopクラスタ数、データセンタ数  Hadoopでの高可用性/バックアップ Copyright 2016 Japan OSS Promotion Forum アンケートの質問事項 Big Dataの活用のための 代表的なインフラとしての Hadoopの現状にフォーカス 58
  • 60.  事前登録者数(関係者含む):69名 当日参加人数(関係者除く):43名 アンケート回収数:39名 Copyright 2016 Japan OSS Promotion Forum 59 回答者の内訳  SIer,HW/SWが70%、従業員数1000人以上が半 数  情報サービス会社(Web企業)は2割以下 Big DataおよびHadoopの一般企業での実情を反映 今後、Big DataおよびHadoopの本格的な拡がりを占 うもの
  • 61. Copyright 2016 Japan OSS Promotion Forum 60 セミナーの評価 24% 64% 12% 0% 大いに役立つ 役立つ 現時点では不明 役に立たない  ポジティブな感想が9割近く、参加者満足度の高いセミナーとなり、 一定の成果  全般的・広範な話題を カバーする講演への興味大 26% 68% 6% 0% 大変よく理解 理解できた 理解できないところもあり 理解できない 0 2 4 6 8 10 12 14 16 興味のあった講演
  • 62. Copyright 2016 Japan OSS Promotion Forum Big Dataの取り組み 61
  • 63.  業務の卓越性 例:生産性向上、品質向上(歩留り改善)等ものづくり革新  顧客親密 例:ソーシャルメディア等による精緻なパーソナライズ  新事業 例:交通渋滞サブスクリプションサービス  リスク管理 例:刻々変化するパターンに基づく不正・異常検知 Copyright 2016 Japan OSS Promotion Forum 62 ビッグデータにおける期待領域は何か? a. 実現済 b 期待大. c 期待 d 不明 0 5 10 15 20 25 30 a b c d a b c d a b c d a b c d 業務の卓越性 顧客親密 新事業 リスク管理 Big Dataへの期待
  • 64. ビッグデータにおける期待領域は何か? Copyright 2016 Japan OSS Promotion Forum 63  新事業に対する期待は大きいが  分析したいデータのトップは顧客データの35%  欧米では顧客親密、リスク管理対応が先行  “まだ顧客の多くにソーシャルと業務のつながりが認知されていないと感じる”とのコメントもあり 狙う領域が絞られていないのが実情か? どのようなデータ分析が必要と考えるか?
  • 65. Copyright 2016 Japan OSS Promotion Forum Big Dataシステムの状況 64
  • 66.  HDFSは50%が使用中(含む予定)、MongoDBが健闘  商用の分析・意思決定製品との連携は進んでおらず、Rが健闘  Kerberos, Knoxは使われていない。セキュリティ対策が進んでいないことが伺える Copyright 2016 Japan OSS Promotion Forum 65 Hadoopエコシステムの利用状況 0 2 4 6 8 10 12 14 16 18 20 Nutch Sqoop Talend Fluentd Flume Storm SparkStreaming HadoopHDFS Ceph GlusterFS Swift MongoDB MR MR2/YARN Spark Hive Tez Impala HBase Drill Pig Solr Cassandra Mahout R Pentaho JasperReport MLlib QlickView Tableau Spark SAS IBMSPSS Teradata Ambari Zookeeper ClouderaManager Kerberos Knox Oozie 収集・検知・ETL 蓄積・クエリ・その他 分析・意思決定 運用・監視 Hadoop Ecosystemの利用状況
  • 67. Copyright 2016 Japan OSS Promotion Forum ビッグデータシステムの使用状況・計画 66  拡大を検討・実施中、実システム運用中は3割程度、時期未定・予定なしが 半数以上  一方PoC実施中、1年以内も16% →導入のスピードは期待程、高くない?
  • 68.  37%がApacheを使用、ディストリビュータの無償版も含めるとサポートなし で使用しているユーザが相当数と思われる  クラウド上での拡張、展開を考えているユーザが半分以上  クラウドとオンプレミスのハイブリッドでの利用はゼロ  Hadoopのノード数は最大で30ノード、5ノード以下が半数 Copyright 2016 Japan OSS Promotion Forum 67 Hadoopシステムの現状 31% 0% 23% 46% クラウド上でのHadoop利用について クラウドのみ オンプレとのハイブリッド 今後予定 なし 37% 30% 9% 18% 0%3% 3% 0% Hadoop Distribution Apache Cloudera Hortonworks MapR Oracle BDA Pivotal HD IBM その他
  • 69. Copyright 2016 Japan OSS Promotion Forum ビッグデータシステム構築の課題 68  導入効果の明確化と必要性の認識なしを合わせると半数近い →どのように使えば効果があるのかが明確になっていない状況
  • 70. Copyright 2016 Japan OSS Promotion Forum 現状の考察および今後の期待 69
  • 71.  Big Dataの目的・投資効果が明確になっていないため、コストをかけないで何ができ るのかを模索中のユーザが多いことが推察される  Hadoopが誕生して10年経過したが、使用ディストリビューションのトップがApache 37%でトップであったことを考えると、商用利用を目的として使用している人は少ない  提供サイドはDataレイクということで、「データを捨てないでHadoopに入れておきま しょう」とのメッセージを発信したが、アンケート結果から判断するとエンドユーザに響い ていないと考えられる  Big Dataの入れ物としてHadoopを位置づけているが、Big Dataの利用を広げる にはキラーアプリの出現がポイント →Big DataとIoT、AIと言った話題も出てきており、Big Dataと具体的な利用ケー ス(IoT、AIなど)という観点が必要と考えられる Copyright 2016 Japan OSS Promotion Forum 考察 70
  • 72. 付録 Copyright 2016 Japan OSS Promotion Forum 71
  • 73. Copyright 2016 Japan OSS Promotion Forum 公式サイト 区分 ソフトウェア 公式サイト クローラ Apache ManifoldCF http://manifoldcf.apache.org/ Apache Nutch http://nutch.apache.org/ データロード Apache Sqoop http://sqoop.apache.org/ Talend https://www.talend.com/ 収集 Apache Flume https://flume.apache.org/ Apache Kafka http://kafka.apache.org/ Fluentd http://www.fluentd.org/ CEP Apache Storm http://storm.apache.org/ Apache S4 http://incubator.apache.org/s4/ Jubatus http://jubat.us/ Esper http://www.espertech.com/products/esper.php Drools Fusion http://www.drools.org/ Apache Spark Streaming http://spark.apache.org/streaming/ 並列分散処理 Apache Hadoop Commons http://hadoop.apache.org/ Apache Hadoop MapReduce http://hadoop.apache.org/ Apache Hadoop YARN http://hadoop.apache.org/ Apache Mesos http://mesos.apache.org/ Apache Spark http://spark.apache.org/ Apache Tez https://tez.apache.org/ データ蓄積 ファイルシステム Apache Hadoop HDFS http://hadoop.apache.org/ Ceph http://ceph.com/ GlusterFS http://www.gluster.org/ Lustre http://lustre.org/ 準リアルタイムクエリ Apache Drill https://drill.apache.org/ Apache Hive https://hive.apache.org/ Apache Spark SQL http://spark.apache.org/sql/ Impala http://impala.io/ インメモリDG/分散KVS Apache Cassandra http://cassandra.apache.org/ Apache HBase http://hbase.apache.org/ Infinispan http://infinispan.org/ MongoDB https://www.mongodb.org/ Redis http://redis.io/ Riak http://docs.basho.com/ 全文検索エンジン Elasticsearch https://www.elastic.co/products/elasticsearch 機械学習 Apache Spark MLib http://spark.apache.org/mllib/ 統計解析 R https://www.r-project.org/ BI・BAツール JasperReports http://community.jaspersoft.com/ Pentaho http://community.pentaho.com/ インメモリDB VoltDB https://voltdb.com/ 72
  • 74. 区分 ソフトウェア オープンソースライセンス クローラ Apache ManifoldCF Apache License 2.0 Apache Nutch Apache License 2.0 データロード Apache Sqoop Apache License 2.0 Talend Apache License 2.0 収集 Apache Flume Apache License 2.0 Apache Kafka Apache License 2.0 Fluentd Apache License 2.0 CEP Apache Storm Apache License 2.0 Apache S4 Apache License 2.0 Jubatus GNU Lesser General Public License v2.1 Esper GNU General Public License v2 Drools Fusion Apache License 2.0 Apache Spark Streaming Apache License 2.0 並列分散処理 Apache Hadoop Common Apache License 2.0 Apache Hadoop MapReduce Apache License 2.0 Apache Hadoop YARN Apache License 2.0 Apache Mesos Apache License 2.0 Apache Spark Apache License 2.0 Apache Tez Apache License 2.0 データ蓄積 ファイルシステム Apache Hadoop HDFS Apache License 2.0 Ceph GNU Lesser General Public License v2.1 GlusterFS GNU General Public License v3 Lustre GNU General Public License v2 準リアルタイムクエリ Apache Drill Apache License 2.0 Apache Hive Apache License 2.0 Apache Spark SQL Apache License 2.0 Impala Apache License 2.0 インメモリDG/分散KVS Apache Cassandra Apache License 2.0 Apache HBase Apache License 2.0 Infinispan Apache License 2.0 MongoDB GNU Affero General Public License v3 Redis BSD License Riak Apache License 2.0 全文検索エンジン Elasticsearch Apache License 2.0 機械学習 Apache Spark MLib Apache License 2.0 統計解析 R GNU General Public License BI・BAツール JasperReports GNU Lesser General Public License Pentaho Apache License 2.0 インメモリDB VoltDB GNU General Public License v3 Copyright 2016 Japan OSS Promotion Forum オープンソースライセンス 73
  • 75. 区分 ソフトウェア 開発者向けメーリングリスト クローラ Apache ManifoldCF dev@manifoldcf.apache.org Apache Nutch dev@nutch.apache.org データロード Apache Sqoop dev@sqoop.apache.org Talend - 収集 Apache Flume dev@flume.apache.org Apache Kafka dev@kafka.apache.org Fluentd ※Google groupsを利用 CEP Apache Storm dev@storm.apache.org Apache S4 s4-dev@incubator.apache.org Jubatus ※Google groupsを利用 Esper dev@esper.codehaus.org (未集計) Drools Fusion ※Google groupsを利用 Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ 並列分散処理 Apache Hadoop Common common-dev@hadoop.apache.org Apache Hadoop MapReduce mapreduce-dev@hadoop.apache.org Apache Hadoop YARN yarn-dev@hadoop.apache.org Apache Mesos dev@mesos.apache.org Apache Spark dev@spark.apache.org Apache Tez dev@tez.apache.org データ蓄積 ファイルシステム Apache Hadoop HDFS hdfs-dev@hadoop.apache.org Ceph ceph-devel@vger.kernel.org GlusterFS gluster-devel@gluster.org Lustre lustre-devel@lists.lustre.org 準リアルタイムクエリ Apache Drill dev@drill.apache.org Apache Hive dev@hive.apache.org Apache Spark SQL ※Apache Sparkのメーリングリストと同じ Impala ※Google groupsを利用 インメモリDG/分散KVS Apache Cassandra dev@cassandra.apache.org Apache HBase dev@hbase.apache.org Infinispan infinispan-dev@lists.jboss.org MongoDB ※Google groupsを利用 Redis ※Google groupsを利用 Riak ※利用者向けメーリングリストのみ 全文検索エンジン Elasticsearch ※Google groupsを利用 機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ 統計解析 R r-devel@r-project.org BI・BAツール JasperReports - Pentaho - インメモリDB VoltDB - Copyright 2016 Japan OSS Promotion Forum 開発者向けメーリングリスト 74
  • 76. 区分 ソフトウェア 利用者向けメーリングリスト クローラ Apache ManifoldCF user@manifoldcf.apache.org Apache Nutch user@nutch.apache.org データロード Apache Sqoop user@sqoop.apache.org Talend - 収集 Apache Flume user@flume.apache.org Apache Kafka users@kafka.apache.org Fluentd ※Google groupsを利用 CEP Apache Storm user@storm.apache.org Apache S4 s4-user@incubator.apache.org Jubatus ※Google groupsを利用 Esper user@esper.codehaus.org (未集計) Drools Fusion ※Google groupsを利用 Apache Spark Streaming ※Apache Sparkのメーリングリストと同じ 並列分散処理 Apache Hadoop Common user@hadoop.apache.org Apache Hadoop MapReduce ※Apache Hadoop Commonのメーリングリストと同じ Apache Hadoop YARN ※Apache Hadoop Commonのメーリングリストと同じ Apache Mesos user@mesos.apache.org Apache Spark user@spark.apache.org Apache Tez user@tez.apache.org データ蓄積 ファイルシステム Apache Hadoop HDFS ※Apache Hadoop Commonのメーリングリストと同じ Ceph ceph-user@lists.ceph.com GlusterFS gluster-users@gluster.org Lustre lustre-discuss@lists.lustre.org 準リアルタイムクエリ Apache Drill user@drill.apache.org Apache Hive user@hive.apache.org Apache Spark SQL ※Apache Sparkのメーリングリストと同じ Impala ※Google groupsを利用 インメモリDG/分散KVS Apache Cassandra user@cassandra.apache.org Apache HBase user@hbase.apache.org Infinispan ※開発者向けメーリングリストのみ MongoDB ※Google groupsを利用 Redis ※Google groupsを利用 Riak riak-users@lists.basho.com 全文検索エンジン Elasticsearch ※Google groupsを利用 機械学習 Apache Spark MLib ※Apache Sparkのメーリングリストと同じ 統計解析 R ?(r-help@r-project.org と考える?) BI・BAツール JasperReports - Pentaho ※Google groupsを利用 インメモリDB VoltDB - Copyright 2016 Japan OSS Promotion Forum 利用者向けメーリングリスト 75
  • 77. 区分 ソフトウェア 利用しているソースコードリポジトリサービス クローラ Apache ManifoldCF GitHub(apache/manifoldcf) Apache Nutch GitHub(apache/nutch) データロード Apache Sqoop GitHub(apache/sqoop) Apache Kafka GitHub(apache/kafka) Talend - 収集 Apache Flume GitHub(apache/flume) Fluentd GitHub(fluent/fluentd) CEP Apache Storm GitHub(apache/storm) Apache S4 GitHub(apache/incubator-s4) Jubatus GitHub(jubatus/jubatus) Esper GitHub(espertechnic/esper) Drools Fusion GitHub(droolsjbpm/drools) Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common GitHub(apache/hadoop-common) Apache Hadoop MapReduce GitHub(apache/hadoop-mapreduce) Apache Hadoop YARN - Apache Mesos GitHub(apache/mesos) Apache Spark GitHub(apache/spark) Apache Tez GitHub(apache/tez) データ蓄積 ファイルシステム Apache Hadoop HDFS GitHub(apache/hadoop-hdfs) Ceph GitHub(ceph/ceph) GlusterFS GitHub(gluster/glusterfs) Lustre - 準リアルタイムクエリ Apache Drill GitHub(apache/drill) Apache Hive GitHub(apache/hive) Apache Spark SQL ※Apache Sparkと同じ Impala GitHub(cloudera/impala) インメモリDG/分散KVS Apache Cassandra GitHub(apache/cassandra) Apache HBase GitHub(apache/hbase) Infinispan GitHub(infinispan/infinispan) MongoDB - Redis GitHub(antirez/redis) Riak GitHub(basho/riak) 全文検索エンジン Elasticsearch GitHub(elastic/elasticsearch) 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R - BI・BAツール JasperReports - Pentaho GitHub(pentaho/pentaho-platform) インメモリDB VoltDB GitHub(VoltDB/voltdb) Copyright 2016 Japan OSS Promotion Forum ソースコードリポジトリサービス 76
  • 78. Copyright 2016 Japan OSS Promotion Forum Twitterアカウント 区分 ソフトウェア Twitterアカウント クローラ Apache ManifoldCF @ApacheManifold Apache Nutch @ApacheNutch データロード Apache Sqoop @sqoopit Talend @Talend 収集 Apache Flume - Apache Kafka @apachekafka Fluentd @fluentd CEP Apache Storm @ApacheStorm Apache S4 - Jubatus @JubatusOfficial Esper - Drools Fusion - Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common @hadoop Apache Hadoop MapReduce ※Apache Hadoopと同じ Apache Hadoop YARN ※Apache Hadoopと同じ Apache Mesos @Apache Mesos Apache Spark @ApacheSpark Apache Tez @ApacheTez データ蓄積 ファイルシステム Apache Hadoop HDFS ※Apache Hadoopと同じ Ceph @Ceph GlusterFS @glusterfs Lustre - 準リアルタイムクエリ Apache Drill @ApacheDrill Apache Hive @ApacheHive Apache Spark SQL ※Apache Sparkと同じ Impala - インメモリDG/分散KVS Apache Cassandra @Cassandra Apache HBase @Hbase Infinispan @infinispan MongoDB @MongoDB Redis @redisfeed Riak - 全文検索エンジン Elasticsearch @Elasticsearch 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R - BI・BAツール JasperReports @jasperreports Pentaho @Pentaho インメモリDB VoltDB @VoltDB 77
  • 79. 区分 ソフトウェア Issue Tracker クローラ Apache ManifoldCF JIRA(https://issues.apache.org/jira/browse/CONNECTORS) Apache Nutch JIRA(https://issues.apache.org/jira/browse/NUTCH) データロード Apache Sqoop JIRA(https://issues.apache.org/jira/browse/SQOOP) Talend - 収集 Apache Flume JIRA(https://issues.apache.org/jira/browse/FLUME) Apache Kafka JIRA(https://issues.apache.org/jira/browse/KAFKA) Fluentd GitHub(https://github.com/fluent/fluentd/issues) CEP Apache Storm JIRA(https://issues.apache.org/jira/browse/STORM) Apache S4 - Jubatus GitHub(https://github.com/jubatus/jubatus/issues) Esper - Drools Fusion JIRA(https://issues.jboss.org/projects/DROOLS) Apache Spark Streaming ※Apache Sparkと同じ 並列分散処理 Apache Hadoop Common JIRA(https://issues.apache.org/jira/browse/HADOOP) Apache Hadoop MapReduce JIRA(https://issues.apache.org/jira/browse/MAPREDUCE) Apache Hadoop YARN JIRA(https://issues.apache.org/jira/browse/YARN) Apache Mesos JIRA(https://issues.apache.org/jira/browse/MESOS) Apache Spark JIRA(https://issues.apache.org/jira/browse/spark) Apache Tez JIRA(https://issues.apache.org/jira/browse/TEZ) データ蓄積 ファイルシステム Apache Hadoop HDFS JIRA(https://issues.apache.org/jira/browse/HDFS) Ceph Redmine(http://tracker.ceph.com/projects/ceph) GlusterFS Bugzilla(https://bugzilla.redhat.com/) Lustre JIRA(https://jira.hpdd.intel.com/secure/Dashboard.jspa) 準リアルタイムクエリ Apache Drill JIRA(https://issues.apache.org/jira/browse/DRILL) Apache Hive JIRA(https://issues.apache.org/jira/browse/HIVE) Apache Spark SQL ※Apache Sparkと同じ Impala JIRA(https://issues.cloudera.org/secure/Dashboard.jspa) インメモリDG/分散KVS Apache Cassandra JIRA(https://issues.apache.org/jira/browse/CASSANDRA) Apache HBase JIRA(https://issues.apache.org/jira/browse/HBASE) Infinispan JIRA(https://issues.jboss.org/secure/Dashboard.jspa) MongoDB JIRA(https://jira.mongodb.org/secure/Dashboard.jspa) Redis Google Project Hosting(https://code.google.com/p/redis/issues/list) Riak GitHub(https://github.com/basho/riak/issues) 全文検索エンジン Elasticsearch - 機械学習 Apache Spark MLib ※Apache Sparkと同じ 統計解析 R Bugzilla(https://bugs.r-project.org/bugzilla3/) BI・BAツール JasperReports - Pentaho JIRA(http://jira.pentaho.com/secure/Dashboard.jspa) インメモリDB VoltDB JIRA(https://issues.voltdb.com/browse/VDM) Copyright 2016 Japan OSS Promotion Forum Issue Tracker 78
  • 80. 区分 ソフトウェア 有償ライセンス 保守支援サービス 研修サービス クラウドでの提供 クローラ Apache ManifoldCF - ○ ○ - Apache Nutch - - - - データロード Apache Sqoop - ○ △ △ Talend ○ - ○ ○ 収集 Apache Flume - ○ △ △ Apache Kafka - ○ - ○ Fluentd - ○ - - CEP Apache Storm - ○ - △ Apache S4 - - - - Jubatus - - - ○ Esper ○ - - - Drools Fusion ○ - - - Apache Spark Streaming - ○ △ △ 並列分散処理 Apache Hadoop Common ○ ○ ○ ○ Apache Hadoop MapReduce ○ ○ △ ○ Apache Hadoop YARN ○ ○ △ △ Apache Mesos - - - ○ Apache Spark - ○ ○ ○ Apache Tez - ○ - - データ蓄積 ファイルシステム Apache Hadoop HDFS ○ ○ △ △ Ceph ○ ○ △ - GlusterFS ○ ○ ○ - Lustre - - - ○ 準リアルタイムクエリ Apache Drill ○ ○ - △ Apache Hive - ○ ○ △ Apache Spark SQL - ○ △ △ Impala - ○ ○ △ インメモリDG/分散KVS Apache Cassandra ○ ○ ○ ○ Apache HBase - ○ ○ ○ Infinispan ○ - - - MongoDB ○ ○ ○ ○ Redis - - ○ ○ Riak ○ - - ○ 全文検索エンジン Elasticsearch - ○ ○ ○ 機械学習 Apache Spark MLib - ○ - △ 統計解析 R ○ ○ ○ ○ BI・BAツール JasperReports ○ ○ ○ ○ Pentaho ○ ○ ○ ○ インメモリDB VoltDB - - - - Copyright 2016 Japan OSS Promotion Forum 国内でのサービス提供状況 79
  • 81.  該当ソフトウェアの3/4はApache License 2.0を採用  Apache Software Foundation管理のソフトウェアが多い事も理由の一つ  今後オープンソースベースの有償製品も拡大?(Apache Hadoopでは既に拡大) Copyright 2016 Japan OSS Promotion Forum 採用しているオープンソースライセンス Apache License 2.0 73.7% GNU General Public License 13.2% GNU Lesser General Public License 7.9% その他 5.3% 80
  • 82.  最も利用されている言語は「Java」(55.2%)。  次いで「C/C++」(23.1%)、スクリプトでは「Python」(3.4%)がトップ。 Copyright 2016 Japan OSS Promotion Forum どの様なプログラミング言語で開発されているか? Java 55.2% C/C++ 23.1% XML 10.0% Web 3.7% Python 3.4% JavaScript 2.8% CSS 0.8% Ruby 0.8% PHP 0.4% 81
  • 83. Copyright 2016 Japan OSS Promotion Forum ビッグデータ関連OSS鳥瞰図 ビッグデータ Nutch ManifoldCF クローラ Sqoop Talend Flume Fluentd Kafka データ収集 Storm S4 Jubatus Esper Drools Fusion SparkStreaming CEP Hadoop(HDFS) Lustre GlusterFS Ceph Elasticsearch データ蓄積/ 分散ファイルシステム Spark Hadoop MapReduce Hadoop YARN Tez Mesos 分散処理基盤 Drill Hive Impala SparkSQL 準リアルタイムクエリ MIT Kerberos OpenLDAP セキュリティ MongoDB ドキュメント指向DB InfiniSpan Cassandra Redis Riak HBase KVS Pentaho Talend ETL Pentaho JasperReports BA・BI MySQL PostgreSQL RDB VoltDB インメモリDB 82 R MLlib データ分析