オープンソース 
データ分析ソフト3製品 
2014年度統計関連学会連合大会@ 東京大学 
株式会社KSKアナリティクス 
北島聡 
(2014年9月14日〜16日) 
(データマイニング・機械学習)
本日の資料はにアップしております。 
よろしければ検索サイトで以下のキーワードなどを入力してご覧ください。 
統計関連学会連合大会オープンソース検索
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
2014年6月、世界で最も有名な 
データマイニング系情報サイト 
「kdnuggets.com」が調査 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
過去1年、実際の分析プロジェクトで 
活用した分析ソフトはなんですか? 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
世界で最も使われている 
RapidMiner をご紹介 
© KSK Analytics Inc., RapidMiner Japan Partner
無料で利用することが出来るため、 
ビジネス・アカデミックを問わず強力に支援 
© KSK Analytics Inc., RapidMiner Japan Partner
© KSK Analytics Inc., RapidMiner Japan Partner 
豊富な分析アルゴリ 
ズムに加え、モデル 
評価やデータ加工 
(ETL)など幅広い機 
能を保有
他のオープンソースも活用できるため、 
さらに幅広いアルゴリズムで分析可能 
パッケージ数5,800以上 
最先端アルゴリズムも多い 
追加モデル数、約100個 
これらはRapidMinerでエクステンション(無料)を 
インストールして頂くことでご利用できます 
© KSK Analytics Inc., RapidMiner Japan Partner 
RapidMinerの画面
© KSK Analytics Inc., RapidMiner Japan Partner 
エクステンション(無料) 
は、リコメンデーションや、 
時系列分析、Webマイ 
ニングなどにも対応
分かりやすい操作画面(GUI) 
データ分析が初めての方・学生の方にも 
分析の楽しさを伝えることができます 
© KSK Analytics Inc., RapidMiner Japan Partner
強力なビジュアライゼーション 
データから視覚的に関連性や 
仮説を発見できます 
© KSK Analytics Inc., RapidMiner Japan Partner
高度な分析もノンプログラミングで簡単操作 
プログラムと 
向き合う時間 
Data と 
向き合う時間< 
© KSK Analytics Inc., RapidMiner Japan Partner
• 分かりやすい操作画面(GUI)でデータ分 
析が初めての学生にも簡単にデータ分析 
の楽しさを伝えることができます 
<デモ> 
• 強力なビジュアライゼーションで、データか 
ら早期に関連性や仮説などを発見すること 
が出来実ま際にすその操作画面とビジュアライゼーション、 
ノンプログラミングでできる分析をご覧ください
RapidMiner Studio 6のご利用は、以下のWebページから、必要箇所に入 
力してください。ダウンロードURLとログイン用のユーザー名とパスワードが 
メールで届きます。無料でご利用頂けます(期間の制限はありません)
RapidMiner Studio 6のご利用は、以下のWebページから、必要箇所に入 
力してください。ダウンロードURLとログイン用のユーザー名とパスワードが 
メールで届きます。無料でご利用頂けます(期間の制限はありません) 
http://www.rapidminer.jp/downloa 
d/software/
RapidMinerのトレーニング 
商品名RapidMinerによるデータマイニングトレーニング 
(ベーシック& アドバンスド) 
対象者ビジネスユーザー、データサイエンスチーム 
形式お客さま指定日(2日間、あるいは4日間) ※オンサイト(講師派遣)コース 
こんな方に 
オススメ 
RapidMinerの使い方・機能について素早く理解したい 
RapidMinerを使用した予測モデルの作成や評価を行いたい 
RapidMinerを使用した高度な予測分析手法を学びたい 
RapidMinerで相関ルール作成やマーケットバスケット分析を行いたい 
RapidMinerで顧客のセグメンテーション、クラスター分析を行いたい 
価格基本料金15万円+ 受講者数× 5万円(ベーシックコース) 
基本料金15万円+ 受講者数× 5万円(アドバンスドコース) 
定員1名~5名まで 
※RapidMinerの無料版のご利用を検討されている方にもオススメのトレーニングです 
※オープンコース 
2014年11月12日(水)ー13日(木) 、12月17日(水)ー18日(木) 
料金はオンサイトコースに比べお得です!(ベーシックコース:14万円/1名) 
詳細はこちらまで:http://www.rapidminer.jp/service/training/ © KSK Analytics Inc.
Rは素晴らしい! 
しかし、Rユーザーが 
口をそろえて言うのが・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
重い 
© KSK Analytics Inc., Revolution Analytics Japan Partner
かなり必死 
重い 
© KSK Analytics Inc., Revolution Analytics Japan Partner
実行速度が重い 
大規模データが重い 
・・・というか扱えない 
© KSK Analytics Inc., Revolution Analytics Japan Partner
Rユーザーの多くはドクターストップ(限界)もよく知っている 
© KSK Analytics Inc., Revolution Analytics Japan Partner
一方、世の中のデータ量は・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
http://www.datacenterjournal.com/it/birth-death-big-data/ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
http://www.datacenterjournal.com/it/birth-death-big-data/ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
ひたすら増えていく・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
ひたすら増えていく・・・ 
2010年の体重が123kgだとすれば、 
2020年には4000kg(4トン)になる 
© KSK Analytics Inc., Revolution Analytics Japan Partner
分析者や分析業務も増えてきたのに・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
分析に革命が起こる
大規模データを高速に実行できる 
レボリューションRをご紹介 
<- + 革命
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
オープンソースRはデータ件数が25万件で約80秒 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
レボリューションRはデータ件数が500万件で10秒以下 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
レボリューションRはデータ件数が500万件で10秒以下 
データ件数 
時間(秒) 
© KSK Analytics Inc., Revolution Analytics Japan Partner
R vs レボリューションR(ScaleR)のパフォーマンス比較 
※GLM:一般化線形モデル 
レボリューションRはデータ件数が500万件で10秒以下 
データ件数 
時間(秒) 
しかも、メモリ8GBの普通のノートPCで 
© KSK Analytics Inc., Revolution Analytics Japan Partner
Rユーザーであれば移行はスムーズ 
オープンソースRの記載例 
レボリューションRの記載例
Hadoop vs サーバー1台 
分析したいデータ量が100GBだとすると・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner 
サーバー1台(8コア) 
Hadoopクラスタ8台
Hadoop vs サーバー1台 
分析したいデータ量が100GBだとすると・・・ 
Hadoopクラスタ8台 
© KSK Analytics Inc., Revolution Analytics Japan Partner 
< 
サーバー1台(8コア) 
概ね、サーバー1台の方が8倍〜10倍の速度で早いです。 
(※データ量が1TB以上だとHadoopをオススメします)
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
商用ソフト(緑色)としても人気が高い 
特にRユーザーからの移行が多く、 
利用者は急速に拡大中 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
© KSK Analytics Inc., RapidMiner Japan Partner
http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 
しかも、ソフト単体の利用者は、 
RapidMiner(35.1%)に次いで 
2番目に高い(13.3%) 
© KSK Analytics Inc., RapidMiner Japan Partner
でも、お高いんでしょう? 
© KSK Analytics Inc., Revolution Analytics Japan Partner
でも、お高いんでしょう? 
いえ、アカデミックは・・・ 
© KSK Analytics Inc., Revolution Analytics Japan Partner
© KSK Analytics Inc., Revolution Analytics Japan Partner
© KSK Analytics Inc., Revolution Analytics Japan Partner
無料です! 
© KSK Analytics Inc., Revolution Analytics Japan Partner
http://i無nfo.re料volutioでnanalすytics.c!om/free 
-academic.html
http://i無nfo.re料volutioでnanalすytics.c!om/free 
-academic.html 
株式会社KSKアナリティクスはビジネスにおけるサポートを事業 
にしており、アカデミックにおけるサポートは取り扱っておりません。 
アカデミック利用に関してご不明な点があれば、恐れ入りますが 
上記サイトよりRevolution Analytics社へ直接問い合わせ下さい。
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
© KSK Analytics Inc., NYSOL Partner
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
前処理 
© KSK Analytics Inc., NYSOL Partner
http://www.slideshare.net/SatoshiKitajima2/m1-38513054 
© KSK Analytics Inc., NYSOL Partner 
デーサイエンティスト必見 
M-1グランプリ 
漫才前処理の頂点は誰だ!? 
Maeshori 
より詳細はこちらをご覧ください
M-1グランプリ出場者のご紹介 
1. 
2. 
3. 
4. 
パッケージを使わずに勝負します! 
(R_baseと表記) 
最強と名高い”dplyr”と”data.table” 
パッケージを使います! 
(R_pkgと表記) 
データベースを代表して 
出場します! 
「にそる」と読みます。日本で誕生した 
オープンソースで、無料で使えます! 
© KSK Analytics Inc., NYSOL Partner
前処理は5つ 
列選択行選択列計算並び替え複合 
データは6つ 
1 2 3 4 5 6 
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
© KSK Analytics Inc., NYSOL Partner
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
0.5秒 
1 2 3 4 5 6 
R_base R_pkg PostgreSQL NYSOL
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
1秒 
1 2 3 4 5 6 
R_base R_pkg PostgreSQL NYSOL
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
5秒 
1秒 
1 2 3 4 5 6 
R_base R_pkg PostgreSQL NYSOL
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
45秒 
5秒 
1 2 3 4 5 6 
R_base R_pkg PostgreSQL NYSOL
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
5分 
1分 
1 2 3 4 5 6 
R_base R_pkg PostgreSQL NYSOL
1 2 3 4 5 6 
データ件数千件一万件十万件百万件一千万件一億件 
データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 
R_base R_pkg PostgreSQL NYSOL 
1時間 
30分 
10分 
Rは一部の前処理が 
メモリエラーで計測不可
(R_pkg) 
結果発表!
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
前処理 
© KSK Analytics Inc., NYSOL Partner
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
前処理 
© KSK Analytics Inc., NYSOL Partner 
の「Mコマンド」
仕組みはシンプル 
Mコマンド 
・UNIXコマンド 
・約70種類 
・CSVデータ 
組み合わせは無限大 
・各コマンドを 
「パイプ」で接続 
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner 
約70種類
Mコマンドの他にも「頻出パターンマイニング」や「データマイニ 
ング・機械学習」「テキストマイニング」「可視化」などさまざま
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
前処理 
© KSK Analytics Inc., NYSOL Partner 
の「Mコマンド」
データ分析のプロセス 
実は8割以上は前処理(データ加工) 
様々なデータ形式 
膨大なデータ量 
複雑なデータ構造 
社外データ 
EXCE 
L 
業務システム 
分析用 
データ 
クラス 
分類 
回帰 
分析 
パターン 
解析 
クラスタ 
リング 
繰り返しの 
データ加工 
CS 
V 
前処理 
© KSK Analytics Inc., NYSOL Partner 
の「Mコマンド」
パズルに似た新しい知的感覚 
NYSOLはコマンドが主役。一つのコマンドの役 
割は、入力したCSVデータに対して、一つの処 
理をし、CSVデータを出力するだけ。このシンプ 
ルなコマンドをパズルのように組み合わせるだ 
けで広い分野でのデータ活用を可能にします。 
移植性の高いCSVデータ 
NYSOLはCSVデータの扱いに特化しています。 
ExcelやDBからCSVデータを出力すれば、簡単 
にNYSOLで扱うことができます。さらにNYSOL 
から出力されるCSVデータは、RやRapidMiner、 
DBなど外部ソフトとの連携も移植性が高く柔軟 
に機能します。 
© KSK Analytics Inc., NYSOL Partner
一台でも大規模データ 
NYSOLで扱えるデータはメモリ量ではなくHDD 
に依存します。一般的にHadoopなどで分散処 
理が必要とされる数百GB〜数TB(数千万件〜 
数億件程度)の大規模なデータでも一台のサー 
バーで処理することも可能です。 
驚きの高速処理 
これまで商用版のデータベースで20時間以上か 
かっていた7億件のデータ処理が、ノートPCで1 
時間以内に終了したケースもあります。NYSOL 
は主にC++言語で開発され、各コマンドは一つ 
の機能を高速に処理するよう設計されています。 
© KSK Analytics Inc., NYSOL Partner
最先端アルゴリズム 
NYSOLは大学や研究機関などの学術界で生み 
出された最新・最高峰のデータ解析/データマ 
イニングのコマンドおよびアルゴリズムを採用し 
ています。洗練されたアルゴリズムはビジネス現 
場でも広く活躍しています。 
フリーソフトウェア 
NYSOLは大学などの研究成果を広く産業界に 
還元する目的で設立されました。そのため、 
NYSOLが提供するソフトウェアは無料でご利用 
頂くことができます。また、ご希望の企業様には、 
NYSOLのビジネスサポートも提供しています。 
© KSK Analytics Inc., NYSOL Partner
安心のビジネスサポート 
ビジネスとしてデータを活用するには、ソフトウェ 
アのサポートや分析支援などが必要になる場合 
があります。また社内に分析人材を育成したい 
ニーズも高まってきました。詳しくはKSKアナリ 
ティクスまで問い合わせ下さい。 
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
© KSK Analytics Inc., NYSOL Partner
http://www.nysol.jp/ 
© KSK Analytics Inc., NYSOL Partner
NYSOLのトレーニング 
商品名NYSOLによるデータマイニングトレーニング 
(データ加工編:1日コース) 
対象者ビジネスユーザー、データサイエンスチーム 
形式お客さま指定日(1日間) 
こんな方に 
オススメ 
データ加工が必要なデータがたくさんある 
さまざまなデータ加工が必要 
SQLスクリプトを得意としている人材が少ない 
データベースでは速度のパフォーマンスが出ない 
データベースでは大規模データを扱えない 
価格基本料金15万円+ 受講者数× 5万円 
定員1名~5名程度 
※オンサイト(講師派遣)コース 
※Windowsユーザーにもオススメです 
※NYSOLソフトウェアの商用サポートもご提供しております。 
© KSK Analytics Inc., NYSOL Partner
KSKアナリティクスのデータ分析サービス 
使用ソフトウェアは主にオープンソース 
初期トレーニング& スキルトランスファーで早期成果 
必要であればビジネスサポート 
20XX年 
1月2月3月4月5月6月7月以降 
データ加工、データ分析 
トレーニング 
データ分析 
スタートダッシュサービス 
お客さま内 
データ分析 
データ分析 
サポートサービス 
お客様 
弊社 
© KSK Analytics Inc.
東京大学経済学研究棟1F受付右側でブース出展しています。 
ご不明な点がございましたらお気軽にお越しください。 
出展期間:2014年9月14日〜16日 
9:00〜18:00 
(最終日は15:00まで) 
このポスターが目印です
3製品を使った無料ハンズオンセミナーも開催中 
http://www.rapidminer.jp/service/seminar/#sei2
株式会社KSKアナリティクス 
セールス& マーケティング本部 
www.ksk-anl.com sales@ksk-anl.com 
お気軽に問い合わせ下さい

オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

Editor's Notes

  • #29 1ゼタバイトは10億テラバイト
  • #35 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #36 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #37 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #38 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #39 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #40 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく
  • #41 GLMはGeneralised Linear Model(一般化線形モデル)の略。General Linear Modelの場合もある。 ここで、glm、rxGlmというファンクション名が違うこと、R利用者であれば、同じ文法/仕様でRREを使えることを説明しておく