Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

10,876 views

Published on

東京大学経済学研究科棟3階 第2教室(C会場) 13:00~15:00
2014年度 統計関連学会連合大会

株式会社KSKアナリティクス 北島 聡

Published in: Data & Analytics
  • Be the first to comment

オープンソースのデータ分析ソフト3製品「RapidMiner」「NYSOL」「Revolution R Enterprise (RRE) ※Rの商用版」のご紹介

  1. 1. オープンソース データ分析ソフト3製品 2014年度統計関連学会連合大会@ 東京大学 株式会社KSKアナリティクス 北島聡 (2014年9月14日〜16日) (データマイニング・機械学習)
  2. 2. 本日の資料はにアップしております。 よろしければ検索サイトで以下のキーワードなどを入力してご覧ください。 統計関連学会連合大会オープンソース検索
  3. 3. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  4. 4. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 2014年6月、世界で最も有名な データマイニング系情報サイト 「kdnuggets.com」が調査 © KSK Analytics Inc., RapidMiner Japan Partner
  5. 5. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 過去1年、実際の分析プロジェクトで 活用した分析ソフトはなんですか? © KSK Analytics Inc., RapidMiner Japan Partner
  6. 6. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  7. 7. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  8. 8. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 世界で最も使われている RapidMiner をご紹介 © KSK Analytics Inc., RapidMiner Japan Partner
  9. 9. 無料で利用することが出来るため、 ビジネス・アカデミックを問わず強力に支援 © KSK Analytics Inc., RapidMiner Japan Partner
  10. 10. © KSK Analytics Inc., RapidMiner Japan Partner 豊富な分析アルゴリ ズムに加え、モデル 評価やデータ加工 (ETL)など幅広い機 能を保有
  11. 11. 他のオープンソースも活用できるため、 さらに幅広いアルゴリズムで分析可能 パッケージ数5,800以上 最先端アルゴリズムも多い 追加モデル数、約100個 これらはRapidMinerでエクステンション(無料)を インストールして頂くことでご利用できます © KSK Analytics Inc., RapidMiner Japan Partner RapidMinerの画面
  12. 12. © KSK Analytics Inc., RapidMiner Japan Partner エクステンション(無料) は、リコメンデーションや、 時系列分析、Webマイ ニングなどにも対応
  13. 13. 分かりやすい操作画面(GUI) データ分析が初めての方・学生の方にも 分析の楽しさを伝えることができます © KSK Analytics Inc., RapidMiner Japan Partner
  14. 14. 強力なビジュアライゼーション データから視覚的に関連性や 仮説を発見できます © KSK Analytics Inc., RapidMiner Japan Partner
  15. 15. 高度な分析もノンプログラミングで簡単操作 プログラムと 向き合う時間 Data と 向き合う時間< © KSK Analytics Inc., RapidMiner Japan Partner
  16. 16. • 分かりやすい操作画面(GUI)でデータ分 析が初めての学生にも簡単にデータ分析 の楽しさを伝えることができます <デモ> • 強力なビジュアライゼーションで、データか ら早期に関連性や仮説などを発見すること が出来実ま際にすその操作画面とビジュアライゼーション、 ノンプログラミングでできる分析をご覧ください
  17. 17. RapidMiner Studio 6のご利用は、以下のWebページから、必要箇所に入 力してください。ダウンロードURLとログイン用のユーザー名とパスワードが メールで届きます。無料でご利用頂けます(期間の制限はありません)
  18. 18. RapidMiner Studio 6のご利用は、以下のWebページから、必要箇所に入 力してください。ダウンロードURLとログイン用のユーザー名とパスワードが メールで届きます。無料でご利用頂けます(期間の制限はありません) http://www.rapidminer.jp/downloa d/software/
  19. 19. RapidMinerのトレーニング 商品名RapidMinerによるデータマイニングトレーニング (ベーシック& アドバンスド) 対象者ビジネスユーザー、データサイエンスチーム 形式お客さま指定日(2日間、あるいは4日間) ※オンサイト(講師派遣)コース こんな方に オススメ RapidMinerの使い方・機能について素早く理解したい RapidMinerを使用した予測モデルの作成や評価を行いたい RapidMinerを使用した高度な予測分析手法を学びたい RapidMinerで相関ルール作成やマーケットバスケット分析を行いたい RapidMinerで顧客のセグメンテーション、クラスター分析を行いたい 価格基本料金15万円+ 受講者数× 5万円(ベーシックコース) 基本料金15万円+ 受講者数× 5万円(アドバンスドコース) 定員1名~5名まで ※RapidMinerの無料版のご利用を検討されている方にもオススメのトレーニングです ※オープンコース 2014年11月12日(水)ー13日(木) 、12月17日(水)ー18日(木) 料金はオンサイトコースに比べお得です!(ベーシックコース:14万円/1名) 詳細はこちらまで:http://www.rapidminer.jp/service/training/ © KSK Analytics Inc.
  20. 20. Rは素晴らしい! しかし、Rユーザーが 口をそろえて言うのが・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner
  21. 21. 重い © KSK Analytics Inc., Revolution Analytics Japan Partner
  22. 22. かなり必死 重い © KSK Analytics Inc., Revolution Analytics Japan Partner
  23. 23. 実行速度が重い 大規模データが重い ・・・というか扱えない © KSK Analytics Inc., Revolution Analytics Japan Partner
  24. 24. Rユーザーの多くはドクターストップ(限界)もよく知っている © KSK Analytics Inc., Revolution Analytics Japan Partner
  25. 25. 一方、世の中のデータ量は・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner
  26. 26. http://www.datacenterjournal.com/it/birth-death-big-data/ © KSK Analytics Inc., Revolution Analytics Japan Partner
  27. 27. http://www.datacenterjournal.com/it/birth-death-big-data/ © KSK Analytics Inc., Revolution Analytics Japan Partner
  28. 28. ひたすら増えていく・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner
  29. 29. ひたすら増えていく・・・ 2010年の体重が123kgだとすれば、 2020年には4000kg(4トン)になる © KSK Analytics Inc., Revolution Analytics Japan Partner
  30. 30. 分析者や分析業務も増えてきたのに・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner
  31. 31. 分析に革命が起こる
  32. 32. 大規模データを高速に実行できる レボリューションRをご紹介 <- + 革命
  33. 33. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  34. 34. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  35. 35. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル オープンソースRはデータ件数が25万件で約80秒 データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  36. 36. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  37. 37. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル レボリューションRはデータ件数が500万件で10秒以下 データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  38. 38. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル レボリューションRはデータ件数が500万件で10秒以下 データ件数 時間(秒) © KSK Analytics Inc., Revolution Analytics Japan Partner
  39. 39. R vs レボリューションR(ScaleR)のパフォーマンス比較 ※GLM:一般化線形モデル レボリューションRはデータ件数が500万件で10秒以下 データ件数 時間(秒) しかも、メモリ8GBの普通のノートPCで © KSK Analytics Inc., Revolution Analytics Japan Partner
  40. 40. Rユーザーであれば移行はスムーズ オープンソースRの記載例 レボリューションRの記載例
  41. 41. Hadoop vs サーバー1台 分析したいデータ量が100GBだとすると・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner サーバー1台(8コア) Hadoopクラスタ8台
  42. 42. Hadoop vs サーバー1台 分析したいデータ量が100GBだとすると・・・ Hadoopクラスタ8台 © KSK Analytics Inc., Revolution Analytics Japan Partner < サーバー1台(8コア) 概ね、サーバー1台の方が8倍〜10倍の速度で早いです。 (※データ量が1TB以上だとHadoopをオススメします)
  43. 43. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  44. 44. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html 商用ソフト(緑色)としても人気が高い 特にRユーザーからの移行が多く、 利用者は急速に拡大中 © KSK Analytics Inc., RapidMiner Japan Partner
  45. 45. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  46. 46. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html © KSK Analytics Inc., RapidMiner Japan Partner
  47. 47. http://www.kdnuggets.com/2014/06/kdnuggets-annual-software-poll-rapidminer-continues-lead.html しかも、ソフト単体の利用者は、 RapidMiner(35.1%)に次いで 2番目に高い(13.3%) © KSK Analytics Inc., RapidMiner Japan Partner
  48. 48. でも、お高いんでしょう? © KSK Analytics Inc., Revolution Analytics Japan Partner
  49. 49. でも、お高いんでしょう? いえ、アカデミックは・・・ © KSK Analytics Inc., Revolution Analytics Japan Partner
  50. 50. © KSK Analytics Inc., Revolution Analytics Japan Partner
  51. 51. © KSK Analytics Inc., Revolution Analytics Japan Partner
  52. 52. 無料です! © KSK Analytics Inc., Revolution Analytics Japan Partner
  53. 53. http://i無nfo.re料volutioでnanalすytics.c!om/free -academic.html
  54. 54. http://i無nfo.re料volutioでnanalすytics.c!om/free -academic.html 株式会社KSKアナリティクスはビジネスにおけるサポートを事業 にしており、アカデミックにおけるサポートは取り扱っておりません。 アカデミック利用に関してご不明な点があれば、恐れ入りますが 上記サイトよりRevolution Analytics社へ直接問い合わせ下さい。
  55. 55. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V © KSK Analytics Inc., NYSOL Partner
  56. 56. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V 前処理 © KSK Analytics Inc., NYSOL Partner
  57. 57. http://www.slideshare.net/SatoshiKitajima2/m1-38513054 © KSK Analytics Inc., NYSOL Partner デーサイエンティスト必見 M-1グランプリ 漫才前処理の頂点は誰だ!? Maeshori より詳細はこちらをご覧ください
  58. 58. M-1グランプリ出場者のご紹介 1. 2. 3. 4. パッケージを使わずに勝負します! (R_baseと表記) 最強と名高い”dplyr”と”data.table” パッケージを使います! (R_pkgと表記) データベースを代表して 出場します! 「にそる」と読みます。日本で誕生した オープンソースで、無料で使えます! © KSK Analytics Inc., NYSOL Partner
  59. 59. 前処理は5つ 列選択行選択列計算並び替え複合 データは6つ 1 2 3 4 5 6 データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB © KSK Analytics Inc., NYSOL Partner
  60. 60. データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 0.5秒 1 2 3 4 5 6 R_base R_pkg PostgreSQL NYSOL
  61. 61. データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 1秒 1 2 3 4 5 6 R_base R_pkg PostgreSQL NYSOL
  62. 62. データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 5秒 1秒 1 2 3 4 5 6 R_base R_pkg PostgreSQL NYSOL
  63. 63. データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 45秒 5秒 1 2 3 4 5 6 R_base R_pkg PostgreSQL NYSOL
  64. 64. データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB 5分 1分 1 2 3 4 5 6 R_base R_pkg PostgreSQL NYSOL
  65. 65. 1 2 3 4 5 6 データ件数千件一万件十万件百万件一千万件一億件 データ量約100KB 約1MB 約10MB 約100MB 約1GB 約10GB R_base R_pkg PostgreSQL NYSOL 1時間 30分 10分 Rは一部の前処理が メモリエラーで計測不可
  66. 66. (R_pkg) 結果発表!
  67. 67. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V 前処理 © KSK Analytics Inc., NYSOL Partner
  68. 68. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V 前処理 © KSK Analytics Inc., NYSOL Partner の「Mコマンド」
  69. 69. 仕組みはシンプル Mコマンド ・UNIXコマンド ・約70種類 ・CSVデータ 組み合わせは無限大 ・各コマンドを 「パイプ」で接続 © KSK Analytics Inc., NYSOL Partner
  70. 70. © KSK Analytics Inc., NYSOL Partner
  71. 71. © KSK Analytics Inc., NYSOL Partner 約70種類
  72. 72. Mコマンドの他にも「頻出パターンマイニング」や「データマイニ ング・機械学習」「テキストマイニング」「可視化」などさまざま
  73. 73. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V 前処理 © KSK Analytics Inc., NYSOL Partner の「Mコマンド」
  74. 74. データ分析のプロセス 実は8割以上は前処理(データ加工) 様々なデータ形式 膨大なデータ量 複雑なデータ構造 社外データ EXCE L 業務システム 分析用 データ クラス 分類 回帰 分析 パターン 解析 クラスタ リング 繰り返しの データ加工 CS V 前処理 © KSK Analytics Inc., NYSOL Partner の「Mコマンド」
  75. 75. パズルに似た新しい知的感覚 NYSOLはコマンドが主役。一つのコマンドの役 割は、入力したCSVデータに対して、一つの処 理をし、CSVデータを出力するだけ。このシンプ ルなコマンドをパズルのように組み合わせるだ けで広い分野でのデータ活用を可能にします。 移植性の高いCSVデータ NYSOLはCSVデータの扱いに特化しています。 ExcelやDBからCSVデータを出力すれば、簡単 にNYSOLで扱うことができます。さらにNYSOL から出力されるCSVデータは、RやRapidMiner、 DBなど外部ソフトとの連携も移植性が高く柔軟 に機能します。 © KSK Analytics Inc., NYSOL Partner
  76. 76. 一台でも大規模データ NYSOLで扱えるデータはメモリ量ではなくHDD に依存します。一般的にHadoopなどで分散処 理が必要とされる数百GB〜数TB(数千万件〜 数億件程度)の大規模なデータでも一台のサー バーで処理することも可能です。 驚きの高速処理 これまで商用版のデータベースで20時間以上か かっていた7億件のデータ処理が、ノートPCで1 時間以内に終了したケースもあります。NYSOL は主にC++言語で開発され、各コマンドは一つ の機能を高速に処理するよう設計されています。 © KSK Analytics Inc., NYSOL Partner
  77. 77. 最先端アルゴリズム NYSOLは大学や研究機関などの学術界で生み 出された最新・最高峰のデータ解析/データマ イニングのコマンドおよびアルゴリズムを採用し ています。洗練されたアルゴリズムはビジネス現 場でも広く活躍しています。 フリーソフトウェア NYSOLは大学などの研究成果を広く産業界に 還元する目的で設立されました。そのため、 NYSOLが提供するソフトウェアは無料でご利用 頂くことができます。また、ご希望の企業様には、 NYSOLのビジネスサポートも提供しています。 © KSK Analytics Inc., NYSOL Partner
  78. 78. 安心のビジネスサポート ビジネスとしてデータを活用するには、ソフトウェ アのサポートや分析支援などが必要になる場合 があります。また社内に分析人材を育成したい ニーズも高まってきました。詳しくはKSKアナリ ティクスまで問い合わせ下さい。 © KSK Analytics Inc., NYSOL Partner
  79. 79. © KSK Analytics Inc., NYSOL Partner
  80. 80. © KSK Analytics Inc., NYSOL Partner
  81. 81. http://www.nysol.jp/ © KSK Analytics Inc., NYSOL Partner
  82. 82. NYSOLのトレーニング 商品名NYSOLによるデータマイニングトレーニング (データ加工編:1日コース) 対象者ビジネスユーザー、データサイエンスチーム 形式お客さま指定日(1日間) こんな方に オススメ データ加工が必要なデータがたくさんある さまざまなデータ加工が必要 SQLスクリプトを得意としている人材が少ない データベースでは速度のパフォーマンスが出ない データベースでは大規模データを扱えない 価格基本料金15万円+ 受講者数× 5万円 定員1名~5名程度 ※オンサイト(講師派遣)コース ※Windowsユーザーにもオススメです ※NYSOLソフトウェアの商用サポートもご提供しております。 © KSK Analytics Inc., NYSOL Partner
  83. 83. KSKアナリティクスのデータ分析サービス 使用ソフトウェアは主にオープンソース 初期トレーニング& スキルトランスファーで早期成果 必要であればビジネスサポート 20XX年 1月2月3月4月5月6月7月以降 データ加工、データ分析 トレーニング データ分析 スタートダッシュサービス お客さま内 データ分析 データ分析 サポートサービス お客様 弊社 © KSK Analytics Inc.
  84. 84. 東京大学経済学研究棟1F受付右側でブース出展しています。 ご不明な点がございましたらお気軽にお越しください。 出展期間:2014年9月14日〜16日 9:00〜18:00 (最終日は15:00まで) このポスターが目印です
  85. 85. 3製品を使った無料ハンズオンセミナーも開催中 http://www.rapidminer.jp/service/seminar/#sei2
  86. 86. 株式会社KSKアナリティクス セールス& マーケティング本部 www.ksk-anl.com sales@ksk-anl.com お気軽に問い合わせ下さい

×