SlideShare a Scribd company logo
最高の統計ソフトウェアはどれか?
"What’s the Best Statistical Software?
A Comparison of R, Python, SAS, SPSS and STATA" の抄訳
フリーランス 研修・人材育成サービス
タナカ ケンタ
https://mana.bi/
出典
What's the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA
https://www.inwt-statistics.com/read-blog/comparison-of-r-python-sas-spss-and-stata.html
R - 概要
 広く使用されるOSSの統計解析環境。パッケージで機能拡張が可能
https://cran.ism.ac.jp/
 RStudioと組み合わせて使うことが多い
https://www.rstudio.com/
 RStudioはデスクトップ、
サーバ・クライアント型両方で利用可能
 ShinyパッケージでWebアプリ化できる
R - 強み
 10000を軽く超えるパッケージによる膨大な分析関数
 新しい手法がすぐに実装・提供される
 自動化、システム化が容易
 コミュニティによるサポートが親切、有償サポートも
 ヘルプ、マニュアルが充実している
 柔軟なプログラミングが可能な言語体系
 WindowsでもMacでもLinuxでも使用可能
 開発が活発で、将来性も高い
R - 弱み
 初学者には、R「言語」の文法に慣れるまでにハードルがある
 利用者の少ないパッケージの品質・安定性は高くないことがある
 大量データを処理するためには高性能なハードウェアが必要
R - ライセンスと費用
 Rはオープンソースソフトウェア (GPL v2)
 無償で利用できる (パッケージ、周辺ソフトウェアには有償のものも)
R - まとめ
 当初、Rは商用統計ソフトの安価な代替でしかなかった
 その後の成長で、機能、柔軟性、他ソフトとの統合の面で商用ソフト
を上回り、商用ソフト側もRとの連携に取り組むようになった
 R言語の習得は難しいとの批判もあったが、RStudioの登場で
解消されつつある
 さまざまな領域の統計手法を使用し、(それぞれの領域専門の) 個別
のソフトウェアに縛られたくない人には、Rは優れた選択肢となるだろう
Python - 概要
 高機能でオープンなインタプリタ型言語で、近年は
データサイエンスプロジェクトといえばPython、という
ような地位を占めている
 汎用言語として、Web開発などの場面でも
広く使用されている
 特にDeep Learningや機械学習に適しており、
ライブラリを活用することで、統計ソフトとして
実践的に活用できる
 Jupyter (Notebook / Lab) やSpyder、
PyCharmなどの開発環境が充実している
Python - 強み
 パワフルで高機能なプログラミング言語である
 オブジェクト指向、構造化プログラミング、関数プログラミングなどの
パラダイムが利用可能
 単体テストやデバッグなどの機能が充実した、成熟した言語
 様々なデータサイエンスのニーズに対応する豊富なライブラリ群
 多様な開発ツール、分散並列処理環境との連携が容易
 目を惹く可視化を容易に実現可能
 今後も継続した成長が見込まれる
Python - 弱み
 すべての統計手法が実装されているわけではない
 いくつかの分析のための開発環境は、未だ成熟しきれていない
 「汎用」言語を習得するためのハードルはかなり高い
Python - ライセンスと費用
 Python言語を使用するうえで費用はかからない
 しかし、テキストマイニングのためのライブラリなど、一部の領域では
商用利用に制約がかかっているものがある (以前のspaCy?)
Python - まとめ
 Pythonは幅広い領域に対応したプログラミング言語
 近年、高度なライブラリを活用した専門的な統計アプリケーションが
多数Pythonで開発されている
 Deep Learningのような、コンピュータサイエンスの理解が求められる
領域の開発にはPythonが適している
 Pythonを学習するには、完全な (汎用) プログラミング言語を習得
する覚悟が必要になるが、良いチュートリアルも多数提供されている
 RStudioのような、データサイエンス領域における優れた開発環境が
(まだ) 存在しない
SAS - 概要
 SAS Instituteが開発・販売する商用ソフトウェア
 訳注: SAS University Editionという無償版もある
 生命科学、臨床医学研究、金融領域で広く使われている
SAS - 強み
 新しい手法が迅速に実装・提供される
 安定性・信頼性の高いルーチン
 優れたドキュメントと専門的なサポート
 BIソフトなどと連携できる多数の
モジュール・インターフェース
 大量データの扱いに適している
 SAS社自身によって、入門から応用まで
幅広い研修が提供されている
SAS - 弱み
 独特で、一部複雑なSAS「言語」を習得しなければならない
 GUIは補助的な位置づけで、古典的なコマンドラインインターフェース
SAS - ライセンスと費用
 SAS Analytics Proライセンスの価格は、個人使用では
1年間でX00万円以上
 ただし、教育機関向けにはより安価なライセンスも提供されている
訳注: Education Analytical Suite
SAS - まとめ
 SASはパワフルで安定しており、大規模な組織での利用に適している
 医薬品業界の分析ツールとして事実上の標準になっている
 さまざまな異なるコンセプトに基づく多くのモジュールが提供されており、
トレーニングコースもそれに応じて複雑に入り組んでいる
 競合となる商用統計ソフトと比べても、SASは最も高い
SPSS - 概要
 SPSSは使用が容易で、広く使われる統計ソフトの1つ
 もともとはSPSS社が開発、販売していたがIBMが買収した
 訳注: 統計分析に特化したSPSS Statisticsとモデリング、テキスト
マイニングなどを行うSPSS Modelerに製品が分かれている
画像出典: SPSS Statistics 26の新機能 | IBM ソリューション ブログ
https://www.ibm.com/blogs/solutions/jp-ja/whats-new-in-spss-statistics-26/
SPSS - 強み
 使用法の習得が容易 (スクリプトなど直感的でない機能もある)
 オプション機能を購入することで機能拡張が可能 (x0万円前後)
 さまざまな手法を解説した文献、情報が豊富
 Windows, Macで利用可能
SPSS - 弱み
 1年という短いアップデートサイクルのため、安定性は低い
訳注: ここでいう安定性とは恒常性のことか
 スクリプト機能はあるが、ほかのソフトと比べて、自動化は難しい
SPSS - ライセンスと費用
 複数のライセンス体系があり、StatisticsのBase Subscriptionは
月額13800円から (SPSS Webサイトに価格記載あり)
 SPSS Modeler (Watson Studio Desktop) は
月額27600円から
 学生向けにはより安価なライセンスが提供されている
SPSS - まとめ
 SPSSは最も使いやすい統計ソフトとの評判が高い
 大学の社会科学や心理学などの学部・学科で広く使われている
 IBMによる開発の方向性として、自動化の指向と、できるだけ
専門知識を必要とせずに分析ができるよう改良されている
 その結果、「自分が何をやっているかも理解せずにクリックしているだけ」
と、統計科学のコミュニティからの評価が下がる要因にもなっている
 また、短いアップデートサイクルのため、過去の資産が活用しにくい
 他のソフトに比べ、特定分野 (ダイレクトマーケティングなど) に
特化したモジュールが提供されているが、全体のカバー領域は狭い
STATA - 概要
 STATAは、特に計量経済学の領域で広く使われる商用ソフト
https://www.stata.com/
STATA - 強み
 STATA社が開発した幅広い手法に対応した関数が提供されている
 GUIで操作でき、自動化も可能
 過去のバージョンとの互換性も保たれている
 コミュニティによるサポートが充実し、文献も豊富に存在する
 他の商用ソフトに比べれば、相対的に安価
 3年のアップデートサイクルでセキュリティを担保している
STATA - 弱み
 新しい手法に対応するスピードが少し遅い (アップデート時に対応)
 他のソフトウェアと組み合わせることは難しい
 複数のデータを同時に開くことに制約がある
 訳注: 1コア、2コア、4コアごとにエディションが異なる
STATA - ライセンスと費用
 シングルユーザーライセンスは永久: 275400円、年間サブスクリプショ
ン: 108000円 (代理店ライトストーン社サイトに価格記載あり)
 アカデミック向けは永久: 169560円、年間: 66960円
 学生向けは永久: 27000円、年間: 11880円
STATA - まとめ
 STATAはパワフルであるうえ、成熟し安定したソフトウェアであるにも
関わらず、企業での導入は広がっていない
 幅広い対応領域、成熟した操作体系、スクリプト機能、比較的安価
な価格に価値を感じる人にとってはSTATAはとても魅力的だろう
その他のプログラム
 特定の領域に特化した統計ソフトがあり、ポジションを確立している
 EViews: 時系列データを扱う計量経済学領域のソフト
 SPSS Amos: 構造方程式モデルを扱うSPSSの製品
 WinBUGS / OpenBUGS / Stan: ベイズ統計のためのソフト
 Mathematica / Maxima: 数式処理に特化したソフト
 MATLAB / Octave / Scilab: 数値計算に適したソフト

More Related Content

What's hot

Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
Yuya Unno
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
Hideo Hirose
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
Hiroshi Shimizu
 
AIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前にAIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前に
Monta Yashi
 
コサインクラスタリング
コサインクラスタリングコサインクラスタリング
コサインクラスタリング
osamu morimoto
 
Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方
Kouji Kozaki
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
joisino
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
Kota Mori
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
takehikoihayashi
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
takehikoihayashi
 
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR  #11「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR  #11
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
Koichi Hamada
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
Hiroshi Shimizu
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
mlm_kansai
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
Hiroshi Shimizu
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
hamaken
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
Deep Learning Lab(ディープラーニング・ラボ)
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
Shota Imai
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
Shushi Namba
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
tancoro
 

What's hot (20)

Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~Statistical Semantic入門 ~分布仮説からword2vecまで~
Statistical Semantic入門 ~分布仮説からword2vecまで~
 
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
漸近理論をスライド1枚で(フォローアッププログラムクラス講義07132016)
 
Stanコードの書き方 中級編
Stanコードの書き方 中級編Stanコードの書き方 中級編
Stanコードの書き方 中級編
 
Rの高速化
Rの高速化Rの高速化
Rの高速化
 
AIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前にAIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前に
 
コサインクラスタリング
コサインクラスタリングコサインクラスタリング
コサインクラスタリング
 
Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方Linked Open Data(LOD)の基本的な使い方
Linked Open Data(LOD)の基本的な使い方
 
最適輸送の解き方
最適輸送の解き方最適輸送の解き方
最適輸送の解き方
 
統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)統計的学習の基礎 5章前半(~5.6)
統計的学習の基礎 5章前半(~5.6)
 
相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心相関と因果について考える:統計的因果推論、その(不)可能性の中心
相関と因果について考える:統計的因果推論、その(不)可能性の中心
 
傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装傾向スコア:その概念とRによる実装
傾向スコア:その概念とRによる実装
 
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR  #11「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR  #11
「R言語による Random Forest 徹底入門 -集団学習による分類・予測-」 - #TokyoR #11
 
Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説Cmdstanr入門とreduce_sum()解説
Cmdstanr入門とreduce_sum()解説
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
Stan超初心者入門
Stan超初心者入門Stan超初心者入門
Stan超初心者入門
 
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料) 40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
 
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM) 一般化線形モデル (GLM) & 一般化加法モデル(GAM)
一般化線形モデル (GLM) & 一般化加法モデル(GAM)
 
ChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AIChatGPT 人間のフィードバックから強化学習した対話AI
ChatGPT 人間のフィードバックから強化学習した対話AI
 
心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor心理学における「再現性」の問題とBayes Factor
心理学における「再現性」の問題とBayes Factor
 
Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由Cosine Based Softmax による Metric Learning が上手くいく理由
Cosine Based Softmax による Metric Learning が上手くいく理由
 

Similar to 最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA" の抄訳

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
hamaken
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
Mana Matsudate
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
NTT DATA OSS Professional Services
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
Satoru Ishikawa
 
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
Rescale Japan株式会社
 
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめPostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
Ohyama Masanori
 
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
Rescale Japan株式会社
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
Daiyu Hatakeyama
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
Hortonworks Japan
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
Amazon Web Services Japan
 
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
Yosuke Katsuki
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
NTT DATA OSS Professional Services
 
レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介
Satoshi Kitajima
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
NTT DATA OSS Professional Services
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Rescale Japan株式会社
 
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
Recruit Lifestyle Co., Ltd.
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
Recruit Technologies
 
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
akio doi
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
Amazon Web Services Japan
 
Pentaho+mongo db勉強会20150416
Pentaho+mongo db勉強会20150416Pentaho+mongo db勉強会20150416
Pentaho+mongo db勉強会20150416
Yoshiteru Morimoto
 

Similar to 最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA" の抄訳 (20)

ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)ちょっと理解に自信がないなという皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
ちょっと理解に自信がないな という皆さまに贈るHadoop/Sparkのキホン (IBM Datapalooza Tokyo 2016講演資料)
 
あなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれませんあなたの知っているSAPは古いかもしれません
あなたの知っているSAPは古いかもしれません
 
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
Hadoopエコシステムの最新動向とNTTデータの取り組み (OSC 2016 Tokyo/Spring 講演資料)
 
re:Growth2019 Analytics Updates
re:Growth2019 Analytics Updatesre:Growth2019 Analytics Updates
re:Growth2019 Analytics Updates
 
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
セミナー資料 2017年1月27日開催「クラウドCAEフェスティバル」
 
PostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめPostgreSQLによるデータ分析ことはじめ
PostgreSQLによるデータ分析ことはじめ
 
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜Integral Technology 第2回ユーザカンファレンス  〜すべてをクラウドで解析するための方法〜
Integral Technology 第2回ユーザカンファレンス 〜すべてをクラウドで解析するための方法〜
 
DB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data PlatformDB TechShowcase Tokyo - Intelligent Data Platform
DB TechShowcase Tokyo - Intelligent Data Platform
 
Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤Apache Hadoopを利用したビッグデータ分析基盤
Apache Hadoopを利用したビッグデータ分析基盤
 
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
【IVS CTO Night & Day】AWS re:Invent 2017 振り返り
 
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
 
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~データ活用をもっともっと円滑に!~データ処理・分析基盤編を少しだけ~
データ活用をもっともっと円滑に! ~データ処理・分析基盤編を少しだけ~
 
レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介レボリューションR(RRE)のご紹介
レボリューションR(RRE)のご紹介
 
Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)Apache Hadoop 2.8.0 の新機能 (抜粋)
Apache Hadoop 2.8.0 の新機能 (抜粋)
 
Deep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale nightDeep Learning on Rescale - Oct/11/2016 at Rescale night
Deep Learning on Rescale - Oct/11/2016 at Rescale night
 
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
大規模サービスにおける価値開発の“これまで”と“将来”~新たな“じゃらんnet”のチャレンジに関して~
 
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組みリクルートのビッグデータ活用基盤とデータ活用に向けた取組み
リクルートのビッグデータ活用基盤とデータ活用に向けた取組み
 
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
Antenna 20180306 AzureのIaaSで構築する、シンプルなWebサーバ環境
 
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
[PGConf.ASIA 2018]Deep Dive on Amazon Aurora with PostgreSQL Compatibility
 
Pentaho+mongo db勉強会20150416
Pentaho+mongo db勉強会20150416Pentaho+mongo db勉強会20150416
Pentaho+mongo db勉強会20150416
 

最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA" の抄訳

  • 1. 最高の統計ソフトウェアはどれか? "What’s the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA" の抄訳 フリーランス 研修・人材育成サービス タナカ ケンタ https://mana.bi/
  • 2. 出典 What's the Best Statistical Software? A Comparison of R, Python, SAS, SPSS and STATA https://www.inwt-statistics.com/read-blog/comparison-of-r-python-sas-spss-and-stata.html
  • 3. R - 概要  広く使用されるOSSの統計解析環境。パッケージで機能拡張が可能 https://cran.ism.ac.jp/  RStudioと組み合わせて使うことが多い https://www.rstudio.com/  RStudioはデスクトップ、 サーバ・クライアント型両方で利用可能  ShinyパッケージでWebアプリ化できる
  • 4. R - 強み  10000を軽く超えるパッケージによる膨大な分析関数  新しい手法がすぐに実装・提供される  自動化、システム化が容易  コミュニティによるサポートが親切、有償サポートも  ヘルプ、マニュアルが充実している  柔軟なプログラミングが可能な言語体系  WindowsでもMacでもLinuxでも使用可能  開発が活発で、将来性も高い
  • 5. R - 弱み  初学者には、R「言語」の文法に慣れるまでにハードルがある  利用者の少ないパッケージの品質・安定性は高くないことがある  大量データを処理するためには高性能なハードウェアが必要
  • 6. R - ライセンスと費用  Rはオープンソースソフトウェア (GPL v2)  無償で利用できる (パッケージ、周辺ソフトウェアには有償のものも)
  • 7. R - まとめ  当初、Rは商用統計ソフトの安価な代替でしかなかった  その後の成長で、機能、柔軟性、他ソフトとの統合の面で商用ソフト を上回り、商用ソフト側もRとの連携に取り組むようになった  R言語の習得は難しいとの批判もあったが、RStudioの登場で 解消されつつある  さまざまな領域の統計手法を使用し、(それぞれの領域専門の) 個別 のソフトウェアに縛られたくない人には、Rは優れた選択肢となるだろう
  • 8. Python - 概要  高機能でオープンなインタプリタ型言語で、近年は データサイエンスプロジェクトといえばPython、という ような地位を占めている  汎用言語として、Web開発などの場面でも 広く使用されている  特にDeep Learningや機械学習に適しており、 ライブラリを活用することで、統計ソフトとして 実践的に活用できる  Jupyter (Notebook / Lab) やSpyder、 PyCharmなどの開発環境が充実している
  • 9. Python - 強み  パワフルで高機能なプログラミング言語である  オブジェクト指向、構造化プログラミング、関数プログラミングなどの パラダイムが利用可能  単体テストやデバッグなどの機能が充実した、成熟した言語  様々なデータサイエンスのニーズに対応する豊富なライブラリ群  多様な開発ツール、分散並列処理環境との連携が容易  目を惹く可視化を容易に実現可能  今後も継続した成長が見込まれる
  • 10. Python - 弱み  すべての統計手法が実装されているわけではない  いくつかの分析のための開発環境は、未だ成熟しきれていない  「汎用」言語を習得するためのハードルはかなり高い
  • 11. Python - ライセンスと費用  Python言語を使用するうえで費用はかからない  しかし、テキストマイニングのためのライブラリなど、一部の領域では 商用利用に制約がかかっているものがある (以前のspaCy?)
  • 12. Python - まとめ  Pythonは幅広い領域に対応したプログラミング言語  近年、高度なライブラリを活用した専門的な統計アプリケーションが 多数Pythonで開発されている  Deep Learningのような、コンピュータサイエンスの理解が求められる 領域の開発にはPythonが適している  Pythonを学習するには、完全な (汎用) プログラミング言語を習得 する覚悟が必要になるが、良いチュートリアルも多数提供されている  RStudioのような、データサイエンス領域における優れた開発環境が (まだ) 存在しない
  • 13. SAS - 概要  SAS Instituteが開発・販売する商用ソフトウェア  訳注: SAS University Editionという無償版もある  生命科学、臨床医学研究、金融領域で広く使われている
  • 14. SAS - 強み  新しい手法が迅速に実装・提供される  安定性・信頼性の高いルーチン  優れたドキュメントと専門的なサポート  BIソフトなどと連携できる多数の モジュール・インターフェース  大量データの扱いに適している  SAS社自身によって、入門から応用まで 幅広い研修が提供されている
  • 15. SAS - 弱み  独特で、一部複雑なSAS「言語」を習得しなければならない  GUIは補助的な位置づけで、古典的なコマンドラインインターフェース
  • 16. SAS - ライセンスと費用  SAS Analytics Proライセンスの価格は、個人使用では 1年間でX00万円以上  ただし、教育機関向けにはより安価なライセンスも提供されている 訳注: Education Analytical Suite
  • 17. SAS - まとめ  SASはパワフルで安定しており、大規模な組織での利用に適している  医薬品業界の分析ツールとして事実上の標準になっている  さまざまな異なるコンセプトに基づく多くのモジュールが提供されており、 トレーニングコースもそれに応じて複雑に入り組んでいる  競合となる商用統計ソフトと比べても、SASは最も高い
  • 18. SPSS - 概要  SPSSは使用が容易で、広く使われる統計ソフトの1つ  もともとはSPSS社が開発、販売していたがIBMが買収した  訳注: 統計分析に特化したSPSS Statisticsとモデリング、テキスト マイニングなどを行うSPSS Modelerに製品が分かれている 画像出典: SPSS Statistics 26の新機能 | IBM ソリューション ブログ https://www.ibm.com/blogs/solutions/jp-ja/whats-new-in-spss-statistics-26/
  • 19. SPSS - 強み  使用法の習得が容易 (スクリプトなど直感的でない機能もある)  オプション機能を購入することで機能拡張が可能 (x0万円前後)  さまざまな手法を解説した文献、情報が豊富  Windows, Macで利用可能
  • 20. SPSS - 弱み  1年という短いアップデートサイクルのため、安定性は低い 訳注: ここでいう安定性とは恒常性のことか  スクリプト機能はあるが、ほかのソフトと比べて、自動化は難しい
  • 21. SPSS - ライセンスと費用  複数のライセンス体系があり、StatisticsのBase Subscriptionは 月額13800円から (SPSS Webサイトに価格記載あり)  SPSS Modeler (Watson Studio Desktop) は 月額27600円から  学生向けにはより安価なライセンスが提供されている
  • 22. SPSS - まとめ  SPSSは最も使いやすい統計ソフトとの評判が高い  大学の社会科学や心理学などの学部・学科で広く使われている  IBMによる開発の方向性として、自動化の指向と、できるだけ 専門知識を必要とせずに分析ができるよう改良されている  その結果、「自分が何をやっているかも理解せずにクリックしているだけ」 と、統計科学のコミュニティからの評価が下がる要因にもなっている  また、短いアップデートサイクルのため、過去の資産が活用しにくい  他のソフトに比べ、特定分野 (ダイレクトマーケティングなど) に 特化したモジュールが提供されているが、全体のカバー領域は狭い
  • 23. STATA - 概要  STATAは、特に計量経済学の領域で広く使われる商用ソフト https://www.stata.com/
  • 24. STATA - 強み  STATA社が開発した幅広い手法に対応した関数が提供されている  GUIで操作でき、自動化も可能  過去のバージョンとの互換性も保たれている  コミュニティによるサポートが充実し、文献も豊富に存在する  他の商用ソフトに比べれば、相対的に安価  3年のアップデートサイクルでセキュリティを担保している
  • 25. STATA - 弱み  新しい手法に対応するスピードが少し遅い (アップデート時に対応)  他のソフトウェアと組み合わせることは難しい  複数のデータを同時に開くことに制約がある  訳注: 1コア、2コア、4コアごとにエディションが異なる
  • 26. STATA - ライセンスと費用  シングルユーザーライセンスは永久: 275400円、年間サブスクリプショ ン: 108000円 (代理店ライトストーン社サイトに価格記載あり)  アカデミック向けは永久: 169560円、年間: 66960円  学生向けは永久: 27000円、年間: 11880円
  • 27. STATA - まとめ  STATAはパワフルであるうえ、成熟し安定したソフトウェアであるにも 関わらず、企業での導入は広がっていない  幅広い対応領域、成熟した操作体系、スクリプト機能、比較的安価 な価格に価値を感じる人にとってはSTATAはとても魅力的だろう
  • 28. その他のプログラム  特定の領域に特化した統計ソフトがあり、ポジションを確立している  EViews: 時系列データを扱う計量経済学領域のソフト  SPSS Amos: 構造方程式モデルを扱うSPSSの製品  WinBUGS / OpenBUGS / Stan: ベイズ統計のためのソフト  Mathematica / Maxima: 数式処理に特化したソフト  MATLAB / Octave / Scilab: 数値計算に適したソフト