Python的数据工具箱 肖凯
关于我
• 喜欢折腾数据
• 1号店-商务智能部
• 《数据科学中的R语言》
哪一项最重要?
• 问题
• 数据
• 方法
• 工具
大纲
• 为何使用Python
• Python VS R
• 数据相关模块
• 学习资源
为何使用Python
• 填补数据研究和产品开发之间的鸿沟
• 配合数据科学家完成多领域任务(Bigdata/Deepleaning/NLP)
Python VS R
两种工具的相同点:
• 均为开源免费
• 均可在三种操作系统中运行
• 均有大量的用户群和社区支持
• 均有大量的扩展包和教程资源
• 调查显示它们是业界人士最为喜爱的两种工具
Python VS R
Python VS R
两种工具的差异点:
• Python是一种通用编程工具,R偏向于统计专业
• R有更为丰富的统计分析函数,Python长于机器学习
• R有更好的静态可视化包,Python正在进步
• Python和R的核心语法非常简洁,R包的语法兼收并蓄,
错综复杂
Python VS R
R:
results <- lm(y ~ x1 + x2 + x3, data=dataframe)
Python:
results = sm.OLS(y, X).fit()
Python VS R
R:
• 如果你不是计算机背景
• 未来有很强的学术化需求
Python:
• 如果你是计算机背景
• 未来有很强的工业化需求
数据相关模块
• IPython: 增强的交互式运行环境
• NumPy : 数组数据结构和矩阵计算
• SciPy : 科学计算
• Matplotlib : 数据绘图
• Pandas : 提供data frames数据结构
• Statsmodels:统计模型
• Scikit-learn:机器学习
• Pyspark:Spark接口
• NLTK:自然语言处理
• Networkx:社交网络分析
深度学习框架
• Theano:高效的数值计算库
• 与Numpy紧密结合
• 优化了速度和稳定性
• 利用GPU做高负荷运算
• 自动计算函数导数,适合深度学习
• Lasagne
• Keras
• Opendeep
• Blocks
基于keras构建CNN
分析流程中的Python
科学计算套件
推荐阅读
The End

Python中的数据工具箱