SlideShare a Scribd company logo
数据的作用
微软·商用人工智能团队 李烨
数据
• 数据处理
• 数据分析
• 数据挖掘
• 人工智能
• 机器学习
• 深度学习
人工智能
• 会思考的机器
• 1955 – 至今几度沉浮
人工智能的第三个高峰
• 算法
• Hinton,Reducing the dimensionality of data with neural
networks(2006)
• 算力
• GPU,TPU,NPU ……
• 数据
• Big Data (Hadoop,Spark……)
模型、算法
和数据
• AI模型
• 机器学习模型
• 深度学习模型
• 算法 + 数据 => 模型
模型的生命周期
• 数据预处理
• 模型训练
• 模型验证/测试
• 模型服务
模型的决定因素和使用方法
• 决定因素
• 数据
• 算法
• 运算
• 使用方法
• 产品
• API
• 本地部署
• 迁移学习
• 从零训练
数据分析
• 进军AI的必备条件
• 认识数据
• 了解统计学原理
• 学习数据处理方法
数据分析工具
• Python
• Libraies
• numpy:维度数组与矩阵
运算
• pandas:数据处理与数据
分析
• sklearn (scikit-learn)
Python
pands
pd.read_csv()
•Get Information
•Indexing
•Row & Column
•Statistics
•Get Description
pandas.DataFrame
Python sklearn
• sklearn.preprocessing.LabelEncoder
• 为标签编码
• 将枚举值转化为数值值
• 数据标签的作用
• 有监督学习
• 无监督学习
清洗数据
冗余
(重复)
缺失
异常
移除
填充
(覆盖)
合并 AND
OR
常见问题
冗余(重复)
缺失
异常
常见应对办法
移除
填充(覆盖)
*合并
原理 vs 实现 • 原理
• 方法、规则、流程
• 抽象层面
• 实现
• 执行
• 具体层面
• 工具、步骤、原料、成
品
• 数据清洗
• 移除、填充、合并
• 对数据的操作
• 用Python清洗保险数据
• 数据源:csv文件
• 工具:Python ,
numpy, pandas
• 用工具编写程序处理
数据源,获得清洗后
的数据
学习的过程
通过具体实现过
程理解原理
将原理应用到其
他工具和原料
用原理解决实际
问题
优化原理 理论指导实践
谢谢!

More Related Content

Similar to Why is data so important?

20180506 Introduction to machine learning
20180506 Introduction to machine learning20180506 Introduction to machine learning
20180506 Introduction to machine learning
岳華 杜
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
KennyZ
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf
FEG
 
物聯網入門探討
物聯網入門探討物聯網入門探討
物聯網入門探討
FEG
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用
Jerry Tseng
 
系統資源使用思維
系統資源使用思維系統資源使用思維
系統資源使用思維
YC Liang
 
Introduction to machine learning
Introduction to machine learningIntroduction to machine learning
Introduction to machine learning
岳華 杜
 
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介
NVIDIA Japan
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
medcl
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
mysqlops
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnyp_fangdong
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
AiondBdkpt
 
Machine Learning Study Framework
Machine Learning Study FrameworkMachine Learning Study Framework
Machine Learning Study Framework
Jhang Raymond
 
啟動你的AI工匠魂
啟動你的AI工匠魂啟動你的AI工匠魂
啟動你的AI工匠魂
Erhwen Kuo
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
hdhappy001
 
第二节【课后作业】.pptx
第二节【课后作业】.pptx第二节【课后作业】.pptx
第二节【课后作业】.pptx
YangXu198004
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
hdhappy001
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术锐 张
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
Denodo
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
Adam Gibson
 

Similar to Why is data so important? (20)

20180506 Introduction to machine learning
20180506 Introduction to machine learning20180506 Introduction to machine learning
20180506 Introduction to machine learning
 
淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]淘宝数据可视化[2010 SD2.0]
淘宝数据可视化[2010 SD2.0]
 
2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf2_學院碩士班_分群模型_20220606.pdf
2_學院碩士班_分群模型_20220606.pdf
 
物聯網入門探討
物聯網入門探討物聯網入門探討
物聯網入門探討
 
淺談大數據概念與應用
淺談大數據概念與應用淺談大數據概念與應用
淺談大數據概念與應用
 
系統資源使用思維
系統資源使用思維系統資源使用思維
系統資源使用思維
 
Introduction to machine learning
Introduction to machine learningIntroduction to machine learning
Introduction to machine learning
 
中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介中国の最新 GPU ディープラーニング事例のご紹介
中国の最新 GPU ディープラーニング事例のご紹介
 
数据挖掘理论与实践
数据挖掘理论与实践数据挖掘理论与实践
数据挖掘理论与实践
 
数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望数据挖掘技术概述及前景展望
数据挖掘技术概述及前景展望
 
Dtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cnDtcc ibm big data platform 2012-final_cn
Dtcc ibm big data platform 2012-final_cn
 
IT445_Week_11.pdf
IT445_Week_11.pdfIT445_Week_11.pdf
IT445_Week_11.pdf
 
Machine Learning Study Framework
Machine Learning Study FrameworkMachine Learning Study Framework
Machine Learning Study Framework
 
啟動你的AI工匠魂
啟動你的AI工匠魂啟動你的AI工匠魂
啟動你的AI工匠魂
 
刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台刘昌钰:阿里大数据应用平台
刘昌钰:阿里大数据应用平台
 
第二节【课后作业】.pptx
第二节【课后作业】.pptx第二节【课后作业】.pptx
第二节【课后作业】.pptx
 
杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务杨少华:阿里开放数据处理服务
杨少华:阿里开放数据处理服务
 
Greenplum技术
Greenplum技术Greenplum技术
Greenplum技术
 
逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产逻辑数据编织如何完善IT架构,盘活数据资产
逻辑数据编织如何完善IT架构,盘活数据资产
 
Skymind - Udacity China presentation
Skymind - Udacity China presentationSkymind - Udacity China presentation
Skymind - Udacity China presentation
 

Why is data so important?