数据的作用
微软·商用人工智能团队 李烨
数据
• 数据处理
• 数据分析
• 数据挖掘
• 人工智能
• 机器学习
• 深度学习
人工智能
• 会思考的机器
• 1955 – 至今几度沉浮
人工智能的第三个高峰
• 算法
• Hinton,Reducing the dimensionality of data with neural
networks(2006)
• 算力
• GPU,TPU,NPU ……
• 数据
• Big Data (Hadoop,Spark……)
模型、算法
和数据
• AI模型
• 机器学习模型
• 深度学习模型
• 算法 + 数据 => 模型
模型的生命周期
• 数据预处理
• 模型训练
• 模型验证/测试
• 模型服务
模型的决定因素和使用方法
• 决定因素
• 数据
• 算法
• 运算
• 使用方法
• 产品
• API
• 本地部署
• 迁移学习
• 从零训练
数据分析
• 进军AI的必备条件
• 认识数据
• 了解统计学原理
• 学习数据处理方法
数据分析工具
• Python
• Libraies
• numpy:维度数组与矩阵
运算
• pandas:数据处理与数据
分析
• sklearn (scikit-learn)
Python
pands
pd.read_csv()
•Get Information
•Indexing
•Row & Column
•Statistics
•Get Description
pandas.DataFrame
Python sklearn
• sklearn.preprocessing.LabelEncoder
• 为标签编码
• 将枚举值转化为数值值
• 数据标签的作用
• 有监督学习
• 无监督学习
清洗数据
冗余
(重复)
缺失
异常
移除
填充
(覆盖)
合并 AND
OR
常见问题
冗余(重复)
缺失
异常
常见应对办法
移除
填充(覆盖)
*合并
原理 vs 实现 • 原理
• 方法、规则、流程
• 抽象层面
• 实现
• 执行
• 具体层面
• 工具、步骤、原料、成
品
• 数据清洗
• 移除、填充、合并
• 对数据的操作
• 用Python清洗保险数据
• 数据源:csv文件
• 工具:Python ,
numpy, pandas
• 用工具编写程序处理
数据源,获得清洗后
的数据
学习的过程
通过具体实现过
程理解原理
将原理应用到其
他工具和原料
用原理解决实际
问题
优化原理 理论指导实践
谢谢!

Why is data so important?