南通市教育局（鞠小林）

大数据起源与
数据分析
鞠小林@南通大学
1

• 学习和研究经历
– 武汉大学（1994）学士
– 东南大学（2001）硕士
– 中国矿大（2011）博士
– 南京大学（2016）博士后
• 工作经历
– 南通大学（1998年 - ）
– 华为，项目合作（2002年）
– 中国信息安全评测中心（2012年） 2
我是谁？

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
3

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
4

大数据
离我们有多远？
5

背景
社会生产、生活快节奏，每天产生海量的数据！
6
例子1：制造业大数据
• GE（通用公司）的每个飞机引擎安装20个传感器，飞行数据
量20TB/小时，从伦敦到纽约单程产生640TB的数据，GE每天
收集的引擎数据就达到PB级。
例子2：服务业大数据
• 一次CT影像数据量达到几十GB，全国病人数以亿计。例如：
中山大学第一附院2015年全年新增的数据量就达到 PB级。
其他：政府大数据（如监控视频）、互联网大数据（如百度网
页查询（60亿次/天）、淘宝购物交易数（千万次/天）…

有哪些海量数据？
消费数据
7
健康数据
交通数据
政府政策
气候数据
能源数据
其他
购物、能耗（如淘宝、京东用户）
个人病历、群体健康
城市、城际交通（智能交通）
教育、医疗、土地、交通等
区域气候、全球气候等数据
能源存储、开发、耗费
…
综合利用多源数据，制定决策：大数据技术

背景
依赖人工+孤立信息系统分析处理这些数据：
仅能满足简单的信息处理需求
时间的推移：产生新的需求如何满足？
如何挖掘数据潜在
价值？
8
迫切需要对海量数据的二次加
工
大数据平台, 洞悉到亿万用户的方方面面!

订外卖
顾客：你好！我想要一份……
客服：请先把您的会员卡号告诉我，好吗？
顾客：16846146***。
顾客：我想要一个海鲜比萨……
客服：陈先生，海鲜比萨不适合您。
顾客：为什么？
客服：根据您的医疗记录，你的血压和胆固醇都偏高。
顾客：那你有什么可以推荐的？
客服：您可以试试我们的低脂健康比萨。
顾客：你怎么知道我会喜欢这种的？
客服：您上星期一在国家图书馆借了一本《低脂健康食谱》。 more
9

生活服务 ——精准营销
10
ID
TimeLocation

什么是大数据
：大体量或超复杂的数据。超出常规处理方法和处理能力！
11
结构化数据半结构化数据海量数据
大数据 = 财富
GE分析预测引擎故障，提前预防维护，
防止延误。（美国：减少6万次/年）

大数据：服务金字塔
数据采集
预处理
数据存储
与管理
大数据
计算模式
大数据
安全保障
大数据分析
与数据挖掘
可视化
分析
工具
层
基础
层
幸福的人类
用户
层

大数据发展： 4+2金字塔
• 大数据技术: 新一代构架（基础层）
1. 大数据采集与预处理 - 很多公司已经推出了多种数据
清洗和质量控制工具 (如IBM 公司的 DataStage)
• 专用仪器采集
• 用户使用行为跟踪
• 爬虫爬取公开信息
• 清洗数据（工具左）

2. 大数据存储与管理 – 规模大,管理复杂。阿里云存储
架构
1
2 3

3. 大数据计算模式 - 典型的计算模式,包括大数据查询
分析计算(如 Hive)、批处理计算( Hadoop MapReduce)
等
map
reduce
Hadoop
分布式
文件系统
TB

4. 大数据安全 - 文件访问控制、设备加密保护技术等

• 大数据技术: 新一代分析技术 (技术层)
1. 大数据分析与挖掘 - 数据量迅速增加的同时,进行数
据分析和挖掘, 并且对自动化分析要求越来越高
– 数据挖掘算法：（面向机器）筛选、投影、分割等OP
– 预测分析：根据挖掘结果做预测判断
– 语义引擎：处理非结构化数据

• 大数据技术: 新一代分析技术 (技术层)
2. 可视化分析 - 通过可视化帮助人们探索和解释复杂
的数据, 有利于决策者挖掘数据的商业价值。
– 简单的图：直方图、折线图、箱线图…
– 直观展示数据特征，由决策者观察趋势，推断出结论
阿里云
可视化数据组件

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
19

大数据特征
• IBM ：3V 模型
 Volume(体量 )。各设备产生
海量数据、体量巨大
 Variety(多样 )。类型、来源、形式繁多：
语音、文字、视频、微信混杂一起
 Velocity(速率 )。数据高速到达系统内部，
要求处理数据的速度必须非常快
Value

大数据特征
社会生产、生活快节奏，每时每刻产生海量的数据！
21
• 海量的数据！
• TB 增长
• 异构的数据！
• 文本、图像、音视频
• 快速到达的数据！
• 实时采集
数据 = 金矿（挖掘）

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
22

大数据的应用（国际）
• 梅西百货的实时定价机制 - 根据需求和库存情况调价
• Tipp24AG 针对欧洲博彩业构建的下注和预测平台
• 沃尔玛的搜索 – 在官方网站利用语义数据进行文本分
析、机器学习和同义词挖掘等
• TescoPLC(特易购)的运营效率 - 这家连锁超市在其数
据仓库中收集了700万部冰箱的数据。对这些数据的分
析进行更全面的监控, 进行主动的维修

大数据的应用（国内）
• 百度：广告、网页推送（依据用户搜索行为）
• 京东：根据浏览、购买记录推荐商品；根据信用情况
调整信用（白条）额度；
• 淘宝、一些新闻媒体客户端 ……
（结果不精确）

• 阿里云的大数据平台
智能利用

• 阿里云—— 推荐引擎：可用于电商、音乐、在线教育

• 建行云服务—— 定制专业、多渠道金融服务：中小学学
费、党费、物业费等收缴、财务对接、多系统对接

• 阿里云—— 人脸识别（免费）: 可用于机场安检、单位门禁

照片识别：性别、年龄
• 预测实验：
结论：预测结果准确 or 乐观 or 悲观？

现场预测：人脸识别
• 预测年龄 VS 自然年龄
1. 小于（）人？
2. 等于（）人？
3. 大于（）人？
结论：预测结果准确 or 乐观 or 悲观？

数据分析可视化—实例
• 社会财富分配游戏：
• 房间里有100个人，每人都有100元钱，他们在玩一个游戏。
每轮游戏中，每个人都要拿出一元钱随机给另一个人，最
后这100个人的财富分布是怎样的？
• 模型简化：每个人在18岁带着100元的初始资金开始玩，每
天玩一次，一直玩到65岁退休。“每天拿出一元钱”可理
解为日常消费，“获得财富的概率随机”以此计算，人一
生要玩17000次游戏，即获得17000次财富分配的机会。
• 可能结果（下一页）

社会财富分配游戏
3 社会的发展
财富不断集中的过程
55%
100元

4 允许借债
穷人会更穷
25%

5
努力能改变命运
假设每人初始财富仍然为100元，但有10人比别人加倍努力，从而
获得1%的竞争优势，赢得收益的概率比别人高出1%，模拟结果如何
呢？

6
这个模型还可以修改：
• 增加富二代因素
• 考虑政府征税（相同税率、不同税率）
• 政府转移支付 ……
• 可以得到有趣的结论, 支持决策过程

预测：不可持续的善举
1
地铁口的零钱箱，可以任取1~5枚，或贡献1枚
• 零钱箱：初始500枚，假设：
1. 放：取= 1：1
2. 倾向少放
3. 倾向多取不可持续？

Q：怎样保证可持续？
2
可以任取1~5枚，或贡献1~5枚。零钱箱：初始
500枚，假设：
1. 放：取= 1：1
2. 倾向少放
3. 倾向多取
不可持续？

Q：怎样保证可持续？
3
可以任取1~5枚，或1枚。零钱箱：初始500枚，
假设：
1. 放：取= 4：1
2. 倾向少放
3. 倾向多取
可持续？

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
41

大数据研究应用现状
• 财力不雄厚的科研机构
– 研究理论、方法、算法
• 财力雄厚的 I T企业（BAT）、军方等特殊部门（如公安）
– 研究、实现大数据相关方法、算法、技术
– 开发大数据相关基础设施、中间件、实用工具（软件）
• 财力雄厚的商业企业（京东等电商相关、垄断企业）
– （购买、租用）部署大数据分析平台、软件产品
– 自己开发部署专用大数据平台（通用电气、西门子）

大数据展望
• 不是谁都可以研发大数据产品
– 由专业的IT企业（百度、阿里、腾讯、Google、MS、IBM…）
– 专门部门（军方研究机构、高校及科研院所）
• 但是人人可以拥抱大数据
– 生产者：贡献（分享）大数据
– 消费者：利用（享受）大数据
• 存在问题：法律问题、道德问题、未知问题 … …

中小学教师发展数据
• 基础数据收集
– 性别、年龄结构
– 学科、学历、学位、职称等
• 发展数据收集
– 进修、培训、交流数据
– 工作负担、教学研究绩效等
• 各类激励
– 人才计划（国培、特岗）
– 荣誉称号
政策
建议
数据挖掘
模型、
工具
重点：
1. 建模
2. 参数优化

大数据时代，我们如何做教师
• 社会环境变化
– 培养目标：由强调知识 强调能力
– 培养手段：由三尺讲台、一支粉笔 互联网+背景下
多种媒体交互、社会实践、翻转课堂等
• 培养对象变化
– 观念变化：学生个性鲜明，敢于质疑 ”权威” .
适应拥抱

我们如何做教师？
• 自动收集学生数据
– 教学数据：课堂(后)作业、学生实践、考试… … 数据收集
– 评价数据：专家、学生、家长等量化评估
• 自动分析学习数据
– 趋势分析：预测教学效果
– 关联分析：挖掘学生学习成绩的关联因素（包括：有利、不利）
– 因果分析：对好（坏）特例现象产生原因分析，推广（避免）
• 总结提高
– 挖掘教学做法、经验等，推广使用

教师如何做自己
• 个体自身的职业规划
– 可行的目标（教学成果、职称、人才计划等）
– 可行的行动（任务分解）
• 知易行难，难在付诸行动
• 管理部门（在座的）
– 基于大数据，研究人才成长规律，（人才）政策决策支持
– 基于大数据，发现潜在优秀人才（做好伯乐）
– 做桥梁：大数据 大价值，为普通教师个性化服务（高可信）
– … …

在座的如何做？
• 挑战
– 数据分析需求（教育咨询）的多变？
– 工具
• 应对措施
– 熟悉（数据分析）办公软件（Excel）
– 一些简单的脚本语言。如 Python 语言（Top 10 ）
– 专业的数据分析软件（编程语言）。如 R 语言
• 前提：敏而好学！

结交好老师
1. 百度：百度（搜索、知道、百科…)
2. Google: 学术、…
3. Other resources from Internet…
So: 择其善者而从之，其不善者而改之
—— 论语·述而 .
50
三
人
行
，
必
有
我
师
焉

网上老师（示例）
• Git， Github：大量的开源软件可供模仿、
改进
51http://gitmining.net/GithubVisualization/overview

K
J
4
L
r
i
J
w
w
5
o
i
3
3
3
w
k
e
应用大数据
印象大数据
展望大数据
缘起大数据
52

南通市教育局（鞠小林）

Recommended

Recommended

More Related Content

Similar to 南通市教育局（鞠小林）

Similar to 南通市教育局（鞠小林） (8)

Recently uploaded

Recently uploaded (14)

南通市教育局（鞠小林）

Editor's Notes