More Related Content
Similar to 南通市教育局(鞠小林) (8)
南通市教育局(鞠小林)
- 1. 大 数 据 起 源 与
数 据 分 析
鞠小林@南通大学
1
- 2. • 学习和研究经历
– 武汉大学(1994) 学士
– 东南大学(2001) 硕士
– 中国矿大(2011) 博士
– 南京大学(2016) 博士后
• 工作经历
– 南通大学(1998年 - )
– 华为,项目合作(2002年)
– 中国信息安全评测中心 (2012年) 2
我 是 谁?
- 13. 大数据发展: 4+2金字塔
• 大数据技术: 新一代构架(基础层)
1. 大数据采集与预处理 - 很多公司已经推出了多种数据
清洗和质量控制工具 (如IBM 公司的 DataStage)
• 专用仪器采集
• 用户使用行为跟踪
• 爬虫爬取公开信息
• 清洗数据(工具左)
- 15. 3. 大数据计算模式 - 典型的计算模式,包括大数据查询
分析计算(如 Hive)、批处理计算( Hadoop MapReduce)
等
map
reduce
Hadoop
分布式
文件系统
TB
大数据发展: 4+2金字塔
- 17. • 大数据技术: 新一代分析技术 (技术层)
1. 大数据分析与挖掘 - 数据量迅速增加的同时,进行数
据分析和挖掘, 并且对自动化分析要求越来越高
– 数据挖掘算法 :(面向机器)筛选、投影、分割等OP
– 预测分析:根据挖掘结果做预测判断
– 语义引擎:处理非结构化数据
大数据发展: 4+2金字塔
- 18. • 大数据技术: 新一代分析技术 (技术层)
2. 可视化分析 - 通过可视化帮助人们探索和解释复杂
的数据, 有利于决策者挖掘数据的商业价值。
– 简单的图:直方图、折线图、箱线图…
– 直观展示数据特征,由决策者观察趋势,推断出结论
大数据发展: 4+2金字塔
阿里云
可视化数据组件
- 20. 大数据特征
• IBM :3V 模型
Volume(体 量 )。 各设备产生
海量数据、体量巨大
Variety(多 样 )。 类型、来源、形式繁多:
语音、文字、视频、微信混杂一起
Velocity(速 率 )。 数据高速到达系统内部,
要求处理数据的速度必须非常快
Value
- 23. 大数据的应用(国际)
• 梅西百货的实时定价机制 - 根据需求和库存情况调价
• Tipp24AG 针对欧洲博彩业构建的下注和预测平台
• 沃尔玛的搜索 – 在官方网站利用语义数据进行文本分
析、机器学习和同义词挖掘等
• TescoPLC(特易购)的运营效率 - 这家连锁超市在其数
据仓库中收集了700万部冰箱的数据。对这些数据的分
析进行更全面的监控, 进行主动的维修
- 42. 大数据研究应用现状
• 财力不雄厚的科研机构
– 研究理论、方法、算法
• 财力雄厚的 I T企业 (BAT)、军方等特殊部门(如公安)
– 研究、实现大数据相关方法、算法、技术
– 开发大数据相关基础设施、中间件、实用工具(软件)
• 财力雄厚的商业企业 (京东等电商相关、垄断企业)
– (购买、 租用)部署大数据分析平台、软件产品
– 自己开发部署专用大数据平台(通用电气、西门子)
- 47. 我们如何做教师 ?
• 自动收集学生数据
– 教学数据:课堂(后)作业、学生实践、考试… … 数据收集
– 评价数据:专家、学生、家长等量化评估
• 自动分析学习数据
– 趋势分析:预测教学效果
– 关联分析:挖掘学生学习成绩的关联因素(包括:有利、不利)
– 因果分析:对好(坏)特例现象产生原因分析,推广(避免)
• 总结提高
– 挖掘教学做法、经验等,推广使用
Editor's Notes
- 1、政府数据。我们知道,视频监控摄像头现在已经被广泛应用于主要道路、热点社区、地铁和居民小区的安全监视。一个800万像素的摄像头,每小时产生3.6GB的数据量,很多城市的摄像头多达几十万个,一个月的数据量就能达到数百PB(1PB=2^20G),若需保存3个月,则存储量达EB级(1EB=2^30G)。国家税务总局每月收集全国数据达4TB(1TB=1024G)。北京市政府部门数据库总量每年达到近EB级。
2、制造业数据
GE(通用公司)的每一个飞机引擎安装20个传感器,在飞行过程中每隔一段时间通过卫星将传感器收集的引擎状态传给GE公司。每个引擎飞行1小时产生20TB的数据量,从伦敦到纽约单程产生640TB的数据,GE每天收集的引擎数据就达到PB级别。美国每月收集360万次飞行记录,监视机队25000个引擎。
GE通过对2万台引擎的数据分析,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。依此对引擎预防性维护,在美国就防止了不止6万次的航班延误或取消。如果将传感器数据收集和分析用于燃油效率上,1%的提高,就能使航空业每年节省20亿美元。
3、服务业数据
国家电网年均产生数据500TB。联通用户,每秒上网记录近100万条,每年对应数据量4PB。 农夫山泉每天从销售其矿泉水的超市回传10张照片,每月3TB。工商银行企业级数据仓库存储量已经累计达5PB。银联系统发卡量40亿张,每天近600亿次交易,每秒50万次记录,数据量350TB。
一次CT影像的数据量达几十G。如今大城市的医院每天门诊上万人,全国每年门诊人数更以数十亿计,住院人次已达两亿人次。一般的数据量通常要保留几十年。仅以中山大学第一附属医院的年产生数据量为例,其2015年全年的数据量就达到PB级。
新浪微博每天有数十亿的访问需求,高峰期每秒接受100万次以上的访问请求。
腾讯QQ月活跃用户超8亿,微信用户超5亿,在线人际关系链接超1000亿,每天千亿次的服务调用,日新增200-300TB的数据量,每月增加10%。
百度每天要处理60亿次搜索请求(谷歌30亿次),新增数据10TB,处理数据100PB。目前存储网页数近1万亿,数据总量1000PB。
淘宝网每天交易超过千万笔,单日产生数据量超过50TB,峰值时交易达9万笔/分钟
- 人不能两次踏进同一条河流用 赫拉克利特,古希腊自然哲学代表人物
上述数据 利用好一类就可以造福人类;
如果能结合几类数据,综合起来,可以更好地做决策
- GE通过对2万台引擎的数据分析,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。依此对引擎预防性维护,在美国就防止了不止6万次的航班延误或取消。如果将传感器数据收集和分析用于燃油效率上,1%的提高,就能使航空业每年节省20亿美元。
- 必胜客店的电话铃响了。客服拿起电话:必胜客。您好! 请问有什么需要我为您服务?顾客:你好! 我想要一份……客服:先生,请先把您的会员卡号告诉我,好吗?顾客:16846146。客服:陈先生,您好!您是住在泉州路一号12楼1205室。您家电话是2646,您公司电话是4666,您的手机是1391234*。请问您想用哪一个电话付费?顾客:你为什么知道我所有的电话号码?客服:陈先生,因为我们联机CRM系统。顾客:我想要一个海鲜比萨……客服:陈先生,海鲜比萨不适合您。顾客:为什么?客服:根据您的医疗记录,你的血压和胆固醇都偏高。顾客:那你有什么可以推荐的?客服:您可以试试我们的低脂健康比萨。顾客:你怎么知道我会喜欢这种的?客服:您上星期一在国家图书馆借了一本《低脂健康食谱》。顾客:好。那我要一个家庭大号比萨。客服:陈先生,大号的不够吃。顾客:为什么?客服:因为您家一共有六口人。来个特大号的,怎样?顾客:要付多少钱?客服:99元。这个足够您一家六口吃了。但您母亲应该少吃,她上个月刚刚做了心脏搭桥手术,还处在恢复期。顾客:那可以刷卡吗?客服:陈先生,对不起。请您付现款。顾客:你们不是可以刷卡的吗?客服:一般是可以的。但是您的信用卡已经刷爆了,您现在还欠银行4807元,而且还不包括您的房贷利息。顾客:那我先去附近的提款机提款。客服:陈先生,根据您的记录,您已经超过今日提款限额了。顾客:算了,你们直接把比萨送我家吧,家里有现金。你们多久会送到?客服:大约30分钟。如果您不想等,可以自己骑摩托车来取。顾客:为什么?客服:根据我们CRM全球定位系统车辆行驶自动跟踪记录显示,您登记的一辆车号为SB-748的摩托车,目前正在解放路东段华联商场右侧行驶,离我们店只有50米。顾客:好吧(头开始晕)客服:陈先生,建议您再带一小份海鲜比萨。顾客:为什么?你不是说我不能吃吗?客服:根据我们CRM通讯系统分析,今天您与一位女性通话频率高、时间长,今天又是2.14,我们分析应该是您的情人,而这位手机用户近来一直买的是海鲜比萨,她应该喜欢这种口味。顾客:…………客服:您最好现在就送回家,否则您就不方便出来了。顾客:为什么?客服:根据我们定位系统,您的爱人大约30分钟后到家。顾客:我为什么要出来?客服:您已在汇峰酒店定了今晚的房间,估计您是与情人约会吧?顾客:当即晕倒…………这就是大数据!?👻👻👻💢总结:“祥龙认为每个人在大数据的面前,相当于一丝不挂,脱得干干净净。所以未来人人都很守规则,正能量不断提升,因为在大数据面前这才是正路,否则你没路可走。
- ID
- GE通过对2万台引擎的数据分析,开发的算法能够提前一个月预测其维护需求,预测准确率达到70%。依此对引擎预防性维护,在美国就防止了不止6万次的航班延误或取消。如果将传感器数据收集和分析用于燃油效率上,1%的提高,就能使航空业每年节省20亿美元。
- 它成本较低,以快速的采集、处理和分析技术 从各种超大规模的数据中提取价值
- 它成本较低,以快速的采集、处理和分析技术 从各种超大规模的数据中提取价值
常用的数据清洗工具推荐
http://jingyan.baidu.com/article/1974b289acbad0f4b1f774ba.html
- Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。
大数据集
运行在HDFS之上的程序有很大量的数据集。典型的HDFS文件大小是GB到TB的级别。所以,HDFS被调整成支持大文件。它应该提供很高的聚合数据带宽,一个集群中支持数百个节点,一个集群中还应该支持千万级别的文件。
简单一致性模型
大部分的HDFS程序对文件操作需要的是一次写多次读取的操作模式。一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简单化了数据一致的问题,并使高吞吐量的数据访问变得可能。一个Map-Reduce程序或者网络爬虫程序都可以完美地适合这个模型。
移动计算比移动数据更经济
在靠近计算数据所存储的位置来进行计算是最理想的状态,尤其是在数据集特别巨大的时候。这样消除了网络的拥堵,提高了系统的整体吞吐量。一个假定就是迁移计算到离数据更近的位置比将数据移动到程序运行更近的位置要更好。HDFS提供了接口,来让程序将自己移动到离数据存储更近的位置。
内部机制是将一个文件分割成一个或多个块,这些块被存储在一组数据节点中。名字节点用来操作文件命名空间的文件或目录操作,如打开,关闭,重命名等等。它同时确定块与数据节点的映射。数据节点负责来自文件系统客户的读写请求。数据节点同时还要执行块的创建,删除,和来自名字节点的块复制指令。
- http://www.freebuf.com/articles/database/131268.html
与传统数据安全相比,大数据安全有什么不同
传统数据安全技术的概念是基于保护单节点实例的安全,例如一台数据库或服务器,而不是像Hadoop这样的分布式计算环境。传统安全技术在这种大型的分布式环境中不再有效。另外,在大规模的Hadoop集群中,各服务器和组件的安全配置出现不一致的机率将大大增加,这将导致更多的安全漏洞产生。大数据平台存储着各种各样的数据,每一种数据源都可能需要有其相应的访问限制和安全策略。而当需要整合不同数据源时,就变得更加难以平衡对数据的安全策略的应用。同时,快速增长的海量数据使得大数据平台中的敏感信息和个人隐私信息无处不在,准确发现和定位敏感信息并制定针对性的访问控制策略变得愈加困难,而对敏感信息的访问的实时监控也是保障大数据安全的重要任务之一。最后,大数据技术很少单独使用Hadoop,而是会结合生态系统中的其它技术组件如HBase,Spark,Impala,Hive,Pig等对数据进行抽取、存储、处理、计算等。这些技术使得大数据可被访问和利用,但基本都缺乏企业级的安全特性。以上从平台、数据、技术视角对大数据安全与传统数据安全进行了简单的分析,传统安全工具没有为数据多样化、数据处理及Hadoop的分布式特性而改进,不再足以能保证大数据的安全。
- 10000亿条数据 求平均值
- Volume(体 量 )。 各设备产生的海量数据体量巨大 ,远大于目前互联网上的信息流量
Variety(多 样 )。 大数据类型繁多,在编码方式 、数据格式 、应用特征等多个方面存在差异
Velocity(速 率 )。 数据以非常高的速率到达系统内部,这就要求处理数据段 的速度必须非常快
产生价值value
- 梅西百货的实时定价机制 - 根据需求和库存的情况,该公司基于 SAS的系统对多达7300万种货品进行实时调价
Tipp24AG 针对欧洲博彩业构建的下注和预测平台 - 该公司用KXEN软件来分析数十亿计的交易以及客户的特性,然后通过预测模型对特定用户进行动态的营销活动
沃尔玛的搜索 - 这家零售业寡头为其网站 Walmart.com 自行设计了最新的搜索引擎 Polaris,利用语义数据进行文本分析、机器学习和同义词挖掘等
TescoPLC(特易购)和运营效率 - 这家连锁超市在其数据仓库中收集了700万部冰箱的数据。通过对这些数据的分析进行更全面的监控,并进行主动的维修以降低整 体能耗
- https://data.aliyun.com/visual/datav?
spm=5176.7934293.395158.79.b80b28fyzbJr4
- 这个可以让大家测试一下:https://data.aliyun.com/demo/ai/face?spm=a2c0j.8207365.511327.2.4f7f7e13LqyIr
- https://data.aliyun.com/demo/ai/face?spm=a2c0j.8207365.511327.2.4f7f7e13LqyIr 照片:预测结果年轻
结果分析:
性别准确
年龄:2、5 偏大; 1,3,4 偏小
- https://data.aliyun.com/demo/ai/face?spm=a2c0j.8207365.511327.2.4f7f7e13LqyIr 照片:预测结果年轻
- 这个可以让大家测试一下
- 这个可以让大家投票
- 可见:社会的发展就是财富不断集中的过程
最富有的人的财富值约为初始财富的3.5倍;
top10%的富人掌握着大约30%的财富,top20%的富人掌握着大约50%的财富;60%的人的财富将缩水到100元以下。
- 结果表明:
游戏结束时,最富有的人的财富值约为初始财富的4倍;
top10%的富人掌握着大约33%的财富,top20%的富人掌握着大约56%的财富;大约25%的人背负着债务,最高负债约为200元。
没错。借债虽然能让我们在走投无路时多一些周转余地,但最终会让穷人变得更穷。
- 可以看到,社会财富的总体分布形态没有什么变化。但是,10位努力玩家中的9位都进入了富人top20!
是的,尽管最成功的玩家不一定是最努力的那个,但是努力的人大都混的还不错。感谢这个残酷世界还给我们留下一条生路。
- 如何才能做到 放:取= 4:1
多多宣传,教育、感化 …. …. 功德箱 乎 ?
- 我们出于信息社会变化之中
- 我们出于信息社会变化之中