Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

数据可视化技术 (1)

833 views

Published on

https://docs.google.com/presentation/d/1CM7DvXRr3K7NGxyVTWuaRE-y-FPalXmgndYfcOz9jrc/edit?usp=sharing

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

数据可视化技术 (1)

  1. 1. 数据可视化技术(1) 2015.9.17
  2. 2. 目录 1. 可视化发展史 2. 基本图表类型 3. 时空数据可视化 4. 层次与网络数据可视化 5. 文本数据可视化 6. 多媒体数据可视化
  3. 3. 什么是可视化? 可视化:利用人眼的感知能力对数据进行交互的可视表达以增强认知的技术。 将不可见或难以直接显示的数据转化为可感知的图形、符号、颜色、纹理等,增强数 据识别效率,传递有效信息。 终极目的:对事物规律的洞悉(insight)。
  4. 4. 例子
  5. 5. 1. 可视化发展史 ● 17世纪前 ● 1600~1699年 ● 1700~1799年 ● 1800~1900年 ● 1900~1949年 ● 1950~1974年 ● 1975~1987年 ● 1987~2004年 ● 2004年至今
  6. 6. 17世纪前:图表萌芽 公元前6200年的人类地图 《城镇平面图》,恰他尔,土耳其,约公元前6200年
  7. 7. 古罗马帝国地图
  8. 8. 1600~1699: 物理测量 太阳黑子
  9. 9. 1686年历史上第一幅天气图 向量场可视化的鼻祖
  10. 10. 1700~1799:图形符号 新的图形化形式,如等值线 1701年地球等磁线可视化
  11. 11. 1786年第一幅柱状图
  12. 12. 第一幅时间序列图
  13. 13. 1801年第一幅饼图
  14. 14. 1800~1900:数据图形 统计数据可视化迅猛发展
  15. 15. 1837年第一幅流图 可变宽度的线段显示了 交通运输的轨迹和乘客数量
  16. 16. 1869拿破仑远征俄国战败
  17. 17. 1888年火车时刻表
  18. 18. 1900~1949:现代启蒙 可视化应用普及 多维数据可视化 心理学介入
  19. 19. 1933年Henry Beck设计的伦敦地铁图
  20. 20. 1950~1974年:多维信息的可视编码 ● 1967年,Jacques Bertin《图形符号学》 描述了图形设计的框架, 提出完备的图形符号和表示理论, 奠定了信息可视化的理论基石。 ● 开始使用计算机编程进行可视化
  21. 21. 1975~1987:多维统计图形 ● 桌面操作系统、计算机图形学、图形显示设备、人机交互等技术的发展广泛激发 了人们编程实现可视化的热情。 ● 高性能计算、并行计算理论的发展也催生了面向科学与工程的大规模计算方法, 使数据密集型走向历史舞台,对数据分析和信息呈现提出更高要求。 ● 信息可视化逐渐发展成一门学科。
  22. 22. 1975年带移动统计均线的增强散点图表达
  23. 23. 1975年,散点图矩阵
  24. 24. 1981 鱼眼图
  25. 25. 1985,表达高维数据的平行坐标
  26. 26. 1987~2004年,交互可视化 ● 1987年“科学可视化”一词出现。 ● 1989年,提出“信息可视化”。 ● 1990年,IEEE开始举办可视化领域的专业学术会议。 ● 数字化的非几何的抽象数据,入金融交易、社交网络、文本数据等大量涌现,催 生出多维、时变、非结构化信息的可视化需求。
  27. 27. 1991年,树图
  28. 28. 1994年,表格透视
  29. 29. 2002年,标签云
  30. 30. 2004年至今,可视分析学 ● 新兴的可视分析学(visual analysis) ● 更强调综合可视化、图形学、数据挖掘理论与方法、研究新的理论模型、新的可 视化方法和新的用户交互手段。 ● 辅助用户从大尺度、复杂、矛盾甚至不完整的数据中快速发现有用信息。
  31. 31. 2005年,移动气泡图 Gapminder: http://gapminder.org
  32. 32. 数据可视化的意义 ● 真:真实性、还原数据本质。 ● 善:行善举。帮助人们理解社会发展和自然环境的现状、实现政府与职能部门运 行的透明。 ● 美:艺术性的创新和发展。
  33. 33. 数据可视化的分类 ● 科学可视化(scientific visualization) ● 信息可视化(information visualization) ● 可视分析学(visual analytics) 三者之间并无清晰边界,只是侧重点不同。
  34. 34. 科学可视化(scientific visualization) ● 可视化领域最早、最成熟的一个跨学科研究与应用领域。 ● 主要面向自然科学领域:物理、化学、气象、航空航天、医学、生物等等。 ● 关注点主要在于三维真实世界的物理化学现象
  35. 35. 信息可视化(information visualization) ● 处理的对象是抽象的、非结构化数据集合 ● 表现形式通常在二维空间,关键问题是在有限展现空间中以直观方式传达大量 的抽象信息。 ● 与科学可视化相比。信息可视化更关注抽象、高维数据。
  36. 36. 可视分析学(visual analytics) ● 以可视交互界面为基础的分析推理科学。 ● 综合图形学、数据挖掘和人机交互等技术,以可视交互界面为通道,将人的感知 和认知能力以可视的方式融入数据处理过程,完成有效的分析推理和决策。 ● 属于相对新兴的学科。
  37. 37. 2. 可视化的基本图表类型 ● 数据轨迹 ● 柱状图 ● 直方图 ● 饼图 ● 等值线图 ● 走势图 ● 散点图 ● 韦恩图 ● 热力图 ● 盒图
  38. 38. 数据轨迹 ● 标准的单变量数据呈现方法 ● 例如时间序列 Dow Jones Industrial Average Index
  39. 39. 柱状图(bar chart) 采用长方形的形状和颜色编码数据的属性
  40. 40. 分组 堆叠图
  41. 41. 直方图(histogram) 对数据集的某个数据属性的频率统计,可呈现数据分布、离群值和数据分布的模态。
  42. 42. 饼图(pie chart) 饼形的隐喻,呈现各部分在整体中的比例
  43. 43. 等值线图(contour map) ● 使用相等数值的数值点连续来表 示数据的连续分布和变化规律 ● 途中的曲线是空间中具有相同数 值的数据点在平面上的投影
  44. 44. 走势图(sparkline) 一种简洁紧凑的数据趋势表达方式,以折线图为基础,大小与文本相仿,往往直接嵌 入在文本或表格中
  45. 45. Excel 2010
  46. 46. 散点图(scatter plot) 二维数据的标准可视化方法
  47. 47. 散点图矩阵(scatter plot matrix) 散点图的高维扩展, 用于展现高位数据属性分布
  48. 48. 韦恩图(Venn diagram) 使用平面上的封闭图形来表示数据集合间的关系
  49. 49. 热力图(heat map) 用颜色来表达带有位置信息的 数值大小
  50. 50. Where the Heat and the Thunder Hit Their Shots http://www.nytimes.com/interactive/2012/06/11/sports/basketball/nba-shot- analysis.html?_r=0
  51. 51. 盒图(box plot) 通过标绘简单的统计值来呈现一维数据 的分布
  52. 52. 包图(bag plot) 盒图的二维扩展
  53. 53. 可视化工具 ● Matplotlib: a Python 2D plotting library ● ggplot2: a plotting system for R ● Matlab ● SPSS ● D3.js: JavaScript library ● Protovis: JavaScript tool for web-based visualization ● Processing: a popular language and IDE for graphics and interaction ● Prefuse: Java API for information visualization ● Prefuse Flare: an ActionScript 3 library for data visualization in the Adobe Flash Player ● The Visualization Toolkit: a library for 3D and scientific visualization
  54. 54. 3. 时空数据可视化 ● 空间标量场可视化 ● 空间向量场可视化 ● 地理信息可视化 ● 时变数据可视化
  55. 55. 空间标量场可视化 ● 空间数据(spatial data):带有物理空间坐标的数据 ● 标量场(scalar fields):空间采样位置上记录单个标量的数据场 ● 一维、二维、三维真实物理空间 ● 当特指地球地理空间位置时,采用特定的地理信息可视化方法
  56. 56. 一维标量场可视化 ● 一维空间标量场:空间中沿某一条路径采样得到的标量场数据。 例如:钻井数据,沿某个经度的气压数值 ● 可表达为一维函数。 定义域:空间路径位置或空间坐标的参数化变量。 值域:不同的物理属性,如温度、湿度、气压、波长、亮度等。 ● 数据采集时无法获取整个连续定义域内的数值,需要采用插值算法重建相邻离 散数据点之间的信号。
  57. 57. 线图(line chart) 测井数据:石油、天然气等
  58. 58. 二维标量场可视化 ● 比一维数据更为常见,比如X光片、地形图等 ● 三种基本可视化方法: 1) 颜色映射 2) 等值线 3) 高度图
  59. 59. 颜色映射(color mapping) ● 通过色彩差异传递数据的空间分布规律 ● 灰度映射和彩色映射,统称为颜色映射 1. 将每一标量值与一种颜色相对应,构建一张以标量值作为索引的颜色映射 表 2. 要选择合理的颜色映射表
  60. 60. X光片,医院中常见灰度映射
  61. 61. 彩色映射 气象卫星地表温度图
  62. 62. 等值线 二维数据场中满足f(x,y)=c的空间 点集连接而成的线 如:等高线、等压线、等温线
  63. 63. 高度图 将二维空间标量场数据转换为三维空间的高度网络 http://visualizingeconomics.com/blog/2008/09/07/us-population-density-1990- and-2000
  64. 64. 空间向量场可视化 ● 每个采样点的数据是一个向量(一维数组) ● 向量场可视化的目标:展示场的导向趋势信息、识别关键特征区域 ● 在科学计算和工程应用中占有非常重要的地位。如飞机设计、气象预报、计算流 体动力学(CFD)模拟、电磁场分析等。
  65. 65. 流线 ● 描述向量场空间中任意一点处向量场的切线方向 ● 生成方法:在向量场中播撒种子点,从种子点发射粒子,对向量场进行采样,根据 采样得到的向量平移粒子,不断迭代得到一条完整的流线 ● 适合于刻画稳定向量场或不稳定向量场中某一时刻的特征
  66. 66. Cutting top of delta-wing and exhibit various pressure with flow structures using jet color map
  67. 67. 地理信息可视化 ● 地理信息可视化可看做GIS的前端数据表现,地理信息的存储和管理则不是可视 化关注的重点 ● 移动设备和传感器的广泛使用,为地理数据相关的可视化带来了新的机遇和挑 战
  68. 68. 地理数据类型 点、线、面(区域)
  69. 69. 点数据 地理空间中离散的点,具有经纬度坐标 http://www.crimemapping.com/map.aspx?aid=a3bd4a13-a591- 4c78-87bd-065b70d870ab
  70. 70. 线数据 例如行车路线、运动轨 迹等 自然地理对象,例如河 流、道路等
  71. 71. 区域数据 ● 区域:二维封闭空间,国家、省、市、街区、湖泊等 ● 常用颜色表示区域属性
  72. 72. Choropleth map(分级统计图) 假设数据的属性在一个区域内部平均分布 常见于选举、人口普查、地区统计数据可视化 问题: 1. 数据分布和地理区域大小可能并不相称 2. 容易造成用户对数据的错误理解
  73. 73. Cartogram(变形地图) 按照区域属性值的相对比例对各个区域进行适当变形,同时保持各个区域的空间临 接关系
  74. 74. Number of shops by state for three major brands in US
  75. 75. 时变数据可视化 时变型数据:随时间变化、带有时间属性的数据 ● 时间序列数据 ○ 传感器监测数据、股票交易数据等 ● 不以时间为变量,但具有内在排序顺序的数据 ○ 顺序可映射为时间轴处理
  76. 76. 电影票房的例子 http://www.nytimes. com/interactive/2008/02/23/m ovies/20080223_REVENUE_ GRAPHIC.html?_r=1&
  77. 77. Flickr Flow Summer Spring Autumn Winter
  78. 78. 日历视图可视化
  79. 79. 4. 层次与网络数据可视化
  80. 80. 5. 文本数据可视化
  81. 81. 6. 多媒体数据可视化
  82. 82. Q&A Thanks

×