数据可视化:理论与技巧

2023年09月07日 由 camellia 发表 316 0

在一个以大数据和复杂算法为主导的数字领域中,普通人可能会觉得自己迷失在一片数字和数据的海洋中。不是吗?


1_副本

然而,原始数据与可理解的洞察力之间的桥梁就在于数据可视化的艺术。


它是指引我们的指南针,引导我们的地图,以及解码我们每天遇到的大量数据的翻译器。


但是,一个好的可视化背后的魔力是什么呢?为什么一个可视化可以启发我们,而另一个却令人困惑?


今天,我们将回到基础,试图理解数据可视化的基本原理。


将数据可视化简化为基本原理


作为数据科学家,高效讲故事是最难掌握的技能之一。如果我们查阅词典中的“数据可视化”一词,我们可以找到以下定义:


“将信息表达为图片、图表或图示,或以这种方式表达信息的图片的行为”


这基本上意味着数据可视化旨在从数据集中塑造一个故事,以一种易于理解、吸引人且有影响力的形式呈现洞察力。


数据可视化,或者说将数据以图表和图形的形式呈现出来,可能看起来不像机器学习之类的东西那么酷。


但是,这确实是数据科学家所做工作中的一个关键部分。


在当今以数据驱动的世界中,数据可视化就像一副帮助我们清晰看到事物的眼镜。对于那些对数字和算法的语言不熟悉的人来说,它提供了一种理解复杂数据叙事的有效方式。


任何图表总是由两个主要组成部分组成:


一、数据类型


你可以把数据想象成数字,但是数字值只是我们可能遇到的多种数据类型中的两种。每当我们可视化数据时,我们都需要考虑我们正在处理哪些数据类型。


除了连续和离散数值之外,数据还可以以离散的类别形式、日期或时间的形式以及文本的形式出现。


当数据是数值时,我们也将其称为定量数据;当数据是分类的时,我们将其称为定性数据。


因此,任何显示的数据始终可以用以下类别之一来描述。


数据类型

一旦我们清楚地知道自己拥有什么类型的数据,就需要了解如何将这些数据编码到最终的图表中。


二、信息编码:视觉词典


视觉编码是数据可视化的核心。它将抽象的数字转化为我们都能流利理解的图形表示。


尽管有许多不同类型的数据可视化,在第一眼看上去,散点图、饼图和热力图似乎没有太多共同之处,但所有这些可视化都可以用一种共同的语言来描述,这种语言捕捉了数据值如何转化为纸上的墨迹或屏幕上的彩色像素的方式。


但是你肯定已经意识到有成千上万种编码数字的方式!


主要分为两大类:


1.视觉编码:从形状、大小、颜色和强度来着手,这些是我们的眼睛立刻捕捉到的元素。它们是元素固有的特征。


视觉编码

2.空间编码:它们利用了我们大脑皮层对空间的感知能力来进行信息编码。这种编码可以通过在一个刻度上的位置、一个定义的顺序或使用相对大小来实现。


空间编码

有了之前解释的所有编码,我们可以在一个图表中使用它们的所有元素,但读者很难快速理解所有的信息。过多地使用编码可能会造成混乱,因此每个图表最多使用1或2种感知编码是最理想的。


那么应该选择哪种编码呢?


什么有效,什么无效?


虽然我们可以使用各种可视化手段,但并非每一种都适合每一种情况。


考虑哪种编码最适合哪种变量。


  • 连续数据变量,如体重和身高,最适合在共同刻度上表示其位置。
  • 而离散变量,如性别或国籍,适合用颜色或空间区域来表示。


为什么某些图表直观易懂呢?有两个主要的理论可以解释这一点。


一、格式塔理论


在科技领域工作的人有时会忽视人的一面。格式塔理论是心理学中解释我们大脑如何看待模式的规则。


其中一些规则帮助我们理解为什么我们会将看起来相似的事物分成一组,或者注意到那些与众不同的事物。


1.相似性:格式塔尔塔相似性意味着我们的大脑会将看起来相似的事物分组。这可以是因为它们的位置、形状、颜色或大小。这在热力图或散点图中被广泛使用。


相似性

2.封闭性:边界内的物体,如线条或共享颜色,看起来像是属于一起的。这使它们与我们看到的其他事物有所区别。我们经常在表格和图表中使用边框或颜色来分组数据。


封闭性

3.连续性:当个体元素相互连接时,我们的眼睛会认为它们是一组。即使它们看起来不同,线条也使我们将它们视为一组。这在折线图中被广泛使用。


连续性

4.邻近性:如果物体彼此靠近,我们就认为它们属于同一组。要显示物体属于一起,将它们靠近。使用一点空间可以帮助分隔不同的组。这通常在散点图或节点链接图中使用。


邻近性

因此,当制作可视化时,格式塔理论及其相互作用是需要考虑的重要因素。


二、比例油墨原则


在许多不同的可视化场景中,我们通过图形元素的范围来表示数据值。


习惯上,我们使用术语“墨水”来指代可视化中与背景颜色有所不同的任何部分。这包括线条、条形、点、共享区域和文本。


例如,在条形图中,我们画出的条形从0开始并结束于表示的数据值。在这种情况下,数据值不仅在条形的末端被编码,也在条形的高度或长度中被编码。


如果我们画了一个起始值与0不同的条形,那么条形的长度和末端编码将传达矛盾的信息。


比例油墨原则

在所有这些情况下,我们需要确保没有不一致性。这个概念被Bergstrom和West称为比例油墨原则。


“当使用着色区域来表示数值时,该着色区域的面积应与相应数值直接成比例。”


在试图操纵数据时,违反这个原则是相当普遍的,特别是在大众媒体和金融界。


当我们使用诸如矩形、任意形状的阴影区域或任何具有定义的视觉范围的其他元素时,类似的问题也会发生,这些元素在视觉上的范围可以与所显示的数据值一致或不一致。


良好可视化的本质


平衡美学和功能之间的差异是至关重要的。严格遵循Bergstrom和West的比例油墨原则,但不以可读性为代价。


虽然某些编码可能看起来不太有效,但可以有意地选择它们来表达观点或引发情感。


在我们日益增长的数据流时代,制作有意义的视觉叙述的重要性无法言喻,尤其是当我们试图向非数据专业人士传达我们的见解时。


良好的数据可视化不仅仅是展示数字,而是试图围绕一个故事来表达我们的数据。将我们的数据活灵活现,同时讲述故事,并在原始信息与现实世界的含义和洞察之间建立联系。

文章来源:https://www.kdnuggets.com/data-visualization-theory-and-techniques
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消