任何数据科学项目都不应跳过探索性数据分析阶段。使用我们将在文章中向你展示的五种数据可视化类型来增强它。
今天,我们来探讨数据科学中一个经常被忽视的话题:使用可视化进行探索性数据分析 (EDA)。这对于数据清理和准备至关重要。
我们首先讨论 EDA 的重要性以及可视化在 EDA 中的重要性。然后,我们将讨论 EDA 最常见的五种可视化类型及其用途。
最后,我们将推荐几种用于创建可视化效果的很酷的工具,并为你提供一些可视化技巧。
什么是 EDA?
EDA 是数据科学工作流程的一部分,其全部目的是了解你的数据。
这是深入挖掘以发现模式、发现异常、检验假设和发现模式的步骤,如下图所示。
这一切都在你做出任何假设或构建模型之前完成。
为什么可视化在 EDA 中至关重要?
俗话说,“一图胜千言”。不管是不是陈词滥调,视觉效果确实能帮助我们一目了然地了解数据所讲述的故事。它们使我们更容易识别趋势、异常值和变量之间的关系。相信我,盯着一排排的数字是不一样的。
EDA 可视化类型
让我们探索一下你的 EDA 工具包中应该具备的一些主要可视化类型。
1.散点图
散点图非常适合用于检查两个连续变量之间的关系。例如,如果你正在分析学习时间与考试成绩之间的关系,散点图可以帮助你了解学习时间越长是否与考试成绩越高相关。
它是一款出色的工具,可以轻松确定数据中是否存在异常值;只需画一条趋势线即可。在此示例中,你会看到一个异常值被标记为红点。
2.直方图
直方图显示单个变量的分布情况。它们非常适合了解数据的分布和集中趋势。例如,如果你正在查看调查对象的年龄,直方图可以显示年龄分布。
当想要查看分布的尾部时,直方图会很有帮助,这使得截断数据或重新分割数据变得更加容易。
在该示例中,上限为 58.50。
3.箱线图
箱线图或箱须图非常适合总结数据集的分布情况并识别异常值。它们显示数据中的中位数、四分位数和潜在异常值。
与直方图不同,它们在并排比较多个组的分布时特别有用。
从例子中我们可以看出,每个组都有一个异常值;他们的年龄分别为 60 岁、70 岁和 80 岁。
4. 条形图
对于分类数据比较,条形图是清理和准备数据时的首选。想要比较不同产品类别的销售额?条形图就可以了。
这也是识别缺失数据的最佳图表。看一眼这张图表,你就会发现“家居和厨房产品类别”和“玩具”类别中没有数据,因此你可以调查一下。
5.热图
热图非常适合以矩阵形式可视化数据。它们对于显示数据集中变量之间的相关性特别有用。颜色强度可帮助你快速发现强关系。
在这个例子中,能见度和湿度是高度相关的。另一方面,温度-能见度、风速降水量和风速-能见度变量之间没有相关性。此外,你可以看到也存在一些负相关性,例如,湿度和温度之间。
创建可视化的工具
有许多工具可以创建这些可视化效果,每个工具都有自己的优势。
一些流行的包括:
有效可视化的实用技巧
1. 保持简洁:避免杂乱。图表越清晰,越容易理解。
2. 标记清晰:确保轴、标题和图例标记清晰。
3. 使用合适的颜色:颜色应该增强效果,而不是分散注意力。使用适合数据的调色板。
4. 保持一致:在视觉效果中使用相同的样式和配色方案,以保持专业外观。
结论
可视化是 EDA 工具库中的一个强大工具。
最常见的是:
它们不仅能帮助你更好地理解数据,还能更有效地传达你的发现。