使用可视化进行探索性数据分析

2025年03月03日 由 alex 发表 2641 0

任何数据科学项目都不应跳过探索性数据分析阶段。使用我们将在文章中向你展示的五种数据可视化类型来增强它。


今天,我们来探讨数据科学中一个经常被忽视的话题:使用可视化进行探索性数据分析 (EDA)。这对于数据清理和准备至关重要。


我们首先讨论 EDA 的重要性以及可视化在 EDA 中的重要性。然后,我们将讨论 EDA 最常见的五种可视化类型及其用途。


最后,我们将推荐几种用于创建可视化效果的很酷的工具,并为你提供一些可视化技巧。


什么是 EDA?

EDA 是数据科学工作流程的一部分,其全部目的是了解你的数据。


9


这是深入挖掘以发现模式、发现异常、检验假设和发现模式的步骤,如下图所示。


10


这一切都在你做出任何假设或构建模型之前完成。


为什么可视化在 EDA 中至关重要?

俗话说,“一图胜千言”。不管是不是陈词滥调,视觉效果确实能帮助我们一目了然地了解数据所讲述的故事。它们使我们更容易识别趋势、异常值和变量之间的关系。相信我,盯着一排排的数字是不一样的。


EDA 可视化类型

让我们探索一下你的 EDA 工具包中应该具备的一些主要可视化类型。


11


1.散点图

散点图非常适合用于检查两个连续变量之间的关系。例如,如果你正在分析学习时间与考试成绩之间的关系,散点图可以帮助你了解学习时间越长是否与考试成绩越高相关。


12


它是一款出色的工具,可以轻松确定数据中是否存在异常值;只需画一条趋势线即可。在此示例中,你会看到一个异常值被标记为红点。


13


2.直方图

直方图显示单个变量的分布情况。它们非常适合了解数据的分布和集中趋势。例如,如果你正在查看调查对象的年龄,直方图可以显示年龄分布。


14


当想要查看分布的尾部时,直方图会很有帮助,这使得截断数据或重新分割数据变得更加容易。


在该示例中,上限为 58.50。


15


3.箱线图

箱线图或箱须图非常适合总结数据集的分布情况并识别异常值。它们显示数据中的中位数、四分位数和潜在异常值。


与直方图不同,它们在并排比较多个组的分布时特别有用。


从例子中我们可以看出,每个组都有一个异常值;他们的年龄分别为 60 岁、70 岁和 80 岁。


16


4. 条形图

对于分类数据比较,条形图是清理和准备数据时的首选。想要比较不同产品类别的销售额?条形图就可以了。


这也是识别缺失数据的最佳图表。看一眼这张图表,你就会发现“家居和厨房产品类别”和“玩具”类别中没有数据,因此你可以调查一下。


17


5.热图

热图非常适合以矩阵形式可视化数据。它们对于显示数据集中变量之间的相关性特别有用。颜色强度可帮助你快速发现强关系。


在这个例子中,能见度和湿度是高度相关的。另一方面,温度-能见度、风速降水量和风速-能见度变量之间没有相关性。此外,你可以看到也存在一些负相关性,例如,湿度和温度之间。


18


创建可视化的工具

有许多工具可以创建这些可视化效果,每个工具都有自己的优势。


一些流行的包括:

  • Python 数据可视化库(Matplotlib、seaborn、Plotly) ——非常适合绘制详细且定制的图表
  • ggplot2 for R — 非常适合创建复杂的多层图形
  • BI 工具(Tableau和Power BI) ——适用于交互式和可共享的仪表板
  • Excel — 简单但有效的基本可视化


有效可视化的实用技巧

1. 保持简洁:避免杂乱。图表越清晰,越容易理解。

2. 标记清晰:确保轴、标题和图例标记清晰。

3. 使用合适的颜色:颜色应该增强效果,而不是分散注意力。使用适合数据的调色板。

4. 保持一致:在视觉效果中使用相同的样式和配色方案,以保持专业外观。


结论

可视化是 EDA 工具库中的一个强大工具。


最常见的是:

  • 散点图
  • 直方图
  • 箱线图
  • 条形图
  • 热图


它们不仅能帮助你更好地理解数据,还能更有效地传达你的发现。

文章来源:https://medium.com/@nathanrosidi/using-visualizations-for-your-exploratory-data-analysis-d111aa422954
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消