使用 PandasGUI 彻底改变数据分析
2023年06月06日 由 daydream 发表
70356
0
在当今数据驱动的世界中,有效的数据分析对于企业至关重要,而 Pandas 是一款用于操作和清理数据的 Python 库,已经成为一项不可或缺的资产。虽然对于初学者或喜欢更视觉化学习方式的人来说并不容易学习。但是 PandasGUI 提供了一个非常好的解决方案:一个具有图形用户界面的库,能够简化数据操作和可视化功能。本文将介绍如何安装 PandasGUI 并展示其出色的功能,以提高数据分析能力。
PandasGUI 入门
要开始使用PandasGUI,第一步是下载其软件包。你可以通过在命令行中运行以下命令来执行此操作:
现在,你可以使用以下命令加载和导入它:
如果你使用的是Windows以外的其他操作系统,则由于缺少环境变量APPDATA,你可能会遇到一些问题。如果你使用的是Mac OS或Linux并尝试导入PandasGUI,则会收到类似的错误:
为了解决这个问题,一个简单的解决方法是将空字符串赋值给导致错误的环境变量。这样做可以避免任何错误,让你的代码继续运行,而不会中断——这是一种高效的解决方法,可以快速缓解问题。
现在,你可以毫无错误地导入它。你可能会收到一条警告消息,这是正常的。出现此警告的原因是 Mac OS 中缺少某些推荐接口的实现,因此系统会发出此警告。
最后一步是加载一个数据集,用于演示该库的功能。你可以加载自己选择的结构化数据集,也可以使用PandasGUI可用的数据集。在本文中,我们将使用PandasGUI库附带的Titanic数据集。
现在,我们已经准备好启动 PandasGUI。只需像下面的代码所示调用 show() 函数即可:
执行这些命令后,将打开一个新窗口以显示你上传的数据框。
PandasGUI功能
用户界面非常简单。它由以下组件组成。我将在后面的小节中介绍它们。
- 查看和排序数据帧
- 重塑数据帧
- 数据帧筛选
- 汇总统计
- 交互式绘图
查看和排序数据帧
PandasGPU 的第一个功能是按升序和降序查看和排序数据帧。这是数据探索的重要步骤,可以轻松完成,如下图所示:
重塑数据帧
PandasGUI提供了两种重塑数据帧的方法,即pivot和melt。Pivot通过将值从一列转移到多列来转换数据帧。当你试图通过围绕特定列进行数据重组时,可以使用它。通过为数据透视操作指定索引和列,你可以更轻松地重塑数据帧。
另一方面,melt方法使你能够取消数据帧,将多个列合并为一个列,同时将其他列作为变量进行维护。当从宽格式转换为长格式或规范数据集时,此功能特别有用。
在下图中,我们将使用pivot方法来重塑Titanic数据帧:
数据帧筛选
在许多情况下,你希望根据某些条件过滤数据集,以进一步理解数据或从数据集中提取特定部分。要首先使用PandasGUI在数据上应用过滤器,你将转到过滤器部分并编写每个过滤器,然后应用它。假设我们希望只接收以下乘客:
- 雄
- 属于 Pclass 3
- 在海难中幸存下来
- 年龄在30至40岁之间
因此,以下是我们将应用于数据集的四个过滤器:
- 性别 == “男性”
- Pclass == '3'
- 幸存下来==1
- 30 < 年龄 < 40 岁
下面图是将这四个过滤器应用于 Titanic 数据集的指南:
汇总统计
你还可以使用 PandasGUI 为数据帧提供详细的统计概述。这将包括数据集每列的平均值、标准、最小值和最大值。
交互式绘图
最后,PandasGUI为你的数据集提供了强大的交互式绘图选项,其中包括:
- 直方图
- 散点图
- 线图
- 条形图
- 框图
- 小提琴绘图
- 3D 散点图
- 热图
- 等值线图
- 饼图
- 斯普洛姆图
- 词云
在下图中,我们将为数据集创建三个交互式:饼图、条形图和单词云。
本文重点介绍PandasGUI的功能,这是一个功能强大的库,它为广泛使用的Pandas库添加了图形用户界面。我们首先演示了它的安装,加载了一个示例数据集,并探索了过滤、排序和统计分析等功能。
来源:https://www.kdnuggets.com/2023/06/revolutionizing-data-analysis-pandasgui.html