Pandas AI:生成式 AI Python 库

2023年05月16日 由 Neo 发表 293619 0
Python Pandas是一个开源工具包,它使用 Python 编程语言为数据科学家和分析师提供数据操作和分析功能。Pandas 库在机器学习和深度学习的预处理阶段非常流行。但现在你可以用它做更多……
引入了一个新的数据科学库——Pandas AI。一个将生成人工智能功能集成到 Pandas 中的 Python 库,使数据框架成为对话式的。

什么是熊猫人工智能?


让数据框对话意味着什么?
意味着你可以用你的数据集说话。是的,你没听错,你可以与你的数据对话并获得快速响应。作为数据科学家或分析师,你将不再需要盯着数据集,无休止地浏览行和列。Pandas AI 并没有取代 Pandas,只是给了它一个很大的进步!
数据科学家和分析师花费大量时间在分析阶段清理数据。他们现在能够将数据分析提升到一个新的水平。数据专业人士探索不同的方法和流程,以减少在数据准备上花费的时间,现在他们可以通过 Pandas AI 来实现了。
PandasAI 将与 Pandas 一起使用,它不能替代 Pandas。你不必自己浏览并回答有关数据集的问题,你可以向 PandasAI 询问这些问题,它会以 Pandas DataFrames 的形式返回答案。
话虽如此,这是否意味着人们不再需要精通Python来使用Pandas库等工具来实现数据分析?
在OpenAI API的帮助下,Pandas AI 旨在实现与机器进行虚拟对话以输出你想要的结果和目标,而不必自己编写任务。你可以向 PandasAI 提出这些问题,机器会用它们的语言(数据框)输出结果。

如何使用 Pandas AI?


使用 pip 安装 Pandas AI
pip install pandasai

使用 OpenAI 导入 PandasAI
为了使用新的 Pandas AI 库,你需要一个 OpenAI 密钥。使用笔记本,导入以下内容:
import pandas as pd
from pandasai import PandasAI
from pandasai.llm.openai import OpenAI

llm = OpenAI(api_token=your_API_key)

如果你没有唯一的 OpenAI API 密钥,你可以在OpenAI 平台上申请一个帐户并创建一个 API 密钥。你将获得 5 美元的信用额度,可用于探索和试验 API。
完成所有设置后,你就可以开始使用 Pandas AI 了。

在您的 Dataframe 上运行模型
首先,你需要将 OpenAI 模型运行到 Pandas AI:
pandas_ai = PandasAI(openAImodel)

然后,你需要在数据框上运行模型,该模型由两个参数组成:正在使用的数据框和想问的问题
pandas_ai.run(df, prompt='the question you would like to ask?')

例如,你可能正在查看数据集并对列值大于 5 的行感兴趣。你可以使用 Pandas AI 执行此操作:
import pandas as pd
from pandasai import PandasAI

# Sample DataFrame
df = pd.DataFrame({
"country": ["United States", "United Kingdom", "France", "Germany", "Italy", "Spain", "Canada", "Australia", "Japan", "China"],
"gdp": [19294482071552, 2891615567872, 2411255037952, 3435817336832, 1745433788416, 1181205135360, 1607402389504, 1490967855104, 4380756541440, 14631844184064],
"happiness_index": [6.94, 7.16, 6.66, 7.07, 6.38, 6.4, 7.23, 7.22, 5.87, 5.12]
})

# Instantiate a LLM
from pandasai.llm.openai import OpenAI
llm = OpenAI()

pandas_ai = PandasAI(llm)
pandas_ai.run(df, prompt='Which are the 5 happiest countries?')

它将返回一个 DataFrame 输出:
6 Canada
7 Australia
1 United Kingdom
3 Germany
0 United States
Name: country, dtype: object

它还具有执行更复杂查询的能力,例如数学计算和数据可视化。

数据可视化示例:
pandas_ai.run(
df,
"Plot the histogram of countries showing for each the gpd, using different colors for each bar",
)

数据可视化输出:


Pandas AI 非常新,团队仍在寻找改进库的方法。截至 5 月 10 日,他们的待办事项列表中仍有以下内容:

  • 添加对更多 LLM 的支持

  • 通过 CLI 使 PandasAI 可用

  • 为 PandasAI 创建 Web 界面

  • 添加单元测试


总结起来


尽管 Pandas AI 不会取代 Pandas,但它是一个可以提升工作流程的好工具。虽然你可以向 Pandas AI 询问有关数据集的问题,但你仍然需要精通编程,以便在库出错时纠正和指导库。
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消