使用ChatGPT掌握数据科学工作流

2023年12月05日 由 camellia 发表 277 0

数据科学是一个不断发展的领域,数据的不断涌入使其成为用创新解决方案解决复杂问题的有力案例。最近引起关注的一种解决方案是ChatGPT。这款由OpenAI开发的强大语言模型已经展示了卓越的自然语言理解和生成能力。


虽然ChatGPT主要用于对话和文本生成任务,但数据科学家可以在其工作流程中利用其潜力,以简化和增强他们的工作,使他们的流程更加高效和生产力。


ChatGPT在数据科学工作流程中的应用


ChatGPT可以成为一个多功能的助手,能够生成代码、解释和洞察。有效的ChatGPT提示在数据科学工作流程和代码调试中可能很有帮助。此外,迭代和实验性的提示技巧可以从ChatGPT中生成更准确和有洞察力的回应。

41


掌握提示技巧


以下是一些有效提示ChatGPT的常见方式。


  • 迭代提示:它包括制作在之前响应的基础上构建的提示,培养一种对话流程。


  • 实验提示:类似于迭代和实验性的机器学习模型的开发,数据科学家还可以用不同级别的指导来尝试提示。这对于初学者的数据科学家是一个重要的技能,主要是因为ChatGPT倾向于假设任何缺失的信息,而不是询问它。一个典型的例子是一个指令要求ChatGPT读取一个文件并对数据进行一些处理,这可能导致它假设输入文件是CSV。这可能是也可能不是真的,这取决于您的用例。因此,尝试逐步增加指导通常是一个最佳实践。


  • 零样本和少样本学习:当模型没有看到任何示例但收到指令回应时,这种直接提示被称为零样本学习,而少样本学习涉及在提示之前提供一些示例供模型学习。


有效的提示技巧对于从ChatGPT中提取有意义的信息至关重要。我们可以探索各种制定清晰、准确的提示说明以获取所需结果的方法。


  • 了解如何使用分隔符来有效地构造指令和查询是必不可少的。


  • 了解如何在提示中指定输入参数、所需步骤和数据科学工作流程函数的返回数据结构。


42


提示ChatGPT进行编码和调试


简化代码审查工作流程


有效的代码审查对数据科学项目的成功至关重要。作为数据科学家,我们可以提示ChatGPT增强代码审查工作流程,遵守编码标准并有效地调试代码。


可以设计用于代码质量改进的链式思考(CoT)提示。作为一个快速参考,CoT是一种通过为LLM提供一些少数示例,明确概述推理过程的技术,来唤起LLM的推理过程。然后模型遵循类似的推理过程来回答提示,从而提高模型在需要复杂推理的任务上的性能。


代码解释和简化


数据科学代码有时可能会变得复杂,难以让不太懂技术的观众理解。ChatGPT可以解释或简化复杂的代码,使其更易于阅读和理解。CoT提示对于代码解释和简化很有帮助。

43


优化代码


优化代码以提高效率是数据科学工作流程中的一个关键方面。可以使用ChatGPT编写高效的代码并探索替代解决方案的可能性。


有效的CoT提示被用来提出有效的替代代码以及解释。数据科学家还可以学习开发鼓励编写高效代码的提示,使用关键字如“算法效率”或建议替代数据结构。


代码测试和验证


数据科学家还使用ChatGPT设计实用的测试和断言,生成代码测试,并验证代码的正确性。


零样本提示在编写Python中常用功能的断言语句方面非常有效。为生成单元测试以验证代码块而开发提示也是ChatGPT的一个好用法。


数据分析的提示工程


SQL数据分析


SQL是数据分析中的基本工具,ChatGPT可以协助生成各种任务的SQL查询。数据科学家可以探索起草零样本CoT提示,以生成用于查询特定数据条件的SQL语句。


此外,他们还可以为执行数据聚合的SQL命令设计提示。


数据转换和操作


在数据科学中,将数据在不同格式和语言之间转换和操作是常见的。数据科学家可以通过学习设计少样本比较和条件提示来使用ChatGPT,将复杂的SQL查询转换成相应的Python代码。


他们还可以应用零样本和少样本提示技术来计算不同字段的聚合值,并有效地操作数据。


数据转换和重塑


ChatGPT还可以被提示协助数据转换和重塑任务,这对于数据分析非常频繁。我们可以应用基于上下文的零样本提示技术来合并来自不同来源的数据。此外,还可以设计少样本提示来创建混淆矩阵或数据透视表,根据需要重塑数据。


44


提示机器学习和讲故事

 

数据预处理

 

我们可以使用 ChatGPT 来识别缺失的字段并确定异常值。还可以设计有效的提示来使用平均值和中值来插补缺失数据。


数据可视化

 

作为数据从业者,我们可以编写上下文驱动的提示来生成用于创建各种绘图、图表和图形的代码。通过提示 ChatGPT,还可以使用相关标签、图例和标题进行绘图格式和注释,以改善数据表示。


45


特征工程


特征工程是数据科学家工具箱中最受追捧的技能之一。ChatGPT可以协助生成机器学习模型的有意义特征,例如创建基于时间的工程特征。常见的基于日期时间列的时间特征包括星期几、月份和年份。


此外,一般的特征工程都能从ChatGPT中受益,如分箱、规范化和分类。


为非技术受众的报告


ChatGPT可以识别技术和非技术沟通风格之间的关键差异,并认识到根据特定观众定制沟通的重要性。基于上下文的迭代提示可以帮助使用适合非技术利益相关者的术语和KPI来解释数据科学洞察。


本文通过讨论各种提示技术,有效地在数据科学工作流程中使用ChatGPT,我们得出了结论。这个详尽的路线图涵盖了ChatGPT如何成为提高编码、数据分析、机器学习或讲故事的生产力和效率的有价值工具。

文章来源:https://www.kdnuggets.com/mastering-data-science-workflows-with-chatgpt
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消