优化数据分析:在Databricks中整合GitHub Copilot

2023年11月17日 由 camellia 发表 582 0

介绍


GitHub Copilot是一款由GitHub联合OpenAI开发的,利用ChatGPT模型的AI代码自动完成助手。它旨在帮助开发者加速编程过程,同时减少错误。底层模型是在GitHub自身仓库的许可代码与公开可用代码的混合体上进行训练的,从而让它具备了广泛的编程范式理解。


另一方面,Databricks是一个由Apache Spark的原始创作者创立的开放分析和基于云的平台,它能够让组织无缝构建数据分析和机器学习流程,从而加速创新。此外,它还促进了用户之间的协作工作。


将GitHub Copilot与Databricks整合,可以使数据分析和机器学习工程师高效、快速地部署解决方案。这种整合促进了更顺畅的代码开发,提高了代码质量和标准化,提升了跨语言效率,加速了原型开发,并帮助了文档编制,从而提高了工程师的生产力和效率。


集成GitHub Copilot和Databricks的先决条件:


  1. 配置Databricks账户。
  2. 配置GitHub Copilot。
  3. 下载并安装Visual Studio Code。


集成步骤


在Visual Studio Code Marketplace中安装Databricks插件。


安装插件下


在Visual Studio Code中配置Databricks插件。如果之前使用过Databricks CLI,那么它已经在本地的databrickscfg文件中为你配置好。如果没有,创建以下内容于 ~/.databrickscfg 文件。

[DEFAULT]
host = https://xxx
token = <token>
jobs-api-version = 2.0

点击“Configure Databricks”选项,然后从下拉菜单中选择第一个选项,该选项显示了以上步骤中配置的主机名,然后继续使用“DEFAULT”配置文件。


默认下


完成配置后,将在Visual Studio Code中建立起与Databricks的连接。当你点击Databricks插件时,可以看到工作区和集群配置的详情。


用户完成GitHub Copilot账户的配置后,确保你可以访问GitHub Copilot。通过Marketplace在VSCode中安装GitHub Copilot和GitHub Copilot 聊天插件。


聊天插件下


用户安装完GitHub Copilot和Copilot Chat插件后,将被提示通过Visual Studio IDE登录GitHub Copilot。如果没有提示授权,则点击Visual Studio Code IDE底部的铃铛图标。


铃铛


开发数据工程管道


数据工程师可以使用GitHub Copilot,快速编写包括文档在内的数据工程管道。以下是使用提示技术创建一个简单数据工程管道的步骤。


使用Python和Spark框架从S3存储桶读取文件。


读取下


使用Python和Spark框架将数据框架写入S3存储桶。


存储桶下


通过main方法执行函数:在提示符中表示相同,并由代码执行步骤生成


代码生成下


在Databricks中使用GitHub Copilot进行数据工程和机器学习的好处


  • 出色的AI成对编程工具,能够快速提供合理的建议,并提供起始代码。
  • 优秀的建议,以优化代码及运行时间。
  • 更好的文档编写和ASCII表示逻辑步骤。
  • 以更少的错误更快实现数据管道。
  • 详细解释现有简单/复杂功能,并建议智能代码重构技术。


备忘单


  • 打开一个Copilot文本/搜索栏,在其中可以输入你的提示


备忘单1


Windows: [Ctrl] + [I]


Mac: Command + [I]


  • 打开一个在右侧的窗口,其中显示前10个代码建议


Windows: [Ctrl] + [Enter]


Mac: [control] + [return]


备忘单2


  • 在左侧打开一个单独的copilot 聊天窗口


Windows: [Ctrl] + [Alt] + [I]


Mac: [Control] + [Command] + [I]


  • 关闭内联建议


Windows/Mac: Esc


  • 接受建议


Windows/Mac: Tab


  • 参考之前的建议


Windows: [Alt] + [


Mac: [option] + [


  • 检查下一个建议


Windows: [Alt] + ]


Mac: [option] + ]


结论


将AI成对编程工具与集成开发环境集成,可以帮助开发者获得实时代码建议,加快开发速度,减少查阅文档以获得起始代码的时间。

文章来源:https://www.kdnuggets.com/optimizing-data-analytics-integrating-github-copilot-in-databricks
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消