介绍
GitHub Copilot是一款由GitHub联合OpenAI开发的,利用ChatGPT模型的AI代码自动完成助手。它旨在帮助开发者加速编程过程,同时减少错误。底层模型是在GitHub自身仓库的许可代码与公开可用代码的混合体上进行训练的,从而让它具备了广泛的编程范式理解。
另一方面,Databricks是一个由Apache Spark的原始创作者创立的开放分析和基于云的平台,它能够让组织无缝构建数据分析和机器学习流程,从而加速创新。此外,它还促进了用户之间的协作工作。
将GitHub Copilot与Databricks整合,可以使数据分析和机器学习工程师高效、快速地部署解决方案。这种整合促进了更顺畅的代码开发,提高了代码质量和标准化,提升了跨语言效率,加速了原型开发,并帮助了文档编制,从而提高了工程师的生产力和效率。
集成GitHub Copilot和Databricks的先决条件:
集成步骤
在Visual Studio Code Marketplace中安装Databricks插件。
在Visual Studio Code中配置Databricks插件。如果之前使用过Databricks CLI,那么它已经在本地的databrickscfg文件中为你配置好。如果没有,创建以下内容于 ~/.databrickscfg 文件。
[DEFAULT]
host = https://xxx
token = <token>
jobs-api-version = 2.0
点击“Configure Databricks”选项,然后从下拉菜单中选择第一个选项,该选项显示了以上步骤中配置的主机名,然后继续使用“DEFAULT”配置文件。
完成配置后,将在Visual Studio Code中建立起与Databricks的连接。当你点击Databricks插件时,可以看到工作区和集群配置的详情。
用户完成GitHub Copilot账户的配置后,确保你可以访问GitHub Copilot。通过Marketplace在VSCode中安装GitHub Copilot和GitHub Copilot 聊天插件。
用户安装完GitHub Copilot和Copilot Chat插件后,将被提示通过Visual Studio IDE登录GitHub Copilot。如果没有提示授权,则点击Visual Studio Code IDE底部的铃铛图标。
开发数据工程管道
数据工程师可以使用GitHub Copilot,快速编写包括文档在内的数据工程管道。以下是使用提示技术创建一个简单数据工程管道的步骤。
使用Python和Spark框架从S3存储桶读取文件。
使用Python和Spark框架将数据框架写入S3存储桶。
通过main方法执行函数:在提示符中表示相同,并由代码执行步骤生成
在Databricks中使用GitHub Copilot进行数据工程和机器学习的好处
备忘单
Windows: [Ctrl] + [I]
Mac: Command + [I]
Windows: [Ctrl] + [Enter]
Mac: [control] + [return]
Windows: [Ctrl] + [Alt] + [I]
Mac: [Control] + [Command] + [I]
Windows/Mac: Esc
Windows/Mac: Tab
Windows: [Alt] + [
Mac: [option] + [
Windows: [Alt] + ]
Mac: [option] + ]
结论
将AI成对编程工具与集成开发环境集成,可以帮助开发者获得实时代码建议,加快开发速度,减少查阅文档以获得起始代码的时间。