数据集:

bigcode/ta-prompt

语言:

code

许可:

apache-2.0
英文

数据集概述

这个代码仓库是用于进行上下文学习的提示,与 starcoder 进行训练。实际上,该模型是一个自回归语言模型,它在代码和自然语言文本上进行训练。通过在其8192个标记的上下文窗口前添加对话,可以将其转化为一个基于人工智能的技术助手。

格式

提示是一个包含人与助手之间多个对话的.txt文件。这是格式

-----
Human: <instruction>
Assistant: <answer>

-----

Human: <instruction>
Assistant: <answer>
Human: <instruction>
Assistant: <answer>
.
.
.
-----

使用情况

我们希望技术助手涵盖多种用例

  • Code-to-text:
    • 以下代码的目的是什么?<code>
    • 以下代码的错误是什么?<code>
  • Text-to-code:
    • 编写/设计/实现一个函数,用于<task>
  • Code-to-code:
    • 将此<programming language>中的<code>翻译成<programming language>。
  • Text-to-text:
    • 什么是<technical concept>
  • 通用问答
    • 你是谁?
    • 你的目的是什么?

工作范围

作为一个针对编码任务设计的模型,当用户提出通用问题时,不应期望模型输出相关答案。当涉及到编码请求时,模型的输出应该在测试之前进行后处理。