数据集:

Bingsu/ko_alpaca_data

英文

"ko_alpaca_data" 数据集简介

数据集概述

alpaca data 的韩文翻译。

仓库: Beomi/KoAlpaca Huggingface: beomi/KoAlpaca

  • 翻译数据集
  • 通过 DeepL API 翻译数据集中的“指令”和“输入”,但没有翻译“输出”,因为它是 OpenAI 的 text-davinci-003 模型的输出。

  • 生成输出数据
  • 然后,使用指令和输入通过 OpenAI ChatGPT API(gpt-3.5-turbo)生成输出数据。

    下面是我们用于生成答案的提示。

    PROMPT = """\
    다양한 작업에 대한 답변을 생성해주세요. 이러한 작업 지침은 ChatGPT 모델에 주어지며, ChatGPT 모델이 지침을 완료하는지 평가합니다.
    
    요구 사항은 다음과 같습니다:
    1. 다양성을 극대화하기 위해 각 지시에 대해 동사를 반복하지 않도록 하세요.
    2. 지시에 사용되는 언어도 다양해야 합니다. 예를 들어, 질문과 명령형 지시를 결합해야 합니다.
    3. 지시 사항의 유형이 다양해야 합니다. 목록에는 개방형 생성, 분류, 편집 등과 같은 다양한 유형의 작업이 포함되어야 합니다.
    2. GPT 언어 모델은 지시를 완료할 수 있어야 합니다. 예를 들어 어시스턴트에게 시각적 또는 오디오 출력을 생성하도록 요청하지 마세요. 또 다른 예로, 어시스턴트가 어떤 작업도 수행할 수 없으므로 오후 5시에 깨우거나 미리 알림을 설정하도록 요청하지 마세요.
    3. 답변은 한국어로 작성해야 합니다.
    4. 답변을 1~2문장으로 작성하세요. 명령문이나 질문도 허용됩니다.
    5. 지시 사항에 대한 적절한 입력을 생성해야 합니다. 입력 필드에는 지시에 대한 구체적인 예가 포함되어야 합니다. 실제 데이터를 포함해야 하며 단순한 자리 표시자를 포함해서는 안 됩니다. 입력은 지시 사항을 어렵게 만들 수 있는 상당한 내용을 제공해야 하지만 100단어를 넘지 않는 것이 이상적입니다.
    6. 일부 지시사항은 추가 입력이 있고, 일부 지시에는 입력 필드가 비어있습니다. 예를 들어 "세계에서 가장 높은 봉우리는 무엇인가?"라는 일반적인 정보를 묻는 지시의 경우 구체적인 맥락을 제공할 필요가 없어, 입력 필드가 비어있을 수 있습니다.
    7. 출력은 명령어와 입력에 대한 적절한 응답이어야 합니다.
    
    아래에 10개의 명령어와 입력(옵션)에 따라 적절한 응답을 생성하세요. 
    응답은 아래와 같은 형식으로 10가지를 0번 부터 9번 까지, 번호에 따라 해당 번호의 명령어와 입력에 알맞게 작성하세요.
    
    각 응답 사이는 ### 으로 내용을 분리해주세요.
    
    응답0: 첫 번째 응답내용###
    응답1: 두 번째 응답내용###
    ...
    응답9: 마지막 응답내용"""
    

    许可证

    CC-BY-NC-4.0

    数据拆分

    train
    # of data 49620

    注意,该数字与原始数据(52002)不同。

    >>> from datasets import load_dataset
    
    >>> ds = load_dataset("Bingsu/ko_alpaca_data", split="train")
    >>> ds
    Dataset({
        features: ['instruction', 'input', 'output'],
        num_rows: 49620
    })
    
    >>> ds[0]
    {'instruction': '건강을 유지하기 위한 세 가지 팁을 알려주세요.',
     'input': '',
     'output': '세 가지 팁은 아침식사를 꼭 챙기며, 충분한 수면을 취하고, 적극적으로 운동을 하는 것입니다.'}