数据集:
HuggingFaceH4/mt_bench_prompts
该评估提示集是由 LMSYS org 创建,用于更好地评估聊天模型。欲了解更多信息,请参阅 paper 。
要加载此数据集,请使用 ? datasets:
from datasets import load_dataset data = load_dataset(HuggingFaceH4/mt_bench_prompts, split="train")
对于我们的内部工具,我们执行以下操作来创建数据集。
from datasets import load_dataset import hashlib data = load_dataset("json", data_files="https://huggingface.co/datasets/HuggingFaceH4/mt_bench_prompts/raw/main/raw/question.jsonl", split="train") # %% create_dataset.ipynb 11 def format_example(example): return { "prompt": example["prompt"], "prompt_id": int(hashlib.sha256(''.join(example["prompt"]).encode("utf-8")).hexdigest(), 16) % (10 ** 8), "category": example["category"], "reference": example["reference"], } formatted_ds = data.map(format_example, num_proc=6, remove_columns=data.column_names) # formatted_ds.push_to_hub("HuggingFaceH4/mt_bench_prompts", split="train")