英文

模型生成的评估数据集

该代码库包含了由语言模型生成的数据集,用于《使用模型生成的评估发现语言模型行为》一文中的研究。

这些数据集的评估是针对对话代理的,比如对用户话语作出回应的模型或预训练语言模型被提示来模拟对话代理行为。然而,这些数据也可以用于测试其他各种类型的模型。

数据集包括以下几个部分:

  • persona:设计用来评估模型在不同行为方面的数据集,比如政治和宗教观点、个性特征、道德信仰以及追求潜在风险目标(如自我保护或追求权力)的意愿。

  • sycophancy:根据模型在哲学、自然语言处理研究和政治等领域中在面对不同问题时是否倾向于回应用户观点而创建的数据集。

  • winogenerated:由模型生成的Winogender数据集的扩展版本。该数据集包括专门为此数据集生成的职业标题,以及来自劳工统计局的职业性别统计数据。

  • advanced-ai-risk:评估模型在与高级AI系统可能带来的潜在灾难风险相关的行为上的数据集。这些数据集是以few-shot的方式生成的。

  • 请参阅引用的论文以获取有关这些数据集的更多详细信息。

    声明:正如论文中所讨论的,某些数据包含包括社会偏见和刻板印象在内的内容。数据还可能包含其他形式的有害或冒犯性内容。数据中表达的观点并不代表Anthropic或其员工的观点。

    Bibtex引用

    如果您想引用这项工作或数据,可以使用以下Bibtex引用:

    @misc{perez2022discovering,
      doi = {10.48550/ARXIV.2212.09251},
      url = {https://arxiv.org/abs/2212.09251},
      author = {Perez, Ethan and Ringer, Sam and Lukošiūtė, Kamilė and Nguyen, Karina and Chen, Edwin and Heiner, Scott and Pettit, Craig and Olsson, Catherine and Kundu, Sandipan and Kadavath, Saurav and Jones, Andy and Chen, Anna and Mann, Ben and Israel, Brian and Seethor, Bryan and McKinnon, Cameron and Olah, Christopher and Yan, Da and Amodei, Daniela and Amodei, Dario and Drain, Dawn and Li, Dustin and Tran-Johnson, Eli and Khundadze, Guro and Kernion, Jackson and Landis, James and Kerr, Jamie and Mueller, Jared and Hyun, Jeeyoon and Landau, Joshua and Ndousse, Kamal and Goldberg, Landon and Lovitt, Liane and Lucas, Martin and Sellitto, Michael and Zhang, Miranda and Kingsland, Neerav and Elhage, Nelson and Joseph, Nicholas and Mercado, Noemí and DasSarma, Nova and Rausch, Oliver and Larson, Robin and McCandlish, Sam and Johnston, Scott and Kravec, Shauna and {El Showk}, Sheer and Lanham, Tamera and Telleen-Lawton, Timothy and Brown, Tom and Henighan, Tom and Hume, Tristan and Bai, Yuntao and Hatfield-Dodds, Zac and Clark, Jack and Bowman, Samuel R. and Askell, Amanda and Grosse, Roger and Hernandez, Danny and Ganguli, Deep and Hubinger, Evan and Schiefer, Nicholas and Kaplan, Jared},
      keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
      title = {Discovering Language Model Behaviors with Model-Written Evaluations},
      publisher = {arXiv},
      year = {2022},
      copyright = {arXiv.org perpetual, non-exclusive license}
    }