英文

RoBERTa大型OpenAI检测器

内容目录

  • 模型细节
  • 使用方法
  • 风险、限制和偏见
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用信息
  • 模型卡片作者
  • 如何开始使用该模型

模型细节

模型描述:RoBERTa大型OpenAI检测器是通过使用1.5B参数的GPT-2模型的输出对RoBERTa大型模型进行微调而获得的GPT-2输出检测模型。该模型可用于预测文本是否由GPT-2模型生成。这个模型与OpenAI在发布了 largest GPT-2 model 的权重时同时发布。

使用方法

直接使用

该模型是一个分类器,可用于检测由GPT-2模型生成的文本。

下游任务使用

模型的开发者表示他们开发并发布该模型是为了帮助与合成文本生成相关的研究,因此该模型可能用于与合成文本生成相关的下游任务。有关详细讨论,请参见 associated paper

不良或超出范围的使用

该模型不应该被用于故意创建对人们敌对或疏离的环境。此外,模型开发者在他们的 associated paper 中讨论了敌对方使用模型来更好地逃避检测的风险,并建议使用该模型来逃避检测或支持逃避检测的努力是对该模型的误用。

风险、限制和偏见

内容警告:读者应注意,本节可能包含令人不安、冒犯的内容,并可能传播历史和当前的刻板印象。

用户(包括直接用户和下游用户)应了解该模型的风险、偏见和限制。

风险和限制

在他们的 associated paper 中,模型开发者讨论了该模型可能被不良行为者用于开发逃避检测的能力的风险,尽管发布该模型的目的之一是帮助改进检测研究。

在相关的 blog post 中,模型开发者还讨论了用于检测合成文本的自动化方法的局限性,以及将自动化检测工具与其他非自动化方法配对的必要性。他们写道:

我们进行了内部的检测研究,并开发了一个具有对于检测1.5B GPT-2生成文本的检测率约为95%的检测模型。我们认为这对于独立的检测来说准确度不够高,需要与基于元数据的方法、人类判断和公众教育相结合,才能更加有效。

模型开发者还 report 发现,对更大模型的内容进行分类更加困难,这表明使用像这个模型这样的自动化工具进行检测将会随着模型规模的增加而变得越来越困难。作者发现,使用更大模型的输出来训练检测模型可以提高准确性和鲁棒性。

偏见

大量研究探讨了语言模型的偏见和公平性问题(请参见例如 Sheng et al. (2021) Bender et al. (2021) )。RoBERTa大型和GPT-2 1.5B(该模型基于其构建/微调)生成的预测可能包含跨受保护类别、身份特征以及敏感的社会和职业群体的令人不安和有害的刻板印象(详见 RoBERTa large GPT-2 XL 中的模型卡片以获取更多信息)。该模型的开发者在他们的 paper 中进一步讨论了这些问题。

训练

训练数据

该模型是基于RoBERTa大型进行序列分类器的训练数据(有关RoBERTa大型的训练数据的更多细节,请参阅 RoBERTa large model card ),然后使用1.5B GPT-2模型的输出进行微调训练(可在 here 处获得)。

训练过程

模型开发者写道:

我们基于RoBERTaLARGE(3.55亿参数)构建了一个序列分类器,并通过使用从WebText数据集和我们用于训练GPT-2模型的数据集生成的1.5B GPT-2模型的输出对其进行了微调。

他们随后指出:

为了开发出一个能够准确分类不同抽样方法生成的文本的强大检测模型,我们对该模型的迁移性能进行了分析。

有关训练过程的更多详细信息,请参见 associated paper

评估

以下评估信息摘自 associated paper

测试数据、因素和指标

该模型用于检测由GPT-2模型生成的文本,因此模型开发者在文本数据集上对模型进行了测试,并通过以下方式测量准确性:

使用由WebText数据集生成的5,000个样本和由GPT-2模型生成的5,000个样本组成的510个令牌的测试示例进行测试,这些样本在训练过程中没有使用。

结果

模型开发者 find

我们的分类器能够以大约95%的准确率检测到15亿参数的GPT-2生成文本......模型的准确性取决于生成输出时使用的抽样方法,如温度、Top-K和nucleus抽样( Holtzman et al., 2019 )。

有关完整结果,请参见 associated paper 、图1(第14页)和图2(第16页)。

环境影响

可以使用 Machine Learning Impact calculator 中提出的方法估计碳排放量。

  • 硬件类型:未知
  • 使用时间:未知
  • 云服务提供商:未知
  • 计算区域:未知
  • 排放的碳:未知

技术规格

模型开发者写道:

有关建模架构和训练细节的更多详细信息,请参见 associated paper

引用信息

@article{solaiman2019release,
  title={Release strategies and the social impacts of language models},
  author={Solaiman, Irene and Brundage, Miles and Clark, Jack and Askell, Amanda and Herbert-Voss, Ariel and Wu, Jeff and Radford, Alec and Krueger, Gretchen and Kim, Jong Wook and Kreps, Sarah and others},
  journal={arXiv preprint arXiv:1908.09203},
  year={2019}
}

APA格式:

  • Solaiman, I., Brundage, M., Clark, J., Askell, A., Herbert-Voss, A., Wu, J., ... & Wang, J.(2019)。发布策略和语言模型的社会影响。arXiv预印本arXiv:1908.09203。

模型卡片作者

本模型卡片由Hugging Face团队撰写。

如何开始使用该模型

需要更多信息