使用 data2vec 目标在英语语言上进行预训练的模型。它于 this paper 年提出,并于 this repository 年首次发布。这个模型是区分大小写的:它会区分 english 和 English。
免责声明:发布 Data2Vec-Text 的团队并没有为该模型撰写模型卡片,因此此模型卡片由 Hugging Face 团队撰写。
更多信息,请参阅 official paper 。
虽然无监督学习的一般思想在各种模态之间是相同的,但实际的算法和目标因为是针对单一模态而开发,所以差异很大。为了使我们更接近于通用的自监督学习,在本文中,我们提出了 data2vec,这是一个框架,可以将相同的学习方法应用于语音、自然语言处理或计算机视觉。核心思想是利用遮蔽视图的输入对完整输入数据的潜在表示进行预测,方法是在自我蒸馏设置中使用标准 Transformer 架构。 data2vec 不是预测局部性质的模态特定目标,如单词、视觉标记或人类语音单位,而是预测包含整个输入信息的情境化潜在表示。在语音识别、图像分类和自然语言理解的主要基准测试上的实验表明,相比于主流方法,取得了新的最先进或竞争性能。
该模型旨在在下游任务上进行微调。请参阅 model hub 查找您感兴趣的任务的微调版本。
请注意,该模型主要用于在使用整个句子(可能是遮蔽的)进行决策的任务上进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该查看像 GPT2 这样的模型。
RoBERTa 模型在以下五个数据集的重组上进行了预训练:
这些数据集总共包含160GB的文本。
@misc{https://doi.org/10.48550/arxiv.2202.03555, doi = {10.48550/ARXIV.2202.03555}, url = {https://arxiv.org/abs/2202.03555}, author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael}, keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences}, title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language}, publisher = {arXiv}, year = {2022}, copyright = {arXiv.org perpetual, non-exclusive license} }