模型:

clips/contact

英文

联系

模型描述

CoNTACT是一个在COVID-19推文领域中针对荷兰语RobBERT模型(pdelobelle/robbert-v2-dutch-base)进行调整的上下文神经转换器。该模型由Jens Lemmens、Jens Van Nooten、Tim Kreutz和Walter Daelemans于 CLiPS 开发。关于该模型、使用的数据和进行的实验的完整描述可以在这篇ArXiv预印本中找到: https://arxiv.org/abs/2203.07362

预期用途

该模型的开发目的是在涉及COVID-19的荷兰社交媒体消息的自然语言处理任务中取得高效果。

如何使用

可以通过在Huggingface/Transformers的示例脚本中将--model_name_or_path参数引用为clips/contact,或者通过加载CoNTACT(如下所示)并使用自己的代码进行微调来对其进行下游任务的调整:

from transformers import AutoModel, AutoTokenizer

model = AutoModel.from_pretrained('clips/contact')
tokenizer = AutoTokenizer.from_pretrained('clips/contact')

...

训练数据

CoNTACT在2021年发布的280万条与COVID-19有关的荷兰推文上进行了训练。

训练过程

模型的预训练阶段通过对上述训练数据进行遮蔽语言建模(MLM)进行了扩展。这是通过进行了4个时期的训练,使用适合工作内存的最大批处理大小(32)来完成的。

评估

该模型在两个任务上使用来自Twitter和Facebook的数据进行了评估。任务1涉及COVID-19疫苗立场的二元分类(犹豫 vs. 非犹豫),而任务2包括对疫苗犹豫的论据进行多标签、多类别分类。CoNTACT在几乎所有的实验中都表现优于开箱即用的RobBERT,并且在大多数情况下有统计显著性。

如何引用

@misc{lemmens2022contact,
    title={CoNTACT: A Dutch COVID-19 Adapted BERT for Vaccine Hesitancy and Argumentation Detection},
    author={Jens Lemmens and Jens Van Nooten and Tim Kreutz and Walter Daelemans},
    year={2022},
    eprint={2203.07362},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}