模型:
clips/contact
CoNTACT是一个在COVID-19推文领域中针对荷兰语RobBERT模型(pdelobelle/robbert-v2-dutch-base)进行调整的上下文神经转换器。该模型由Jens Lemmens、Jens Van Nooten、Tim Kreutz和Walter Daelemans于 CLiPS 开发。关于该模型、使用的数据和进行的实验的完整描述可以在这篇ArXiv预印本中找到: https://arxiv.org/abs/2203.07362
该模型的开发目的是在涉及COVID-19的荷兰社交媒体消息的自然语言处理任务中取得高效果。
可以通过在Huggingface/Transformers的示例脚本中将--model_name_or_path参数引用为clips/contact,或者通过加载CoNTACT(如下所示)并使用自己的代码进行微调来对其进行下游任务的调整:
from transformers import AutoModel, AutoTokenizer model = AutoModel.from_pretrained('clips/contact') tokenizer = AutoTokenizer.from_pretrained('clips/contact') ...
CoNTACT在2021年发布的280万条与COVID-19有关的荷兰推文上进行了训练。
模型的预训练阶段通过对上述训练数据进行遮蔽语言建模(MLM)进行了扩展。这是通过进行了4个时期的训练,使用适合工作内存的最大批处理大小(32)来完成的。
该模型在两个任务上使用来自Twitter和Facebook的数据进行了评估。任务1涉及COVID-19疫苗立场的二元分类(犹豫 vs. 非犹豫),而任务2包括对疫苗犹豫的论据进行多标签、多类别分类。CoNTACT在几乎所有的实验中都表现优于开箱即用的RobBERT,并且在大多数情况下有统计显著性。
@misc{lemmens2022contact, title={CoNTACT: A Dutch COVID-19 Adapted BERT for Vaccine Hesitancy and Argumentation Detection}, author={Jens Lemmens and Jens Van Nooten and Tim Kreutz and Walter Daelemans}, year={2022}, eprint={2203.07362}, archivePrefix={arXiv}, primaryClass={cs.CL} }