模型:
xlm-roberta-large-finetuned-conll02-dutch
任务:
填充掩码语言:
multilingualXLM-RoBERTa 模型是由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov于 Unsupervised Cross-lingual Representation Learning at Scale 提出的。它基于Facebook于2019年发布的RoBERTa模型。这是一个大型的多语言语言模型,使用了2.5TB的经过筛选的CommonCrawl数据进行训练。该模型在荷兰数据集 CoNLL-2002 上进行了 XLM-RoBERTa-large 微调。
该模型是一个语言模型。可以将该模型用于令牌分类,即将标签分配给文本中的某些令牌的自然语言理解任务。
潜在的下游用例包括命名实体识别(NER)和词性标注(PoS)。要了解有关令牌分类和其他潜在的下游用例的更多信息,请参见Hugging Face token classification docs 。
该模型不应用于有意创建对人们具有敌意或疏离性的环境。
内容警告:读者应知道,该模型生成的语言可能会对某些人造成困扰或冒犯,并可能传播历史和当前的刻板印象。
已经有大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
用户(包括直接用户和下游用户)应意识到该模型的风险、偏见和限制。
有关训练数据和训练程序细节,请参见以下资源:
有关评估细节,请参见 associated paper 。
根据 Lacoste et al. (2019) 中提供的 Machine Learning Impact calculator ,可以估算出碳排放量。
有关详细信息,请参阅 associated paper 。
BibTeX:
@article{conneau2019unsupervised, title={Unsupervised Cross-lingual Representation Learning at Scale}, author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin}, journal={arXiv preprint arXiv:1911.02116}, year={2019} }
APA:
此模型卡片由Hugging Face团队撰写。
使用下面的代码开始使用模型。您可以直接在NER的流水线中使用该模型。
单击展开>>> from transformers import AutoTokenizer, AutoModelForTokenClassification >>> from transformers import pipeline >>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch") >>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch") >>> classifier = pipeline("ner", model=model, tokenizer=tokenizer) >>> classifier("Mijn naam is Emma en ik woon in Londen.") [{'end': 17, 'entity': 'B-PER', 'index': 4, 'score': 0.9999807, 'start': 13, 'word': '▁Emma'}, {'end': 36, 'entity': 'B-LOC', 'index': 9, 'score': 0.9999871, 'start': 32, 'word': '▁Lond'}]