模型:
xlm-roberta-large-finetuned-conll03-german
任务:
语言:
XLM-RoBERTa模型是由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov在 Unsupervised Cross-lingual Representation Learning at Scale 中提出的。它基于Facebook于2019年发布的RoBERTa模型。它是一个大型的多语言语言模型,通过对2.5TB的筛选后的CommonCrawl数据进行训练。该模型使用德语的数据集进行了 XLM-RoBERTa-large 的微调。
该模型是一个语言模型。可以将该模型用于令牌分类,即在文本中为一些令牌分配标签的自然语言理解任务。
潜在的下游使用案例包括命名实体识别(NER)和词性标注(PoS)等任务。要了解有关令牌分类和其他潜在下游使用案例的更多信息,请参阅Hugging Face token classification docs 。
不应该使用该模型来故意创建对人们具有敌意或疏远的环境。
内容警告:读者应该知道该模型生成的语言可能对某些人来说令人不安或冒犯,并可能传播历史和现行的刻板印象。
对语言模型的偏见和公平性问题进行了大量研究(参见,例如, Sheng et al. (2021) 和 Bender et al. (2021) )。
用户(包括直接用户和下游用户)应该了解该模型的风险、偏见和局限性。
有关训练数据和训练过程的详细信息,请参见以下资源:
有关评估详细信息,请参见 associated paper 。
可以使用在 Lacoste et al. (2019) 中介绍的方法来估算碳排放。
有关详细信息,请参阅 associated paper 。
BibTeX:
@article{conneau2019unsupervised,
title={Unsupervised Cross-lingual Representation Learning at Scale},
author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
journal={arXiv preprint arXiv:1911.02116},
year={2019}
}
APA:
此模型卡片由Hugging Face团队编写。
使用下面的代码开始使用该模型。您可以在NER的流水线中直接使用该模型。
Click to expand>>> from transformers import AutoTokenizer, AutoModelForTokenClassification
>>> from transformers import pipeline
>>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll03-german")
>>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
>>> classifier("Bayern München ist wieder alleiniger Top-Favorit auf den Gewinn der deutschen Fußball-Meisterschaft.")
[{'end': 6,
'entity': 'I-ORG',
'index': 1,
'score': 0.99999166,
'start': 0,
'word': '▁Bayern'},
{'end': 14,
'entity': 'I-ORG',
'index': 2,
'score': 0.999987,
'start': 7,
'word': '▁München'},
{'end': 77,
'entity': 'I-MISC',
'index': 16,
'score': 0.9999728,
'start': 68,
'word': '▁deutschen'}]