模型:

xlm-roberta-large-finetuned-conll02-dutch

英文

xlm-roberta-large-finetuned-conll02-dutch

目录

  • 模型详情
  • 用途
  • 偏见、风险和限制
  • 训练
  • 评估
  • 环境影响
  • 技术规格
  • 引用
  • 模型卡片作者
  • 如何开始使用模型
  • 模型详情

    模型描述

    XLM-RoBERTa 模型是由Alexis Conneau、Kartikay Khandelwal、Naman Goyal、Vishrav Chaudhary、Guillaume Wenzek、Francisco Guzmán、Edouard Grave、Myle Ott、Luke Zettlemoyer和Veselin Stoyanov于 Unsupervised Cross-lingual Representation Learning at Scale 提出的。它基于Facebook于2019年发布的RoBERTa模型。这是一个大型的多语言语言模型,使用了2.5TB的经过筛选的CommonCrawl数据进行训练。该模型在荷兰数据集 CoNLL-2002 上进行了 XLM-RoBERTa-large 微调。

    用途

    直接使用

    该模型是一个语言模型。可以将该模型用于令牌分类,即将标签分配给文本中的某些令牌的自然语言理解任务。

    下游使用

    潜在的下游用例包括命名实体识别(NER)和词性标注(PoS)。要了解有关令牌分类和其他潜在的下游用例的更多信息,请参见Hugging Face token classification docs

    超出范围的使用

    该模型不应用于有意创建对人们具有敌意或疏离性的环境。

    偏见、风险和限制

    内容警告:读者应知道,该模型生成的语言可能会对某些人造成困扰或冒犯,并可能传播历史和当前的刻板印象。

    已经有大量研究探讨了语言模型的偏见和公平性问题(参见,例如, Sheng et al. (2021) Bender et al. (2021) )。

    建议

    用户(包括直接用户和下游用户)应意识到该模型的风险、偏见和限制。

    训练

    有关训练数据和训练程序细节,请参见以下资源:

    评估

    有关评估细节,请参见 associated paper

    环境影响

    根据 Lacoste et al. (2019) 中提供的 Machine Learning Impact calculator ,可以估算出碳排放量。

    • 硬件类型:500个32GB Nvidia V100 GPU(来自 associated paper
    • 使用时间:需要更多信息
    • 云提供商:需要更多信息
    • 计算区域:需要更多信息
    • 排放的碳:需要更多信息

    技术规格

    有关详细信息,请参阅 associated paper

    引用

    BibTeX:

    @article{conneau2019unsupervised,
      title={Unsupervised Cross-lingual Representation Learning at Scale},
      author={Conneau, Alexis and Khandelwal, Kartikay and Goyal, Naman and Chaudhary, Vishrav and Wenzek, Guillaume and Guzm{\'a}n, Francisco and Grave, Edouard and Ott, Myle and Zettlemoyer, Luke and Stoyanov, Veselin},
      journal={arXiv preprint arXiv:1911.02116},
      year={2019}
    }
    

    APA:

    • Conneau, A., Khandelwal, K., Goyal, N., Chaudhary, V., Wenzek, G., Guzmán, F., ... & Stoyanov, V. (2019). Unsupervised cross-lingual representation learning at scale. arXiv preprint arXiv:1911.02116.

    模型卡片作者

    此模型卡片由Hugging Face团队撰写。

    如何开始使用模型

    使用下面的代码开始使用模型。您可以直接在NER的流水线中使用该模型。

    单击展开
    >>> from transformers import AutoTokenizer, AutoModelForTokenClassification
    >>> from transformers import pipeline
    >>> tokenizer = AutoTokenizer.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
    >>> model = AutoModelForTokenClassification.from_pretrained("xlm-roberta-large-finetuned-conll02-dutch")
    >>> classifier = pipeline("ner", model=model, tokenizer=tokenizer)
    >>> classifier("Mijn naam is Emma en ik woon in Londen.")
    
    
    [{'end': 17,
      'entity': 'B-PER',
      'index': 4,
      'score': 0.9999807,
      'start': 13,
      'word': '▁Emma'},
     {'end': 36,
      'entity': 'B-LOC',
      'index': 9,
      'score': 0.9999871,
      'start': 32,
      'word': '▁Lond'}]