模型:

UWB-AIR/Czert-B-base-cased-long-zero-shot

英文

CZERT

该存储库保存了CZERT-B-base-cased-long-zero-shot模型的训练结果,该论文详细介绍了相关信息。要获取更多信息,请参阅论文。

这是CZERT-B-base-cased的长版本,没有对长文档进行任何微调。位置编码是通过简单地重复原始CZERT-B模型的位置编码来创建的。要进行分词,请使用BertTokenizer。不能与AutoTokenizer一起使用。

可用模型

您可以下载预训练的MLM和NSP模型。

经过一些额外的实验,我们发现标记器的配置错误导出。在CZERT-B-v1中,tokenizer参数"do_lower_case"错误地设置为true。在CZERT-A-v1中,参数"strip_accents"错误地设置为true。

v2中修正了这两个错误。

或者您可以从已经微调的模型中进行选择。

如何使用CZERT?

句子级任务

我们在两个句子级任务上评估我们的模型:

  • 情感分类
  • 语义文本相似性

文档级任务

我们在一个文档级任务上评估我们的模型:

  • 多标签文档分类

标记级任务

我们在三个标记级任务上评估我们的模型:

  • 命名实体识别
  • 形态标记
  • 语义角色标注

下游任务微调结果

情感分类

情感分类任务的平均F1结果。要获取更多信息,请参阅论文。

语义文本相似性

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行语义文本相似性,比较了达到的Pearson相关系数。要获取更多信息,请参阅论文。

多标签文档分类

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行多标签文档分类,比较了达到的F1和AUROC分数。要获取更多信息,请参阅论文。

形态标记

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行形态标记,比较了达到的F1分数。要获取更多信息,请参阅论文。

语义角色标注

SRL结果 - 使用CoNLL 2009评估脚本的有标签F1来评估dep列,使用与NER评估相同的跨度F1分数来评估其他列。要获取更多信息,请参阅论文。

命名实体识别

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行命名实体识别,比较了达到的F1分数。要获取更多信息,请参阅论文。

许可证

本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议。

如何引用CZERT?

目前,请引用:

@article{sido2021czert,
      title={Czert -- Czech BERT-like Model for Language Representation}, 
      author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
      year={2021},
      eprint={2103.13031},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      journal={arXiv preprint arXiv:2103.13031},
}