模型:
UWB-AIR/Czert-B-base-cased-long-zero-shot
该存储库保存了CZERT-B-base-cased-long-zero-shot模型的训练结果,该论文详细介绍了相关信息。要获取更多信息,请参阅论文。
这是CZERT-B-base-cased的长版本,没有对长文档进行任何微调。位置编码是通过简单地重复原始CZERT-B模型的位置编码来创建的。要进行分词,请使用BertTokenizer。不能与AutoTokenizer一起使用。
您可以下载预训练的MLM和NSP模型。
经过一些额外的实验,我们发现标记器的配置错误导出。在CZERT-B-v1中,tokenizer参数"do_lower_case"错误地设置为true。在CZERT-A-v1中,参数"strip_accents"错误地设置为true。
v2中修正了这两个错误。
或者您可以从已经微调的模型中进行选择。
我们在两个句子级任务上评估我们的模型:
我们在一个文档级任务上评估我们的模型:
我们在三个标记级任务上评估我们的模型:
情感分类任务的平均F1结果。要获取更多信息,请参阅论文。
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行语义文本相似性,比较了达到的Pearson相关系数。要获取更多信息,请参阅论文。
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行多标签文档分类,比较了达到的F1和AUROC分数。要获取更多信息,请参阅论文。
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行形态标记,比较了达到的F1分数。要获取更多信息,请参阅论文。
SRL结果 - 使用CoNLL 2009评估脚本的有标签F1来评估dep列,使用与NER评估相同的跨度F1分数来评估其他列。要获取更多信息,请参阅论文。
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行命名实体识别,比较了达到的F1分数。要获取更多信息,请参阅论文。
本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议。
目前,请引用:
@article{sido2021czert, title={Czert -- Czech BERT-like Model for Language Representation}, author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík}, year={2021}, eprint={2103.13031}, archivePrefix={arXiv}, primaryClass={cs.CL}, journal={arXiv preprint arXiv:2103.13031}, }