数据集:
PORTULAN/parlamento-pt
语言:
pt计算机处理:
monolingual大小:
1M<n<10M批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:2305.06721许可:
otherParlamentoPT 是一个葡萄牙语数据集,通过收集包含葡萄牙议会辩论记录的公开文档而获得。数据是根据葡萄牙议会门户网站的规定进行收集的。
此数据集是为了创建 Albertina-PT* 语言模型而收集的,并且它作为模型开发的训练数据。该模型的开发是葡萄牙里斯本大学和波尔图大学的合作努力。
使用或引用此数据集时,请引用以下 publication :
@misc{albertina-pt, title={Advancing Neural Encoding of Portuguese with Transformer Albertina PT-*}, author={João Rodrigues and Luís Gomes and João Silva and António Branco and Rodrigo Santos and Henrique Lopes Cardoso and Tomás Osório}, year={2023}, eprint={2305.06721}, archivePrefix={arXiv}, primaryClass={cs.CL} }
这里报告的研究部分得到以下项目的支持:PORTULAN CLARIN - 语言科学与技术研究基础设施,由Lisboa 2020,Alentejo 2020和FCT—Fundação para a Ciência e Tecnologia在 grant PINFRA/22117/2016 下资助;研究项目ALBERTINA - 为葡萄牙和人工智能建立的基金会编码器模型,由FCT—Fundação para a Ciência e Tecnologia在 grant CPCA-IAC/AV/478394/2022 下资助;创新项目ACCELERAT.AI - 多语智能联络中心,由IAPMEI, I.P. - Agência para a Competitividade e Inovação按照 Plano de Recuperação e Resiliência 的 grant C625734525-00462629 资助,呼叫 RE-C05-i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização;以及LIACC - 人工智能与计算机科学实验室,由FCT—Fundação para a Ciência e Tecnologia在 grant FCT/UID/CEC/0027/2020 下资助。