ParlamentoPT 数据集卡片

数据集摘要

ParlamentoPT 是一个葡萄牙语数据集，通过收集包含葡萄牙议会辩论记录的公开文档而获得。数据是根据葡萄牙议会门户网站的规定进行收集的。

此数据集是为了创建 Albertina-PT* 语言模型而收集的，并且它作为模型开发的训练数据。该模型的开发是葡萄牙里斯本大学和波尔图大学的合作努力。

引用

使用或引用此数据集时，请引用以下 publication :

@misc{albertina-pt,
      title={Advancing Neural Encoding of Portuguese
             with Transformer Albertina PT-*}, 
      author={João Rodrigues and Luís Gomes and João Silva and
              António Branco and Rodrigo Santos and
              Henrique Lopes Cardoso and Tomás Osório},
      year={2023},
      eprint={2305.06721},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

致谢

这里报告的研究部分得到以下项目的支持：PORTULAN CLARIN - 语言科学与技术研究基础设施，由Lisboa 2020，Alentejo 2020和FCT—Fundação para a Ciência e Tecnologia在 grant PINFRA/22117/2016 下资助；研究项目ALBERTINA - 为葡萄牙和人工智能建立的基金会编码器模型，由FCT—Fundação para a Ciência e Tecnologia在 grant CPCA-IAC/AV/478394/2022 下资助；创新项目ACCELERAT.AI - 多语智能联络中心，由IAPMEI, I.P. - Agência para a Competitividade e Inovação按照 Plano de Recuperação e Resiliência 的 grant C625734525-00462629 资助，呼叫 RE-C05-i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização；以及LIACC - 人工智能与计算机科学实验室，由FCT—Fundação para a Ciência e Tecnologia在 grant FCT/UID/CEC/0027/2020 下资助。

作者:

PORTULAN

数据集大小:

2.52 GB