数据集:

PORTULAN/parlamento-pt

英文

ParlamentoPT 数据集卡片

数据集摘要

ParlamentoPT 是一个葡萄牙语数据集,通过收集包含葡萄牙议会辩论记录的公开文档而获得。数据是根据葡萄牙议会门户网站的规定进行收集的。

此数据集是为了创建 Albertina-PT* 语言模型而收集的,并且它作为模型开发的训练数据。该模型的开发是葡萄牙里斯本大学和波尔图大学的合作努力。

引用

使用或引用此数据集时,请引用以下 publication :

@misc{albertina-pt,
      title={Advancing Neural Encoding of Portuguese
             with Transformer Albertina PT-*}, 
      author={João Rodrigues and Luís Gomes and João Silva and
              António Branco and Rodrigo Santos and
              Henrique Lopes Cardoso and Tomás Osório},
      year={2023},
      eprint={2305.06721},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

致谢

这里报告的研究部分得到以下项目的支持:PORTULAN CLARIN - 语言科学与技术研究基础设施,由Lisboa 2020,Alentejo 2020和FCT—Fundação para a Ciência e Tecnologia在 grant PINFRA/22117/2016 下资助;研究项目ALBERTINA - 为葡萄牙和人工智能建立的基金会编码器模型,由FCT—Fundação para a Ciência e Tecnologia在 grant CPCA-IAC/AV/478394/2022 下资助;创新项目ACCELERAT.AI - 多语智能联络中心,由IAPMEI, I.P. - Agência para a Competitividade e Inovação按照 Plano de Recuperação e Resiliência 的 grant C625734525-00462629 资助,呼叫 RE-C05-i01.01 – Agendas/Alianças Mobilizadoras para a Reindustrialização;以及LIACC - 人工智能与计算机科学实验室,由FCT—Fundação para a Ciência e Tecnologia在 grant FCT/UID/CEC/0027/2020 下资助。