注意:此模型已移至 linhd-postdata/alberti-bert-base-multilingual-cased
ALBERTI是一套基于BERT的多语种诗歌模型,其中一个用于诗句,另一个用于诗歌段落。该模型还使用 Flax 对PULPO诗句语料进行了进一步训练,包括训练脚本。
这是由 HuggingFace 和由Google赞助的TPU使用组织的 Flax/Jax Community Week 的一部分。
PULPO(Prodigious Unannotated Literary Poetry Corpus)是一组包含超过95M个词的多语种诗句和诗歌段落的语料库。
以下语料库使用 Averell 工具(由 POSTDATA 团队开发)下载:
此外,我们从以下来源获取了以下语料库:
感谢HuggingFace和Google Cloud提供的基础设施和资源。此外,我们还要感谢POSTDATA项目(ERC-StG-679528)和欧盟Horizon 2020研究和创新计划的计算文学研究基础设施(CLS INFRA No. 101004984)对我们的支持和时间许可。