数据集:
biglam/gutenberg-poetry-corpus
任务:
文本生成子任务:
language-modeling语言:
en计算机处理:
monolingual大小:
1M<n<10M语言创建人:
found批注创建人:
no-annotation许可:
cc0-1.0该语料库最初在CC0许可下由 Allison Parrish 发布。请访问Allison令人惊叹的 accompanying GitHub repository 以获取使用灵感以及有关数据的挖掘方式、创建自己版本的语料库以及使用它的项目示例的更多信息。
该数据集包含来自数百本Project Gutenberg书籍的3,085,117行诗歌。每行都有一个对应的gutenberg_id(1191个唯一值)来自Project Gutenberg。
Dataset({ features: ['line', 'gutenberg_id'], num_rows: 3085117 })
数据行如下所示:
{'line': 'And retreated, baffled, beaten,', 'gutenberg_id': 19}