数据集:

biglam/gutenberg-poetry-corpus

语言:

en

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

no-annotation

许可:

cc0-1.0
英文

Allison Parrish的古腾堡诗歌语料库

该语料库最初在CC0许可下由 Allison Parrish 发布。请访问Allison令人惊叹的 accompanying GitHub repository 以获取使用灵感以及有关数据的挖掘方式、创建自己版本的语料库以及使用它的项目示例的更多信息。

该数据集包含来自数百本Project Gutenberg书籍的3,085,117行诗歌。每行都有一个对应的gutenberg_id(1191个唯一值)来自Project Gutenberg。

Dataset({
    features: ['line', 'gutenberg_id'],
    num_rows: 3085117
})

数据行如下所示:

{'line': 'And retreated, baffled, beaten,', 'gutenberg_id': 19}