数据集:
yhavinga/xsum_dutch
Xsum Dutch ???? 数据集是一个从英文翻译成荷兰语的数据集。
此数据集目前(2022年8月)有一个配置,即将默认配置 xsum 翻译为荷兰语,并转换为 yhavinga/t5-base-36L-ccmatrix-multi 。
极端摘要(XSum)数据集。
有三个特征:
'验证'的示例如下所示。
{ "document": "some-body", "id": "29750031", "summary": "some-sentence" }
数据字段在所有拆分之间相同。
默认name | train | validation | test |
---|---|---|---|
default | 204045 | 11332 | 11334 |
@article{Narayan2018DontGM, title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization}, author={Shashi Narayan and Shay B. Cohen and Mirella Lapata}, journal={ArXiv}, year={2018}, volume={abs/1808.08745} }
感谢 @thomwolf , @lewtun , @mariamabarham , @jbragg , @lhoestq , @patrickvonplaten 添加了该数据集的英文版本。该数据集是在Google通过 TPU Research Cloud 慷慨提供的Cloud TPU计算上进行的翻译。