数据集:

d0rj/samsum-ru

语言:

ru

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

translated

批注创建人:

expert-generated

源数据集:

samsum

预印本库:

arxiv:1911.12237
英文

SAMSum Corpus数据集卡片(俄语)

数据集描述

samsum 个数据集翻译成俄语。

备注

删除了ID为13828807的行。

链接

语言

俄语(通过Google翻译从英语 samsum 翻译而来)

数据集结构

数据字段

  • 对话:对话文本。
  • 摘要:人工编写的对话摘要。
  • ID:示例的唯一文件ID。

数据拆分

  • 训练集:14731个
  • 验证集:818个
  • 测试集:819个

授权信息

非商业许可:CC BY-NC-ND 4.0

引用信息

@inproceedings{gliwa-etal-2019-samsum,
    title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization",
    author = "Gliwa, Bogdan  and
      Mochol, Iwona  and
      Biesek, Maciej  and
      Wawer, Aleksander",
    booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-5409",
    doi = "10.18653/v1/D19-5409",
    pages = "70--79"
}