数据集:

Hellisotherpeople/DebateSum

英文

DebateSum辩论总结

《DebateSum: 一个大规模的辩论挖掘和总结数据集》即将发表的论文对应的代码仓库。

Arxiv预印本在此处可用: https://arxiv.org/abs/2011.07251

在此处查看演示日期和时间: https://argmining2020.i3s.unice.fr/node/9

ACL的完整论文在此处: https://www.aclweb.org/anthology/2020.argmining-1.1/

在COLING 2020上演示的视频: https://underline.io/lecture/6461-debatesum-a-large-scale-argument-mining-and-summarization-dataset

该数据集以csv文件的形式分发。

DebateSum由187328个辩论文档、论点(也可以被看作抽象摘要或查询)、词级摘要、引用和相关元数据按主题-年份组织而成。这些数据已经准备好供NLP系统分析。

下载

所有数据以主题年份的解析格式可访问: here

此外,训练好的词向量也可以在该文件夹中找到: debate2vec

自行生成

这对那些每年都会发布论据的辩论者很有用。很快我将更新以包括2020-2021的主题。

步骤1: 从 Open Evidence 下载并解压缩所有公开证据文件到一个目录下。链接如下:

  • 2019 - 解决方案: 美国联邦政府应大幅减少对来自美国的直接商业销售和/或外国军事销售的武器的限制。
  • 2018 - 解决方案: 美国联邦政府应大幅放宽对合法移民进入美国的限制。
  • 2017 - 解决方案: 美国联邦政府应大幅增加对美国初中和/或高中教育的资金和/或监管。
  • 2016 - 解决方案: 美国联邦政府应大幅增加与中华人民共和国的经济和/或外交接触。
  • 2015 - 解决方案: 美国联邦政府应大幅限制其国内监视。
  • 2014 - 解决方案: 美国联邦政府应大幅增加对地球海洋的非军事勘探和/或开发。
  • 2013 - 解决方案: 美国联邦政府应大幅增加对古巴、墨西哥或委内瑞拉的经济接触。

步骤2: 使用命令 pandoc 将所有证据从docx文件转换为html5文件:

for f in *.docx; do pandoc "$f" -s -o "${f%.docx}.html5"; done

步骤3: 安装make_debate_dataset.py的依赖项:

pip install -r requirements.txt

步骤4: 根据需要修改文件夹和文件位置,并运行make_debate_dataset.py。

python3 make_debate_dataset.py

致谢

非常感谢 Arvind Balaji 为debate.cards做出的贡献,并成为本文的第二作者!