数据集:
Hellisotherpeople/DebateSum
语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:2011.07251许可:
mit《DebateSum: 一个大规模的辩论挖掘和总结数据集》即将发表的论文对应的代码仓库。
Arxiv预印本在此处可用: https://arxiv.org/abs/2011.07251 。
在此处查看演示日期和时间: https://argmining2020.i3s.unice.fr/node/9 。
ACL的完整论文在此处: https://www.aclweb.org/anthology/2020.argmining-1.1/ 。
在COLING 2020上演示的视频: https://underline.io/lecture/6461-debatesum-a-large-scale-argument-mining-and-summarization-dataset 。
该数据集以csv文件的形式分发。
DebateSum由187328个辩论文档、论点(也可以被看作抽象摘要或查询)、词级摘要、引用和相关元数据按主题-年份组织而成。这些数据已经准备好供NLP系统分析。
所有数据以主题年份的解析格式可访问: here 。
此外,训练好的词向量也可以在该文件夹中找到: debate2vec 。
这对那些每年都会发布论据的辩论者很有用。很快我将更新以包括2020-2021的主题。
步骤1: 从 Open Evidence 下载并解压缩所有公开证据文件到一个目录下。链接如下:
步骤2: 使用命令 pandoc 将所有证据从docx文件转换为html5文件:
for f in *.docx; do pandoc "$f" -s -o "${f%.docx}.html5"; done
步骤3: 安装make_debate_dataset.py的依赖项:
pip install -r requirements.txt
步骤4: 根据需要修改文件夹和文件位置,并运行make_debate_dataset.py。
python3 make_debate_dataset.py
非常感谢 Arvind Balaji 为debate.cards做出的贡献,并成为本文的第二作者!