数据集:
neuclir/csl
任务:
文本检索子任务:
document-retrieval大小:
100K<n<1M批注创建人:
no-annotation源数据集:
extended|csl许可:
apache-2.0CSL 是中国科学文献数据集。
该数据集包含来自多个学术领域的中文论文的标题、摘要和关键词。
Split | Documents |
---|---|
csl | 396k |
en_translation | 396k |
en_translation 包含从谷歌翻译服务翻译的文档。所有文本均为英文,因此省略了 category_eng 和 discipline_eng 字段。
使用 ? Datasets:
from datasets import load_dataset dataset = load_dataset('neuclir/csl')['csl']
该数据集基于 Apache 2.0 下的 Chinese Scientific Literature Dataset 。主要更改是添加了 doc_id、类别和学科描述的英文翻译(由本族语者完成),以及基本的去重。执行此修改的代码可在 this repository 中找到。
如果您使用了这些数据,请引用:
@inproceedings{li-etal-2022-csl, title = "{CSL}: A Large-scale {C}hinese Scientific Literature Dataset", author = "Li, Yudong and Zhang, Yuqing and Zhao, Zhe and Shen, Linlin and Liu, Weijie and Mao, Weiquan and Zhang, Hui", booktitle = "Proceedings of the 29th International Conference on Computational Linguistics", month = oct, year = "2022", address = "Gyeongju, Republic of Korea", publisher = "International Committee on Computational Linguistics", url = "https://aclanthology.org/2022.coling-1.344", pages = "3917--3923", }