数据集:

semaj83/ctmatch_classification

大小:

10K<n<100K

其他:

medical

许可:

mit
英文

CTMatch分类数据集

这是两个标记数据集的合并集,包括主题(患者描述)、doc(临床试验文档-选定字段)和label({0, 1, 2})组成的三元组,以jsonl格式表示。

这与HF上的ir_dataset有些重复。

这些数据集经过ctproc处理,目前可以被各种分词器用于微调(参见ctmatch的示例)。

这两个数据集不包含任何患者身份信息,以原始形式公开提供:

TREC: http://www.trec-cds.org/2021.html CSIRO: https://data.csiro.au/collection/csiro:17152

有关更多信息,请查看repo: https://github.com/semajyllek/ctmatch