数据集:
semaj83/ctmatch_classification
CTMatch分类数据集
这是两个标记数据集的合并集,包括主题(患者描述)、doc(临床试验文档-选定字段)和label({0, 1, 2})组成的三元组,以jsonl格式表示。
这与HF上的ir_dataset有些重复。
这些数据集经过ctproc处理,目前可以被各种分词器用于微调(参见ctmatch的示例)。
这两个数据集不包含任何患者身份信息,以原始形式公开提供:
TREC: http://www.trec-cds.org/2021.html CSIRO: https://data.csiro.au/collection/csiro:17152有关更多信息,请查看repo: https://github.com/semajyllek/ctmatch