数据集:

semaj83/ctmatch_ir

许可:

mit
英文

CTMatch信息检索数据集

这是经过处理的临床试验文档数据集,有点类似于在datasets/ir_datasets中找到的数据集,只不过这些数据经过了ctproc的预处理,以清洁并提取临床试验文档中的有用字段。

注意:由于在ctmatch中有下游任务所以当前将它们保存为文本文件,不过将来可能会转换为.csv格式。

每个.txt文件恰好有374648行对应的数据:

doc_texts.txt

  • 使用ctproc从文档中提取的字段(仅使用资格和适格标准),结构化为以下示例(来自NCT00000102):“纳入标准:被诊断为先天性肾上腺增生症(CAH),基线评估期间正常的心电图,排除标准:肝病史或肝功能异常,心血管疾病史”

doc_categories.txt:

  • 1 x 14向量,是使用零样本分类模型facebook/bart-large-mnli生成的主题概率(softmax输出),按以下方式进行词汇排序:癌症,心脏,内分泌,胃肠,遗传,健康,感染,神经,其他,儿科,心理,肺部,肾脏,生殖

doc_embeddings.txt:

  • 1 x 384向量,取自使用SentenceTransformers(sentence-transformers/all-MiniLM-L6-v2)对编码的文档文本进行的最后一个隐藏状态的模型嵌入

index2docid.txt:

  • 将索引映射到NCTID的简单映射,用于整个IR程序中的过滤和参考,与向量、文本表示顺序对应