数据集:

danielpark/MQuAD-v1

英文

MQuAD

医学问题和回答数据集(MQuAD)已经被细化,包括以下数据集。您可以通过Hugging Face数据集进行下载。使用如下所示的DATASETS方法。

快速指南

from datasets import load_dataset
dataset = load_dataset("danielpark/MQuAD-v1")

从以下网站收集的医学问答数据集。

  • eHealth Forum
  • iCliniq
  • Question Doctors
  • WebMDData是在2017年5月5日收集的。

MQuAD提供了以字符串格式嵌入的问题和答案数组,建议将字符串格式的数组转换为浮点格式,方法如下。这个措施已经被应用来节省嵌入所使用的资源和时间。

from datasets import load_dataset
from utilfunction import col_convert
import pandas as pd

qa = load_dataset("danielpark/MQuAD-v1", "csv")
df_qa = pd.DataFrame(qa['train'])
df_qa = col_convert(df_qa, ['Q_FFNN_embeds', 'A_FFNN_embeds'])