医学问题和回答数据集(MQuAD)已经被细化,包括以下数据集。您可以通过Hugging Face数据集进行下载。使用如下所示的DATASETS方法。
from datasets import load_dataset dataset = load_dataset("danielpark/MQuAD-v1")
从以下网站收集的医学问答数据集。
MQuAD提供了以字符串格式嵌入的问题和答案数组,建议将字符串格式的数组转换为浮点格式,方法如下。这个措施已经被应用来节省嵌入所使用的资源和时间。
from datasets import load_dataset from utilfunction import col_convert import pandas as pd qa = load_dataset("danielpark/MQuAD-v1", "csv") df_qa = pd.DataFrame(qa['train']) df_qa = col_convert(df_qa, ['Q_FFNN_embeds', 'A_FFNN_embeds'])