模型:

medalpaca/medalpaca-7b

英文

MedAlpaca 7b

目录

模型描述

  • 架构
  • 训练数据
  • 模型使用
  • 限制

模型描述

架构

medalpaca-7b是一个专门针对医学领域任务进行微调的大型语言模型。它基于LLaMA(大型语言模型元AI)并含有70亿个参数。该模型的主要目标是改进问答和医学对话任务。架构

训练数据

该项目的训练数据来自各种资源。首先,我们使用Anki卡片生成器自动从卡片的正面生成问题,并从卡片的背面生成答案。其次,我们从 Wikidoc 生成医学问答对。我们从相关标题中提取段落,并使用Chat-GPT 3.5从标题生成问题,并以相应的段落作为答案。该数据集仍在开发中,并且我们相信大约70%的问答对是事实正确的。第三,我们使用StackExchange提取问题和答案对,选取了五个类别的排名最高的问题:学术界、生物信息学、生物学、健身和健康。此外,我们还使用了来自 ChatDoctor 的数据集,其中包含了200,000个问答对,可以在 https://github.com/Kent0n-Li/ChatDoctor 获取。

Source n items
ChatDoc large 200000
wikidoc 67704
Stackexchange academia 40865
Anki flashcards 33955
Stackexchange biology 27887
Stackexchange fitness 9833
Stackexchange health 7721
Wikidoc patient information 5942
Stackexchange bioinformatics 5407

模型使用

要对特定的数据集评估模型的性能,您可以使用Hugging Face Transformers库中内置的评估脚本。有关更多信息,请参阅评估指南。

您可以使用该模型进行问答和医学对话等推理任务,使用Hugging Face Transformers库。以下是如何使用模型进行问答任务的示例:

from transformers import pipeline

pl = pipeline("text-generation", model="medalpaca/medalpaca-7b", tokenizer="medalpaca/medalpaca-7b")
question = "What are the symptoms of diabetes?"
context = "Diabetes is a metabolic disease that causes high blood sugar. The symptoms include increased thirst, frequent urination, and unexplained weight loss."
answer = pl(f"Context: {context}\n\nQuestion: {question}\n\nAnswer: ")
print(answer)

限制

该模型在医学领域之外的范围内可能无法有效执行。训练数据主要针对医学生的知识水平,因此在满足董事会认证医生的需求时可能存在局限性。该模型尚未在现实世界应用中进行测试,因此其功效和准确性目前尚不确定。它绝不能用作医生意见的替代品,必须仅作为研究工具对待。