OpenAI活动第二弹:强化微调技术,助力专业领域AI模型定制

2024年12月09日 由 daydream 发表 371 0

近日,OpenAI启动了为期12天的新品发布周期,并在活动第二日正式推出了强化微调(Reinforcement Fine-Tuning,RFT)技术。这一技术旨在帮助开发者和机器学习工程师为特定复杂领域的任务打造专家级AI模型。


微信截图_20241209092659


强化微调技术通过一种全新的模型定制方式,允许开发者使用包含高质量任务的数据集对模型进行微调,并利用参考答案来评估模型的响应。这一过程能够提升模型在特定领域任务中的推理能力和准确性。开发者可以利用数十到数千个高质量任务来定制OpenAI的模型,并通过提供的参考答案对模型的回答进行评分。


与标准微调技术相比,强化微调利用强化学习算法,能够在少量示例的基础上显著提高模型性能,将模型的表现从高中水平提升至专家水平。与监督式微调不同,强化微调不是让模型简单地模仿输入数据,而是教会模型以全新的方式进行推理。通过对模型答案进行评分并强化正确的推理路径,强化微调能够在少量数据的情况下显著提升模型性能。




强化微调技术适用于法律、金融、工程、保险等需要专业知识的领域。OpenAI表示,强化微调在结果具有客观“正确”答案,且大多数专家会达成共识的任务中表现出色。目前,OpenAI已经推出了强化微调的Alpha版API,并鼓励研究机构、高校和企业进行申请测试。特别是那些目前由专家执行一系列狭窄复杂任务,且可能从人工智能协助中受益的机构,被视为强化微调的主要面向群体。


在实际应用中,强化微调技术已经显示出其潜力。例如,在生物医学领域,计算生物学家通过强化微调技术提高了模型识别罕见病遗传原因的能力。这一技术的有效性在演示中得到了体现,一个经过微调的小型GPT-4模型在特定任务上的准确率超过了基础GPT-4模型。


OpenAI预计,强化微调技术将于2025年初公开发布。在此之前,OpenAI鼓励参与者分享数据集,以共同改进其模型。通过强化微调技术,企业能够针对精确、领域特定的任务训练模型,这一进步可能会重新定义企业在需要深厚专业知识领域中使用AI的方式。

文章来源:https://www.maginative.com/article/openai-introduces-reinforcement-fine-tuning-to-build-domain-specific-expert-ai-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消