多模态如何使LLM对齐变得更具挑战性

2024年01月05日 由 camellia 发表 358 0

通过GPT-4为ChatGPT增加多模态能力,允许用户同时使用图像和文本,扩展了其功能,但也带来了新的挑战。对齐这种数据混合要求仔细的策划,并涉及道德考量,这需要开发者获取高质量的训练数据,并且在道德对齐上应对复杂问题。


大约一个月前,OpenAI宣布ChatGPT现在能够看、听和说。这意味着模型可以帮助你完成更多日常任务。例如,你可以上传你冰箱里食物的图片,并请求就你拥有的食材提供制备餐点的想法。或者你可以拍摄你的客厅,并请求ChatGPT提供艺术和装饰建议。


这成为可能是因为ChatGPT使用了多模态GPT-4作为底层模型,它能接受图像和文本的输入。然而,新的能力为模型对齐团队带来了新的挑战,我们将在本文中讨论。


LLM的对齐


“对齐LLM”一词指的是训练模型按照人类的期望行事。这通常意味着理解人类指令,并产生有用、准确、安全且无偏见的响应。为了教导模型正确的行为,我们通过两个步骤提供示例:监督式微调(SFT)和带有人类反馈的强化学习(RLHF)。


监督式微调(SFT)教导模型遵循特定指令。就ChatGPT而言,这意味着提供对话的示例。底层模型GPT-4尚未能做到这一点,因为它被训练用来预测序列中的下一个单词,而不是回答类似聊天机器人的问题。


虽然SFT赋予了ChatGPT“聊天机器人”的性质,但它的回答仍然远非完美。因此,需要应用带有人类反馈的强化学习(RLHF)来提高答案的真实性、无害性和有用性。本质上,调整过的算法受指令产生几个答案,随后通过人类使用上述标准对这些答案进行排名。这允许奖励算法学习人类偏好,并用于对SFT模型进行再训练。


在这一步之后,模型就与人类价值观对齐了,或者至少我们是这么希望的。但为什么多模态使这一过程更难了一步呢?


多模态数据与新挑战


当我们谈到多模态LLM的对齐时,我们应该关注图像和文本。它并没有涵盖ChatGPT“看、听和说”所有新能力因为后两者使用的是语音转文本和文本转语音模型,并不直接连接到LLM模型。


这就是事情变得更复杂的时候。图像与文本在一起相比只有文本输入更难解释。结果是,ChatGPT-4经常幻想它可以或不能在图像中看到的对象和人物。


Gary Marcus写了一篇关于多模态幻觉的优秀文章,其中展示了不同的案例。其中一个例子展示了ChatGPT从图像中错误地读取时间。它还在计算厨房图片中的椅子数量时遇到了困难,并且无法识别照片中一个佩戴手表的人。


加里_副本


将图像作为输入还开辟了对抗性攻击的窗口。它们可以成为提示注入攻击的一部分,或者用于传递指令以破解模型产生有害内容。


Simon Willison在这篇文章中记录了几种图像注入攻击。其中一个基本示例涉及上传一个图像到ChatGPT,该图像包含你希望它遵循的新指令。见下面的示例:


西蒙_副本


同样地,照片中的文字也可以被替换为让模型产生仇恨言论或有害内容的指令。


提高多模态数据的对齐


那么,多模态数据为什么更难对齐呢?与单模态语言模型相比,多模态模型的开发仍处于早期阶段。OpenAI没有透露GPT-4是如何实现多模态的细节,但很明显,他们已经为其提供了大量带文本注释的图像。


与纯文本数据相比,文本-图像对更难获得,此类数据的策划数据集较少,而且自然示例在互联网上找到比简单文本要难。


图像-文本对的质量提出了额外的挑战。一张带有一句话文本标签的图像远不如一张带有详细描述的图像有价值。为了拥有后者,我们通常需要按照精心设计的指令集让人类注释者提供文本注释。


除此之外,训练模型遵循指令需要使用图像和文本的足够数量的真实用户提示。由于方法的新颖性,有机示例再次难以寻找,并且训练示例通常需要由人类按需创建。


对齐多模态模型引入了以前甚至不需要考虑的道德问题。模型是否应该能够评论人们的外貌、性别和种族,或者识别他们是谁?它应该尝试猜测照片的位置吗?与仅有文本数据相比,有更多的方面需要对齐。


总结


多模态为模型的使用方式带来了新的可能性,但它也为模型开发者带来了新的挑战,他们需要确保答案的无害性、真实性和有用性。由于多模态,需要调整的方面增加了,SFT和RLHF的良好训练数据获取更加具有挑战性。那些希望建立或微调多模态模型的人需要准备面对这些新挑战,并在开发流程中加入高质量的人类反馈。

文章来源:https://www.kdnuggets.com/how-multimodality-makes-llm-alignment-more-challenging
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消