人工智能对齐或许不是必要的
2023年08月02日 由 Samoyed 发表
209068
0
在许多情况下,没有经过RLHF阶段的未经审查的模型实际上比对齐的模型表现得更好。
OpenAI已经非常清楚ChatGPT成功背后最重要的一个原因——从人类反馈中强化学习(RLHF)。每个人都很赞同这一点。从那以后,人们都在用RLHF建立模型。
通过与人类评估人员的互动来训练LLM,RLHF试图提高人工智能模型在现实应用中的性能,但反过来它会引起偏差并降低模型的鲁棒性。来自哈佛大学、斯坦福大学、麻省理工学院、加州大学伯克利分校和许多其他大学的研究人员最近发表的一篇论文《基于人类反馈的强化学习的开放问题和基本限制》(Open Problems and Fundamental Limitations of Reinforcement Learning from Human Feedback)讨论了 RLHF 方法存在的问题。
不错,但不是最好的
论文指出,从人类评估者那里获得高质量的反馈是 RLHF 面临的主要挑战之一。人类虽然能够提供有价值的反馈,但也容易受到各种限制和偏见的影响。不一致的评估者可能难以理解人工智能模型的背景或目标,从而导致次优反馈。监督的复杂性,特别是在长时间的对话中,也会阻碍对模型性能的准确评估。
此外,数据质量是另一个关键问题。由于注意力有限、时间限制和认知偏差等因素,人类评估者可能会无意中提供不一致或不准确的反馈。即使是认真的评估者,也会因为主观的解释和不同的观点而产生分歧。
RLHF中使用的反馈形式可能会进一步加剧这些挑战。根据评估方法的不同,评估者可能会提供二元判断、排名或比较,每一种都有自己的优缺点。为特定的人工智能任务选择最合适的反馈形式是很复杂的,从而导致了训练过程中存在潜在的差异。
RLHF的一个基本问题是通过奖励函数准确地表示人类个体的价值观。人类的偏好是依赖环境的、动态的,并且经常受到社会和文化因素的影响。设计一个能够涵盖人类价值观复杂性的奖励函数是一项艰巨的任务。对人类决策的错误假设或使用忽视个性和情境依赖性的奖励模型可能导致人工智能模型不一致。
为什么要进行如此多的调整?
人类评估者的多样性进一步增加了奖励建模过程的复杂性。不同的评估者可能有不同的偏好、专业知识和文化背景。试图将他们的反馈整合到一个单一的奖励模型中可能会忽略重要的分歧,并导致偏向多数意见的有偏见的人工智能模型。这可能对代表性不足的群体不利,并使现有的社会偏见永久化。
为了应对这些挑战,研究人员必须探索以更细致入微、更能感知背景的方式表现偏好的技术。利用考虑多个评估者反馈的综合奖励模型,或者迎合个人偏好的个性化奖励模型,可以帮助捕捉人类价值观的多样性。
以透明的方式解决数据收集过程中的潜在偏差,并进行彻底的评估,以识别和减轻有害的偏见,是负责任的人工智能发展的必要步骤。
为了克服这些数据限制,研究人员应该探索不损害数据质量和多样性的经济有效的数据收集方法。在GPT输出数据上进行训练以更快地对齐已经成为新的趋势,但这最终也会给其他模型带来同样的偏差。所以,到目前为止还没有更好的方法。
RLHF的基本挑战对人工智能对齐具有重大影响。通过技术进步,一些问题可能会有可行的解决方案,但另一些问题可能没有完整的解决方案,可能需要采用其他方法。研究人员必须对仅依靠RLHF进行人工智能对齐持谨慎态度,因为仅通过这种方法可能无法完全解决某些问题。
从本质上讲,RLHF会导致模型的过度微调,从而可能妨碍其功能。这种现象被称为人工智能模型的对齐税。当一个模型进行几个基准测试时,人类在循环中试图使模型尽可能地一致和“政治正确”,这样一来,模型的性能就会大打折扣。
对齐税是人工智能系统为保持更一致而必须产生的额外成本,其代价是损失构建一个不对齐或未经审查的模型的机会,这最终也会阻碍其性能。这就是为什么,在很多情况下,没有经过RLHF阶段的未经审查的模型实际上比对齐的模型表现得更好。
来源:https://analyticsindiamag.com/ai-alignment-is-a-joke/