LLaVA-RLHF：基于RLHF训练的多模态对齐的视觉语言模型

2023年10月08日由 samoyed 发表 1018 0

通过使用图像-文本配对进行额外的预训练，或通过在专门的视觉指令调整数据集上进行微调，大型语言模型可以进入多模态领域，从而产生强大的大型多模态模型。然而，构建多模态模型存在一些障碍，其中最主要的是多模态数据和纯文本数据集之间的数量和质量差异。以LLaVA模型为例，它是从预训练的视觉编码器和针对指令进行调整的语言模型初始化的，比纯文本模型的训练实例要少得多，纯文本模型使用了超过1亿个实例涵盖了1800个任务。LLaVA仅仅是在15万个基于图像的人工对话中进行训练。由于这些数据的限制，由于这些数据限制，视觉和语言模式可能不一致。

R-C

因此，多模态模型可能会生成与图片上下文不准确相关的幻觉输出。加州大学伯克利分校、卡内基梅隆大学、伊利诺伊大学厄巴纳-香槟分校、威斯康星大学麦迪逊分校、马萨诸塞大学阿姆赫斯特分校微软研究院和麻省理工学院-IBM沃森人工智能实验室的研究人员提出了LLaVA-RLHF，这是一个针对增强多模态对齐训练的视觉语言模型，以解决LMM训练中由于缺乏高质量视觉指令调整数据而引发的问题。他们的一个重要贡献是将多模态对齐适应到被称为人类反馈强化学习的通用和可扩展对齐范式上，这种范式对于基于文本的人工智能代理已经证明了显著的有效性。为了对LMM进行微调，它收集人类偏好，重点是识别幻觉，并将这些偏好用于强化学习中。

这种策略可以以相对较低的注释成本改善多模态对齐，比如仅需花费3000美元收集1万个基于图像的讨论的人类偏好。据他们所知，据他们所知，该策略是RLHF首次有效用于多模式比对。获得奖励模型的高评分并不总是等同于改善人类判断，这就是奖励作弊。这是目前RLHF范式可能存在的一个问题。先前的研究建议迭代收集"新鲜"的人类反馈来停止奖励作弊，但这种方法通常是昂贵的，并且不能很好地利用现有的人类偏好数据。本研究提出了一种更节省数据的选择，使奖励模型能够利用人类已经注释的较大语言模型中已有的知识和数据。

首先，他们使用更高分辨率和更大的语言模型来增强奖励模型的整体功能。其次，他们提出了事实增强RLHF算法，通过添加额外信息来校准奖励信号。他们还通过将Flickr30k转化为抓取标题的任务，将VQA-v2和A-OKVQA转化为多回合问答任务，将合成视觉指令调整数据与现有的高质量人类注释多模态数据结合，以增强LMM在监督微调阶段的通用能力。他们使用新的数据集训练LLaVA-SFT+模型。

最后，他们考虑如何在实际创作情境中评估LMM的多模态对齐，特别注重惩罚幻觉。他们开发了基准问题MMHAL-BENCH，涵盖了COCO的12个关键对象类别，并包括八个工作类型。根据他们的分析，这个基准数据集与人类评估非常接近，特别是在考虑到抗幻觉得分时。作为第一个经过RLHF训练的LMM，LLaVA-RLHF在他们的实验评估中表现出色。他们在LLaVA-Bench上看到了94%的改进，在MMHAL-BENCH上看到了60%的改进，并在MMBench上取得了52.4%的新性能记录，POPE上的F1达到了82.7%。他们在GitHub上公开了他们的代码，模型和数据供公众使用。

文章来源：https://www.marktechpost.com/2023/10/07/overcoming-hallucinations-in-ai-how-factually-augmented-rlhf-optimizes-vision-language-alignment-in-large-multimodal-models/

标签：

LLaVA-RLHF

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇数据可视化：有效展示复杂信息

下一篇 DeepMind研究发现LLM无法在推理任务中自我纠正

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来