论文阅读--LlaVA

news/2025/2/9 6:33:02 标签: 论文阅读

数据

使用GPT-4,根据现有的图片对数据(image-pair data)收集指令跟随数据。作者团队收集了158,000个独特的语言-图像指令遵循样本,其中包括58,000个对话样本、23,000个详细描述样本和77,000个复杂推理样本

以图像描述为例:由图像Xv,图像的标题Xc组成的二元组可以对应一系列问题Xq(由GPT-4生成)来指示模型生成简单的描述。就可以将这个图像-文本对扩展为一个指令跟随数据:

Human : X_q, X_v <STOP>
Assistant : X_c <STOP>

但这样的扩展在深度和广度上都是不足的,交互性很弱,因此用GPT-4创建涉及视觉内容的指令遵循数据:

标题和边界框两种方法来将视觉信息传递给语言模型:

  • 标题(Caption) 提供了不同的视角下对图像的描述,例如不同的物体之间的位置关系,或者其中的人物正在做什么。
  • 边界框(Boxes) 定位了图像中的物体,以物体概念+位置信息的形式呈现(通常就是物体概念和矩形四个角的坐标构成)。

 生成对话数据

助手(Assistance)会回答人类提出的在图像上具有明确答案的视觉问题(包括物体类型、数量、动作、位置等)

生成细节描述

创建了一个问题列表,提示GPT-4然后筛选出了如中所示的问题。对于每个问题,从列表中抽取一个询问GPT-4以生成详细描述。

生成复杂推理数据

前面两种类型更多的是描述图片中存在的信息,而该问题需要在前两步的基础上遵循严格的逻辑,推理出一些信息出来

网络

LLaVA 的模型结构很简单,使用预训练的 Visual Encoder(CLIP ViT-L/14)和 LLM (LLaMA),为了做 Alignment,用一个简单的线性层 Projector 将视觉特征转换为文本特征

训练

对于任意一个图像Xv ,生成一个T轮的问答数据序列( Xq1 , Xa1 , … , XqT , XaT)

第一轮对话中加入视觉信息Xv,即使用视觉特征和语言向量的一种排列当做指令

Stage1: 预训练视觉->文本

要求机器描述这个图像作为输入的Xq,将数据集中的标题(图像描述)作为回答Xa 。然后冻结图像编码器和语言模型,训练投影矩阵W直到似然函数达到极大

Stage2: 端到端训练

这一阶段冻结视觉编码器,并更新LLaVA模型的投影层和LLM

使用数据:

多模态聊天机器人将收集的158K独特的语言图像指令按照三种回答格式(对话、详细描述和复杂推理)进行均匀抽样并基于这些数据进行微调得到聊天机器人
科学问答(Science QA)在Science QA基准数据集上进行,通过将问题和上下文作为输入,将推理过程和答案作为输出进行训练。


http://www.niftyadmin.cn/n/5845721.html

相关文章

【4】思科 SD-WAN 的控制平面

1. 概述 在 SD-WAN 架构中,控制平面(Control Plane)负责管理数据平面的流量转发决策,并确保网络设备能够高效地进行路径选择和策略执行。思科 SD-WAN 的控制平面主要由 vSmart 控制器 组成,它负责维护全网的路由、策略和安全控制。 控制平面与数据平面分离,使得网络可以…

基于logback+fastjson实现日志脱敏

一、需求背景 日常工作中&#xff0c;必不可免的会将一些敏感信息&#xff0c;如用户名、密码、手机号、身份证号、银行账号等等打印出来&#xff0c;但往往为了安全&#xff0c;这些信息都需要进行脱敏。脱敏实际就是用一些特殊字符来替换部分值。 JSON 和 JSONObject Fastj…

nodejs - vue 视频切片上传,本地正常,线上环境导致磁盘爆满bug

nodejs 视频切片上传&#xff0c;本地正常&#xff0c;线上环境导致磁盘爆满bug 原因&#xff1a; 然后在每隔一分钟执行du -sh ls &#xff0c;发现文件变得越来越大&#xff0c;即文件下的mp4文件越来越大 最后导致磁盘直接爆满 排查原因 1、尝试将m3u8文件夹下的所有视…

Rust语言的嵌入式系统

Rust语言在嵌入式系统中的应用 引言 在现代科技快速发展的背景下&#xff0c;嵌入式系统作为重要的组成部分&#xff0c;广泛应用于工业自动化、消费电子、智能家居、汽车电子等多个领域。随着设备的智能化和网络化&#xff0c;开发者对嵌入式系统的安全性和可靠性提出了更高…

【学术投稿-第五届消费电子与计算机工程国际学术会议】HTML核心元素详解:超链接、列表、表格与实用技巧

基本信息 大会官网&#xff1a;www.iccece.org 线下召开时间&#xff1a;2025年2月28-3月2日 目录 前言 一、超链接&#xff1a;连接万物的桥梁 1. 基础语法 2. 高级应用 3.代码案例​编辑 4. 注意事项 二、列表&#xff1a;结构化内容的利器 1. 有序列表&#xff08;O…

2025考研查分时间,公布!

年关将至&#xff0c;截止目前&#xff0c;已有6个省市公布2025考研初试成绩查询时间。 综合往年情况来看&#xff0c;查分时间一般在2月底。去年各省市的考研初试的查分时间集中安排在2月26日&#xff0c;但2025年考研初试时间较往年提前2天&#xff0c;在目前已经公布查分时…

春节忙季,旅游景区如何打造特色项目,实现景区引流?

春节忙季&#xff0c;旅游景区如何打造特色项目&#xff0c;实现景区引流&#xff1f; 在当今旅游业蓬勃发展的背景下&#xff0c;游客的消费观念正不断升级&#xff0c;他们不再仅仅满足于传统的观光游览&#xff0c;而是更加追求文化体验与精神享受。为了顺应这一市场趋势&a…

samba的用法 smbpasswd -a pdbedit -L 笔记250205

samba的用法 Samba是一套使用SMB&#xff08;Server Message Block&#xff09;协议的应用程序&#xff0c;它允许Linux服务器与Windows系统之间进行通信&#xff0c;实现跨平台的互访。以下是对Samba用法的详细介绍&#xff1a; 一、Samba的安装 在Linux系统上安装Samba的步…