📌 原文链接:https://mp.weixin.qq.com/...
Seed1.5-VL 是字节跳动 Seed 团队最新发布的视觉-语言多模态大模型,具备更强的通用多模态理解和推理能力,且推理成本显著降低,在 60 个公开评测基准中的 38 个上取得 SOTA 表现。
目前,Seed1.5-VL 已在火山引擎上开放 API 供用户体验。
技术报告:
https://arxiv.org/abs/2505.07062
网站链接:
https://seed.bytedance.com/tech/seed1_5_vl
API(登录后选择 Doubao-1.5-thinking-vision-pro 进行体验):
https://www.volcengine.com/experience/ark?model=doubao-1-5-thinking-vision-pro-250428
GitHub 样例代码:
https://github.com/ByteDance-Seed/Seed1.5-VL
很高兴和大家介绍 Seed1.5-VL!
Seed1.5-VL 是 Seed 大模型系列最新的多模态大模型,在超过 3T tokens 的多模态数据上进行预训练。
如图所示,Seed1.5-VL 由三个主要组件构成:
(1)SeedViT,模型参数为 532M,用于对图像和视频进行编码,能够处理任意长宽比的图像输入; (2)一个多层感知机(MLP)适配器,用于将视觉特征投影到多模态表征空间; (3)Seed1.5-LLM,采用 MoE 架构,激活参数为 20B,对多模态输入进行处理。
尽管模型只有 20B 激活参数,但 Seed1.5-VL 在视觉推理、图像问答、图表理解与问答、视觉定位/计数、视频理解、GUI 智能体等任务中均表现突出。同时,精简的架构设计显著降低了推理成本和计算需求,使模型更适合交互式应用。
本篇文章,我们将介绍 Seed1.5-VL 在数据构建、训练方法及基础设施方面的核心工作。更多细节可在完整版技术报告中查看。
性能评估
为保证评估的全面性,我们采用了广泛的公开评测基准并精心构建了内部评测系统,涵盖视觉推理、定位、计数、视频理解和计算机使用等多类任务。
具体来看,尽管 Seed1.5-VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中的38个上取得了 SOTA 表现。
图像理解方面,我们在涵盖多模态推理、通用视觉问答、文档理解、语义锚定和空间推理等多类能力的一系列评测中,分别对 Seed1.5-VL 的标准“非思考”模式和增强型“思考”模式进行了评估。如图所示,每个评测结果中的最高分以加粗显示,次高分以下划线标注。
Seed1.5-VL 在图像理解方面的性能评估
视频理解方面,从短视频、长视频、流媒体视频、视频推理和视频时序定位五个维度进行评估,Seed1.5-VL 在 19 个相关评测中,取得了 14 个 SOTA。
Seed1.5-VL 在视频理解方面的性能评估
在以 Agent 为中心的任务(如 GUI 控制和游戏)中,Seed1.5-VL 在 7 个 GUI 智能体任务中的 3 个取得了 SOTA 成绩。
Seed1.5-VL 在 GUI 任务中的性能评估
同时,我们也对模型的视觉编码器Seed-ViT 进行了多项评估,其零样本视觉识别任务的平均得分为 82.5,与 InternVL-C-6B 相当,但仅使用了其 1/10 的总参数量。
Seed-ViT 性能评估
值得注意的是,除了以上基准评测外,Seed1.5-VL 还展现出较强的综合能力和对训练数据之外任务的泛化能力。例如,解决复杂的视觉推理谜题、解释并纠正图片中的手写代码、作为 Agent 进行计算机交互和游戏等,这些新兴能力值得进一步探索。接下来,我们将通过一些具体案例进行展示。
核心亮点&案例展示
1、视觉定位能力
支持多目标、小目标、通用目标的框定位和点定位,以及定位计数、描述定位内容、3D 定位等复杂场景。
数出图中大雁的数量
2、视频理解能力
支持动态帧率采样,视频时序定位能力显著增强,此外,结合向量搜索,可精准定位视频中与文本描述相对应的片段。
定位视频中找到钥匙的时间
3、视觉推理能力
结合强化学习,模型推理能力大幅提升,可推理复杂视觉谜题。
找出两张图片的不同之处
解决视觉推理问题
4、多模态智能体能力
增强 GUI 定位性能,可在 PC 端、手机端等不同环境中完成复杂交互任务,包括收集处理信息、在开放游戏中推理和行动等。目前,抖音测试团队已经在回归测试环节开始应用 VLM 实现自动化。
底层模型为 Seed1.5-VL
GUI自动化测试场景,给朋友视频点赞
数据构建
Seed1.5-VL 预训练语料库包含 3T tokens 的多样化、高质量多模态数据,同时根据目标能力,我们对这些数据进行了分类:
OCR |
应用了模糊、莫尔条纹、失真等数据增强技术去复现真实应用场景。 |
图表 |
利用 LLM 生成图表文本内容并转换为代码进行渲染。 |
视觉定位/计数 |
利用专家模型大规模生成基于边界框和中心点的标注数据。 |
三维空间理解 |
利用专家模型和互联网图像生成三种具体数据类型:相对深度排序、绝对深度估计和三维定位。 |
视频 |
构建了三种类型的视频数据:(1)视频通用理解数据,其中包含了大量的视频-文本对与视频问答数据,(2)视频时序定位数据,用于增强模型的时间感知能力,以及(3)流式视频数据,其中包含了交织说明/问答数据、主动响应数据以及实时评论数据。 |
STEM |
数据来源多样化包括:化学结构图、坐标系图、K12 习题、精选的中国成人教育题目。这些数据的构建采用了人工标注、自动化合成和严格质量控制相结合的混合策略,以确保数据集的多模态多样性。 |
视觉问答(VQA) |
利用 VLM 基于 图像内容生成了问答对,并使用 LLM 进行了过滤。 |
图文对数据 |
针对海量但长尾的图文对数据,我们利用 VLM 自动标注数据的语义域和命名实体,识别出低频(稀有)实体和展现不足的域,并通过采样权重调整以创建更均衡的视觉概念分布,有效提升训练数据中的知识浓度。 |
后训练阶段,我们采用了深度思考和非深度思考数据混合训练的方案,并通过 system prompt 进行隔离,从而保证在推理时可以根据需求灵活开启或关闭模型的深度思考模式。此外,我们还设计了多种视觉任务来提高模型的视觉推理能力,例如,带图像的 STEM 领域问题,视觉指令遵循,视觉谜题等。以上任务只需使用答案匹配或约束验证的方式即可用于模型训练。
训练方法
多模态模型通常有两种预训练训练方式:1. 从一开始就进行联合多模态学习;2. 在语言模型基座上继续进行多模态预训练。Seed1.5-VL 当前采用了后者,以实现灵活的消融实验和快速迭代开发。
Seed1.5-VL 的预训练分为 3 个阶段:
- 阶段 0 :仅训练 MLP 适配器以初步对齐视觉和语言表征;
- 阶段 1 :解冻所有参数,在 3T tokens 的多模态数据上进行训练,侧重于知识积累、视觉 grounding 和 OCR 能力;
- 阶段 2 :在更均衡的数据混合中加入视频、编程、三维理解等新领域数据,并将序列长度显著增加,以处理复杂场景和长序列依赖。
后训练阶段,我们采用了一种拒绝采样和强化学习结合的方法:
- 监督微调(SFT) :为了同时兼顾指令遵循和推理能力,SFT 数据集包含两部分——通用指令数据(用于简洁准确响应)和长链式思考(LongCoT)数据(用于详细分步推理)。其中长链式思考数据是基于强化学习后的模型,通过拒绝采样的方式得到;
- 强化学习(RL) :整合了基于人类和验证器反馈的强化学习(RLHF/RLVR)及多项先进技术。采用混合奖励,区分通用与可验证提示,通用提示仅奖励最终解以激励思考探索;针对不同类型的任务采用差异化 KL 散度系数,平衡奖励利用与探索。
基础设施
训练 VLM 模型面临独特的挑战:因为数据具有异构性,包含视觉数据和自然语言数据,且模型本身也具有异构性,由小型视觉编码器(532M)和大型得多的语言模型(20B active parameters)组成。
为解决视觉编码器和语言模型之间的不平衡问题,我们采用了以下关键技术:
- 多模态并行框架 :视觉编码/MLP 适配器和语言模型分别采用了不同的并行策略,前者使用 ZeRO 数据并行,后者使用标准 4D 并行;
- 视觉 token 重分配策略 :将 GPU 分成若干组(例如每组 192 个),仅在组内进行负载均衡,采用贪心负载均衡算法(将图像分配给当前负载最低的 GPU);
- 定制的数据加载器 :优化了数据读取和分发过程。对于非数据并行组(如流水线并行组),仅由组内的一个 GPU 负责数据加载,然后将元数据广播给其他 GPU,避免了冗余读取;对于视觉编码器的纯数据并行,在将数据传输到 GPU 前会过滤掉不需要的图像部分,以减少 PCIe 流量。
局限性
Seed1.5-VL 进一步提升了视觉理解和推理能力,并向 VLM 的通用性能力更近一步。
但在当前研究中,模型仍存在一定的局限性。首先,在细粒度视觉感知方面,模型在处理目标计数、图像差异识别以及复杂空间关系解释时仍面临挑战,主要在目标排列不规则、颜色相似或部分遮挡等极端情况下;其次,在高层次推理任务中,如解决华容道谜题、导航迷宫或遵循复杂指令时,有时模型会引入无根据的假设或产生不完整的响应,表现仍有提升空间。此外,在视频推理方面,模型尚难以准确识别动作的先后顺序或从物体的前后状态推断顺序。
针对以上局限性,未来我们将做进一步提升。
写在最后
字节跳动 Seed 团队致力于不断追求智能上限。未来,我们将持续分享更多有关模型架构、数据构建、训练方法及评估设计等方面的实践经验,希望更好地支持 AI 社区未来的研究和创新。
点击“阅读原文”,直达 Seed1.5-VL 官网页面
字节跳动Seed