趣看热点

SAIL-VL2团队投稿
量子位 | 公众号 QbitAI

2B模型在多个基准位列4B参数以下开源第一。

抖音SAIL团队与LV-NUS Lab联合推出的多模态大模型SAIL-VL2

SAIL-VL2以2B、8B等中小参数规模，在106个数据集实现性能突破，尤其在MMMU、MathVista等复杂推理基准超越同规模模型，甚至比肩更大参数的闭源模型。

方法上，SAIL-VL2通过数据、训练、架构三大维度的创新，为社区提供“小模型也能有强能力”新范式。

SAIL-VL2既具备细粒度视觉感知能力，又能在复杂推理任务中媲美更大规模模型。同时，团队通过开源模型与推理代码，提供可扩展的多模态基础模型。

Pretrain：三大核心创新

架构层面：稀疏MoE+灵活编码器，平衡性能与效率

SAIL-VL2突破传统稠密LLM的架构，引入稀疏混合专家（MoE），并提供多规格模型配置，满足不同场景需求：

SAIL-ViT：渐进式优化的视觉编码器

为攻克视觉-语言对齐这一核心挑战，SAIL-VL2设计了「热身适应→细粒度对齐→世界知识注入」三阶段训练：

阶段I（热身适应）：冻结SAIL-ViT与LLM，仅训练Adapter，使用8M数据激活跨模态映射能力；
阶段II（细粒度对齐）：固定LLM，解锁SAIL-ViT与Adapter，使用6.7M Caption和COR数据，强化跨模态对齐深度；
阶段III（世界知识注入）：解锁所有参数，使用36.5M多任务数据，提升模型泛化能力。

经此流程，SAIL-ViT与LLM特征空间的平均最近邻距离从1.42降至1.15，Wasserstein距离从4.86降至3.88，证明视觉-语言对齐效果显著提升。

MoE架构：参数与计算的平衡

SAIL-VL2的31.1B大模型采用Qwen3-MoE架构，每次推理仅激活3B参数。为优化专家激活不平衡问题，模型引入负载均衡损失与数据校准策略，最终将专家激活熵提升20%，保障了各专家功能特化。

SAIL-ViT-AnyRes：任意分辨率的突破

为打破传统ViT的固定分辨率瓶颈，SAIL-ViT-AnyRes借助“2D RoPE插值”技术，实现了对任意分辨率输入的动态支持（最高1792×1792）。这一突破的价值在RefCOCO视觉定位任务中得到验证：其平均精度高达57.82，远超固定分辨率版本的53.28。

数据层面：评分过滤+合成增强，构建高质量多模态语料库

SAIL-VL2设计了一套全自动数据pipeline，从“质量筛选”与“类型扩展”两大方向提升数据价值：

SAIL-Caption2：通过“视觉信息丰富度（VIR）”与“图文对齐度（ITA）”双维度评分（1-5分），过滤低质量样本（得分＜3），得到250M通用caption+1.69M图表caption；
合成VQA数据：将80MSAIL-Caption2通过LLM生成QA形式，补充QA数据多样性；
纯文本与多模态指令数据：文本语料保留LLM语言能力，VQA数据强化指令跟随能力。

训练层面：渐进式框架+动态学习率，激活模型多维度能力

SAIL-VL2设计三阶段视觉预训练与两阶段多模态预训练的渐进式流程，从基础感知逐步过渡到复杂推理：

两阶段多模态预训练：先通过“基础预训练”（64M数据）培养跨模态对齐能力，再通过“多任务预训练”（180M数据）强化视觉理解与指令跟随能力；
数据重采样：数据集平衡采样比例，在语言层面优化n-gram分布，缓解数据偏置，提升训练效率；
动态学习率：使用AdaLRS算法——基于损失下降斜率动态调整学习率，训练效率大幅提升。

Posttrain：全链路优化

后训练数据：三大高质量数据集

SAIL-Video

针对视频理解中“帧-指令错位”痛点，从6个权威数据集初筛623万条样本，通过“视频-问答对齐度（-1~10分）、内容丰富度（-1~7分）、问答难度（-1~3分）”双维度评估，仅保留均达标的样本，最终得到510万条高质量视频-问答数据，保障视频理解训练可靠性。

SAIL-Instruction2（指令微调数据）

使用Mammoth、R等数据集补充长回答与推理样本，通过“质量评估+增量评估”双验证与“潜在类别过滤”，生成2000万条指令样本。

MMP

Multimodal CoT Data（多模态思维链数据）

基于VisualWebInstruct、MathV360K等数据集，通过“质量过滤、格式统一、样本去重”清洗，筛选出“有挑战性但可解决”的样本，最终形成40万LongCoT SFT样本、100万条Think-Fusion SFT样本及15万条RL样本，为推理训练提供结构化数据支撑。

后训练策略：五阶段递进强化能力

SAIL-VL2设计了一套递进式的五阶段后训练策略，以系统性地提升模型综合能力：

1、基础SFT：首先，通过四阶段数据注入与模型融合技术，为模型构建坚实的基础指令遵循能力。

2、LongCoT SFT：接着，使用40万条CoT样本，训练模型掌握逐步推理（step-by-step）的能力。

3、可验证奖励RL：然后，引入RL，基于“答案正确性+格式规范性”双重奖励优化STEM样本，确保推理结果准确、规范。

4、Think-Fusion SFT：随后，采用混合数据与条件损失进行训练，让模型学会按需推理，实现能力的收放自如。

5、混合奖励RL：最后，利用更复杂的三维奖励信号进行最终优化，实现强大推理能力与简洁输出的平衡。

训练基础设施：高效支撑大规模训练

Stream Packing：双策略提升训练效率

批处理与在线打包：通过动态拼接样本减少填充令牌，将SM利用率提升近1倍，训练速度加快50%，并提升了0.7%的QA性能。
视觉打包：通过加入视觉令牌平衡约束，缓解了视觉编码器的内存压力，使训练效率再提升48%。

MoE基础设施：突破稀疏架构训练瓶颈

计算优化：采用核融合技术将多个操作合并执行，减少数据搬运开销，使MoE训练速度提升达3倍。
通信优化：设计流式数据读取和混合并行机制，有效降低通信和训练开销。

性能验证：106个数据集上的全面领先

SAIL-VL2在106个多模态数据集上得到验证，从基础感知到复杂推理，从图像理解到视频分析，均展现出同规模模型中的顶尖水平。

基础模型性能：小参数规模实现大突破

在通用多模态理解基准中，SAIL-VL2基础模型（无思维增强）表现突出（如下表所示）：

SAIL-VL2-2B OpenCompass为70.31，超越Qwen2.5-VL-3B（65.36）、InternVL3.5-2B（66.64）等模型，位列4B参数以下开源第一；SAIL-VL2-8B在OpenCompass取得开源同量级模型的最高分数

细粒度任务，SAIL-VL2-2BMMStar达64.07分，OCRBench达89.50分，均为同参数规模最优；SAIL-VL2-8B进一步将MMStar分数提升至70.73，OCRBench提升至91.30，8B规模领先。

思维增强模型性能：复杂推理能力媲美大模型

SAIL-VL2-Thinking在OpenCompass多模态推理榜单表现卓越：

SAIL-VL2-8B-Thinking平均得分54.4，超越所有开源模型，仅次于GPT-4o-latest（54.8）；SAIL-VL2-A3B-Thinking（MoE架构）以3B激活参数实现53.6分，超越闭源模型Gemini-2.0-Flash（50.6），展现出极高的效率性能比。

论文地址：https://arxiv.org/pdf/2509.14033
代码与模型：https://github.com/BytedanceDouyinContent/SAIL-VL2
Hugging Face模型库：https://huggingface.co/BytedanceDouyinContent

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT4o

Pretrain：三大核心创新

Posttrain：全链路优化

后训练策略：五阶段递进强化能力

训练基础设施：高效支撑大规模训练

MoE基础设施：突破稀疏架构训练瓶颈

性能验证：106个数据集上的全面领先

记者：福登疑...

出生人口跌破...

或将命名为镁...

何超莲窦骁合...

以军称开始重...

小伙贷款30...

时隔十年上证指数重返3900点四季度A股“开门红”

《逍遥》大结局：纪严下线订单终于到达，最终还是领导了结了他！

市场定位模糊！贝莱德基金本土化试水困局，主动权益产品边缘化

邓莎没想到，丈夫不管的儿子成了她的“救赎”

复古拉力风 firefly萤火虫project glow改装车亮相

怒批9人摆烂！穆帅不惧球员造反:你爸一直对你好？ 4轮0分非末日

国产自主研发喷气式飞行背包进入小批量生产阶段

《新闻女王2》：权力是女人最好的补品

理想MEGA车主声明: 车辆系突发自燃并非电池包破损

跟队：拜仁内部不会轻易谈论让伦纳特-卡尔踢世界杯的话题

燕翔：A股上市公司增减持特征与近况

男子在悬崖边请人拍照滑倒坠下遗体在水潭底部被找到

百日破十万！比亚迪海狮06改写爆款规则，海洋网的成长密码

北京79-73力克浙江，陈盈骏18分，杰曼23+5，吴前7中1

李在明送特朗普的金冠是镀金的纯金太贵得花150万元

消失在官方记录中的定制传奇：法拉利FX

或45万元起售岚图泰山将11月18日上市

杭州女子洗完澡一抬头发现窗外停着一架无人机

U23亚洲杯狂欢夜：日本5-0造惨案韩国平伊朗中国队首轮战伊拉克

消息称华为Mate 80单品激活150万，逆袭成年底国产旗舰第一

“下沉剧宣”越来越不好用了？

斯坦福突破：机器人实现视频动作到真实操作迁移

伊姐周六热推：电视剧《逐玉》；电视剧《江湖夜雨十年灯》......

54岁闫妮和27岁女儿同框，母女性格相似如姐妹

抖音&LV-NUS开源多模态新模，以小博大刷新SOTA，8B推理比肩GPT4o

Pretrain：三大核心创新

Posttrain：全链路优化

后训练策略：五阶段递进强化能力

训练基础设施：高效支撑大规模训练

MoE基础设施：突破稀疏架构训练瓶颈

性能验证：106个数据集上的全面领先

记者：福登疑...

出生人口跌破...

或将命名为镁...

何超莲窦骁合...

以军称开始重...

小伙贷款30...

时隔十年上证指数重返3900点 四季度A股“开门红”

《逍遥》大结局：纪严下线订单终于到达，最终还是领导了结了他！

市场定位模糊！贝莱德基金本土化试水困局，主动权益产品边缘化

邓莎没想到，丈夫不管的儿子成了她的“救赎”

复古拉力风 firefly萤火虫project glow改装车亮相

怒批9人摆烂！穆帅不惧球员造反:你爸一直对你好？ 4轮0分非末日

国产自主研发喷气式飞行背包进入小批量生产阶段

《新闻女王2》：权力是女人最好的补品

理想MEGA车主声明: 车辆系突发自燃并非电池包破损

跟队：拜仁内部不会轻易谈论让伦纳特-卡尔踢世界杯的话题

燕翔：A股上市公司增减持特征与近况

男子在悬崖边请人拍照滑倒坠下 遗体在水潭底部被找到

百日破十万！比亚迪海狮06改写爆款规则，海洋网的成长密码

北京79-73力克浙江，陈盈骏18分，杰曼23+5，吴前7中1

李在明送特朗普的金冠是镀金的 纯金太贵得花150万元

消失在官方记录中的定制传奇：法拉利FX

或45万元起售 岚图泰山将11月18日上市

杭州女子洗完澡一抬头 发现窗外停着一架无人机

U23亚洲杯狂欢夜：日本5-0造惨案 韩国平伊朗 中国队首轮战伊拉克

消息称华为Mate 80单品激活150万，逆袭成年底国产旗舰第一

“下沉剧宣”越来越不好用了？

斯坦福突破：机器人实现视频动作到真实操作迁移

伊姐周六热推：电视剧《逐玉》；电视剧《江湖夜雨十年灯》......

54岁闫妮和27岁女儿同框，母女性格相似如姐妹

时隔十年上证指数重返3900点四季度A股“开门红”

男子在悬崖边请人拍照滑倒坠下遗体在水潭底部被找到

李在明送特朗普的金冠是镀金的纯金太贵得花150万元

或45万元起售岚图泰山将11月18日上市

杭州女子洗完澡一抬头发现窗外停着一架无人机

U23亚洲杯狂欢夜：日本5-0造惨案韩国平伊朗中国队首轮战伊拉克