一部普通智能手机大小的模型,正在完成原本需要数十张顶级显卡才能驾驭的复杂逻辑推理,人工智能领域一场静悄悄的效率革命已经拉开序幕。
2026年1月20日,阶跃星辰宣布开源多模态视觉语言模型Step3-VL-10B。这个仅含100亿参数的“小个子”模型在多项基准测试中展现出令人瞩目的性能,挑战参数量大10至20倍的千亿级模型。
这标志着多模态AI领域的一次范式转变——智能水平不再单纯由参数规模决定,高质量数据与创新训练策略正创造出前所未有的“智能密度”。
01 性能突围
Step3-VL-10B的核心突破在于用极小参数实现了卓越性能。这个仅有100亿参数的模型在视觉感知、逻辑推理、数学竞赛和通用对话等一系列基准测试中,达到了同规模模型的最高水平。
与行业巨头相比,Step3-VL-10B的表现令人惊讶。在多项关键评测中,它媲美甚至超越了参数量大10-20倍的开源模型,包括GLM-4.6V 106B-A12B、Qwen3-VL-Thinking 235B-A22B等。
该模型在顶级闭源旗舰模型面前同样不落下风,与Gemini 2.5 Pro、Seed-1.5-VL等重量级选手展开竞争。这种以小博大的能力,正在改变行业对模型规模的固有认知。
02 技术破壁
Step3-VL-10B的性能突破源于三项关键技术设计的协同作用。首先是全参数端到端多模态联合预训练,直接在1.2T高质量多模态数据集上进行训练。
这种训练方式摒弃了传统分阶段冻结模块的方法,实现了视觉特征与语言逻辑在底层语义空间的深度对齐。
其次是规模化强化学习的应用。Step3-VL-10B经历了超过1400次迭代优化,在视觉识别、数理逻辑推理和通用对话等方面的能力实现了质的飞跃。

技术创新的第三支柱是并行协调推理机制。这一创新机制支持推理阶段的动态算力扩展,通过并行探索多个感知假设并进行多维证据聚合。
03 多元能力
Step3-VL-10B在多个专业领域展示了惊人的能力。在STEM(科学、技术、工程、数学)与多模态推理方面,该模型在MMMU、MathVision等测试中超越了GLM-4.6V、Qwen3-VL等模型。
在竞赛数学领域,Step3-VL-10B表现尤其突出。在AIME 25/24等数学竞赛测试题上,它以几乎满分的成绩达到世界第一梯队水平。
这标志着该模型已经具备了顶尖人类数学竞赛选手的思维能力,在逻辑严密性上甚至优于许多千亿级模型。
空间推理方面,Step3-VL-10B在多个空间推理基准中都表现出优异水平,尤其是在需要精细感知与复杂逻辑结合的BLINK、CVBench等测试中。
04 应用前景
Step3-VL-10B的开源可能改变多模态模型的应用格局。基于这样一个小而强的底座,原本只能在云端运行的复杂多模态推理能够下沉到手机、电脑甚至工业嵌入式设备中。
这为终端设备的智能化提供了新的可能性。复杂文档解析、高精度计数、GUI操作等高级多模态任务,现在可以在端侧设备上运行。
应用场景的扩展将重塑人机交互体验。阶跃星辰的这项突破意味着,世界一流的多模态能力有望以更低成本、更少算力获得。
随着智能向端侧下沉,终端设备正走向“主动理解与可执行交互”的新阶段。
05 行业影响
Step3-VL-10B的开源及其卓越表现,对整个AI行业提出了新的思考。模型智能水平不完全取决于参数规模的观点得到了有力印证。
这一突破可能加速AI向效率导向的发展模式转变。通过高质量、有针对性的数据构建,以及系统化的后训练与强化学习策略,较小规模的模型同样有能力在多项基准测试中与庞大模型竞争。
行业资源分配可能因此发生变化。过去追逐参数规模增长的竞争,可能逐渐转向对训练效率、数据质量和算法创新的追求。
对于开发者和企业而言,Step3-VL-10B提供了新的选择。他们现在可以在成本、速度和性能之间找到更优平衡点,而不必盲目追求最大参数模型。
这个仅有100亿参数的模型包含Base和Thinking两个版本,均已面向社区开源。太平洋电脑网的分析指出,依托创新技术,复杂多模态推理能力将能低成本部署在端侧设备。
Step3-VL-10B在AIME数学竞赛测试中接近满分的表现,让科技媒体IT之家直接将其称为“小核弹”。当终端设备能够自主完成复杂推理时,人工智能与日常生活的融合将进入一个全新阶段。

关注 “悠AI” 更多干货技巧行业动态