一组基准测试数据显示,这个模型在长序列任务中连续执行49步未出错,而其基础模型仅能维持5步。
AI领域的竞赛正在从“短跑”转向“马拉松”。近日,Jan团队正式发布了新一代多模态大模型Jan-v2-VL-Max,这款拥有300亿参数的模型专门针对长周期多步骤任务进行了深度优化。
根据Reddit社区的测试数据显示,Jan-v2-VL在长效能测试中展现了“连续49步完全不失败”的惊人能力,比基础模型的五步表现足足强上十倍。
该模型已在“幻象递减回报”基准测试中超越Gemini2.5Pro和DeepSeek-R1等知名模型,意味着它在处理需要高度逻辑连贯性的任务时拥有更强的可靠性。
01 技术突破,瞄准AI执行痛点
在AI模型追求参数规模与通用能力的浪潮中,Jan团队选择了一条不同的技术路径。Jan-v2-VL-Max模型并非盲目追求通用性,而是精准锁定 “长周期执行任务” 这一核心痛点。
AI在处理复杂自动化流程时容易“断片”或产生“幻觉”的问题,一直是制约其实际应用的关键瓶颈。
Jan团队的技术方案建立在坚实的基础上。该模型的技术底座源自Qwen3-VL-30B-A3B-Thinking,在此基础上引入了LoRA-based RLVR技术。
这项技术的精妙之处在于它能有效减少多步执行过程中的误差累积,从而显著抑制AI在处理长任务时常见的“幻觉”现象。
02 性能飞跃,十倍于基础模型
Jan-v2-VL的实际性能表现令人瞩目。根据The Deep Dive节目的分析,该模型在长效能测试中能够连续执行49步任务而完全不失败。
这一成绩与仅能维持5步的基础模型形成鲜明对比,意味着十倍的性能提升。

在专门衡量执行稳定性的“幻象递减回报”基准测试中,Jan-v2-VL-Max甚至超越了Gemini2.5Pro和DeepSeek R1等知名模型。
这表明它在处理诸如Agent自动化、UI界面控制以及其他需要高度逻辑连贯性的任务时,拥有更强的可靠性。
从技术特性来看,Jan-v2-VL将语言推理与视觉感知紧密结合,能够理解屏幕内容并执行相应操作。它专为在浏览器和桌面应用程序等真实软件环境中执行长周期、多步骤任务而设计。
03 应用场景,从自动化到无障碍辅助
Jan-v2-VL的发布不仅仅是技术指标的提升,更是AI实用化的重要里程碑。这个模型为中小型企业提供了可负担的强大AI解决方案。
业内观察者认为,7B–9B参数规模的模型正成为AI应用的“甜蜜点”,因其足够小、成本低、可批次运算、架构单纯,更适合客制化与中小企业导入。
在实际应用层面,Jan-v2-VL展现出广泛的可能性。社区用户已经设想出从长时间浏览器自动化到整台PC作业流程协调的应用场景,甚至包括跨装置同步与信息整理。
这些应用让AI代理朝着真正能“长时间执行具经济价值任务”的目标迈进。
具体而言,该模型支持多种使用案例,包括软件自动化、网页操作自动化以及辅助工具开发。在无障碍辅助领域,它能为视觉障碍用户提供界面理解和操作辅助,提升数字可访问性。
04 生态发展,开源与本地化部署并行
作为一款主打离线运行、尊重隐私的Jan生态成员,Jan-v2-VL-Max的加入为用户追求本地化AI自动化提供了更强大的工具选项。
目前,开发者和AI爱好者已经可以通过网页端直接体验,或者利用vLLM在本地进行私有化部署。
Jan-v2-VL提供低、中、高三种变体,分别针对效率、平衡性和深度推理进行优化。针对vLLM和llama.cpp等流行框架进行优化,适合本地部署。
虽然部署过程中仍存在一些挑战,包括手動模式安装扩展、使用时工具无法启动等问题,但Jan团队正在积极回应这些反馈。
据悉,该团队正开发服务器版与全新扩展功能,期望让AI“真正变简单”。
05 行业影响,重新定义AI代理能力边界
Jan-v2-VL的发布不仅仅是单个模型的升级,它重新定义了AI代理的能力边界。节目中用“短跑选手”与“马拉松选手”的生动比喻,解释了指令变体与思考变体的区别。
思考变体依靠“carrying state”记住任务进度,成就长链稳定表现。
这一突破对AI行业产生了深远影响。当AI能够可靠地执行多步骤复杂任务时,人机协作的模式将发生根本性改变。未来,AI代理可能像熟练管家般能连续执行数小时、协助多系统协作的工作新模式。
从技术趋势来看,Jan-v2-VL代表了AI发展的一个新方向:不再盲目追求参数规模的扩大,而是专注于特定场景下的深度优化。
这种专业化、场景化的AI模型可能成为下一个发展阶段的重要特征,特别是对资源有限的中小企业和开发者而言,这种“小而精”的模型更具实用价值。
目前,Jan-v2-VL模型已经通过Hugging Face平台对外开放。随着更多开发者开始测试和应用这一模型,社区中已经涌现出从浏览器自动化到整台PC作业流程协调的丰富设想。
一位AI研究者在社交平台上写道:“当AI不再只是回答单个问题,而是能够可靠地完成包含数十个步骤的复杂流程,我们与机器协作的方式将发生根本性改变。”

关注 “悠AI” 更多干货技巧行业动态
