爆火！学术团队仅凭SFT打破大厂垄断，OpenSeeker…

在当前的大模型（LLM）领域，深度搜索能力已成为顶尖智能体的“必杀技”。然而，这一赛道的游戏规则长期以来被资源雄厚的工业巨头所主导。传统的开发模式通常依赖于极其消耗资源的流水线，包括预训练、持续预训练(CPT)、监督微调(SFT)以及强化学习(RL)。

近日，来自学术界的研发团队发布了最新成果 OpenSeeker-v2，彻底打破了这一常规认知。研究报告指出，通过使用高质量、高难度的任务轨迹进行训练，即便仅采用简单的监督微调（SFT）方法，也能打造出性能顶尖的搜索智能体。

爆火！学术团队仅凭SFT打破大厂垄断，OpenSeeker-v2 登顶搜索智能体榜单

该团队在数据合成方面提出了三项核心优化策略:首先是扩大知识图谱规模，以提供更丰富的探索空间;其次是显著增加工具集数量，扩展功能边界;最后是实施严格的低步数过滤，确保训练数据的精炼与高效。

实验数据显示，仅基于1.06万条数据点训练的 OpenSeeker-v2（30B规模，ReAct架构），在四项核心基准测试中展现了极强的统治力:其在BrowseComp上的准确率达到46.0%，在BrowseComp-ZH上为58.1%，在“人类最后考试”(Humanity's Last Exam)中表现为34.6%，而在xbench上更是高达78.0%。这一系列成绩不仅刷新了纪录，更全面超越了采用重度CPT+SFT+RL复杂管线训练的工业界模型——通义DeepResearch。

值得关注的是，这是首个在同等模型规模与架构下，由纯学术团队仅通过SFT技术实现的 state-of-the-art（SOTA）搜索智能体。目前，该团队已正式开源 OpenSeeker-v2 的模型权重。这一发现极大地降低了前沿搜索智能体的研发门槛，为学术界和开源社区提供了更具参考价值的轻量化开发路径。

论文地址：https://arxiv.org/pdf/2605.04036

百度文心一言5.1预览版低调上线国际盲测平台LMSYS Chatbot Arena，最新数据显示其在总榜排名第13位。这标志着百度核心模型进入新一轮快速迭代周期，开始接受全球用户检验。虽然官方未公布具体参数和架构细节，但基于以往迭代逻辑和竞技表现，该版本在语义理解方面预计有所提升。

蚂蚁集团百灵大模型团队今日开源万亿级旗舰模型Ling-2.6-1T，该模型不追求参数堆叠，而是优化指令执行、工具适配及长上下文能力。其创新混合架构通过强化奖励策略降低Token开销，实现高效“快思考”机制。

Anthropic近期受资本追捧，多家机构计划以约9000亿美元估值注资500亿美元。其年度经常性收入已突破300亿美元，较2025年底的90亿美元大幅增长，营收指数级上升引发投资者狂热。

郝建邺认为，AI若不能从“存储”跨越到“记忆”，就无法成为真正的智能伙伴。其创立的忆纪元科技（MemoraX AI）成立仅一个月，便完成千万美元种子轮融资，由L2F光源创业者基金、钟鼎资本联合领投。资金将主要用于Agentic RL（智能体强化学习）技术的研发，旨在突破大模型仅作为“高效搜索引擎”的局限。

大模型竞争焦点正从性能比拼转向企业场景的规模化应用，追求低成本、高效率。蚂蚁数科推出Ling-2.6-flash商业版LingDT-2.6-flash，主打“Token效率”，相比同参数级别模型可节省90%Token消耗，更快更省，适配企业真实场景大规模部署。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

爆火！学术团队仅凭SFT打破大厂垄断，OpenSeeker…

DeepSeek 或获国家大基金领投，估值逼近450亿美元

豪掷 11 亿美元！软件巨头SAP收购AI新贵，剑指企业级…

相关文章

暂无评论