训练效率飙升百倍!OpenAI前CTO旗下公司突破性技术重塑小模型竞争格局

AI广播站1周前发布 小悠
19 0 0

一款名为“在线策略蒸馏”的新方法,正让资源有限的研究机构与企业也能培养出媲美大模型的“高智商”小模型。

一种突破性的模型训练方法正在改变人工智能研发的竞争格局。由Mira Murati创立的Thinking Machines Lab近日开源了名为“在线策略蒸馏”的新型大语言模型后训练方法,该方法通过融合强化学习与监督微调的优势,将后训练效率提升了惊人的50-100倍

这项技术的重要意义在于,它使小型模型在特定领域的能力训练成本大幅降低。在数学推理任务中,该方法仅需150个训练步骤就能将模型性能从60%提升至70%,而传统强化学习方法需要耗费高达30倍的计算资源。


01 破局后训练困境:两全其美的创新方案

长期以来,AI研究人员在后训练阶段面临两难选择:是使用反馈稀疏但能从自身错误中学习的强化学习,还是选择数据效率高却可能导致复合误差的监督微调?

这两种主流方法各有明显短板。

强化学习像是一个自学成才的棋手,只能从最终的胜负中吸取有限经验,却不知道究竟是哪几步棋导致了结局。

监督微调则像是观看特级大师的棋局录像,虽然能学习高水平棋步,但这些棋步常发生在普通玩家不会遇到的复杂局面下。

在线策略蒸馏的创新之处在于成功结合了两种方法的优势

它让学生模型在自己生成的轨迹上学习,同时每一步都得到强大教师模型的细致指导。

Thinking Machines Lab的研究团队通过逆向KL散度作为损失函数,使小模型能精准学习教师模型的高质量行为模式,避免在次优选择间摇摆不定。

02 工作机制:精准纠错的四步流程

在线策略蒸馏的工作流程是一个精心设计的四步闭环。

系统首先部署一个高性能教师模型作为独立评分模块,该模块只计算概率而不参与梯度更新,大幅降低了计算开销。

接着,学生模型根据给定提示自主生成完整回答序列,系统记录下每一步的对数概率。

随后,教师模型对这些相同的上下文进行评估,计算自己生成每个token的对数概率,并通过学生与教师对数概率之差衡量两者分歧

最后,系统将逆向KL散度作为惩罚信号,驱使学生模型减少与教师行为的偏差。

这种方法的核心优势在于其不可被利用的特性,避免了传统奖励模型中模型通过投机取巧获得高分的问题。

低KL散度始终意味着学生的行为更接近教师的期望,不存在被利用的空间。

03 实战表现:数学推理与个性化能力的飞跃

在线策略蒸馏的实际效果在多项测试中展现惊人。

在数学推理任务中,使用该方法将32B参数教师模型的能力迁移至8B学生模型时,仅需150个训练步骤就在AIME‘24数学竞赛基准上将得分从60%提升至70%

与传统强化学习相比,在线策略蒸馏实现了50-100倍的效率提升,与纯监督微调相比降低了9-30倍成本。

在模型个性化场景中,该技术同样表现出色。

研究团队模拟企业知识库迁移实验时发现,传统监督微调在注入新知识过程中会导致模型原有指令遵循能力从85%大幅跌至45%。

而采用在线策略蒸馏后,指令遵循能力可恢复至83%,同时新知识掌握度从36%提升至41%,有效解决了灾难性遗忘问题。

04 技术影响:重塑小模型竞争格局

从信息论视角看,在线策略蒸馏的效率突破源于其逐词监督机制。

相比强化学习每个训练回合仅提供O(1)比特信息,该方法每个序列可提供O(N)比特过程信息,其中N为序列长度。

这种密集反馈使模型在长序列任务中能更精准定位错误根源,例如在数学证明中区分计算错误与逻辑漏洞。

实验表明,仅使用单个训练提示通过多轮蒸馏,学生模型性能即可接近使用海量数据训练的教师模型水平。

对于整个AI行业,这一技术突破意味着资源有限的机构也能培养出高水平的小模型

小型、专业化的模型在特定领域往往能超越通用大模型,同时具备更易部署、持续训练成本低、推理开销小等优势。

05 未来展望:AI民主化的重要推手

Thinking Machines Lab由OpenAI前CTO Mira Murati于2025年2月创立,虽然成立仅七个月,却已凭借120亿美元估值和20亿美元种子轮融资成为AI领域的新晋独角兽。

该公司的核心团队几乎全员来自OpenAI,涵盖了AI产品落地、核心技术研发等关键领域的顶尖人才。

Murati在OpenAI任职期间曾主导ChatGPT、DALL-E和GPT-4等全球级产品的开发,被业界称为“ChatGPT之母”。

在线策略蒸馏技术的开源,符合Thinking Machines Lab培养开放科学文化的承诺。

该公司表示,首款产品将在未来数月推出,同时会分享最佳科研成果,帮助研究界更好地理解前沿AI系统。

随着在线策略蒸馏等高效训练方法的成熟,AI开发正从资源密集型的“大力出奇迹”模式,转向更精巧、更可持续的发展路径。

这种转变可能降低AI研发的门槛,加速技术普惠,让更多组织和个人能够参与至智能时代的构建中。

关注 “悠AI” 更多干货技巧行业动态

© 版权声明
广告也精彩

相关文章

暂无评论

您必须登录才能参与评论!
立即登录
暂无评论...