小模型逆袭!OpenAI前CTO发布革命性训练法,效率飙升百倍

AI广播站3个月前更新 小悠
55 0 0

一项名为“在线策略蒸馏”的新技术,正让资源有限的小公司和开发者也能训练出媲美大模型的AI,将成本直降90%以上。

想象一下,一个80亿参数的“小模型”在数学推理能力上竟能媲美320亿参数的大模型,而训练成本却仅为传统方法的几十分之一。这并非科幻场景,而是OpenAI前CTO Mira Murati领导的Thinking Machines实验室最新研究成果展示的现实。

这项名为“在线策略蒸馏”的技术,巧妙结合了两种主流训练方法的优势,创造了训练效率提升50-100倍的惊人表现。


01 破局之道:两种训练范式的完美融合

在AI模型训练领域,长期以来存在着两种各具优劣的主流方法。

一种是强化学习为代表的在线策略方法,模型从自身错误中学习,反馈直接相关但信号稀疏。如同学生只知道自己考试不及格,却不清楚具体错在哪里。

另一种是监督微调为代表的离线策略方法,模型学习模仿教师模型提供的标准答案,效率高但容易死板。好比学生只会背诵名师提供的标准答案,一旦题目变化便不知所措。

Thinking Machines提出的在线策略蒸馏,巧妙地将这两种范式的优势结合在一起。

它让学生模型在自己生成的解题路径上学习,同时让强大的教师模型对每一步推理过程进行细致评分,提供即时反馈。

02 技术核心:四步循环与实时反馈

在线策略蒸馏的工作流程是一个精巧的四步循环。

首先,部署一个高性能的教师模型(如32B参数的大模型)作为监督源。接着,学生模型(如8B参数的小模型)自主生成回答序列。

然后,教师模型计算学生生成每个token的对数概率,评估每一步的质量。最后,利用逆向KL散度作为损失函数,更新学生模型的参数。

这种方法的核心突破在于,它将传统强化学习中稀疏的最终奖励,转化为每一步的密集反馈信号

教师模型能够精准识别学生思维链中导致错误的关键分叉点,并及时纠正。

03 效率革命:150步媲美数万GPU小时

在具体的数学推理实验中,在线策略蒸馏展现了惊人效率。

研究人员使用Qwen3-32B作为教师模型,训练Qwen3-8B基础模型。目标是将在AIME‘24数学基准上的表现从60分提升到70分。

传统的强化学习方法需要17920个GPU小时,才能将性能提升到67.6%。而在线策略蒸馏仅用约150个训练步骤就达到了70%的目标性能,计算成本降低了9-30倍。

从整体训练效率来看,这种方法实现了50-100倍的提升。这意味着曾经需要数周训练的任务,现在可能在几小时内完成。

04 应用突破:解决灾难性遗忘难题

除了训练效率的大幅提升,在线策略蒸馏还意外解决了AI领域的另一个棘手问题——灾难性遗忘

当AI模型学习新知识(如公司内部文档)时,通常会忘记旧技能(如对话交流)。实验显示,传统微调方法会使模型的通用能力从85%暴跌至45%。

而使用在线策略蒸馏进行修复后,模型的通用能力从79%回升至83%,同时新知识掌握度反而从36%提升至41%。

小模型逆袭!OpenAI前CTO发布革命性训练法,效率飙升百倍

这一特性使得该技术特别适合企业场景,模型可以持续学习业务规则和产品文档,同时保持核心对话和工具调用能力。

05 行业影响:AI民主化的加速器

Thinking Machines由OpenAI前CTO Mira Murati于去年创立,汇聚了来自OpenAI、Anthropic和Google等公司的顶尖人才。

该实验室致力于优化人机协作的多模态系统,而非开发完全自主的AI。

在线策略蒸馏技术的出现,可能大幅降低训练高质量AI模型的成本和门槛。中小型企业甚至个人开发者,将能够以极低成本训练出专业化的小模型

这对于推动AI技术的民主化具有重要意义,有望打破大公司在AI领域的算力垄断。

小模型逆袭!OpenAI前CTO发布革命性训练法,效率飙升百倍

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...