近期,GPT Image2凭借极其惊艳的生成效果在社交媒体上引发轰动。随着项目的走红,这支低调的幕后团队也逐渐浮出水面。据了解,该核心团队仅由13人组成,在短短4个月内便完成了底层架构的彻底重写。尽管研究负责人陈博远并未透露具体的技术路线,但他将这一新模型描述为“图像领域的GPT”,预示着其在通用性上的巨大飞跃。
作为团队的灵魂人物,陈博远的成长历程颇具传奇色彩。他在读博期间便提出过“Diffusion Forcing”等创新范式,并曾在Google参与开发后续被Gemini2.0采用的指令微调技术。有趣的是,他在高中参加科研营时甚至还不懂Python。在加入OpenAI后,他不仅负责了GPT图像模型的所有训练工作,还是Sora视频生成团队的核心成员。在演示中,他通过生成精准渲染中、韩、孟加拉语等多种文字的海报,展示了模型卓越的语言处理能力。

除了文字渲染,GPT Image2在理解世界知识和指令遵循方面也达到了新高度。由中科大博士Jianfeng Wang负责的这一模块,解决了生图AI长期以来的痛点——例如,过去模型画的时钟几乎永远停在10:10,而新模型已能精准理解任意时间点及复杂的空间布局指令。他表示,该模型正在消除用户的创作意图与最终产出之间的鸿沟。
在生产力工具化方面,来自浙大竺可桢学院的Yuguang Yang演示了将长篇论文一键转化为高精度PPT和信息图表的能力。这得益于团队在多模态理解、MoE(混合专家模型)架构以及长程引导技术上的深度融合。
从最初的DALL-E到如今的GPT Image2,这支平均年龄极轻、背景多元的团队(包含多位2025年刚毕业的博士)完成了从“画得出”到“画得准”的进化。目前,团队成员纷纷将社交头像换成了极简的日系贴纸风格。这种带有几分戏谑色彩的自嘲,或许正是这群信奉“涌现式研究”的天才们改变世界的一种独特方式。
腾讯混元于4月23日发布并开源Hy3preview语言模型,这是一个融合快慢思考的混合专家模型,总参数295B,激活参数21B,支持256K上下文。作为重建后训练的首个模型,它在复杂推理、指令遵循、上下文学习、代码和智能体等能力上显著提升,是混元迄今最智能的模型。2026年2月,腾讯混元重建了预训练和强化学习基础设施,注重模型实用性。
腾讯发布开源AI模型Hy3Preview,参数达295亿,支持长上下文,在推理、指令遵循和代码处理等方面表现提升,强调实用性、真实评测和高性价比。
近日,网络接连出现伪造信息:先是小米汽车“官宣”苹果CEO库克出任CEO的假图引发热议并登上热搜,小米高管紧急辟谣;随后又传出全球首富马斯克加入“拼多多”的虚假消息。这些谣言因制作逼真误导网友,相关方已提醒公众勿信谣传谣。
OpenAI推出“工作区代理”功能,将ChatGPT升级为能自主执行任务的“数字员工”。该功能面向企业、教育等版本用户开放,基于自定义GPT深度开发,具备强大自主性与连通性,依托Codex算力实现自动化操作。
微软将重构Edge浏览器界面,采用圆角设计、统一配色与字体,并全面融入Copilot与Bing元素,以提供更一致、现代化的跨平台用户体验。

关注 “悠AI” 更多干货技巧行业动态