GPT Image2 背后团队首度曝光： 13 人核心团队…

近期，GPT Image2凭借极其惊艳的生成效果在社交媒体上引发轰动。随着项目的走红，这支低调的幕后团队也逐渐浮出水面。据了解，该核心团队仅由13人组成，在短短4个月内便完成了底层架构的彻底重写。尽管研究负责人陈博远并未透露具体的技术路线，但他将这一新模型描述为“图像领域的GPT”，预示着其在通用性上的巨大飞跃。

作为团队的灵魂人物，陈博远的成长历程颇具传奇色彩。他在读博期间便提出过“Diffusion Forcing”等创新范式，并曾在Google参与开发后续被Gemini2.0采用的指令微调技术。有趣的是，他在高中参加科研营时甚至还不懂Python。在加入OpenAI后，他不仅负责了GPT图像模型的所有训练工作，还是Sora视频生成团队的核心成员。在演示中，他通过生成精准渲染中、韩、孟加拉语等多种文字的海报，展示了模型卓越的语言处理能力。

GPT Image2 背后团队首度曝光： 13 人核心团队， 4 个月重塑AI绘图

除了文字渲染，GPT Image2在理解世界知识和指令遵循方面也达到了新高度。由中科大博士Jianfeng Wang负责的这一模块，解决了生图AI长期以来的痛点——例如，过去模型画的时钟几乎永远停在10:10，而新模型已能精准理解任意时间点及复杂的空间布局指令。他表示，该模型正在消除用户的创作意图与最终产出之间的鸿沟。

在生产力工具化方面，来自浙大竺可桢学院的Yuguang Yang演示了将长篇论文一键转化为高精度PPT和信息图表的能力。这得益于团队在多模态理解、MoE（混合专家模型）架构以及长程引导技术上的深度融合。

从最初的DALL-E到如今的GPT Image2，这支平均年龄极轻、背景多元的团队（包含多位2025年刚毕业的博士）完成了从“画得出”到“画得准”的进化。目前，团队成员纷纷将社交头像换成了极简的日系贴纸风格。这种带有几分戏谑色彩的自嘲，或许正是这群信奉“涌现式研究”的天才们改变世界的一种独特方式。

腾讯混元于4月23日发布并开源Hy3preview语言模型，这是一个融合快慢思考的混合专家模型，总参数295B，激活参数21B，支持256K上下文。作为重建后训练的首个模型，它在复杂推理、指令遵循、上下文学习、代码和智能体等能力上显著提升，是混元迄今最智能的模型。2026年2月，腾讯混元重建了预训练和强化学习基础设施，注重模型实用性。

腾讯发布开源AI模型Hy3Preview，参数达295亿，支持长上下文，在推理、指令遵循和代码处理等方面表现提升，强调实用性、真实评测和高性价比。

近日，网络接连出现伪造信息：先是小米汽车“官宣”苹果CEO库克出任CEO的假图引发热议并登上热搜，小米高管紧急辟谣；随后又传出全球首富马斯克加入“拼多多”的虚假消息。这些谣言因制作逼真误导网友，相关方已提醒公众勿信谣传谣。

OpenAI推出“工作区代理”功能，将ChatGPT升级为能自主执行任务的“数字员工”。该功能面向企业、教育等版本用户开放，基于自定义GPT深度开发，具备强大自主性与连通性，依托Codex算力实现自动化操作。

微软将重构Edge浏览器界面，采用圆角设计、统一配色与字体，并全面融入Copilot与Bing元素，以提供更一致、现代化的跨平台用户体验。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

GPT Image2 背后团队首度曝光： 13 人核心团队…

字节跳动推出全新3D 生成模型 Seed3D2.0，技术跃…

字节跳动发布新一代3D生成大模型Seed3D 2.0，技术…

相关文章

暂无评论