近日,YouTube 科技频道 Fully Buffered 完成了一项极具震撼力的硬核测试:在奔腾 4 641 处理器(发布于 2006 年)上,成功运行了 Meta 最新的 Llama 3.2 3B 大模型。
这一测试将现代人工智能技术与 20 年前的老旧硬件强行“对撞”,不仅展示了 LLM 运行的底层兼容性极限,更让不少网友感慨:摩尔定律在 AI 时代的进化速度,竟以这种方式实现了跨时空的“握手”。

为了这场测试,Fully Buffered 团队还原了 2006 年主流发烧友的硬件天花板:
核心心脏: Intel 奔腾 4 641(3.2GHz,单核,2MB L2 缓存)。
内存阵列: 华硕 P5WDH Deluxe 主板搭配 4 条 2GB DDR2-800 内存,总容量达到 8GB。
软件环境: 针对老旧架构缺乏 AVX2 指令集的特性,团队专门调配了支持 No-AVX 模式 的推理环境。
测试过程中,当系统向 Llama 3.2 3B 抛出问题“What's a Pentium 4?”时,这颗 20 年前的单核处理器立刻进入了“巅峰负荷”状态。
生成效率: 最终的生成速度仅为 0.21 Token/秒。
时间成本: 为了得到一个完整的回答,奔腾 4 连续满载运转了近 33 分钟。
在现代 AI 应用追求“毫秒级”响应的今天,33 分钟的等待无疑是“崩溃级”体验,但对于这颗诞生于 NetBurst 架构时代的处理器而言,这却是 AI 原理在古老硅片上一次跨越 20 年的“逻辑长跑”。
为什么要用这么古老的机器跑 AI?测试团队表示,这场测试并非为了探讨实用性,而是验证了两个关键边界:
No-AVX 指令集的生存空间: 现代大模型几乎都默认要求 AVX 指令集,但通过特定的推理模式,即使没有这些指令集,AI 依然能完成推理。
内存的“底座”作用: 30 亿参数的 3B 模型在 8GB DDR2 内存下的“刚好载入”,证明了只要内存足够,即便是极低算力的单核 CPU,依然能够支撑起现代 LLM 的运行,而非必须依赖顶级 GPU 算力。
2006 年,Intel 奔腾 4 还在主频竞赛的狂热中执着于追求“高主频低效能”的 NetBurst 架构,当年的工程师们或许预见到未来会是处理器的时代,但恐怕做梦也想不到,他们设计的架构能在 20 年后以如此艰难的方式,理解并阐述自己的历史。
这次测试为 AI 硬件生态提供了一个极端的参考案例:算力决定响应速度,但指令集兼容性与内存支撑,才是大模型运行的底层生命线。 当奔腾 4 最终在屏幕上缓慢敲出对自己的描述时,这不仅仅是一次推理成功,更是计算机科学史上一场浪漫的告别仪式。
3D生成AI领域迎来重大突破,Hyper3D发布Rodin Gen-2.5模型,号称全球最强。该模型实现4秒生成百万面模型,并首次达到千万面级3D生成,细节可呈现毛孔和皮肤微结构。其核心创新是引入自适应思考努力机制,根据任务复杂度动态调整计算资源,标志着AI3D从“能看”迈向“能用”阶段。
微软Microsoft 365的AI助手Copilot Cowork被曝存在严重安全漏洞,攻击者通过“间接提示词注入”技术,在办公模板中植入恶意指令,无需用户批准即可窃取并外泄企业云盘机密文件,还能代替用户发送邮件、发布Teams消息,威胁组织数据安全。
微软研究院开源了网页智能体框架Webwright,摒弃传统“截图/DOM点击”模式,采用“终端优先”设计,让AI模型直接在终端编写Playwright代码并执行Bash命令,以高效完成复杂网页任务。框架代码仅约1000行,核心架构极简,强调终端操作优于抽象界面。
OpenAI桌面代理Codex新增“锁屏运行”功能,允许Mac锁定或息屏时通过远程指令操控本地应用,打破传统需解锁且屏幕常亮的限制。核心突破在于开发者无需“看守”电脑,即可执行长时复杂工程任务,如大型代码编译或GUI自动化测试。
苹果正与谷歌合作,采用一款1.2万亿参数的定制大型语言模型,作为下一代Siri的核心升级。该模型参数规模远超当前主流移动端模型(如Gemini 3.5 Flash的3000亿参数),引发业界高度关注。

关注 “悠AI” 更多干货技巧行业动态