苹果本地 AI 强势逆袭！oMLX 0.3.9 重磅更新：…

北京时间5月13日，Apple Silicon 本地 AI 生态迎来重要进展。oMLX 框架0.3.9.dev2版本发布，深度集成多项前沿优化技术，显著提升了本地大模型的图文处理速度与易用性，进一步巩固了苹果端侧 AI 在实际体验上的竞争力。

新版本最引人注目的更新，是直接将Gemma4的 MTP 视觉路径、DFlash 引擎以及ParoQuant 量化技术完整融入。这一系列组合让图文多模态解码速度大幅提升，显著降低了本地运行多模态大模型的延迟门槛。过去本地 AI 常被诟病的“体验差距”，在这一轮优化后得到明显缓解。

苹果本地 AI 强势逆袭！oMLX 0.3.9 重磅更新：Gemma 4 视觉加速 + 一键 Copilot，云端大模型优势被全面拉平

为降低开发者与用户的上手难度，oMLX 新增omlx launch copilot功能。用户可一键快速接入 Claude、Codex、OpenClaw 等主流顶级 AI 工具，实现本地与云端服务的无缝协同。这一特性极大增强了本地 AI 的集成度，让“开箱即用”成为现实。

针对 Apple Silicon 统一内存架构下的实际部署痛点，新版引入oQ 自动 Proxy 机制，能够智能处理显存不足的问题，显著提升大模型在消费级设备上的运行稳定性。同时，管理界面新增服务器重启按钮，进一步优化了日常维护流程。

AIbase 点评:从 MLX 到 oMLX 的持续迭代，苹果端侧 AI 正在以惊人的速度追赶甚至局部超越云端方案。统一内存架构带来的带宽优势、结合高效量化与引擎优化，让本地 AI 在速度、隐私保护和响应实时性上展现出独特魅力。曾经“差点意思”的本地部署，如今已在速度、集成度和易用性上实现“离谱”级提升。

这波更新清晰传递出一个信号:AI 正在真正从云端走向个人设备。未来，更多用户或将亲身感受到“把大模型装进自己电脑”的自由与强大。

项目地址：https://github.com/jundot/omlx

谷歌近日为开源模型Gemma4推出多Token预测（MTP）起草器，利用推测解码架构将推理速度提升最高3倍，同时保持输出质量和逻辑能力。该模型发布后下载量迅速增长，成为全球最受关注的开源模型之一。

移动端运行大模型已成常态，而浏览器内置强大AI能力成为新趋势。开发者利用Google的TurboQuant算法，成功将Gemma4模型部署到浏览器中，用户无需API配置或订阅费用，即可在本地实现流畅AI交互。核心是TurboQuant算法带来的记忆革命。

播客应用Overcast开发者Marco Arment为降低AI服务成本，自建48台Mac mini服务器集群。他利用Apple Silicon芯片的高能效和统一内存优势，运行本地语音转录，以替代昂贵的云端AI服务。

谷歌发布Gemma4系列开源模型，实现AI能力轻量化突破。其中一款仅激活3.8亿参数，性能却超越参数规模20倍的大型模型，使强大AI可轻松部署于手机和轻薄笔记本。该系列包含2.3B和4.5B等不同参数规模的模型，推动人工智能服务更便捷普及。

谷歌在iOS平台推出实验性语音输入应用“Google AI Edge Eloquent”，主打离线优先和智能润色功能，利用边缘AI技术将口语实时转化为专业文本。此举标志着谷歌进入高端AI语音转文字市场，与Wispr Flow和SuperWhisper竞争。应用搭载Gemma4系列技术，强调实时处理和文本优化能力。