北京时间5月13日,Apple Silicon 本地 AI 生态迎来重要进展。oMLX 框架0.3.9.dev2版本发布,深度集成多项前沿优化技术,显著提升了本地大模型的图文处理速度与易用性,进一步巩固了苹果端侧 AI 在实际体验上的竞争力。
新版本最引人注目的更新,是直接将Gemma4的 MTP 视觉路径、DFlash 引擎以及ParoQuant 量化技术完整融入。这一系列组合让图文多模态解码速度大幅提升,显著降低了本地运行多模态大模型的延迟门槛。过去本地 AI 常被诟病的“体验差距”,在这一轮优化后得到明显缓解。

为降低开发者与用户的上手难度,oMLX 新增omlx launch copilot功能。用户可一键快速接入 Claude、Codex、OpenClaw 等主流顶级 AI 工具,实现本地与云端服务的无缝协同。这一特性极大增强了本地 AI 的集成度,让“开箱即用”成为现实。
针对 Apple Silicon 统一内存架构下的实际部署痛点,新版引入oQ 自动 Proxy 机制,能够智能处理显存不足的问题,显著提升大模型在消费级设备上的运行稳定性。同时,管理界面新增服务器重启按钮,进一步优化了日常维护流程。
AIbase 点评:从 MLX 到 oMLX 的持续迭代,苹果端侧 AI 正在以惊人的速度追赶甚至局部超越云端方案。统一内存架构带来的带宽优势、结合高效量化与引擎优化,让本地 AI 在速度、隐私保护和响应实时性上展现出独特魅力。曾经“差点意思”的本地部署,如今已在速度、集成度和易用性上实现“离谱”级提升。
这波更新清晰传递出一个信号:AI 正在真正从云端走向个人设备。未来,更多用户或将亲身感受到“把大模型装进自己电脑”的自由与强大。
项目地址:https://github.com/jundot/omlx
谷歌近日为开源模型Gemma4推出多Token预测(MTP)起草器,利用推测解码架构将推理速度提升最高3倍,同时保持输出质量和逻辑能力。该模型发布后下载量迅速增长,成为全球最受关注的开源模型之一。
移动端运行大模型已成常态,而浏览器内置强大AI能力成为新趋势。开发者利用Google的TurboQuant算法,成功将Gemma4模型部署到浏览器中,用户无需API配置或订阅费用,即可在本地实现流畅AI交互。核心是TurboQuant算法带来的记忆革命。
播客应用Overcast开发者Marco Arment为降低AI服务成本,自建48台Mac mini服务器集群。他利用Apple Silicon芯片的高能效和统一内存优势,运行本地语音转录,以替代昂贵的云端AI服务。
谷歌发布Gemma4系列开源模型,实现AI能力轻量化突破。其中一款仅激活3.8亿参数,性能却超越参数规模20倍的大型模型,使强大AI可轻松部署于手机和轻薄笔记本。该系列包含2.3B和4.5B等不同参数规模的模型,推动人工智能服务更便捷普及。
谷歌在iOS平台推出实验性语音输入应用“Google AI Edge Eloquent”,主打离线优先和智能润色功能,利用边缘AI技术将口语实时转化为专业文本。此举标志着谷歌进入高端AI语音转文字市场,与Wispr Flow和SuperWhisper竞争。应用搭载Gemma4系列技术,强调实时处理和文本优化能力。

关注 “悠AI” 更多干货技巧行业动态