2025 年 11 月 3 日,美团正式推出自主研发的全模态大模型应用 ——LongCat App,标志着 AI 交互体验迈入全新阶段。这款集成 LongCat-Flash-Omni 大模型的 App,以 “更自然、更智能、更亲密” 为核心,首次将 5600 亿参数级大模型的强大能力带入移动端,用户可通过语音通话、联网搜索等功能,与 AI 进行沉浸式互动。
作为业界首个实现 “全模态覆盖、端到端架构、大参数量高效推理” 的开源模型,LongCat-Flash-Omni 在文本、图像、音频、视频四大模态均达到开源 SOTA 水平。其创新的 ScMoE 架构结合零计算专家机制,使总参数 5600 亿的庞然大物实现毫秒级响应,彻底解决了大模型推理延迟的行业痛点。实测显示,该模型在语音识别(ASR)、文本生成(TTS)等任务中超越 Gemini-2.5-Pro,实时音视频交互评分接近闭源模型,类人性指标更优于 GPT-4o。
LongCat App 目前已开放语音通话、联网搜索两大核心功能。用户只需长按语音键,即可与 AI 进行不限时对话,从生活咨询到专业知识,LongCat 均能快速响应。联网搜索功能则突破传统模型的知识边界,可实时获取最新资讯、天气、股票等动态信息,真正实现 “问不倒的 AI 助手”。值得关注的是,App 采用流式语音生成技术,对话过程如同真人交流般流畅自然,语音合成速度较前代提升 300%。
在技术架构上,LongCat-Flash-Omni 采用渐进式早期多模融合训练策略,通过 2.5 万亿 token 的多模态语料库训练,确保模型在多模态任务中无性能退化。其支持 128K tokens 上下文窗口及超 8 分钟音视频交互,可完整记忆用户对话历史,实现深度个性化服务。例如,用户可发送多轮图文信息,要求 AI 生成旅行攻略或产品评测,模型不仅能准确理解意图,还能结合实时数据给出最优方案。
除了 C 端应用,LongCat-Flash-Omni 的开源生态已吸引众多开发者参与。美团同步开放模型 API,支持企业快速构建智能客服、虚拟主播等垂直场景应用。据技术团队透露,未来版本将新增视频通话、AR 交互等功能,进一步拓展 AI 的应用边界。
此次 LongCat App 的上线,不仅是美团在 AI 领域的又一里程碑,更预示着大模型正从 “技术竞赛” 转向 “体验升级”。随着全模态交互技术的成熟,AI 将真正融入日常生活,成为每个人的智能伙伴。

关注 “悠AI” 更多干货技巧行业动态