拒绝“一问一答”：京东开源实时视频交互模型 JoyAI-V…

在人工智能迈向实时交互的浪潮中，京东正式开源了其核心成果——实时视频视觉语言交互模型 JoyAI-VL-Interaction。作为全球首个全栈开源的交互式视觉模型，该系统不仅获得了 vLLM-Omni 的深度支持，更标志着 AI 助手正式从传统的“被动响应”转向“边看边说”的自主观察模式。

相比于过去需要等待用户提问才开始处理画面的滞后模式，JoyAI-VL-Interaction 展现出了极高的主动性。它具备持续观察视频流的能力，能够智能判断何时应当介入交流，何时应当保持沉默，从而在互动中提供更加自然、流畅的体验。

拒绝“一问一答”：京东开源实时视频交互模型 JoyAI-VL-Interaction

这种实时响应能力的提升，对于处理动态信息至关重要。传统的视频理解技术往往受限于“先上传、后分析”的流程，在实时性要求极高的安防监控、直播解说或操作指导等场景中，往往难以满足需求。JoyAI-VL-Interaction 能够面向正在发生的视频流进行即时处理，真正实现了画面变化与智能响应的同步。

更具技术亮点的是其“后台委托”机制。在面对生成代码、复杂推理或工具调用等高难度任务时，模型可以灵活地将任务分流给后台的 Agent 系统，而前台模型则继续保持对现场的实时观察。这种“观察与交互”并行的工作流，使得 AI 助手在执行复杂逻辑的同时，依然能维持与用户的无缝沟通。

在兼容性与扩展性方面，该模型支持摄像头、直播流及各类监控信号等多种视频输入源，并允许开发者根据业务需求，灵活替换 ASR、TTS、长期记忆模块或外部 API 接口。

根据京东公布的盲评测试数据，在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中，JoyAI-VL-Interaction 的表现相当出色，其总体胜率不仅大幅领先同类产品，更在复杂视觉触发的交互中展现了显著优势。无论是针对科研探索，还是面向安防监控、电商导购、AI 眼镜等产业级应用，这一开源方案都为开发者提供了一套极具竞争力的技术基座。

微信全新原生AI助手“小微”开启灰度内测，界面以左上角图标入口呈现对话窗口。支持文字或语音指令直接操控微信原生功能、调起小程序，如代发好友消息等，是微信深度融合AI能力的低调尝试。

Meta公司在洛杉矶创作者活动上预览了短视频编辑应用Edits的重大升级，将推出AI助手和桌面版。该应用对标字节跳动的CapCut，旨在通过全平台覆盖和智能创作赋能，深度绑定Instagram内容生态。AI助手可打通创作者后台数据，分析视频观看量等关键指标，帮助优化内容策略，吸引更多新用户。

欧盟委员会近日采取措施，要求Meta恢复WhatsApp的通用AI助手免费权限，以保护AI市场发展并防止不可逆损害。此前，Meta自2025年12月起被调查反垄断问题，因其限制其他AI服务商访问WhatsApp平台，仅允许自家AI使用。欧盟初步证据显示Meta可能违反竞争法规，并于2026年2月发布异议声明，强调可能需进一步行动。

微软推出医疗AI助手“Copilot Health”预览版，面向Microsoft 365订阅用户开放。该工具整合跨平台健康数据，帮助用户高效管理和分析健康信息，支持快速寻找医生并深度洞察相关医疗数据，标志着微软在医疗健康领域的重要进展。

马斯克因AI助手Grok在苹果商店排名问题起诉苹果与OpenAI，但反遭法庭要求提交特斯拉和SpaceX邮箱中的相关邮件作为证据。法官马克·皮特曼驳回xAI和X平台的异议，维持原裁定。这场诉讼意外波及马斯克核心商业帝国，凸显法律纠纷的连锁效应。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

拒绝“一问一答”：京东开源实时视频交互模型 JoyAI-V…

联动全屋五大场景!英特尔携手国内科技巨头，让“AI大脑”住…

美团破解百万商家的视觉难题 AI 海报生成的“技术闭环”

相关文章

暂无评论