拒绝“一问一答”:京东开源实时视频交互模型 JoyAI-V…

AI广播站8小时前更新 小悠
6 0 0

在人工智能迈向实时交互的浪潮中,京东正式开源了其核心成果——实时视频视觉语言交互模型 JoyAI-VL-Interaction。作为全球首个全栈开源的交互式视觉模型,该系统不仅获得了 vLLM-Omni 的深度支持,更标志着 AI 助手正式从传统的“被动响应”转向“边看边说”的自主观察模式。

相比于过去需要等待用户提问才开始处理画面的滞后模式,JoyAI-VL-Interaction 展现出了极高的主动性。它具备持续观察视频流的能力,能够智能判断何时应当介入交流,何时应当保持沉默,从而在互动中提供更加自然、流畅的体验。

拒绝“一问一答”:京东开源实时视频交互模型 JoyAI-VL-Interaction

这种实时响应能力的提升,对于处理动态信息至关重要。传统的视频理解技术往往受限于“先上传、后分析”的流程,在实时性要求极高的安防监控、直播解说或操作指导等场景中,往往难以满足需求。JoyAI-VL-Interaction 能够面向正在发生的视频流进行即时处理,真正实现了画面变化与智能响应的同步。

更具技术亮点的是其“后台委托”机制。在面对生成代码、复杂推理或工具调用等高难度任务时,模型可以灵活地将任务分流给后台的 Agent 系统,而前台模型则继续保持对现场的实时观察。这种“观察与交互”并行的工作流,使得 AI 助手在执行复杂逻辑的同时,依然能维持与用户的无缝沟通。

在兼容性与扩展性方面,该模型支持摄像头、直播流及各类监控信号等多种视频输入源,并允许开发者根据业务需求,灵活替换 ASR、TTS、长期记忆模块或外部 API 接口。

根据京东公布的盲评测试数据,在涵盖监控预警、实时翻译、时间感知等58个流式场景的真人测评中,JoyAI-VL-Interaction 的表现相当出色,其总体胜率不仅大幅领先同类产品,更在复杂视觉触发的交互中展现了显著优势。无论是针对科研探索,还是面向安防监控、电商导购、AI 眼镜等产业级应用,这一开源方案都为开发者提供了一套极具竞争力的技术基座。

微信全新原生AI助手“小微”开启灰度内测,界面以左上角图标入口呈现对话窗口。支持文字或语音指令直接操控微信原生功能、调起小程序,如代发好友消息等,是微信深度融合AI能力的低调尝试。

Meta公司在洛杉矶创作者活动上预览了短视频编辑应用Edits的重大升级,将推出AI助手和桌面版。该应用对标字节跳动的CapCut,旨在通过全平台覆盖和智能创作赋能,深度绑定Instagram内容生态。AI助手可打通创作者后台数据,分析视频观看量等关键指标,帮助优化内容策略,吸引更多新用户。

欧盟委员会近日采取措施,要求Meta恢复WhatsApp的通用AI助手免费权限,以保护AI市场发展并防止不可逆损害。此前,Meta自2025年12月起被调查反垄断问题,因其限制其他AI服务商访问WhatsApp平台,仅允许自家AI使用。欧盟初步证据显示Meta可能违反竞争法规,并于2026年2月发布异议声明,强调可能需进一步行动。

微软推出医疗AI助手“Copilot Health”预览版,面向Microsoft 365订阅用户开放。该工具整合跨平台健康数据,帮助用户高效管理和分析健康信息,支持快速寻找医生并深度洞察相关医疗数据,标志着微软在医疗健康领域的重要进展。

马斯克因AI助手Grok在苹果商店排名问题起诉苹果与OpenAI,但反遭法庭要求提交特斯拉和SpaceX邮箱中的相关邮件作为证据。法官马克·皮特曼驳回xAI和X平台的异议,维持原裁定。这场诉讼意外波及马斯克核心商业帝国,凸显法律纠纷的连锁效应。

拒绝“一问一答”:京东开源实时视频交互模型 JoyAI-V…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...