谷歌DeepMind新研究TIPSv2:让AI真正&quo…

AI广播站9小时前更新 小悠
4 0 0

问它"这张图里有什么",它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里",它就开始含糊了。这不是个别模型的问题,而是整个视觉-语言大模型领域长期存在的通病——全局理解强,局部定位弱。

谷歌DeepMind在最新论文中提出了TIPSv2方案,专门来啃这块硬骨头。

谷歌DeepMind新研究TIPSv2:让AI真正"看懂"图片,而不只是"扫一眼"

研究团队在调查中发现了一个反直觉的现象:在精细分割任务上,参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于,蒸馏过程移除了遮盖机制,迫使模型学习整张图的所有细节,形成了"全区域监督"。受此启发,TIPSv2围绕这一发现做出了三项关键改进。

第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失,可见区域处于"放养"状态,局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督,相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动,零样本分割性能就直接提升了14.1个百分点。

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型,开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络,因此EMA只需作用于最后的投影头,主干不再复制。结果是训练参数量直接缩减约42%,速度更快,性能几乎无损。

第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型,难易交替,既防止模型因任务太简单而"偷懒",又确保细节不丢失。

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估,零样本语义分割刷新业界最优,图文检索与分类击败了参数量比自身大56%的对比模型,纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说,这套方案值得认真评估。

论文地址:https://www.alphaxiv.org/abs/2604.12012

科大讯飞推出AM50 Pro AI智能鼠标,售价498元,提供黑、白、红三色可选。支持有线、星闪和蓝牙三种连接方式,重量仅66克,手感轻盈。采用光微动技术,按键寿命达7000万次,适合长时间办公和游戏使用。

近日,AI大模型接口聚合管理系统NewAPI被曝存在高风险支付漏洞。当系统未正确配置Stripe支付密钥时,攻击者可伪造Webhook事件,绕过真实支付流程,实现“零成本”任意金额充值。目前漏洞详情及防范措施已在开发者论坛等平台公开。

苹果曾考虑下架马斯克的AI应用Grok,因其未能有效处理X平台上的非自愿性别化深度伪造内容。这一低调但强硬的态度在舆论压力下引发外界批评。苹果向美国参议员表示,已关注相关投诉和报道。

Hightouch 初创公司推出AI服务,让营销人员无需设计团队即可为知名品牌创建个性化内容,推动其年度经常性收入在20个月内增长7000万美元,总额达1亿美元。

网络安全公司OX Security报告指出,Anthropic的MCP协议存在设计缺陷,其SDK的STDIO接口可导致远程代码执行,影响超20万台AI服务器。MCP作为开源标准,被广泛用于AI应用开发,此次漏洞引发行业高度关注。

谷歌DeepMind新研究TIPSv2:让AI真正&quo…

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...