谷歌DeepMind新研究TIPSv2：让AI真正&quo…

问它"这张图里有什么"，它能答得头头是道。但要问"图中那只熊猫的左后腿在哪里"，它就开始含糊了。这不是个别模型的问题，而是整个视觉-语言大模型领域长期存在的通病——全局理解强，局部定位弱。

谷歌DeepMind在最新论文中提出了TIPSv2方案，专门来啃这块硬骨头。

谷歌DeepMind新研究TIPSv2：让AI真正"看懂"图片，而不只是"扫一眼"

研究团队在调查中发现了一个反直觉的现象:在精细分割任务上，参数量少的"学生模型"表现经常碾压体量更大的"教师模型"。原因在于，蒸馏过程移除了遮盖机制，迫使模型学习整张图的所有细节，形成了"全区域监督"。受此启发，TIPSv2围绕这一发现做出了三项关键改进。

第一项是iBOT++。传统预训练只对图像中被遮盖的区域计算损失，可见区域处于"放养"状态，局部语义容易漂移。iBOT++要求模型同时对所有可见区域进行精确监督，相当于从"猜谜游戏"升级为"全文精读"。仅这一项改动，零样本分割性能就直接提升了14.1个百分点。

第二项是Head-only EMA。传统自监督训练需要在显存里维护两份几乎相同的大模型，开销极大。TIPSv2发现图文对比损失本身已经能稳定主干网络，因此EMA只需作用于最后的投影头，主干不再复制。结果是训练参数量直接缩减约42%，速度更快，性能几乎无损。

第三项是多粒度文本搭配。训练时将网页简短描述、中等详细描述和Gemini生成的长描述混合随机喂给模型，难易交替，既防止模型因任务太简单而"偷懒"，又确保细节不丢失。

最终效果相当扎实。TIPSv2在9大任务、20个权威数据集上完成冻结评估，零样本语义分割刷新业界最优，图文检索与分类击败了参数量比自身大56%的对比模型，纯视觉任务也全面跻身前列。

目前TIPSv2的代码与模型权重已全面开源。对于医疗影像、自动驾驶、工业检测等需要高精度图像理解的团队来说，这套方案值得认真评估。

论文地址：https://www.alphaxiv.org/abs/2604.12012

科大讯飞推出AM50 Pro AI智能鼠标，售价498元，提供黑、白、红三色可选。支持有线、星闪和蓝牙三种连接方式，重量仅66克，手感轻盈。采用光微动技术，按键寿命达7000万次，适合长时间办公和游戏使用。

近日，AI大模型接口聚合管理系统NewAPI被曝存在高风险支付漏洞。当系统未正确配置Stripe支付密钥时，攻击者可伪造Webhook事件，绕过真实支付流程，实现“零成本”任意金额充值。目前漏洞详情及防范措施已在开发者论坛等平台公开。

苹果曾考虑下架马斯克的AI应用Grok，因其未能有效处理X平台上的非自愿性别化深度伪造内容。这一低调但强硬的态度在舆论压力下引发外界批评。苹果向美国参议员表示，已关注相关投诉和报道。

Hightouch 初创公司推出AI服务，让营销人员无需设计团队即可为知名品牌创建个性化内容，推动其年度经常性收入在20个月内增长7000万美元，总额达1亿美元。

网络安全公司OX Security报告指出，Anthropic的MCP协议存在设计缺陷，其SDK的STDIO接口可导致远程代码执行，影响超20万台AI服务器。MCP作为开源标准，被广泛用于AI应用开发，此次漏洞引发行业高度关注。

关注 “悠AI” 更多干货技巧行业动态

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...