破译真实世界：谷歌携Gemini Embedding 2开启AI的“感官革命”

如果说之前的AI是在用文字“阅读”世界，那么现在的它，终于开始用眼睛和耳朵去“理解”世界了。本周二（3月10日），谷歌DeepMind重磅发布了首个原生多模态嵌入模型——Gemini Embedding 2，这标志着人工智能在多模态理解领域迈出了从“单通道”到“全感官”的关键一步。

与人们熟知的、用于生成内容的Gemini聊天模型不同，嵌入模型更像是AI的“认知翻译官”。它的任务是将复杂的文本、图像甚至视频，转化为计算机能读懂的数字向量，从而让机器理解事物之间的语义关联。而Gemini Embedding 2的革命性在于，它不再需要将图片“翻译”成文字再去理解，而是将文本、图像、视频、音频和文档直接映射到同一个“统一思维空间”中。

这一技术突破让AI拥有了真正的“通感”能力。现在，开发者可以在一次请求中同时输入“一张事故照片+一段语音描述”，模型能直接捕捉不同媒体之间微妙的语义关联，而无需分步处理。这意味着一场关于效率的变革：音频数据无需再费力转录成文本，视频也能以原生形态被AI直接“观看” 。

技术参数的跃升同样令人瞩目。Gemini Embedding 2支持高达8192个token的文本上下文，单次请求可处理最多6张图像或长达120秒的视频。更重要的是，它引入了Matryoshka表示学习技术，允许开发者根据需要灵活压缩向量维度，在保证性能的同时大幅降低存储成本。

谷歌在博客中自信地表示，这不仅仅是对传统模型的简单改进，它在文本、图像和视频任务中均超越了当前的领先模型。这一能力已在具体场景中得到验证：在涉及数百万条记录的诉讼电子取证中，该模型能帮助法律专业人士同时检索图片中的物证与视频中的口供，极大地提升了关键证据的发现效率。

目前，Gemini Embedding 2预览版已通过Gemini API和Vertex AI向开发者开放。有分析认为，随着这一“认知底座”的铺开，企业级AI应用将彻底告别零散的单点助手模式，真正从“文本时代”迈向“全感知时代” 。

关注 “悠AI” 更多干货技巧行业动态

AI广播站

文章版权归作者所有，未经允许请勿转载。

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

破译真实世界：谷歌携Gemini Embedding 2开启AI的“感官革命”

一句话“封神”！AI“大师技能”引爆设计圈，设计师的时代真的变了？

微信内嵌“超级入口”？腾讯携14亿流量豪赌AI智能体，反击号角已吹响

相关文章

暂无评论