破译真实世界:谷歌携Gemini Embedding 2开启AI的“感官革命”

AI广播站6小时前发布 小悠
4 0 0

如果说之前的AI是在用文字“阅读”世界,那么现在的它,终于开始用眼睛和耳朵去“理解”世界了。本周二(3月10日),谷歌DeepMind重磅发布了首个原生多模态嵌入模型——Gemini Embedding 2,这标志着人工智能在多模态理解领域迈出了从“单通道”到“全感官”的关键一步 。

与人们熟知的、用于生成内容的Gemini聊天模型不同,嵌入模型更像是AI的“认知翻译官”。它的任务是将复杂的文本、图像甚至视频,转化为计算机能读懂的数字向量,从而让机器理解事物之间的语义关联。而Gemini Embedding 2的革命性在于,它不再需要将图片“翻译”成文字再去理解,而是将文本、图像、视频、音频和文档直接映射到同一个“统一思维空间”中 。

这一技术突破让AI拥有了真正的“通感”能力。现在,开发者可以在一次请求中同时输入“一张事故照片+一段语音描述”,模型能直接捕捉不同媒体之间微妙的语义关联,而无需分步处理 。这意味着一场关于效率的变革:音频数据无需再费力转录成文本,视频也能以原生形态被AI直接“观看” 。

破译真实世界:谷歌携Gemini Embedding 2开启AI的“感官革命”

技术参数的跃升同样令人瞩目。Gemini Embedding 2支持高达8192个token的文本上下文,单次请求可处理最多6张图像或长达120秒的视频 。更重要的是,它引入了Matryoshka表示学习技术,允许开发者根据需要灵活压缩向量维度,在保证性能的同时大幅降低存储成本 。

谷歌在博客中自信地表示,这不仅仅是对传统模型的简单改进,它在文本、图像和视频任务中均超越了当前的领先模型 。这一能力已在具体场景中得到验证:在涉及数百万条记录的诉讼电子取证中,该模型能帮助法律专业人士同时检索图片中的物证与视频中的口供,极大地提升了关键证据的发现效率 。

目前,Gemini Embedding 2预览版已通过Gemini API和Vertex AI向开发者开放 。有分析认为,随着这一“认知底座”的铺开,企业级AI应用将彻底告别零散的单点助手模式,真正从“文本时代”迈向“全感知时代” 。

破译真实世界:谷歌携Gemini Embedding 2开启AI的“感官革命”

关注 “悠AI” 更多干货技巧行业动态

© 版权声明

相关文章

没有相关内容!

暂无评论

您必须登录才能参与评论!
立即登录
none
暂无评论...