课堂板书、教材扫描、手写笔记,这些曾经只能固定于纸张或屏幕的图像内容,正因为谷歌NotebookLM的最新升级而变得“能说会道”。
近日,谷歌对其AI笔记助手NotebookLM进行了重大更新,最具突破性的功能是让图像“活”起来——用户现在可以上传各种包含文字的图像,系统会自动识别并转换其中的内容,使其成为可检索、可查询的知识库。
该功能上线后迅速受到用户欢迎,特别是在教育领域。据统计,发布后48小时内,教育账号上传的图像总量就突破了50万页,环比激增340%。
01 图像识别革新:OCR+语义理解双剑合璧
NotebookLM此次升级最引人注目的莫过于图像数据源功能的加入。
用户现在只需上传黑板板书、教科书扫描页或街拍表格等图像,系统就会自动完成OCR(光学字符识别)和语义解析。
无论是手写还是印刷的文字,无论是表格还是图表,都能被系统精准识别并转化为可检索的文本信息。

谷歌在演示中展示了多个实用场景。比如,扫描教材第127页的表格后,用户可以直接查询某个单元格的数值;上传街头咖啡店的菜单,就能轻松提取拿铁的价格信息。
这些功能不仅适用于学习场景,还能在日常工作中发挥巨大作用。
02 多模态模型:智慧黑板的“思考”能力
NotebookLM新版图像检索功能的背后,是强大的多模态模型支持。
这个模型能够分辨手写与印刷区域,提取表格结构,并与用户已有的文本、音频、视频笔记自动关联,构建出丰富而立体的知识库。
类似的技术在教育领域已有成功先例。科大讯飞开发的智慧黑板能够实时识别教师手写的板书,并将其转换为印刷体,同时在边缘浮现相关知识链接。
在合肥的科大讯飞展厅,记者亲身体验了这项技术:当工作人员写下钠与氯气反应的化学方程式后,拿起智能语音笔框选屏幕上的内容,手写字体瞬间变为印刷体。
点击“智能推荐”,屏幕上即刻跳出相关知识点和反应过程的影片。
03 深度研究功能:自动化研究助手
除了图像支持,NotebookLM还引入了“深度研究”功能,进一步强化其作为研究工具的能力。
该功能可以自动浏览数百个网站,根据用户的问题制定研究计划,最终返回一份结构清晰、来源可靠的报告。
深度研究有两种模式:快速研究模式提供简短总结,而深度研究模式则进行更全面深入的调查。
这些生成的报告和来源资料可以直接加入笔记本,用户可继续运用NotebookLM的其他工具(如音频概述、思维导图等)进一步消化材料。
04 文件支持扩展:工作流程无缝衔接
NotebookLM现在支持的文件类型也得到显著扩展,用户可以直接上传Google Sheets、微软Word文档和图像等多种格式文件。
特别是对于存储在Google Drive中的文件,用户只需分享URL链接即可添加,无需下载后重新上传。
这一改进极大简化了研究流程,使用户能够直接将日常使用的电子表格、文档和其他资料作为研究素材,无需在不同格式间反复转换。
05 未来展望:AR眼镜实时拍摄接口
谷歌还为NotebookLM规划了更宏大的蓝图。公司计划明年为NotebookLM集成AR眼镜实时拍摄接口,实现“所见即所问”的革命性体验。
这意味着用户只需戴上AR眼镜,就能实时拍摄并检索周围环境中的图像信息,让知识获取突破屏幕限制,变得更加即时和直观。
从课堂板书到文档手稿,从数据表格到街头招牌,NotebookLM正将我们周围一切图像中的信息转化为可即时访问的知识财富。
随着AR眼镜接口的即将到来,人与信息的交互方式将迎来更深层次的变革。
当技术真正服务于人的认知需求,知识获取的边界正在以前所未有的速度消融。

关注 “悠AI” 更多干货技巧行业动态
