在AI大模型竞争迈向“世界模型”的新阶段,如何让AI不仅能看懂画面,更能创造出真正可用的3D数字资产,成为了行业角逐的全新高地。近日,人工智能公司影眸科技宣布完成新一轮数亿元融资,由凯辉基金、上海国投先导领投,原有股东继续加码跟投。这不仅是资本市场对3D生成赛道的认可,更标志着这支主要由“00后”组成的中国研发团队,正凭借硬核技术在国际舞台崭露头角。
影眸科技此次发布的新一代模型Rodin Gen-2.5堪称行业的一大技术里程碑。它不仅是全球首个具备千万面级生成能力的3D大模型,更引入了类似大语言模型的“先思考、再生成”机制。通过这种设计,模型能够根据计算预算自适应地处理不同复杂度的物体:简单的模型快速产出,而复杂的角色或精细零件则投入更多算力,实现对皮肤纹理、毛孔、龙鳞等细节的精准还原。

与市面上多数仅能实现“展示级”效果的生成工具不同,影眸科技追求的是“生产级可用”。在Rodin Gen-2.5的加持下,生成的模型支持物理级写实PBR材质,且具备12K超高分辨率,生成的资产可以直接导入游戏引擎或影视后期管线进行拆解、绑定与二次编辑。这种“用起来对”的实用主义导向,使其迅速赢得了海外市场的青睐,公司约80%的收入均来自北美,更有 Unity AI Beta、Figma 以及英伟达创始人黄仁勋CES演讲等重量级场景采用其技术。
这一突破性进展的背后,是一群年轻的研发力量。影眸科技的核心算法团队大多源自上海科技大学MARS实验室,是一支名副其实的“00后”团队。在AI行业人才高流动的背景下,他们始终保持着极高的人才稳定性,专注于从扫描真实世界到生成数字人,再到构建完整3D资产的垂直路径。
当业界还在为“世界模型”的定义争论不休时,影眸科技选择了一条更扎实的道路——先把构成数字世界的零部件做得既真实又可控。随着Rodin Gen-2.5的全面推广与商业化落地,影眸科技正以一种务实的姿态,为未来的数字世界建设提供最基础的底层支撑。这种从实验室走向全球生产线的实力,不仅展示了中国科创团队的潜能,也为AI在专业工业管线的深度应用开辟了新篇章。
谷歌DeepMind将原生计算机使用能力集成到Gemini 3.5 Flash模型,开发者现可用单一模型构建能跨浏览器、手机和桌面自主看屏操作的AI智能体,无需再在不同模型间切换传递上下文,简化了跨平台长任务执行。
谷歌将“计算机使用”工具直接集成到Gemini 3.5 Flash模型,取代旧测试框架,推动AI向可执行任务的“数字同事”演进。开发者可通过API构建智能代理,实现代理从概念到落地的跨越。
苹果在iOS 27 Beta 2中强化隐私保护,限制Siri处理外部URL的能力。根据新的系统提示词,当用户要求Siri总结或提取网址内容时,Siri必须明确告知无法处理此类请求,进一步收紧了Apple Intelligence的生态策略。
谷歌面向部分用户测试 macOS 客户端重大语音升级,推出三大核心功能:系统级语音听写,支持全局快捷键在任何应用中实现语音转文字输入;“魔法指针”,让 Gemini 实时追踪光标悬停内容,确保视觉与逻辑同步;以及多设备连接菜单,暗示未来跨桌面协同。此次还重新设计了 Gemini Live 界面。
谷歌于6月25日发布Gemini 3.5 Flash模型,核心亮点是深度优化的计算机操作能力,可直接接管电脑界面、自主执行跨软件工作流。这标志着人工智能从问答机器转向行动派,突破文本生成与信息检索的局限,朝向直接代劳迈出关键一步。

关注 “悠AI” 更多干货技巧行业动态