在刚刚落幕的智象未来首届开放日上,这家处于AI视觉多模态风口顶端的独角兽企业迎来“高光时刻”。公司正式发布了基于新一代原生全模态架构“Unified Transformer(UiT)”打造的图像大模型——HiDream-O1-Image-Pro。
这款大模型参数规模超过两千亿,实现了图像像素、文本标记与任务条件的深度统一,在通用文生图、高保真文字渲染及图像编辑等关键任务上达到了行业顶尖水准(SOTA)。HiDream-O1-Image-Pro的发布,标志着智象未来已正式迈入“原生全模态”建模阶段,即通过一套统一的底层架构,实现对图像、视频、文本、音频等多模态信息的融会贯通,向着构建“物理世界模型”的宏大目标迈出关键一步。

资本市场的热捧则印证了这一技术的战略价值。智象未来同时宣布完成新一轮亿级融资,投资方阵容豪华,包括深创投、金浦投资、财鑫资本及复聚资本等多家知名机构。尤为引人注目的是,这已是智象未来在短短半个月内完成的第二次融资(此前于 4 月中旬刚完成超 5 亿元规模的融资)。
自 2023 年成立以来,智象未来凭借“模型+应用”的双轮驱动模式迅速崛起。公司目前已构建起清晰的“1+1+3”业务矩阵:
1 个底座: HiDream系列底层大模型。
1 个平台: HiHarness企业服务平台,提供标准化的模型能力输出。
3 大智能体应用: 覆盖商业营销(HiBurst,TikTok官方Top5 服务商)、影视创作(“帧赞”,已累计制作短漫剧超 5000 分钟)以及社媒创作(vivago,用户规模超 4000 万)。
此次开放日现场,智象未来还与上影新视野基金、蓝色光标、捷成世纪、倍尔健康等多家行业巨头达成战略合作,旨在将领先的模型能力深度注入影视、营销、医疗等高频刚需场景。随着底层架构的持续迭代与融资版图的不断扩充,这家由加拿大工程院外籍院士梅涛博士领衔的顶尖技术团队,正加速在全球生成式AI的竞赛中构建属于中国的技术护城河。
百度发布文心大模型5.0正式版,拥有2.4万亿参数,实现从多模态融合到“原生全模态”的跨越。其采用原生全模态统一建模技术,在统一架构中对文本、图像、视频和音频进行联合训练,区别于行业常见的“后期合成”方案。
阿里巴巴Qwen团队发布全新图像编辑模型Qwen-Image-Edit-2511,针对AI修图常见的人脸变形和身份丢失问题实现突破,能精准保留人物面部特征。该模型是此前版本的重大升级,支持单人肖像精细编辑和多场景处理。
百度世界大会发布文心大模型5.0,李彦宏将其定义为“原生全模态模型”,实现文本、图像、声音深度融合协同,突破传统多模态拼接方式,推动国产AI进入新纪元。
AI视觉革命!受人脑启发的新技术让机器“看”得更准、更高效告别传统死板的方形“滤镜”,一种名为Lp-Convolution的新AI技术横空出世!它模仿人脑视觉皮层的运作方式,让机器视觉系统能像人眼一样灵活聚焦关键信息,不仅提升了图像识别的准确度和效率,还大大降低了计算负担。机器视觉的“瓶颈”与人脑的“智慧”在熙熙攘攘的街头,人脑能迅速捕捉到重要的细节,比如一个突然冲出的孩子或是一辆疾驰而来的汽车。但传统的AI,尤其是广泛应用的卷积神经网络(CNN),却有点“笨拙”
在AI视觉领域,目标定位一直是个老大难问题。传统的算法就像个“近视眼”,只能粗略地用“框框”圈出目标,却看不清里面的细节。这就好比你跟朋友描述一个人,只说了个大概身高体型,朋友能找到人才怪!为了解决这个问题,一群来自伊利诺伊理工大学、思科研究院和中佛罗里达大学的大佬们,开发了一套名为SegVG的全新视觉定位框架,号称要让AI从此告别“近视眼”!SegVG的核心秘诀就是:“像素级”细节!传统的算法只用边界框信息训练AI,相当于只给AI看个模糊的影子。而SegVG则是把

关注 “悠AI” 更多干货技巧行业动态