输入一句“一只小熊在森林里讲笑话”,勾选音频和多镜头选项,AI自动生成了具有景别变化、搞笑情绪并搭配匹配笑声的完整视频片段。
爱诗科技于12月1日正式发布了PixVerse V5.5,国内版为拍我AI V5.5。这一新版本标志着AI视频生成技术从“镜头生成”向自动“讲故事”的进化。
与以往只能产出单镜头或零散画面的大模型不同,V5.5可以生成具备叙事结构的短片,甚至接近“成片”质量的视频。
01 技术跃迁:从单一镜头到完整叙事
爱诗科技此次发布的V5.5版本,实现了AI视频生成领域的关键突破。作为继Sora2发布后,国内首个实现 “分镜 + 音频”一键直出的重大更新,该技术让创作者能在几秒钟内生成完整的视频故事。
这一突破的核心在于底层模型的全面升级。新版本首次支持音频与多镜头同步生成,并强化了多角色音画同步能力。
AI能够根据用户输入的提示词,自动理解并生成完整的故事段落,而非仅仅提供单一镜头的素材。
用户只需要输入一个简短的提示,AI就能完成镜头推进、景别切换、人物对白、环境声和背景音乐的生成,直接呈现一个可被使用的叙事片段。
02 功能革新:导演思维与音画同步
拍我AI V5.5让用户获得了“成为导演”般的创作体验。用户可以在提示词里直接控制音效、台词、音色、音乐和镜头,AI能自动理解提示词中的叙事意图。

系统会自动设计推拉、摇移、切换、景别变化等镜头语言,使运镜节奏更自然,紧贴真实制作逻辑。
新版本的智能化程度显著提升,即使面对模糊信息也能准确理解。例如,用户只输入“一只小熊在森林里讲笑话”的简单提示词,勾选音频和多镜头后,AI就能自动生成具有景别变化、搞笑情绪并搭配匹配笑声的完整片段。
镜头骨架、情绪走向都由AI自动搭建,让普通人也能以“导演思维”进行表达。
03 效率突破:一体化工作流与极速生成
V5.5进一步缩短了创作工作流中的时间差。生成速度大幅提升,镜头语言更丰富,控制方式更加直观,使得普通用户和创作者都能以更低的门槛,迅速将抽象的灵感变成可观看的成品视频。
拍我AI提供从图像到视频的一体化创作流程,用户可以在平台上上传多张图片,利用内置的Nano Banana Pro模型生成高清图像,并一键转入视频制作流程。
平台通过整合Qwen-image、Seedream 4.0和Nano Banana等图像模型,为“从图到视频”的生产路径提供了基础能力。
值得一提的是,V5Fast模式下约30秒即可出片,实现全球最快的1080p生成速度。这种高效率使创作者能更好地在效率、成本与成片质量之间取得平衡。
04 行业影响:重塑创作生态与商业前景
爱诗科技在短短两年内完成了五代PixVerse模型、八个版本的快速迭代。2025年初,PixVerse V4曾领先实现5秒极速生成高质量视频,并成为全球首家上线“人声+音效”的AI视频平台。
如今,PixVerse已成为全球创作者使用AI视频生成的首选平台之一,用户规模超过1亿。
公司年度经常性收入(ARR)已突破4000万美元,自2024年11月正式商业化以来,不到一年时间收入增长超过10倍,成为过去一年全球收入和用户增长最快的AI平台之一。
爱诗科技创始人兼CEO王长虎曾表示,由于视频创作门槛高,加之工具供给不足,目前95%的人的视频创作需求还没被满足。
AI技术并不是简单把抖音等短视频平台中的内容替换成AI内容,而是带来了全新的交互方式。
05 应用拓展:从个人创作到情感表达
爱诗科技近期推出的Swap、Remix和Modify三大视频编辑功能,结合Diffusion + Transformer视频生成大模型和多模态特征融合技术,为创作者提供了更加自由、自然的编辑体验。
这些功能支持替换视频中的角色、场景与背景,允许用户基于他人创作进行二次创作,以及基于关键帧编辑的全视频推理与追踪,让用户能够像修改照片一样轻松编辑视频。
今日正式开启预售的电影《比如父子》也与拍我AI合作推出“未完成的对话”项目,通过老照片生成动态影像,帮助用户跨越时间表达情绪,使AI视频技术首次进入更具情感价值的场景。
拍我AI V5.5指向的是一个更普惠的视频创作未来:让更多人能以“导演思维”进行表达。无论是漫剧、玩梗、MV、Vlog、复古影像还是动画与二次元内容,制作成本都被进一步降低。
从灵感浮现到看到成片,也许只需要一杯咖啡的时间。
拍我AI社区里,一位来自美国的创作者分享了他的体验:“过去完成一个具有‘黄金三秒开场节奏’的视频,需要摄影师和剪辑师的紧密配合。现在只需要输入一段文字,AI就能自动生成专业级开场。”
随着AI视频生成技术正从专业工作室走向普通人的手机屏幕,创作的门槛在不断降低。爱诗科技最新发布的V5.5模型,让“每个人都能成为导演”的愿景,又向前迈进了一步。

关注 “悠AI” 更多干货技巧行业动态