PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

长跑两年后,爱诗科技还在狂奔

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

视频,早已是我们这个时代的默认语言。

从社交媒体的刷屏狂欢到大银幕的光影叙事,我们每个人都深度参与其中。而当 AI 技术让视频的创作门槛骤降,一个更加公平的「AI 视频模型竞技场」也随之拉开帷幕。

竞争者名单正在飞速拉长:谷歌的 Veo、Runway 的 Gen-3 强势入局,国内的海螺、可灵、即梦等新秀也「毫不示弱」。

整个行业的迭代速度只能用「白热化」来形容。

在这场竞逐中,有个国产「全科生」产品的身影格外引人注目—— PixVerse (也就是爱诗科技旗下的「拍我 AI」)。就在刚刚,他们宣布全球用户突破 1 亿,这无疑是一份「惊人」的成绩单。AI 视频正在以不可思议的速度在全球范围内释放出巨大的创作能量。

今天(8 月 27 日),这位坐拥海量用户的「全科生」跑完了又一个赛段,正式上线了 2 年内的第 8 个版本——PixVerseV5 自研视频生成大模型,经过不到 24 个月的迭代,PixVerse V5 模型,给竞争对手、 用户、市场交出了他们的最新答卷。

这种「快」与「多」的模式,究竟能否兑现为「好」与「强」的结果?

为了回答这个问题,我们准备了 10 个覆盖「模型技术」与「各类场景」的测试案例,对这款 AI 视频生成产品进行全面而深入的测评。此次测试的是国内版「拍我 AI」,目前这个上线两个多月的产品与国际版功能、模版和模型保持同步。

模型的 4 个维度测试

先来关注下,此次 PixVerse V5 模型技术方面的进展,我了解到这回的 V5,在一些像是「蒸馏、RLHF(人类偏好拟合)、统一特征空间」这些核心技术上,都有了不小的升级。

这个 PixVerse V5 自研视频生成大模型,在两年多的时间里:

【1】生成方面,保持着 V4 以来的极速生成能力,5s 即可生成便于社交分享的短片。

【2】美学方面,会更逼真、更自然,运动幅度更流畅。

【3】理解用户提示词的能力,更精准了一些。

PixVerse V5 Text To Video 和 Image To Video 已经在 Artificial Analysis 排名上分别冲到了第二和第三,对初创平台来说,AI 小高考交卷成绩斐然。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

下面,我们来看实际测试。

1)一致性保持:多格油画四季变化

先来看看一致性保持能力。它不仅要求 PixVerse V5 理解稍微复杂一点的视觉构成,还需要在保持「整体一致性」的前提下进行比较精确的局部变换。

视频中的声音我们也是用 PixVerse V5 自动配的。

我们上传了一张包含12个独立油画格子的多格画作,每个格子都描绘着春季景象:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

然后只用了 7 个字的提示词:

把春景变为秋景

这意味着 PixVerse V5 需要意识到这张图片内有 12 幅独立但不割裂的春日图景,然后它还要对它们依次进行处理,把它变为风格统一的秋景。

效果如下:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

你能看到, PixVerse V5 在视频的前四秒,对 3 个主要的格子的变换稍微有些想象力,比如最上面那个人走路的时候,前方的路一直在延伸等等。

在后面四秒,剩下的 9 个格子则一下子从绿色转变为代表秋天的黄色和红色。虽然有点快,但整体一致性保持的还可以。

2)动态效果:滑雪和橙发女生的自信笑容

接下来测试「动态效果」,主要看它能不能在动态中把日常生活做得自然、细致。

PixVerse V5升级运动轨迹和幅度,表现真实和稳定,我们生成了一段滑雪视频,效果很不错:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

接着,我尝试换一种画风,利用脸部特写,看一看 Pixverse V5 对人物微表情的理解。

提示词如下:

动态角度,橙白,颗粒感,肌理感,艺术氛围感加强,绿色的背景,厚涂+晕染水粉, 颜料的涂抹感+肌理感,高级的氛围感,层次感,矛盾冲突的视觉冲击和有机融合。 快乐,温暖,女孩朝着镜头笑了一下。

最后呈现的效果如下:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

女孩很明媚、很自信,橙色和绿色的搭配并不违和,让画面更有生机。

表情刻画上,PixVerse V5 选择了一个微微后退的镜头角度,随着镜头后拉,女孩慢慢睁开眼睛,嘴角咧开,露出可爱的虎牙。

3)视觉质量:拼贴画风格动漫

拼贴画风格在品牌广告里经常见到,比如爱马仕、农夫山泉。我让 PixVerse V5 生成了一段带爱马仕特色的动画,提示词还是重点描述场景。有了这个,普通家长也能给自己孩子做绘本故事了。

提示词如下:

一个小男孩骑在一匹飞奔的白马上,穿越过梦幻森林,巨大的宽叶植物,盛开的奇花异草, 藏在树叶后的猎豹,站在树梢的鹦鹉,灌木丛中的兔子,采用细线雕刻, 配色为黑色、红色、橙色和白色,色调柔和,精细的细节描绘,爱马仕风格

你能看得出来,在视觉效果上,PixVerse V5 所呈现的线条很精细,颜色很克制但很高级,整个画面有种童话般的感觉。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

视频中的森林场景也展现出了比较良好的空间层次感,整体没有什么大的幻觉。

前景中的小男孩和骑着的白马、中景中的奇花异草、背景中隐藏在花草后面的豹子,在多个层次的空间中,视觉质量都还比较精细。

如果你仔细看看花草和树木的纹理,会觉得整体画面的元素都还是比较和谐的。

4)指令遵循:上学迟到的女孩

我们用一个文生视频场景来测试 PixVerse V5 对提示词的遵循能力。

提示词如下:

一条巷弄两旁种满构树,茂密的枝叶形成一条杂乱的绿荫道,道路两旁有高矮不一的新旧自建房, 各家各户阳台和门口有水泥台阶或有铁丝网围栏, 内种满牵牛花、空心菜和蒜苗,有的摆折叠椅塑料桌,桌上几个香蕉和橘子, 一个十三岁左右的小女孩骑车经过,背着书包,飞驰而过,好像要迟到了, 有些慌张。真实自然,笔触清晰,高饱和度,光影对比,电影质感。 马克笔手绘插画风格。

从结果来看,PixVerse V5 确实按要求生成了完整的场景:绿叶茂密的小巷,晾晒水果的生活气息,整条巷子的光影、远近景深都很自然,符合日常观感。

这说明它的「语言理解能力」还不错,能把文字转化成具体的画面元素,并且镜头感也在随着人物移动:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

人物表现方面,即使没有对白,观众也能看出这是个急着上学的女孩。V5 通过飞扬的头发、晃动的衣袖来表现骑车速度。

如果你仔细看,还能够看到小女孩的眉头都皱着,嘴巴微张,一副「要迟到了」的表情。

画风方面,PixVerse V5 也确实做出了手绘的感觉,颜色也很鲜艳,光影效果不错,有点像看动画电影。

通过这 4 个对模型技术不同维度的测试,PixVerse V5 展现出了比较均衡的综合能力。当然,V5 在某些细节处理和风格一致性方面还有提升空间。

下面,我们再来看 6 个具体场景的测试。

6 个具体场景的测试

1)线描人物与杂乱背景

这一次尝试主要是为了测试 PixVerse V5 在「杂乱背景」中的人物动作表现,画风选择了线描漫画式的手稿风格,同时背景复杂,带有街头涂鸦般的元素。

提示词如下:

功夫大叔穿着白色练功服正在练功打拳。 线描人物,全身,手稿铅笔线条,涂鸦,漫画,凌乱。

难点在于:打拳涉及全身的肌肉调动,极易出现僵硬或机械重复的情况,而且在于背景的融合中很容易出现幻觉。

最后的效果如下:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

最终生成的视频中,整体打拳的动作还算连贯,节奏感也相对自然,没有出现明显的「出拳-收拳」循环。

背景部分带有凌乱的街头感,与线描人物形成了一种视觉上的反差。不过动作的细节层次还不够,更多是框架上的拳法展示。

2)国风动漫男做的 AJ 广告

AI 生成视频一个非常多人用来玩的风格就是「国风动漫」。

于是我让 PixVerse V5 生成了一条国风动漫帅哥做的 AJ 广告视频,有简单的剧情以及人声旁白,刚好一起测评一下 PixVerse V5 的「自动人声」功能如何。

提示词如下:

耐克 AJ 的口播视频。巨大的全面屏手机立在城市街景。  一个25岁帅哥,身高190cm,大长腿,短发,身穿白色T恤,黑色科技感夹克,深灰色直筒短裤,AJ鞋。站在一个巨大等我全面屏手机前,低角度构图,巨大手机立在城市街景。  文案(低沉旁白):当潮流,不再局限于屏幕—— 打破边界,让世界为你腾开位置。

生成的视频整体氛围冷色调,视觉上偏向港漫和 CG 风格。旁白音色比较低沉,节奏和停顿与画面衔接还可以,没有出现明显的延迟。

效果如下:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

由于上传图片和提示词存在冲突, PixVerse V5对创意进行了结合后生成。整体效果较为完整,但仍可注意到一些细节上的不足,比如人物表情稍显僵硬。

不过从国风动漫风格与背景的融合效果来看,画面和旁白的配合已经具备可参考的样式。自动人声虽然不算有强烈的表演感,但作为辅助工具,表现还算中规中矩。

3)真实风格下的科幻片空战现场

前面尝试了这么多都是人物动漫,接下来试试其他风格。

接下来,我们看下 V5 在处理宏大画面、火光爆炸、多个主体同时存在的情况下,能否保持构图的完整性和细节的真实感,尤其是「真实风格」的表现。

提示词如下:

一个人把直升机打下来了。 高空俯拍,科幻大片质感,真实感,全景,高空,战争。 武装直升机内部视角,战士用机载重机枪向地面扫射,弹壳飞溅, 两架武装直升机向地面发射小型火箭弹, 数枚火箭弹从直升机的弹仓带着白色拖尾飞向地面, 地面一片火海中密集的外星生物,外星巨兽,爆炸,黑烟,加强细节,补光,双倍曝光。

这种宏观场景首先是考验主体部分的动作与情节设计,特效是否足够「逼真」。还有就是非主体部分会不会过于模版化,呈现出明显的「绿幕感」。

最后生成的视频画面展现了武装直升机、爆炸火海和。可以看到子弹飞溅、直升机机体受损的动态,局部细节较为清晰。

下面是 V5 生成的视频:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

从整体看,特效和细节虽然没有完美无瑕,但在 AI 自动生成的框架下,画面没有明显的「绿幕感」或生硬拼接。

不过,我觉得这里很值得夸的就是「音效」与人物枪口的火焰以及枪械动作的匹配度,表现不错。

值得一提的是,之前的 PixVerse V4 算是业内首个上线「音画一体」的 AI 视频模型。

4)首尾帧拼接:文字空间

这一部分的重点不在画风,而在测试「首尾帧」功能。这也是许多 AI 视频生成的基础操作。创作者可以上传两张漫画式静态图片,要求系统生成一个逻辑连贯的小动画。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

用户可以先确定帧数,也就是你要上传的图片张数,我们先拿最基础的「首尾帧」也就是 2 帧图片作为参考图为例。

比如我这里 2 张书法字空间的图片,整个场景的元素密密麻麻,比较重复也比较复杂:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

于是,我就把这两张图片上传到了 PixVerse V5 ,然后输入了两张图片间发生的故事。

提示词其实非常简短:

主角走出了文字障,却进入了一个更大的充满文字的空间。

为了配合画面,我又给它加了一段音效描述:

空间回荡的回声

整个生成过程持续了大约 1 分 30 秒,系统完成后一次性产出了四个 4 秒、1080p 分辨率的视频。这个生成消耗了 360 积分。

我从中挑选了一个效果最好的视频,把它放了上来。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

你能看到,整体在画面和声音上结合得很自然,比如主角跨过文字屏障,进入下一个空间时的转换非常自然。而且在第一个场景中的所有文字都有比较好的立体感,随着人物走动,并没有出现什么幻觉:

5)多帧拼接:梦核故障风电子音乐 MV

当然,「首尾帧」不仅仅能将漫画变成有情节的动漫,还能完成一些风格化的意识流艺术创作。

我本人最喜欢的一种风格,也是现在各种平台狂推的「梦核风」。这里科普下,梦核风并不是单一的画风,而是一种「介于梦境与现实之间」的审美风格,比较抽象。

比如这里我就上传了 3 张梦核故障风的图片,看看能不能生成一个电子音乐的MV。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

多帧模式下你需要点进去,设置每两张图片之间的「剧情」和「时间」:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

由于多帧设置会稍微麻烦点,我就稍微偷个懒,只在前 2 张图片之间输入了整体的提示词:

一个电子音乐的MV

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

最后出来的结果证明, PixVerse V5 在「多帧」功能上的理解能力还不错,最后的效果很完整:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

生成结果并没有对图片做大幅修改,而是通过镜头推进、人物动作衔接来串联。例如第一张图的人物与第二张图的细胞之间,被设定为一种「孕育」的过程,使得画面居然显得有一定叙事意味。

确实有些过于抽象了,但这也正是「梦核」的魅力。

虽然剧情线仍显薄弱,但 PixVerse V5 确实做到了让互不相关的画面「看上去像一个整体」。

6)续写:中式怪诞风格的动画

除了「首尾帧」之外,PixVerse V5 还有一个重要功能是「续写」。也就是根据你上传的视频和提示词,对视频进行延伸。

这里的重点是前后镜头人物形象与风格的一致性。

于是,我上传了一个中式怪诞风格的视频进行测评。原视频是一个穿着唐装的木偶,画着花旦妆,拿着油纸伞,因为视频较短,没什么情节。

既然是中式玄幻怪诞风格,我们可以尝试一个比较有趣的提示词:

女人放出了几个分身。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

续写的画面保持了原视频的中式怪诞风格。

人物外形与妆容较为统一,延伸出的分身虽然在细节上各有不同,但整体也能看出与原人物的关联。氛围感也延续了原始视频的气质:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

而且,不知道你注意没注意到,主体角色的分身的元素都很统一,像是耳朵旁的吊坠,在全过程中,也都在动态变化。

AI 视频行业正在「迅速工业化」

测试完这么多案例,我们最后来看看 PixVerse V5 模型的价格和生成速度,在我们测试中基本用的都是 1080p、8s,一次生成是 160 积分,基本上只需要十几秒内,比较快。可以说是背后的技术架构决定了速度和目前最大的用户规模。

从 PixVerse 官网来看,15000 积分 = 459 元 = 750 秒,1000 元能做 1634 秒,关于年会员订阅,国内外统一了会有 36% 的降幅。

这个价格对于频繁去各类 AI 视频生成平台的我来说,算是比较「加血」的。

这背后,其实是 AI 视频行业正在「迅速工业化」的推动。

2023 年 4 月 爱诗科技成立,10 月开放 PixVerse 内测。后来的 2 年内,它几乎每个季度都有版本更新。从 2023 年 10 月的 PixVerse V1 到 2025 年 8 月的 V5,PixVerse (拍我 AI)的公司爱诗科技已经把模型版本更新了 8 次。期间,今年六月才上线了拍我 AI 国内版。

上线两个月,产品功能、模块和性能与国际版和性价比全部持平。

爱诗科技的技术一直在做「减法」。

比如,2024 年 10 月的 V3 上线的无提示词特效模板,让很多人感受到「原来我也能做 AI 视频」,于是玩的人多了;到了 V4,视频生成速度提起来、App 上线,用户开始把它当成日常工具;再到 V5,生成质量和效率大幅提升,加上 Agent 创作助手,0 基础用户用一张图就能变成具有叙事能力的完整短片,这才真正把「玩一玩」升级成「能创作」。

这样才逐渐形成了「用户越用越多 → 内容越多越丰富 → 又吸引更多用户」的滚雪球效应。

很多创作者调侃说,PixVerse(拍我 AI) 的迭代速度,像极了早期手游工作室。不怕版本多,就怕更新慢。

便宜,更新快的具现化场景是什么?

举个最简单的例子,如果你每天刷短视频,大概早就注意到:AI 短视频、AI 短剧在各大流量池迅速冒头。我们自己的推荐流里,几条里就有一条。这背后的推力很「工业」,创作者需要「工业化」的 AI 视频工具,便宜、好用、稳定、出视频快:

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

可以说,当这样的 AI 视频生成模型能够在「实时、懂故事、有审美、To C」等 4 个维度上,更进一步时,AI 视频生成「工业化」才有了一个好的开头。

看完这一圈眼花缭乱的测试,你可能会感觉有点复杂。但如果我们把所有技术名词都拨开,这件事的核心其实非常简单,并且充满了理想主义的温度:

它告诉我们,视频创作的门槛,正在以一种不可思议的速度消失。

PixVerse (拍我 AI)的联合创始人们有着独特的「镜头感」,他们常参与各种大会,利用传播机会,扩展影响力。

创始人王长虎和谢旭璋,都曾在各种场合,表述自己对 AI 视频生成行业未来的看法:

让好的模型带来好的产品。

全世界还有几十亿人没做过视频,我们希望用 AI 帮助这些大多数人,实现视频创作的普惠。

这些表达意味着,过去我们是故事的观众,而之后,人人都有机会成为故事的讲述者。

每个人脑海中那个独一无二、闪闪发光的想法,都能被「AI 摄影机」捕捉。

PixVerse V5 突袭上线,我们在「拍我AI」上第一时间深度实测

文章来自于微信公众号“十字路口Crossing”,作者是“小居,镜山”。

搜索