长跑两年后,爱诗科技还在狂奔
视频,早已是我们这个时代的默认语言。
从社交媒体的刷屏狂欢到大银幕的光影叙事,我们每个人都深度参与其中。而当 AI 技术让视频的创作门槛骤降,一个更加公平的「AI 视频模型竞技场」也随之拉开帷幕。
竞争者名单正在飞速拉长:谷歌的 Veo、Runway 的 Gen-3 强势入局,国内的海螺、可灵、即梦等新秀也「毫不示弱」。
整个行业的迭代速度只能用「白热化」来形容。
在这场竞逐中,有个国产「全科生」产品的身影格外引人注目—— PixVerse (也就是爱诗科技旗下的「拍我 AI」)。就在刚刚,他们宣布全球用户突破 1 亿,这无疑是一份「惊人」的成绩单。AI 视频正在以不可思议的速度在全球范围内释放出巨大的创作能量。
今天(8 月 27 日),这位坐拥海量用户的「全科生」跑完了又一个赛段,正式上线了 2 年内的第 8 个版本——PixVerseV5 自研视频生成大模型,经过不到 24 个月的迭代,PixVerse V5 模型,给竞争对手、 用户、市场交出了他们的最新答卷。
这种「快」与「多」的模式,究竟能否兑现为「好」与「强」的结果?
为了回答这个问题,我们准备了 10 个覆盖「模型技术」与「各类场景」的测试案例,对这款 AI 视频生成产品进行全面而深入的测评。此次测试的是国内版「拍我 AI」,目前这个上线两个多月的产品与国际版功能、模版和模型保持同步。
模型的 4 个维度测试
先来关注下,此次 PixVerse V5 模型技术方面的进展,我了解到这回的 V5,在一些像是「蒸馏、RLHF(人类偏好拟合)、统一特征空间」这些核心技术上,都有了不小的升级。
这个 PixVerse V5 自研视频生成大模型,在两年多的时间里:
【1】生成方面,保持着 V4 以来的极速生成能力,5s 即可生成便于社交分享的短片。
【2】美学方面,会更逼真、更自然,运动幅度更流畅。
【3】理解用户提示词的能力,更精准了一些。
PixVerse V5 Text To Video 和 Image To Video 已经在 Artificial Analysis 排名上分别冲到了第二和第三,对初创平台来说,AI 小高考交卷成绩斐然。
下面,我们来看实际测试。
1)一致性保持:多格油画四季变化
先来看看一致性保持能力。它不仅要求 PixVerse V5 理解稍微复杂一点的视觉构成,还需要在保持「整体一致性」的前提下进行比较精确的局部变换。
视频中的声音我们也是用 PixVerse V5 自动配的。
我们上传了一张包含12个独立油画格子的多格画作,每个格子都描绘着春季景象:
然后只用了 7 个字的提示词:
把春景变为秋景
这意味着 PixVerse V5 需要意识到这张图片内有 12 幅独立但不割裂的春日图景,然后它还要对它们依次进行处理,把它变为风格统一的秋景。
效果如下:
你能看到, PixVerse V5 在视频的前四秒,对 3 个主要的格子的变换稍微有些想象力,比如最上面那个人走路的时候,前方的路一直在延伸等等。
在后面四秒,剩下的 9 个格子则一下子从绿色转变为代表秋天的黄色和红色。虽然有点快,但整体一致性保持的还可以。
2)动态效果:滑雪和橙发女生的自信笑容
接下来测试「动态效果」,主要看它能不能在动态中把日常生活做得自然、细致。
PixVerse V5升级运动轨迹和幅度,表现真实和稳定,我们生成了一段滑雪视频,效果很不错:
接着,我尝试换一种画风,利用脸部特写,看一看 Pixverse V5 对人物微表情的理解。
提示词如下:
动态角度,橙白,颗粒感,肌理感,艺术氛围感加强,绿色的背景,厚涂+晕染水粉, 颜料的涂抹感+肌理感,高级的氛围感,层次感,矛盾冲突的视觉冲击和有机融合。 快乐,温暖,女孩朝着镜头笑了一下。
最后呈现的效果如下:
女孩很明媚、很自信,橙色和绿色的搭配并不违和,让画面更有生机。
表情刻画上,PixVerse V5 选择了一个微微后退的镜头角度,随着镜头后拉,女孩慢慢睁开眼睛,嘴角咧开,露出可爱的虎牙。
3)视觉质量:拼贴画风格动漫
拼贴画风格在品牌广告里经常见到,比如爱马仕、农夫山泉。我让 PixVerse V5 生成了一段带爱马仕特色的动画,提示词还是重点描述场景。有了这个,普通家长也能给自己孩子做绘本故事了。
提示词如下:
一个小男孩骑在一匹飞奔的白马上,穿越过梦幻森林,巨大的宽叶植物,盛开的奇花异草, 藏在树叶后的猎豹,站在树梢的鹦鹉,灌木丛中的兔子,采用细线雕刻, 配色为黑色、红色、橙色和白色,色调柔和,精细的细节描绘,爱马仕风格
你能看得出来,在视觉效果上,PixVerse V5 所呈现的线条很精细,颜色很克制但很高级,整个画面有种童话般的感觉。
视频中的森林场景也展现出了比较良好的空间层次感,整体没有什么大的幻觉。
前景中的小男孩和骑着的白马、中景中的奇花异草、背景中隐藏在花草后面的豹子,在多个层次的空间中,视觉质量都还比较精细。
如果你仔细看看花草和树木的纹理,会觉得整体画面的元素都还是比较和谐的。
4)指令遵循:上学迟到的女孩
我们用一个文生视频场景来测试 PixVerse V5 对提示词的遵循能力。
提示词如下:
一条巷弄两旁种满构树,茂密的枝叶形成一条杂乱的绿荫道,道路两旁有高矮不一的新旧自建房, 各家各户阳台和门口有水泥台阶或有铁丝网围栏, 内种满牵牛花、空心菜和蒜苗,有的摆折叠椅塑料桌,桌上几个香蕉和橘子, 一个十三岁左右的小女孩骑车经过,背着书包,飞驰而过,好像要迟到了, 有些慌张。真实自然,笔触清晰,高饱和度,光影对比,电影质感。 马克笔手绘插画风格。
从结果来看,PixVerse V5 确实按要求生成了完整的场景:绿叶茂密的小巷,晾晒水果的生活气息,整条巷子的光影、远近景深都很自然,符合日常观感。
这说明它的「语言理解能力」还不错,能把文字转化成具体的画面元素,并且镜头感也在随着人物移动:
人物表现方面,即使没有对白,观众也能看出这是个急着上学的女孩。V5 通过飞扬的头发、晃动的衣袖来表现骑车速度。
如果你仔细看,还能够看到小女孩的眉头都皱着,嘴巴微张,一副「要迟到了」的表情。
画风方面,PixVerse V5 也确实做出了手绘的感觉,颜色也很鲜艳,光影效果不错,有点像看动画电影。
通过这 4 个对模型技术不同维度的测试,PixVerse V5 展现出了比较均衡的综合能力。当然,V5 在某些细节处理和风格一致性方面还有提升空间。
下面,我们再来看 6 个具体场景的测试。
6 个具体场景的测试
1)线描人物与杂乱背景
这一次尝试主要是为了测试 PixVerse V5 在「杂乱背景」中的人物动作表现,画风选择了线描漫画式的手稿风格,同时背景复杂,带有街头涂鸦般的元素。
提示词如下:
功夫大叔穿着白色练功服正在练功打拳。 线描人物,全身,手稿铅笔线条,涂鸦,漫画,凌乱。
难点在于:打拳涉及全身的肌肉调动,极易出现僵硬或机械重复的情况,而且在于背景的融合中很容易出现幻觉。
最后的效果如下:
最终生成的视频中,整体打拳的动作还算连贯,节奏感也相对自然,没有出现明显的「出拳-收拳」循环。
背景部分带有凌乱的街头感,与线描人物形成了一种视觉上的反差。不过动作的细节层次还不够,更多是框架上的拳法展示。
2)国风动漫男做的 AJ 广告
AI 生成视频一个非常多人用来玩的风格就是「国风动漫」。
于是我让 PixVerse V5 生成了一条国风动漫帅哥做的 AJ 广告视频,有简单的剧情以及人声旁白,刚好一起测评一下 PixVerse V5 的「自动人声」功能如何。
提示词如下:
耐克 AJ 的口播视频。巨大的全面屏手机立在城市街景。 一个25岁帅哥,身高190cm,大长腿,短发,身穿白色T恤,黑色科技感夹克,深灰色直筒短裤,AJ鞋。站在一个巨大等我全面屏手机前,低角度构图,巨大手机立在城市街景。 文案(低沉旁白):当潮流,不再局限于屏幕—— 打破边界,让世界为你腾开位置。
生成的视频整体氛围冷色调,视觉上偏向港漫和 CG 风格。旁白音色比较低沉,节奏和停顿与画面衔接还可以,没有出现明显的延迟。
效果如下:
由于上传图片和提示词存在冲突, PixVerse V5对创意进行了结合后生成。整体效果较为完整,但仍可注意到一些细节上的不足,比如人物表情稍显僵硬。
不过从国风动漫风格与背景的融合效果来看,画面和旁白的配合已经具备可参考的样式。自动人声虽然不算有强烈的表演感,但作为辅助工具,表现还算中规中矩。
3)真实风格下的科幻片空战现场
前面尝试了这么多都是人物动漫,接下来试试其他风格。
接下来,我们看下 V5 在处理宏大画面、火光爆炸、多个主体同时存在的情况下,能否保持构图的完整性和细节的真实感,尤其是「真实风格」的表现。
提示词如下:
一个人把直升机打下来了。 高空俯拍,科幻大片质感,真实感,全景,高空,战争。 武装直升机内部视角,战士用机载重机枪向地面扫射,弹壳飞溅, 两架武装直升机向地面发射小型火箭弹, 数枚火箭弹从直升机的弹仓带着白色拖尾飞向地面, 地面一片火海中密集的外星生物,外星巨兽,爆炸,黑烟,加强细节,补光,双倍曝光。
这种宏观场景首先是考验主体部分的动作与情节设计,特效是否足够「逼真」。还有就是非主体部分会不会过于模版化,呈现出明显的「绿幕感」。
最后生成的视频画面展现了武装直升机、爆炸火海和。可以看到子弹飞溅、直升机机体受损的动态,局部细节较为清晰。
下面是 V5 生成的视频:
从整体看,特效和细节虽然没有完美无瑕,但在 AI 自动生成的框架下,画面没有明显的「绿幕感」或生硬拼接。
不过,我觉得这里很值得夸的就是「音效」与人物枪口的火焰以及枪械动作的匹配度,表现不错。
值得一提的是,之前的 PixVerse V4 算是业内首个上线「音画一体」的 AI 视频模型。
4)首尾帧拼接:文字空间
这一部分的重点不在画风,而在测试「首尾帧」功能。这也是许多 AI 视频生成的基础操作。创作者可以上传两张漫画式静态图片,要求系统生成一个逻辑连贯的小动画。
用户可以先确定帧数,也就是你要上传的图片张数,我们先拿最基础的「首尾帧」也就是 2 帧图片作为参考图为例。
比如我这里 2 张书法字空间的图片,整个场景的元素密密麻麻,比较重复也比较复杂:
于是,我就把这两张图片上传到了 PixVerse V5 ,然后输入了两张图片间发生的故事。
提示词其实非常简短:
主角走出了文字障,却进入了一个更大的充满文字的空间。
为了配合画面,我又给它加了一段音效描述:
空间回荡的回声
整个生成过程持续了大约 1 分 30 秒,系统完成后一次性产出了四个 4 秒、1080p 分辨率的视频。这个生成消耗了 360 积分。
我从中挑选了一个效果最好的视频,把它放了上来。
你能看到,整体在画面和声音上结合得很自然,比如主角跨过文字屏障,进入下一个空间时的转换非常自然。而且在第一个场景中的所有文字都有比较好的立体感,随着人物走动,并没有出现什么幻觉:
5)多帧拼接:梦核故障风电子音乐 MV
当然,「首尾帧」不仅仅能将漫画变成有情节的动漫,还能完成一些风格化的意识流艺术创作。
我本人最喜欢的一种风格,也是现在各种平台狂推的「梦核风」。这里科普下,梦核风并不是单一的画风,而是一种「介于梦境与现实之间」的审美风格,比较抽象。
比如这里我就上传了 3 张梦核故障风的图片,看看能不能生成一个电子音乐的MV。
多帧模式下你需要点进去,设置每两张图片之间的「剧情」和「时间」:
由于多帧设置会稍微麻烦点,我就稍微偷个懒,只在前 2 张图片之间输入了整体的提示词:
一个电子音乐的MV
最后出来的结果证明, PixVerse V5 在「多帧」功能上的理解能力还不错,最后的效果很完整:
生成结果并没有对图片做大幅修改,而是通过镜头推进、人物动作衔接来串联。例如第一张图的人物与第二张图的细胞之间,被设定为一种「孕育」的过程,使得画面居然显得有一定叙事意味。
确实有些过于抽象了,但这也正是「梦核」的魅力。
虽然剧情线仍显薄弱,但 PixVerse V5 确实做到了让互不相关的画面「看上去像一个整体」。
6)续写:中式怪诞风格的动画
除了「首尾帧」之外,PixVerse V5 还有一个重要功能是「续写」。也就是根据你上传的视频和提示词,对视频进行延伸。
这里的重点是前后镜头人物形象与风格的一致性。
于是,我上传了一个中式怪诞风格的视频进行测评。原视频是一个穿着唐装的木偶,画着花旦妆,拿着油纸伞,因为视频较短,没什么情节。
既然是中式玄幻怪诞风格,我们可以尝试一个比较有趣的提示词:
女人放出了几个分身。
续写的画面保持了原视频的中式怪诞风格。
人物外形与妆容较为统一,延伸出的分身虽然在细节上各有不同,但整体也能看出与原人物的关联。氛围感也延续了原始视频的气质:
而且,不知道你注意没注意到,主体角色的分身的元素都很统一,像是耳朵旁的吊坠,在全过程中,也都在动态变化。
AI 视频行业正在「迅速工业化」
测试完这么多案例,我们最后来看看 PixVerse V5 模型的价格和生成速度,在我们测试中基本用的都是 1080p、8s,一次生成是 160 积分,基本上只需要十几秒内,比较快。可以说是背后的技术架构决定了速度和目前最大的用户规模。
从 PixVerse 官网来看,15000 积分 = 459 元 = 750 秒,1000 元能做 1634 秒,关于年会员订阅,国内外统一了会有 36% 的降幅。
这个价格对于频繁去各类 AI 视频生成平台的我来说,算是比较「加血」的。
这背后,其实是 AI 视频行业正在「迅速工业化」的推动。
2023 年 4 月 爱诗科技成立,10 月开放 PixVerse 内测。后来的 2 年内,它几乎每个季度都有版本更新。从 2023 年 10 月的 PixVerse V1 到 2025 年 8 月的 V5,PixVerse (拍我 AI)的公司爱诗科技已经把模型版本更新了 8 次。期间,今年六月才上线了拍我 AI 国内版。
上线两个月,产品功能、模块和性能与国际版和性价比全部持平。
爱诗科技的技术一直在做「减法」。
比如,2024 年 10 月的 V3 上线的无提示词特效模板,让很多人感受到「原来我也能做 AI 视频」,于是玩的人多了;到了 V4,视频生成速度提起来、App 上线,用户开始把它当成日常工具;再到 V5,生成质量和效率大幅提升,加上 Agent 创作助手,0 基础用户用一张图就能变成具有叙事能力的完整短片,这才真正把「玩一玩」升级成「能创作」。
这样才逐渐形成了「用户越用越多 → 内容越多越丰富 → 又吸引更多用户」的滚雪球效应。
很多创作者调侃说,PixVerse(拍我 AI) 的迭代速度,像极了早期手游工作室。不怕版本多,就怕更新慢。
便宜,更新快的具现化场景是什么?
举个最简单的例子,如果你每天刷短视频,大概早就注意到:AI 短视频、AI 短剧在各大流量池迅速冒头。我们自己的推荐流里,几条里就有一条。这背后的推力很「工业」,创作者需要「工业化」的 AI 视频工具,便宜、好用、稳定、出视频快:
可以说,当这样的 AI 视频生成模型能够在「实时、懂故事、有审美、To C」等 4 个维度上,更进一步时,AI 视频生成「工业化」才有了一个好的开头。
看完这一圈眼花缭乱的测试,你可能会感觉有点复杂。但如果我们把所有技术名词都拨开,这件事的核心其实非常简单,并且充满了理想主义的温度:
它告诉我们,视频创作的门槛,正在以一种不可思议的速度消失。
PixVerse (拍我 AI)的联合创始人们有着独特的「镜头感」,他们常参与各种大会,利用传播机会,扩展影响力。
创始人王长虎和谢旭璋,都曾在各种场合,表述自己对 AI 视频生成行业未来的看法:
让好的模型带来好的产品。
全世界还有几十亿人没做过视频,我们希望用 AI 帮助这些大多数人,实现视频创作的普惠。
这些表达意味着,过去我们是故事的观众,而之后,人人都有机会成为故事的讲述者。
每个人脑海中那个独一无二、闪闪发光的想法,都能被「AI 摄影机」捕捉。
文章来自于微信公众号“十字路口Crossing”,作者是“小居,镜山”。