开源免费！冲上HuggingFace趋势榜第一，快手最新图生视频模型快被网友玩包浆了

Original 石濑 AI新榜

2024-09-25

作者 | 石濑

编辑 | 张洁

卷完产品，卷开源，快手最近推出的另一款视频模型快被网友玩包浆了。

大叔变身美少女：

OBS实时套皮直播不露馅：

AI视频中的人物对话口型也愈发自然。背后的工作流是：Midjourney+可灵+LivePortrait，其中LivePortrait负责口型同步。

来源：X博主“el.cine”

⚠️注意，视频有声音建议佩戴耳机食用

融入3D工作流：Tripo3D+可灵+LivePortrait。3D可以让创作者更自由地创建不同的场景、照明和视野。

LivePortrait是快手可灵大模型团队近期推出的一款开源可控人像视频生成框架。自开源以来，LivePortrait迅速在AI圈走红。截至目前，它在GitHub上已经获得了9.1K星标，并在HuggingFace的应用趋势榜上位居第一。

以上几段视频中动态的人物表情和说话时自然的嘴部动作，都是由LivePortrait驱动生成的。

目前，LivePortrait的论文代码已开源，可以在线体验或根据GitHub上的教程部署到本地使用。（相关链接已整理同步至文末）

在开源社区的支持下，LivePortrait形成了一套Comfyui工作流。不仅能够对直播中的人物表情进行近乎实时的控制，还支持以V2V视频编辑的方式，将参考视频的人物表情移花接木到另一个视频中，堪称新型赛博“换头术”。

通过摄像头实时控制蒙娜丽莎：

AI爆改经典电影《黑客帝国》，救世主尼克化身喜剧人，严肃科幻打斗秒变喜剧片：

Comfyui插件地址：

github.com/kijai/ComfyUI-LivePortraitKJ

除了无限逼近“实时”的快速生成能力，应用在直播、视频制作等场景中，LivePortrait最大的亮点是突破了以往AI视频生成中常见的人物表情不自然、口型不匹配等问题。

HuggingFace首席战略官Thomas Wolf亲自下场体验，一张自拍照+参考动态视频，口型表情神同步，带给了他神奇的“WOW”时刻。

电影导演、X博主“EHuanglu”近日也发文盛赞LivePortrait是“市场上最好的口型同步软件”。

LivePortrait真有那么神奇吗？我们上手实测了一波。

让AI特朗普模仿拜登“歪嘴笑”，

新一代鬼畜神器来了

在HuggingFace上，找到LivePortrait项目，点击进入在线体验网页，即可无限畅玩。

不过，由于排队体验的人不少，有时会因平台算力资源紧张而无法成功生成视频，需要多尝试几次，有硬件条件的玩家可部署到本地使用。

进入LivePortrait项目主页，目前提供图生视频和图生图两种玩法。

我们从图生视频测起。LivePortrait的图生视频操作步骤很简单：

首先，选择一张高清的正面人像照片作为素材；

其次，准备一段参考视频，用于驱动人像的表情和头部动作，要求视频横纵比为1:1（可用剪映裁剪处理），为了保证生成效果，视频应专注于头部，尽量减少肩部运动，第一帧为中性表情；

最后，点击“Animate”按钮生成视频，生成完成后，点击“Download”按钮可下载视频。

如果懒得找素材，也可以直接用官方提供的示例图片或参考视频，随机组合看看效果。

最近自带“网红体质”的川普再度翻红，我们上传了一张他的静态照片给AI，并随机选择了一个官方参考视频进行测试。

最终生成的视频几乎没有“破绽”，彷佛画面中“偷感很重”的川普真是实拍的。

左边为参考视频、中间为上传图片、右边为生成视频

AI川普既没有“歪脸”，眼睛与嘴巴的运动也符合参考视频要求，甚至笑起来时人物的面部肌肉运动也相当自然。

虽然细看之下可以发现，AI川普的牙齿部分出现了细微的闪影现象，但整体的生成视频效果足以以假乱真。

川普和拜登最近的首场总统竞选辩论，四年一度的“两老二辩日”，我们也让AI魔改了一下。

拜登的经典表情——“人无语了真的会笑”，换到川普脸上会怎么样？

别说，还真有“歪嘴战神”邪魅狂狷那味儿。

与图生视频相比，LivePortrait的图生图操作就更简单了。只需上传你想整活的图片，调节眼睛、嘴巴等部位的张合比例值，可以让图中人物的眼睛或嘴巴相应地张得更大。

比率值设置得越高，眼睛和嘴巴的张合程度也就越大。

AI时代，整蛊名人的创作成本可以说是越来越低了。

目前，HuggingFace在线体验暂不支持V2V视频编辑。对此有需求的玩家可以考虑本地部署LivePortrait模型，并结合开发者Kijai推出的Comfyui插件进行使用。

开源免费，才是真·量大管饱。

逐梦AI视频赛道，“黑马”快手的突围

一键让照片“动”起来这种玩法并不算新鲜。

阿里早前推出了Animate Anyone和Emote Portrait Alive（简称Emo）两款人物动作和表情生成框架，并将它们整合到“全民舞台”APP中，形成了一键让人物跳舞、唱歌的AI视频热门玩法。

与阿里EMO不同，快手推出的LivePortrait放弃了当前主流基于扩散模型的技术路线，而是采用了隐式关键点框架。

阿里EMO采用的稳定扩散方案，通过逐步引入和去除噪声在潜在空间中生成一帧帧图像。

LivePortrait的隐式关键点框架利用一组抽象特征来捕捉图像的关键信息。关键点通常对应面部特定部位，如眼角、嘴角、鼻子等，其位置和变化可以驱动面部表情和头部运动。

通过操作关键点，模型可以精确地控制面部运动细节，实现平滑和逼真的视频生成效果，并在从未见过的图像处理上表现优异。

在“AI新榜”早前的测试中，EMO模型生成的视频仍能看出明显的AI痕迹。

同样一张图片，看看LivePortrait生成的效果。

可以明显看到人物表情处理更自然，但比较可惜的是，现阶段LivePortrait只针对头部生成动态视频。不过，对于鬼畜整活一类的视频来说，AI生成的视频效果质量肉眼可见地变得越来越好了。

此外，扩散模型方案由于需要逐步去噪的步骤较多，通常难以做到实时的高质量视频生成。

而LivePortrait模型可以做到近乎实时生成效果不错的人物面部视频。官方称在RTX 4090 GPU上使用PyTorch，模型生成速度显著达到12.8毫秒，在生成速度和质量上都极具竞争力。

LivePortrait方法与其他现有方法进行比较

这也是为什么网友整新活儿，可以用LivePortrait模型丝滑实现OBS套皮直播。

从技术路线的选择，可以看出快手想要攻克的是AI视频生成的关键难题——人物面部表情的生成。

有业内人士推测，这项技术可能早就接入可灵模型落地应用了一段时间了。之前备受瞩目的国内首部AIGC奇幻短剧《山海奇镜》制作人陈坤曾向我们表示，目前可灵的图生视频功能可能是现阶段所有产品中效果最好的。

《山海奇镜》的制作由可灵提供技术支持。虽然在大场面特效处理上为人所称道，但也不乏一些批评的声音，认为该短剧中的人物面部表情僵硬、表演没有感情。

陈坤也坦言，之后对AI影视的探索会更注重在人物表演上。

据快手官方称，LivePortrait的相关技术点，已在快手的诸多业务完成落地，包括快手魔表、快手私信、快影的AI表情玩法、快手直播、以及快手孵化的面向年轻人的噗叽APP等。

接下来LivePortrait会基于可灵基础模型，进一步探索多模态驱动的人像视频生成。

今年6月初，快手可灵横空出世，一路从国内火到国外。在这种“鲶鱼效应”的推动下，国外AI初创公司Luma推出了Dream Machine视频模型，AI视频赛道头部玩家Runway也更新了其Gen-3模型。

从产品研发到可灵正式上线，快手只花了三个月。

目前，快手可灵已向全球用户开放，并推出了订阅付费模式，正式开启了产品的商业化进程。

而快手对此的技术探索也不是一蹴而就的，最早可以追溯到2023年10月的内部项目“噗叽”：一款将静态图片通过AI生成2s Gif表情包的工具软件。

未来，LivePortrait所代表的人像生成技术会如何落地应用在可灵基础模型上，值得我们期待。

Github地址：

https://github.com/KwaiVGI/LivePortrait

论文链接：

https://arxiv.org/abs/2407.03168

项目主页：

https://liveportrait.github.io/

HuggingFace在线体验：

https://huggingface.co/spaces/KwaiVGI/LivePortrait

欢迎分享、点赞、在看

一起研究AI

继续滑动看下一个

AI新榜

向上滑动看下一个

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

开源免费！冲上HuggingFace趋势榜第一，快手最新图生视频模型快被网友玩包浆了

您可能也对以下帖子感兴趣

从来就不缺傻子！

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

错过这轮牛市，等于2000年错过楼市！

突然大瓜：JJ一哥被举报！

中国人民大学最新报告：相信遥遥领先的人，多数处在社会底层

生成图片，分享到微信朋友圈

开源免费！冲上HuggingFace趋势榜第一，快手最新图生视频模型快被网友玩包浆了

您可能也对以下帖子感兴趣