唇动同步仅需规模数据?

张开发
2026/4/6 11:00:47 15 分钟阅读

分享文章

唇动同步仅需规模数据?
原文towardsdatascience.com/scale-is-all-you-need-for-lip-sync-0c571423f60f?sourcecollection_archive---------5-----------------------#2024-06-07阿里巴巴的 EMO 和微软的 VASA-1 简直太强大了。让我们来拆解它们是如何工作的。https://medium.com/jacksaunders909?sourcepost_page---byline--0c571423f60f--------------------------------https://towardsdatascience.com/?sourcepost_page---byline--0c571423f60f-------------------------------- Jack Saunders·发布于Towards Data Science ·11 分钟阅读·2024 年 6 月 7 日–AI 研究的进展正在以指数级速度加快这已经不是什么秘密。过去几年中一个最大的趋势是使用变换器模型来利用大规模数据集。看起来这个趋势终于到达了唇动同步模型领域。阿里巴巴的 EMO 发布为此树立了先例我的意思是看看那些请求发布代码的 200 多个 GitHub 问题。但是随着微软的 VASA-1 上个月发布这个门槛被进一步提高了。来自VASA-1和 EMO 的演示视频。所有图片的版权归各自作者所有。它们受到了很多关注但到目前为止没有人讨论过它们的具体做法。从表面上看它们几乎是完全相同的作品有意为之。两者都使用单一图像并通过音频来动画化它。两者都使用扩散模型并且都通过规模的利用来产生惊人的效果。但实际上背后有一些不同之处。本文将简要探讨这些模型如何运作。我们还将探讨这些论文的伦理考虑鉴于它们显然存在被滥用的潜力。数据一个模型的好坏取决于它训练所使用的数据。或者更简洁地说垃圾进垃圾出。大多数现有的唇动同步论文使用了一到两个相对较小的数据集。我们讨论的这两篇论文在这方面绝对超越了所有竞争对手。让我们来看看它们使用了什么。阿里巴巴在 EMO 中提到我们从互联网收集了大约 250 小时的谈话头像视频并使用 HDTF [34]和 VFHQ [31]数据集对我们的模型进行了补充训练。至于他们所说的额外 250 小时收集的数据具体意味着什么目前还不清楚。然而HDTF 和 VFHQ 是公开可用的数据集所以我们可以进一步分析它们。HDTF包含了 300 个受试者的 16 小时 720 到 1080p 的视频数据。VFHQ没有明确提到数据集的小时数但它有 15,000 个视频片段数据量为 1.2TB。如果我们假设每个视频片段平均至少有 10 秒钟那么这相当于增加了 40 小时的数据。这意味着 EMO 使用了至少 300 小时的数据。对于 VASA-1微软表示该模型在 VoxCeleb2 [13]和我们收集的另一个高分辨率谈话视频数据集上进行训练该数据集包含大约 3.5K 个受试者。再次强调作者对于数据集的大部分内容保持保密。VoxCeleb2是公开的。通过查看相关论文我们可以看到它包含 2442 小时的数据这不是笔误跨越 6000 个受试者尽管其分辨率低于我们提到的其他数据集360 到 720p。这大约是 2TB。微软使用了一个包含 3.5k 个额外受试者的数据集我怀疑这些受试者的质量更高使得模型能够生成高质量的视频。如果我们假设这些视频至少是 1080p并且其中一些是 4k 分辨率且与 VoxCeleb2 的数据集时长相似那么我们可以预期另有 5 到 10TB 的数据。接下来我将做一些有根据的猜测阿里巴巴可能使用了 300 小时的高质量视频1080p 或更高而微软使用了大约 2500 小时的低质量视频可能还使用了 100 到 1000 小时的非常高质量视频。如果我们尝试估算数据集的存储空间大小我们发现EMO 和 VASA-1 每个使用大约 10TB 的面部视频数据来训练他们的模型。以下是一些比较查看下表https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/7e37d00962bd5486f9dcece867f90acf.png几个最先进的谈话头像生成模型的数据集大小估算比较。图像来自我。(CC-BY)模型这两个模型都利用扩散和变换器来处理海量数据集。然而它们在工作原理上有一些关键差异。VASA-1我们可以将 VASA-1 分解为两个组成部分。一个是图像生成模型它接收一些面部表情和姿势的潜在表示并生成一个视频帧。另一个是从音频输入生成这些潜在姿势和表情向量的模型。图像生成模型https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/ac93158b0a2f00186ca3a42c6efe0e9a.pngVASA-1 模型图。左侧显示音频到潜在向量的生成右侧显示图像生成模型。VASA-1 论文中的图示。 (CC-BY)图像生成模型VASA-1 在很大程度上依赖于面部的 3D 体积表示建立在三星之前的工作MegaPortraits的基础上。这里的想法是首先估计源面部的 3D 表示使用预测的源姿态对其进行变形使用源和目标表情的知识对表情进行编辑并在这个规范空间中完成编辑后使用目标姿态将其重新变形。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/af31766ad997f48e2dc3f43e8063036a.pngMegaPortraits 方法的模型图。v 是面部的体积表示e 是身份的描述符R 和 t 是姿态旋转和位移z 是面部表情编码。来自 MegaPortraits 论文。CC-BY更详细地说这个过程如下获取源图像上图中的男子并预测一个简单的 1D 向量代表此人。同时预测一个 4D 张量宽度、高度、深度、RGB作为该人物的体积表示。预测源图像和驱动图像上面的女人的姿态和面部表情。请注意只有姿态估计是预训练的其他所有内容都是从零开始训练的。使用神经网络创建两个变形场。一个使用我们对其身份、姿态和面部表情的估计将男子的体积表示转换到规范空间**这只是意味着正面、表情中立**。另一个使用对女性姿态和表情的估计以及男子的身份将他的规范 3D 面部转换为具有姿态的 3D 面部。将有姿态的人脸“渲染”回 2D 图像。有关他们是如何具体实现这一点的即如何将图像投影到 3D 空间如何实现变形以及如何从 3D 体积中生成 2D 图像请参阅MegaPortraits 论文。目前我们可以将这个高度复杂的过程简化为想象一个模型以某种方式编码源输入然后获取姿态和表情的参数基于这些生成图像。音频到潜在空间生成现在我们有了一种从一系列表情和姿态潜在编码生成视频的方法。然而与 MegaPortraits 不同我们不希望通过他人的表情来控制我们的视频。相反我们希望仅通过音频来控制。为此我们需要构建一个生成模型输入音频输出潜在向量。这个模型需要能够处理大量数据具备同步口型功能并且能够生成多样化且逼真的头部动作。进入扩散 transformer。如果你对这些模型不熟悉我不怪你这里有很多进展需要跟上。我可以推荐以下文章## 扩散 Transformer 解释探索将 transformers 引入图像生成中的架构towardsdatascience.com简而言之扩散变压器DiTs将传统的 UNET 替换为图像扩散模型中的变压器。这种切换使得能够在具有任何结构的数据上进行学习得益于标记化并且已知它在大数据集上扩展得非常好。例如OpenAI 的 SORA模型被认为是一个扩散变压器。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/a05216dfd4de90fe35d5d34a65c23fc3.pngDiT 模型架构来自于可扩展的扩散模型与变压器这个过程的想法是从与潜在向量形状相同的随机噪声开始逐步去噪以生成有意义的向量。然后这个过程可以根据额外的信号进行条件化。对于我们的目的来说这些信号包括音频通过Wav2Vec2提取成特征向量详细了解可以参考FaceFormer。还使用了其他信号。我们不会详细讨论但它们包括眼睛凝视方向和情绪。为了确保时间稳定性先前生成的运动潜在编码也被用作条件信号。EMOhttps://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f2f08853244950e08272af55265967f1.png来自EMO 论文的模型图CC-BYEMO 在其生成过程中采用了稍微不同的方法尽管它仍然依赖于扩散模型的核心。模型图看起来有些拥挤因此我认为最好将其分解成更小的部分。使用 Stable Diffusion首先需要注意的是EMO 大量使用了预训练的 Stable Diffusion 1.5 模型。目前在视觉领域有一个明显的趋势即在此模型基础上进行构建。在上面的图示中参考网络和骨干网络都是 SD1.5 UNET 架构的实例并且是用这些权重进行初始化的。虽然细节不多但可以推测 VAE 的编码器和解码器也是来自 Stable Diffusion。VAE 组件被冻结这意味着 EMO 模型中执行的所有操作都是在该 VAE 的潜在空间中完成的。使用相同的架构和相同的初始权重非常有用因为它允许从一个网络中轻松提取中间层的激活并将其用于另一个网络它们在两个网络中大致表示相同的内容。第一阶段的训练第一阶段的目标是获得一个单图像模型能够根据该人物的参考帧生成一个新颖的图像。这是通过使用扩散模型来实现的。可以使用一个基本的扩散模型来生成人物的随机图像。在第一阶段我们希望以某种方式将生成过程与身份条件化。作者实现这一点的方法是通过使用参考网对人物的参考图像进行编码并将每一层的激活信息引入到进行扩散的主干网络中。请参见下方的画得很差的示意图。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/f82f071f0da2819e967ce8e4b8df2eac.png第一阶段简化版的基本示意图。图像由我制作。CC-BY在这一阶段我们已经有了一个模型能够根据某个人的单张图片生成随机的帧。现在我们需要以某种方式对其进行控制。训练第二阶段我们希望使用两个信号来控制生成的帧运动和音频。音频部分较容易解释因此我将首先讲解这一部分。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/b43d443ec51a2aecd5ff9910ac7cc6da.pngEMO 的主干网络放大图。来自EMO 论文。 (CC-BY)音频和 VASA-1 一样音频以 wav2vec2 特征的形式进行编码。这些特征通过交叉注意力机制被融入主干网络中。这种交叉注意力替代了 Stable Diffusion 1.5 模型中已经存在的文本提示交叉注意力。运动通过运动帧添加运动信息在预测时间 t 的帧时前 n 帧提供了运动的上下文。运动帧与参考帧以相同的方式进行编码。参考网的中间特征激活用于条件化主干模型。这些运动参考激活的引入是通过一个专门设计的交叉注意力层完成的来自AnimateDiff。从这些 n 帧中下一帧 f 会通过扩散模型进行预测。除此之外还使用了两个其他组件。一个提供了一个掩码掩码是通过对训练视频中的所有边界框取并集得到的。这个掩码定义了视频中可以被修改的区域。另一个是添加了一个速度条件。姿势速度被划分为几个桶例如慢速、中速、快速并也包含在内。这使得我们能够在推理时指定运动的速度。推理现在模型能够接受以下内容并生成一组新的帧参考帧之前的 n 帧音频头部运动速度可以被改变的像素边界框对于第一帧虽然没有明确说明但我假设参考帧会被重复并作为最后 n 帧传递。在这一点之后模型是自回归的输出将作为前一帧输入。伦理讨论这些工作的伦理影响当然非常重要。它们只需要一张图片就能创造出非常真实的合成内容。这很容易被用来歪曲他人形象。鉴于近期关于OpenAI 未经 Scarlett Johansen 同意使用听起来非常像她声音的事件这一问题尤为相关。两组的处理方式截然不同。EMOEMO 论文中的讨论非常欠缺。该论文没有讨论伦理影响或提出任何防止滥用的方法。项目页面仅写道“该项目仅用于学术研究和效果展示”这似乎是一次非常弱的尝试。此外阿里巴巴还提供了一个 GitHub 仓库可能会公开代码。考虑这样做的利弊是很重要的正如我们在上一篇文章中讨论的那样。 总体来看EMO 的作者并没有对伦理问题给予太多考虑。VASA-1VASA-1 的作者采取了更全面的方法来防止滥用。他们在论文中专门有一节讨论此问题强调了深伪检测中的潜在应用以及正面效益。https://github.com/OpenDocCN/towardsdatascience-blog-zh-2024/raw/master/docs/img/9470848109e9c0de02bb9ab05b1ff523.png来自 VASA-1 的伦理部分。图片取自arxiv 预印本。除此之外他们还包含了一项相当有趣的声明注意本页上的所有人像图像都是由 StyleGAN2 或 DALL·E-3 生成的虚拟、非真实身份蒙娜丽莎除外。我们正在探索虚拟互动角色的视觉情感技能生成而非模仿任何现实世界中的人物。这仅仅是一个研究示范并没有产品或 API 发布计划。这种方法实际上是微软在一些论文中开始采用的。他们只使用合成人物来创建合成视频并且不公开任何模型。这样做可以防止可能的滥用因为没有编辑任何真实人物。然而这也引发了一个问题创造此类视频的能力集中在具有基础设施训练这些模型的大型科技公司手中。进一步分析在我看来这项工作开启了一系列新的伦理问题。虽然以前可以创建假视频但通常需要几分钟的数据来训练模型。这在很大程度上将潜在的受害者限制为已经创造大量视频的人。尽管这为制造政治虚假信息提供了可能但这些限制帮助抑制了一些其他应用。例如如果某人创建了大量视频就可以通过分析其常见内容他们通常谈论什么持有什么观点等来辨别出不符合其风格的视频。如果只使用一张图片这变得更加困难。而且任何人都可能成为这些模型的受害者。即使是一个拥有个人头像的社交媒体账户也足够作为建立个人模型的数据。此外作为一种不同类型的“深度伪造”目前对如何检测这些模型的研究并不多。以前可能有效的用于捕捉视频深度伪造模型的方法将变得不可靠。我们需要确保这些模型带来的危害得到限制。微软通过限制访问权限并仅使用合成人物的做法在短期内有所帮助。但从长远来看我们需要对这些模型的应用进行强有力的监管并且需要可靠的方法来检测它们生成的内容。结论VASA-1 和 EMO 都是非常出色的论文。它们都利用扩散模型和大规模数据集从音频和一张单独的图片生成极高质量的视频。有几点关键内容让我印象深刻这不完全是“规模就是一切”的情况。两个模型都使用了巧妙的技巧VASA-1 使用 MegaPortiatsEMO 使用参考和主干网络。然而似乎确实存在**“规模是你需要的东西”**的情况。扩散是王道。这两个模型以及大多数最先进的视觉生成模型都使用了扩散方法。看起来变分自编码器VAE和生成对抗网络GAN几乎已经完全过时。嘴唇同步模型的领域可能很快就会成为大公司的专属。如果趋势继续下去学术界将无法建立能够与之竞争的模型。

更多文章