性爱大师影音 音频启动东说念主像视频模子:字节Loopy、CyberHost相关后果揭秘|算法|loopy|cyberhost
天上人间av

天上人间av

性爱大师影音 音频启动东说念主像视频模子:字节Loopy、CyberHost相关后果揭秘|算法|loopy|cyberhost

发布日期:2024-10-07 04:51    点击次数:69

性爱大师影音 音频启动东说念主像视频模子:字节Loopy、CyberHost相关后果揭秘|算法|loopy|cyberhost

机器之心发布性爱大师影音

机器之心剪辑部

近期,来自字节越过的视频生成模子 Loopy,如故发布就在 X 上引起了等闲的沟通。Loopy 可以只是通过一张图片和一段音频生成传神的肖像视频,对声息中呼吸,叹惜,挑眉等细节王人能生成的相配当然,让网友直呼哈利波特的魔法也不外如斯。

Loopy 模子收受了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以已毕准确的音频和口型同步,还可以生成渺小当然的颜料动作,举例东说念主物随从神节气拍作念出抬眉、吸气、憋嘴停顿、叹惜、肩膀引导等非话语类动作也能很好地被捕捉到;在唱歌时也能发达得活生动现,独霸不同作风。

柔软

腾贵

rap

视频纠合:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

更多丰富作风的展示,可移步款式主页:https://Loopyavatar.github.io/, https://arxiv.org/pdf/2409.02634

在不同的图片作风上,Loopy 也王人发达得可以,像古风画像、粘土作风、油画作风、3D 素材以及侧脸的情况等等。

视频纠合:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

Loopy 时代有磋商

具体来说,Loopy 是若何仅需音频,就能已毕这么生动的效果呢?

Loopy 框架均别离对外不雅信息(对应图中左上角)和音频信息(图中左下角)作念了相应的措施联想,在外不雅上团队引入了 inter/intra- clip temporal layers 模块,通过 inter-clip temporal layer 来捕捉跨时期片断的时序信息,通过 intra-clip temporal layer 来捕捉单个片断内的时序信息,通过分而治之的方式更好建模东说念主物的引导信息。

同期为了进一步的进步效果,团队联想了 Temporal Segment Module 使得 inter-clip temporal layer 可以捕捉长达 100 帧以上的时序信息,从而可以更好的基于数据学习永劫引导信息依赖,罢休了空间模版的限度,最毕生成更好的东说念主像引导。这就不难领略为什么 Loopy 可以只是依靠音频,不需要任何空间补助信号就可以生成当然传神的东说念主像视频了。

除此之外,为了大要捕捉到精熟的颜料变化,团队联想了一个名为 audio to latents(A2L)的模块,用来增强音频和头部引导之间的关联关系。这个 A2L 模块在覆按经过中会就地及第音频、颜料参数、引导参数中的一个,将其升沉为 motion latents,四肢 diffusion model 的引导限度信号。在测试的时候,只需要音频就大要获得 motion latents。通过这种方式,可以借助与肖像引导强干系的条款(颜料参数、引导参数)来匡助较弱干系的条款(audio)生成更好的 motion latents,进辛劳毕对渺小生动的肖像引导及颜料的生成。

Loopy 在不同场景下王人和近期的措施作念了数值对比,也体现了十分的上风:

CyberHost 半身东说念主像版模子,手部动作也能启动

除此之外,该团队近期还推出了一个名为 CyberHost 的半身东说念主像版块。这款模子是首个收受端到端算法框架进行纯音频启动的半身视频生成系统,将启动鸿沟从肖像扩大到了半身,不仅颜料当然、口型准确,也能生成和音频同步的手部动作,这在该鸿沟是一个紧要冲破。

手部动作生成一直是视频生成时代中的贫寒,鲜有模子能已毕踏实的效果。绝顶是在纯音频启动的场景下,由于枯竭骨架信息输入,保执手部动作的踏实性更具挑战。CyberHost 通过特意联想的 Codebook Attention 来强化对东说念主脸和手部等要害区域的结构先验学习,在纯音频启动下的手部生成质地致使高出了好多基于视频启动的措施。

视频纠合:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

视频纠合:https://mp.weixin.qq.com/s/sf_fmjDUOaQXD7BbovaY5A

Codebook Attention 引入了一系列可学习的时空长入隐变量参数,专注于在覆按经过中学习数据网络局部区域的结构特征和引导模式。同期,该机制还索取了要害区域的外不雅特征,强化了局部 ID 的一致性。团队将这一机制愚弄于脸部和手部区域,并在 Denoising U-Net 的各个阶段进行插入,进步了对要害区域的建模能力。

此外,CyberHost 还联想了一系列基于东说念主体结构先验的覆按战略,旨在减少音频启动下东说念主体动作生成的不细目性。这些战略包括 Body Movement Map 和 Hand Clarity Score。Body Movement Map 可以用于限度视频生成中东说念主体的引导鸿沟。而 Hand Clarity Score 通过狡计局部像素的 laplacian 算子来限度生成手部的了了度,隐敝手部引导朦胧带来的效果劣化。

河北经贸大学教务在线

更多细节见论文以及款式主页:

CyberHost: https://cyberhost.github.io/, https://arxiv.org/pdf/2409.01876

团队先容

字节越过智能创作数字东说念主团队,智能创作是字节越过 AI & 多媒体时代团队,遮掩了狡计机视觉、音视频剪辑、殊效处理等时代鸿沟,借助公司丰富的业务场景、基础口头资源和时代相助氛围,已毕了前沿算法 - 工程系统 - 居品全链路的闭环,旨在以多种形势为公司里面各业务提供业界前沿的试验领略、试验创作、互动体验与耗尽的能力和行业照应有磋商。其中数字东说念主标的专注于成立行业当先的数字东说念主生成和启动时代,丰富智能创作试验生态。

现在性爱大师影音,智能创作团队已通过字节越过旗下的云管事平台火山引擎向企业绽放时代能力和管事。更多大模子算法干系岗亭绽放中。



天上人间av

机器之心发布性爱大师影音 机器之心剪辑部 近期,来自字节越过的视频生成模子 Loopy,如故发布就在 X 上引起了等闲的沟通。Loopy 可以只是通过一张图片和一段音频生成传神的肖像视频,对声息中呼吸,叹惜,挑眉等细节王人能生成的相配当然,让网友直呼哈利波特的魔法也不外如斯。 Loopy 模子收受了 Diffusion 视频生成框架。输入一张图片和一段音频,就可以生成相应的视频。不但可以已毕准确的音频和口型同步,还可以生成渺小当然的颜料动作,举例东说念主物随从神节气拍作念出抬眉、吸气、憋嘴停顿