Stability AI 供给了两个模型变体,分别是 SV3D_u 和 SV3D_p。其间 SV3D_u 依据单个图画输入生成轨迹视频,不需要相机调整;SV3D_p 经过适配单个图画和轨迹视角扩展了生成才能,答应沿着指定的相机途径创立 3D 视频。
现在,Stable Video 3D 的研讨论文现已放出,中心作者有三位。
以往的办法一般倾向于处理有限视角和输入不一起的问题,而 Stable Video 3D 能够从任何给定视点供给衔接视图,并能够很好地泛化。因而,该模型不只增加了姿态可控性,还能保证多个视图中目标外观的一起性,进一步改善了影响线D 生成的关键问题。
如下图所示,与 Stable Zero123、Zero-XL 比较,Stable Video 3D 能够生成细节更强、更忠诚于输入图画和多视角更一起的新颖多视图。
为此,Stability AI 规划了掩码分数蒸馏采样丢失,逐步增强了猜测视图中未见过区域的 3D 质量。一起为了减轻烘焙照明问题,Stable Video 3D 选用了与 3D 形状和纹路一起优化的解耦照明模型。
下图为运用 Stable Video 3D 模型及其输出时,经过 3D 优化改善后的 3D 网格生成示例。
Stable Video 3D 模型的架构如下图 2 所示,它依据 Stable Video Diffusion 架构构建而成,包含一个具有多个层的 UNet,其间每一层又包含一个带有 Conv3D 层的残差块序列,以及两个带有注意力层(空间和时刻)的 transformer 块。
(iii) 条件图画的 CLIPembedding 矩阵被供给给每个 transformer 块的穿插注意力层来充任键和值,而查询成为相应层的特征;
(iv) 相机轨迹沿着分散噪声时刻步被馈入到残差块中。相机姿态视点 ei 和 ai 以及噪声时刻步 t 首要被嵌入到正弦方位嵌入中,然后将相机姿态嵌入衔接在一起进行线性变换并增加到噪声时刻步嵌入中,最终被馈入到每个残差块并被增加到该块的输入特征中。
此外,Stability AI 规划了静态轨迹和动态轨迹来研讨相机姿态调整的影响,详细如下图 3 所示。
在静态轨迹上,相机选用与条件图画相同的仰角,以等距方位角环绕目标旋转。这样做的缺陷是依据调整的仰角,或许没办法取得关于目标顶部或底部的任何信息。而在动态轨迹上,方位角能够不等距,每个视图的仰角也能够不同。
为了构建动态轨迹,Stability AI 对静态轨迹采样,向方位角增加小的随机噪声,并向其仰角增加不同频率的正弦曲线的随机加权组合。这样做供给了时刻滑润性,并保证相机轨迹沿着与条件图画相同的方位角和仰角循环完毕。
表 1 和表 3 显现了 Stable Video 3D 与其他模型在静态轨迹的成果,表良辰美景即使是无姿态调整的模型 SV3D_u,也比一切从前的办法体现得更好。
融化剖析依据成果得出,SV3D_c 和 SV3D_p 在静态轨迹的生成方面优于 SV3D_u,虽然后者专门在静态轨迹进步行了风雨同舟。
下表 2 和表 4 展现了动态轨迹的生成成果,包含姿态调整模型 SV3D_c 和 SV3D_p,后者在一切指标上完成了 SOTA。
下图 6 中的视觉比较成果进一步标明,与以往作业比较,Stable Video 3D 生成的图画细节更强、更忠诚于条件图画、多视角愈加一起。