字节跳动推出 OminiHuman 模型,实现照片到视频的智能转换
随着人工智能技术的不断进步,从静态图像到动态视频的转换正变得越来越智能化。近期,字节跳动公司发布了一项名为 OminiHuman-1 的人工智能模型,该模型基于扩散变换器(Diffusion Transformer)架构,能够从单一图像和运动信号中生成高度逼真的人体视频。这一突破性的技术不仅在肖像动画领域取得了显著成果,而且能够处理各种长宽比和身体比例,为需要制作人体动画的应用程序提供了强大的支持。
与之前专注于静态人体动画或肖像的方法不同,OmniHuman-1 通过全方位条件训练,有效地扩展了运动数据,从而显著提高了手势逼真度、肢体运动以及人与物体之间的交互效果。这种训练方式使得模型能够更好地理解和生成复杂的人体动作,为视频内容的创作提供了更多的可能性。
据 MarkTechPost 报道,OmniHuman-1 的推出标志着人工智能技术在视频生成领域的又一重要里程碑。该模型不仅能够为影视制作、游戏开发等行业提供高质量的动画素材,还有望在虚拟现实、增强现实等领域发挥重要作用。随着技术的不断迭代和优化,我们可以期待未来看到更多由 OminiHuman 模型创造的逼真视频内容。