字节跳动 X-Portrait2 技术:引领 AI 视频驱动的新时代

字节跳动智能创作团队提出的 X-Portrait2 单图视频驱动技术,实现了仅凭一张静态照片和一段驱动视频生成高质量、电影级视频的突破。该技术不仅能保留原图身份,还能精确捕捉并迁移表情和情绪,为创作角色动画和视频片段提供了低成本且高效的方法。实测中,X-Portrait2 展现了逼真的表情和动作复刻能力,即使是在不同风格和 ID 差异较大的情况下,也能生成协调自然的视频。

技术背后,X-Portrait2 通过创新的端到端自监督训练框架和表情编码器模型,实现了外观和运动的解耦,能够提取不同颗粒度的表情特征并迁移到扩散模型中。这使得模型能够跨 ID、跨风格地进行动作迁移,适用于多种应用场景。

与谷歌支持的 Runway Act-One 等技术相比,X-Portrait2 在表现力和 ID 保持性方面表现更优,能够准确表现快速头部动作、细微表情变化和个人强烈情感。

X-Portrait2 的内部测试版本已经展现了巨大的应用潜力,未来随着技术的成熟和完善,将有望加速内容创作、数字人、XR 等领域的发展,为我们的生活带来更多变革。生成式 AI 的未来充满无限可能,而字节跳动等公司正在通过技术创新引领这一潮流。