CogVideoX + CogSound: Enhancing Silent Videos with Immersive Sound Effects
早在2021年,我们便开始了大规模训练视频生成模型的探索,先后推出了CogVideo(Hong et al. 2022)和CogVideoX(Yang, Teng et al. 2024)系列模型。2024年7月,清言上线了国内首个面向公众开放的视频生成产品“清影”。今天,清影迎来了重要升级:支持生成10s时长、4K、60帧超高清画质视频,且自带音效,人体动作和物理世界模拟也得到了显著改善。新清影即日起在智谱清言网页和App上线(https://chatglm.cn/video)。同时,我们也将最新的CogVideoX v1.5模型进行了开源,开源地址(https://github.com/thudm/cogvideo)。
基于CogVideoX模型的最新技术进展和我们最新推出的音效模型CogSound,新清影在以下五个方面实现了提升:
1. 模型能力提升:在视频质量、美学表现、运动合理性以及复杂提示词语义理解方面能力显著增强。
2. 4K超高清分辨率:支持生成10s、4K、60帧超高清视频。
3. 可变比例:支持任意比例,以适应不同的播放需求。
4. 多通道生成能力:同一指令/图片可以一次性生成4个视频。
5. 带声效的AI视频:可以生成与画面匹配的音效。音效功能(CogSound)将很快在本月上线公测。
我们在数据筛选、模型结构、视频理解、transformer架构和训练框架等多个方面进行了多项创新,并验证了scaling law在视频生成方面的有效性。在这篇博客中,我们将主要介绍CogVideoX的最新技术和音效模型CogSound的技术概况。我们认为,多模态大模型是通往通用人工智能(AGI)的必由之路,CogVideoX和CogSound是我们在这条路上迈出的重要一步。
### CogVideoX: Model Further Upgrades
CogVideoX是我们在视频生成领域的最新成果,在内容连贯性、可控性和训练效率等方面实现了多项创新。下图为CogVideoX的模型架构:
图|CogVideoX架构
为了解决视频数据中存在的噪声和质量问题,我们专门构建了一个自动化数据筛选框架,过滤不良数据。针对内容连贯性问题,我们自研了一个高效的三维变分自编码器结构(3D VAE),将原视频空间压缩至2%大小,大大减少了视频扩散生成模型的训练成本和难度。我们将因果三维卷积(Causal 3D convolution)作为主要模型组件,移除了自编码器中常用的注意力模块,使得模型具备了在不同分辨率下迁移使用的能力。同时,在时间维度上因果卷积的形式,也使得模型具备了视频编解码从前向后的序列独立性,便于通过微调向更高帧率和更长时间泛化。在工程部署方面,我们基于时间维度上的序列并行(Temporal Sequential Parallel)对变分自编码器做了微调和部署,使其能够在更小的显存占用下支持极高帧数视频的编解码。
为了解决视频数据缺乏对应描述性文本或描述质量低下的问题,我们自研了一个端到端的视频理解模型CogVLM2-caption,为海量视频数据生成详细的、贴合内容的描述,进而增强模型的文本理解和指令遵循能力,更好地理解超长、复杂的prompt,生成的视频也更符合用户的输入。
为了提高训练效率,我们构建了一个扩散模型高效训练框架,通过各种并行计算和极致的时间优化,我们能够快速地训练较长的视频序列;借鉴NaViT的做法,我们的模型可以同时训练各种不同分辨率、不同时长的视频,而无需对视频进行裁剪,从而避免了因各种裁剪可能导致的偏差,同时模型也具备了生成任意分辨率视频的能力。
### CogSound: Adding Immersive Sound Effects to Silent Videos
音效模型CogSound是我们多模态模型家族的最新成员,能够根据视频自动生成音效、节奏等音乐元素。基于GLM-4V的视频理解能力,CogSound能够准确识别并理解视频背后的