阿里云通义万相推出图像编辑模型ACE,可实现一键P图
阿里云通义万相团队近日推出了一种名为ACE的图像编辑模型,该模型能够实现基于用户输入的文字描述进行一键式图像编辑和生成。ACE模型适用于多种场景,包括风格化写真、分镜制作和室内设计等。目前,ACE模型已经向全球开发者开源,其局部风格化功能已在通义APP上发布。
图像编辑是图像生成模型中的一个重要辅助功能。在过去,业界通常采用LoRA、ControlNets 和 T2I 模型的组合来实现图像编辑能力。然而,这种方案流程较为复杂,且使用门槛较高,限制了普通用户的直接体验。与传统的图像编辑模型不同,ACE模型不仅支持文生图,还支持图像编辑,用户可以通过输入口语化的指令来完成视觉编辑、元素编辑、区域重绘编辑和分层编辑等任务,就像使用对话的方式来进行PS操作一样,例如可以一键去除水印或修改证件照背景,极大地提高了编辑效率。
通过公开论文,我们可以了解到该团队提出了Long-context Condition Unit模块(LCU),该模块能够支持通用编辑任务所需的各种多模态条件输入。同时,他们还搭建了全面的数据构造链路和指令集生成链路,最终实现了精准和高质量的图像指令编辑效果。测试结果表明,ACE模型在MagicBrush的单轮/多轮编辑的多项指标和EMU Edit数据集的单轮编辑指标上均取得了领先成绩。
ACE模型在魔搭社区、Github、Huggingface等开源社区和社交平台上引发了国内外开发者的广泛讨论,并一度登上Huggingface周榜第二和总榜第五。此外,ACE模型的局部风格化功能已经正式在通义APP上发布,用户只需上传一张照片,就能实现对图中特定对象的风格化处理。
通义万相算法团队表示,未来他们将致力于进一步提升ACE编辑模型的准确性,并逐步开放重绘、定制化生成和组合生成等功能,以使用户能够更加便捷地实现创意设计。目前,通义万相已经推出了图像生成、图像编辑和视频生成等多种能力,累计生成图片超过2亿张。
开源地址:
- 魔搭社区:https://www.modelscope.cn/models/iic/ACE-0.6B-1024px
- Github:https://github.com/ali-vilab/ACE
- Huggingface:https://huggingface.co/spaces/scepter-studio/ACE-Chat