百川智能发布Omni-1.5开源全模态模型

百川智能近日宣布,其自主研发的开源全模态模型Baichuan-Omni-1.5正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解,还具备文本和音频的双模态生成能力。据官方介绍,Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面的表现均优于GPT-4o-mini。在音频技术方面,模型采用了端到端解决方案,支持多语言对话、端到端音频合成,以及自动语音识别和文本转语音等功能,并可实现音视频实时交互。视频理解能力方面,通过对编码器、训练数据和训练方法等多个关键环节的优化,Baichuan-Omni-1.5的整体性能大幅超越GPT-4o-mini。此外,模型在输入和输出端的交互操作上表现出色,拥有强大的多模态推理能力和跨模态迁移能力。在多模态医疗应用领域,Baichuan-Omni-1.5展现了尤为突出的领先优势。