百川智能发布Omni-1.5开源全模态模型

AI资讯

2个月前

百川智能近日宣布，其自主研发的开源全模态模型Baichuan-Omni-1.5正式上线。该模型不仅支持文本、图像、音频和视频的全模态理解，还具备文本和音频的双模态生成能力。据官方介绍，Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面的表现均优于GPT-4o-mini。在音频技术方面，模型采用了端到端解决方案，支持多语言对话、端到端音频合成，以及自动语音识别和文本转语音等功能，并可实现音视频实时交互。视频理解能力方面，通过对编码器、训练数据和训练方法等多个关键环节的优化，Baichuan-Omni-1.5的整体性能大幅超越GPT-4o-mini。此外，模型在输入和输出端的交互操作上表现出色，拥有强大的多模态推理能力和跨模态迁移能力。在多模态医疗应用领域，Baichuan-Omni-1.5展现了尤为突出的领先优势。

百川智能发布Omni-1.5开源全模态模型

最新内容