中国电信 TeleAI 星辰语音大模型升级:支持中英双语及 40 种方言任意混说
中国电信人工智能研究院(TeleAI)在2023年5月发布了业内首个支持30种方言自由混说的语音识别大模型——星辰超多方言语音识别大模型。这一创新技术使得用户能够混合使用多种方言和普通话进行交流,极大地提高了语音识别的灵活性和实用性。
在不到半年的时间里,TeleAI团队再次对星辰语音大模型进行了升级,新增了对湛江话、宜宾话、洛阳话、烟台话等方言的支持,使方言种类从30种增加到40种,并且还引入了对英文的识别能力。这一升级进一步增强了模型的语言处理能力,为用户提供了更加丰富和便捷的交流体验。
TeleAI采用了一种独特的“预训练+微调”的模型训练方法。首先,通过预训练语音识别模型,利用海量的无标注数据进行初步训练。然后,使用少量有标注的数据进行模型的微调,以适应特定的应用场景和需求。这种训练方法特别适合方言语音数据的特点,即无标注数据多而有标注数据少。
TeleAI还在模型结构和成本优化方面进行了创新,实现了对人工标注数据的需求量大幅降低,大约减少了50倍。同时,模型效果与传统的完全依赖有监督训练的方言模型相当,甚至在某些情况下表现更优。
为了促进技术的共享和合作,TeleAI将星辰语音大模型和相关技术开源,并提供了GitHub上的访问链接:https://github.com/Tele-AI/TeleSpeech-ASR。这一举措将有助于全球的研究人员和开发者共同推动语音识别技术的发展,尤其是在方言识别领域。
总的来说,TeleAI星辰语音大模型的升级标志着中国在人工智能技术,特别是语音识别领域的又一重要里程碑。这一技术的发展不仅提升了用户体验,也为智能通信、智能家居、智能客服等领域的应用提供了新的可能。随着技术的不断迭代和优化,我们可以期待未来语音识别技术将会更加智能化、多样化,为人们的生活带来更多的便利和惊喜。