一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

OSUM是由西北工业大学 ASLP 实验室开发的开源语音理解模型,旨在探索在有限的学术资源下如何高效训练和利用语音理解模型,以推动相关技术的研究与创新。该模型结合了 Whisper 编码器和 Qwen2 语言模型,支持多种语音任务,并通过 ASR+X 训练策略优化多任务学习。

一款由西北工业大学 ASLP 实验室开发的开源语音理解模型——OSUM

OSUM功能特点:

1、多任务支持

OSUM 支持 8 种语音任务,包括语音识别(ASR)、带时间戳的语音识别(SRWT)、语音事件检测(VED)、语音情感识别(SER)、说话风格识别(SSR)、说话人性别分类(SGC)、说话人年龄预测(SAP)以及语音转文本聊天(STTC)。

2、高效多任务训练

采用 ASR+X 训练策略,同时优化模态对齐和目标任务,实现高效稳定的多任务训练。

3、数据透明性

训练方法和数据准备过程均已开放,为学术界提供参考。

4、性能提升

技术报告 v2.0 显示,训练数据量增至 50.5K 小时,模型性能显著提升。

5、开源许可

代码和权重在 Apache 2.0 许可下开放,可用于学术和商业目的。

进入OSUM项目网址入口