在当今数字化时代,语音识别技术作为人机交互的关键桥梁,已经广泛应用于智能客服、语音助手、会议转录等众多领域。随着人工智能技术的飞速发展,越来越多的开源语音识别大模型应运而生,为用户提供了性能卓越的语音识别解决方案。本文将揭秘开源语音识别领域最佳大模型,帮助您轻松驾驭语音识别技术。
一、Dolphin:支持东方40语种+中国22方言的新SOTA开源语音大模型
1. 核心亮点
- 支持东方40个语种的语音识别:Dolphin专为东方语言设计,支持包括越南语、缅甸语等在内的40个东方语种。
- 中文语种支持22方言(含普通话):在中文语种上,Dolphin支持22种方言,包括普通话。
- 训练数据总时长21.2万小时:其中海天瑞声高质量专有数据13.8万小时,开源数据7.4万小时。
- 性能卓越:在3个测试集(海天瑞声、Fleurs、CommonVoice)下,与Whisper同等尺寸模型相比,Dolphin的base、small、medium、large版本平均WER分别降低63.1%、68.2%、67.7%、60.6%。
2. 论文与开源代码
- 论文题目:Dolphin: A Large-Scale Automatic Speech Recognition Model for Eastern Languages
- 论文链接:https://arxiv.org/abs/2503.20212
- Github:https://github.com/DataoceanAI/Dolphin
- Huggingface:https://huggingface.co/DataoceanAI/Mode
二、FireRedASR:中文效果新SOTA的语音识别模型
1. 核心亮点
- 中文效果新SOTA:FireRedASR在业界广泛采用的中文普通话公开测试集上,凭借卓越的性能取得了新SOTA。
- CER降低8.4%:对比此前的SOTA Seed-ASR,错误率相对降低8.4%。
- 开源模型与推理代码:FireRedASR系列模型包含FireRedASR-LLM和FireRedASR-AED两种核心结构,分别针对语音识别的极致精度和高效推理需求量身打造。
2. 论文与开源代码
- 论文题目:FireRedASR: Open-Source Industrial-Grade Mandarin Speech Recognition Models from Encoder-Decoder to LLM Integration
- 论文地址:http://arxiv.org/abs/2501.14350
- 项目地址:https://github.com/FireRedTeam/FireRedASR
三、SenseVoice:语音识别效果和性能强于Whisper
1. 核心亮点
- 语音识别效果优于Whisper:SenseVoice是由阿里开源的具有音频理解能力的音频基础模型,其语音识别效果和性能强于Whisper。
- 检测掌声、笑声、咳嗽等:SenseVoice还能检测掌声、笑声、咳嗽等声学事件。
2. 主要功能
- 语音识别(ASR):支持中、粤、英、日、韩语等50多种语言。
- 语种识别(LID):识别语音的语种。
- 语音情感识别(SER):识别语音的情感。
- 声学事件分类(AEC):分类声学事件,如掌声、笑声、咳嗽等。
- 声学事件检测(AED):检测声学事件。
3. 开源代码
四、总结
开源语音识别领域的大模型在性能和功能上都有了显著的提升,为用户提供了更多选择。本文介绍了Dolphin、FireRedASR、SenseVoice等优秀的大模型,希望对您在语音识别领域的应用有所帮助。