FunASR - 自动语音识别(ASR)的开源工具包

FunASR 是一个专注于自动语音识别(ASR)的开源工具包,由阿里巴巴达摩院开发。 它旨在提供高效、灵活的语音识别解决方案,适用于多种应用场景。

1. 应用场景

FunASR 可广泛应用于语音助手、语音输入、语音翻译、语音搜索等领域。

适用于智能家居、车载系统、客服系统等多种场景。

2. 功能

FunASR 提供了丰富的功能,主要包括: - 自动语音识别(ASR):将语音信号转换为文本。 - 流式识别:支持实时语音识别,适用于需要即时反馈的场景。 - 非流式识别:适用于离线处理,能够处理较长的音频文件。 - 多语言支持:支持多种语言的语音识别,如中文、英文等。 - 模型训练与微调:提供工具和接口,方便用户自定义训练和微调模型。 - 预训练模型:提供多种预训练模型,用户可以直接使用或在此基础上进行微调。

2. 安装

首先安装python, 确保python>=3.8。

pip3 install -U funasr pip3 install torchaudio

提示:Successfully installed torch-2.6.0 torchaudio-2.6.0

3. 运行

funasr ++model=paraformer-zh ++vad_model="fsmn-vad" ++punc_model="ct-punc" ++input=example.wav

example.wav 为待解析的语音文件,解析成功后输出到屏幕终端上。

4. 参考资料

https://github.com/modelscope/FunASR

https://www.funasr.com/#/