该项目提供了一个基于魔搭社区(modelscope.cn)的简单本地语音转文本工具,默认设置了多款阿里语音识别模型, 可以将音频文件转换为文本并保存到本地。
- 将待识别的音频文件(.wav 格式)放置于
wav文件夹中。 - 确保已安装 Python 3.x 和以下依赖:
pip install -r requirements.txt- 提供简易转换格式功能,请自行安装
ffmpeg - 程序也提供快捷下载和安装
ffmpeg功能(仅限Windows版本)
在终端中执行以下命令
python app.py或
gradio app.py以启动应用
- 在“识别音频”标签页中,选择要使用的模型和待分析的语音文件。
- 点击“开始识别”按钮开始识别,首个文件的识别结果将显示在“预览输出结果”文本框中。
- 识别结果会保存到当前目录下的
output文件夹中,分为全文和带说话人两种格式(如模型支持)。
- 在“转换音频”标签页中,选择待转换的音频文件。
- 请把待转换的音频文件保存到当前目录下的
input文件夹中。 - 点击“开始转换”按钮开始转换。
- 转换成功后的音频文件将支持保存到
wav文件夹中。
- 识别结果可能不是 100% 准确,仅供参考。
- 模型较大,首次使用可能需要等待下载完成。
- 默认代码支持的模型有限,可以根据需要自行修改。
- 仅支持到以下版本的库:
funasr==0.8.7modelscope==1.9.5
- 项目名称
- src/
- recognition.py
转文本的核心代码 - toWav.py
转格式核心代码
- recognition.py
- input/
待转换的其他格式音频文件存放路径 - output/
输出结果文件(txt格式)路径 - wav/
待识别的音频文件存放路径 - app.py
主程序 - modellist.ini
模型配置文件
- src/
本项目采用 MIT 许可开源。详情请参阅 LICENSE 文件。