简易本地语音转文本工具

该项目提供了一个基于魔搭社区（modelscope.cn)的简单本地语音转文本工具，默认设置了多款阿里语音识别模型，可以将音频文件转换为文本并保存到本地。

如何使用

1. 准备工作

将待识别的音频文件（.wav 格式）放置于 wav 文件夹中。
确保已安装 Python 3.x 和以下依赖：

pip install -r requirements.txt

提供简易转换格式功能，请自行安装ffmpeg
程序也提供快捷下载和安装ffmpeg功能（仅限Windows版本）

2. 运行项目

在终端中执行以下命令

python app.py

或

gradio app.py

以启动应用

3. 使用方法

识别音频

在“识别音频”标签页中，选择要使用的模型和待分析的语音文件。
点击“开始识别”按钮开始识别，首个文件的识别结果将显示在“预览输出结果”文本框中。
识别结果会保存到当前目录下的 output 文件夹中，分为全文和带说话人两种格式（如模型支持）。

转换音频

在“转换音频”标签页中，选择待转换的音频文件。
请把待转换的音频文件保存到当前目录下的 input 文件夹中。
点击“开始转换”按钮开始转换。
转换成功后的音频文件将支持保存到wav文件夹中。

注意事项

识别结果可能不是 100% 准确，仅供参考。
模型较大，首次使用可能需要等待下载完成。
默认代码支持的模型有限，可以根据需要自行修改。
仅支持到以下版本的库： funasr==0.8.7 modelscope==1.9.5

目录结构

项目名称
- src/
  - recognition.py 转文本的核心代码
  - toWav.py 转格式核心代码
- input/ 待转换的其他格式音频文件存放路径
- output/ 输出结果文件（txt格式）路径
- wav/ 待识别的音频文件存放路径
- app.py 主程序
- modellist.ini 模型配置文件

开源许可

本项目采用 MIT 许可开源。详情请参阅 LICENSE 文件。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

简易本地语音转文本工具

如何使用

1. 准备工作

2. 运行项目

3. 使用方法

识别音频

转换音频

注意事项

目录结构

开源许可

About

Uh oh!

Releases

Packages

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
input		input
output		output
src		src
wav		wav
LICENSE		LICENSE
README.md		README.md
app.py		app.py
modellist.ini		modellist.ini
requirements.txt		requirements.txt

Folders and files

Latest commit

History

Repository files navigation

简易本地语音转文本工具

如何使用

1. 准备工作

2. 运行项目

3. 使用方法

识别音频

转换音频

注意事项

目录结构

开源许可

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Uh oh!

Contributors

Uh oh!

Languages

Packages