Skip to content

ByronLeeeee/SimpleSpeechTranscription

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

简易本地语音转文本工具

该项目提供了一个基于魔搭社区(modelscope.cn)的简单本地语音转文本工具,默认设置了多款阿里语音识别模型, 可以将音频文件转换为文本并保存到本地。

如何使用

1. 准备工作

  • 将待识别的音频文件(.wav 格式)放置于 wav 文件夹中。
  • 确保已安装 Python 3.x 和以下依赖:
pip install -r requirements.txt
  • 提供简易转换格式功能,请自行安装ffmpeg
  • 程序也提供快捷下载和安装ffmpeg功能(仅限Windows版本)

2. 运行项目

在终端中执行以下命令

python app.py

gradio app.py

以启动应用

3. 使用方法

识别音频

  • 在“识别音频”标签页中,选择要使用的模型和待分析的语音文件。
  • 点击“开始识别”按钮开始识别,首个文件的识别结果将显示在“预览输出结果”文本框中。
  • 识别结果会保存到当前目录下的 output 文件夹中,分为全文和带说话人两种格式(如模型支持)。

转换音频

  • 在“转换音频”标签页中,选择待转换的音频文件。
  • 请把待转换的音频文件保存到当前目录下的 input 文件夹中。
  • 点击“开始转换”按钮开始转换。
  • 转换成功后的音频文件将支持保存到wav文件夹中。

注意事项

  • 识别结果可能不是 100% 准确,仅供参考。
  • 模型较大,首次使用可能需要等待下载完成。
  • 默认代码支持的模型有限,可以根据需要自行修改。
  • 仅支持到以下版本的库: funasr==0.8.7 modelscope==1.9.5

目录结构

  • 项目名称
    • src/
      • recognition.py 转文本的核心代码
      • toWav.py 转格式核心代码
    • input/ 待转换的其他格式音频文件存放路径
    • output/ 输出结果文件(txt格式)路径
    • wav/ 待识别的音频文件存放路径
    • app.py 主程序
    • modellist.ini 模型配置文件

开源许可

本项目采用 MIT 许可开源。详情请参阅 LICENSE 文件。

About

基于modelscope(魔搭社区)阿里大模型的语音转文本工具

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages