今有佛弟子为辅助法师讲法转录,借用先进的AI语音识别模型,封装了一个音频转录与润色的神器,并在Github开源,欢迎大家使用!
https://github.com/jusway/Voicer
✨ 特性
- 由于Qwen3-ASR-Flash模型API的限制(文件小于10MB,时长小于3分钟),本项目基于Silero进行语音活动检测(VAD)和分割,将长音频分割为多个小于3分钟的片段,然后调用Qwen3-ASR-Flash识别,前面的音频识别结果作为后面识别的上下文,如此保证识别长音视频的连贯性。
- 支持常见音视频格式的输入,包括但不限于MP3、WAV、M4A、FLAC、MP4、AVI、MOV等。
🚀 快速开始
环境要求
- Python 3.11+
- FFmpeg(用于音频转换)
- 阿里云DashScope API Key
GUI 界面(wxPython)
项目提供 wxPython 图形界面:
# 启动 GUI(推荐用 uv)
uv run python run_gui.py
# 或使用模块方式
uv run python -m src.gui_wx.app
安装
- 克隆项目
git clone <repository-url>
- 安装依赖
# 使用uv(推荐)
uv sync
- 依赖自动下载
- 首次启动时会自动下载 Silero VAD 模型到 external/silero_vad/
- ffmpeg 优先使用系统 PATH;若未安装,可设置环境变量 FFMPEG_ZIP_URL 为“包含 ffmpeg.exe 和 ffprobe.exe 的 ZIP 包”的直链,脚本会自动下载并解压到 external/ffmpeg/
设置方式(临时生效,推荐在命令行中使用):
- Windows PowerShell
$env:FFMPEG_ZIP_URL="https://example.com/ffmpeg.zip"; uv run python -m scripts.download_external
- Windows CMD
set FFMPEG_ZIP_URL=https://example.com/ffmpeg.zip && uv run python -m scripts.download_external
- macOS/Linux Bash
export FFMPEG_ZIP_URL=https://example.com/ffmpeg.zip && uv run python -m scripts.download_external
或者直接执行(若已安装 ffmpeg 并在 PATH 中,无需设置该变量):
uv run python -m scripts.download_external
🛠️ 故障排除
常见问题
- FFmpeg未找到
# Windows (使用Chocolatey) choco install ffmpeg # macOS (使用Homebrew) brew install ffmpeg # Linux (Ubuntu/Debian) sudo apt install ffmpeg
📄 许可证
本项目采用 MIT 许可证 – 详见 LICENSE 文件
🤝 贡献
欢迎提交Issue和Pull Request!
📞 支持
如果您遇到问题或有建议,请:
- 提交 Issue
🙏 致谢
- 阿里云通义千问 – 提供ASR API服务
- Silero VAD – 语音活动检测模型
- FFmpeg – 音频处理工具
注意:使用本系统需要阿里云DashScope API Key,请确保遵守相关服务条款和使用限制。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...
