MiMo V2.5 ASR 视频、音频转字幕工具

基于 MiMo-V2.5-ASR 语音识别模型,支持从视频/音频文件中提取音频并自动生成 SRT 字幕文件。纯浏览器端处理,无需安装任何软件。项目地址:https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT 。
在线使用
访问 GitHub Pages 地址 即可使用。
特性
- 纯浏览器端处理,音频提取由 FFmpeg.wasm 完成
- 支持视频格式:MP4、MKV、AVI、MOV、WebM
- 支持音频格式:MP3、WAV、FLAC、AAC、OGG、M4A
- 自动按固定时长切片,逐段识别
- 识别语言支持:中文、英文、自动检测
- 生成标准 SRT 字幕文件,可直接下载
- API Key 本地保存,无需重复输入
使用方法
- 在设置区填入你的 MiMo API Key(从 MiMo 开放平台 获取)
- 选择识别语言(默认自动检测)
- 拖拽或点击上传视频/音频文件
- 点击「开始处理」
- 等待处理完成,预览字幕内容
- 点击「下载 SRT 字幕文件」
文件结构
1 | public/ |
工作原理
1 | 浏览器端(FFmpeg.wasm) |
前置条件
- 现代浏览器(Chrome / Edge / Firefox / Safari)
- MiMo API Key
CORS 跨域解决方案
如果遇到跨域错误,可以使用以下任一方式解决:
- 方式一:使用 CORS 浏览器扩展
安装 Allow CORS 扩展,启用后刷新页面。
- 方式二:本地代理
运行本项目的 Flask 版本(python app.py)https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT/tree/beta ,由服务端代理 API 请求。
许可
本项目仅用于学习和个人使用。语音识别服务由 Xiaomi MiMo 提供。
本项目使用 mimo-v2.5-pro 编写。