MiMo V2.5 ASR 视频、音频转字幕工具

#软件#数字媒体#小米

基于 MiMo-V2.5-ASR 语音识别模型,支持从视频/音频文件中提取音频并自动生成 SRT 字幕文件。纯浏览器端处理,无需安装任何软件。项目地址:https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT

在线使用

访问 GitHub Pages 地址 即可使用。

特性

使用方法

  1. 在设置区填入你的 MiMo API Key(从 MiMo 开放平台 获取)
  2. 选择识别语言(默认自动检测)
  3. 拖拽或点击上传视频/音频文件
  4. 点击「开始处理」
  5. 等待处理完成,预览字幕内容
  6. 点击「下载 SRT 字幕文件」

文件结构

1
2
3
4
5
6
7
8
9
public/
├── index.html # 主页面
├── README.md # 本文档
└── static/
└── ffmpeg/ # FFmpeg.wasm 文件(约 30MB)
├── ffmpeg.js
├── ffmpeg-core.js
├── ffmpeg-core.wasm
└── 814.ffmpeg.js

工作原理

1
2
3
4
5
6
7
8
9
10
浏览器端(FFmpeg.wasm)
├── 读取上传的视频/音频文件
├── 提取音频(WAV 16kHz 单声道)
├── 按 15 秒切片
└── 逐段 Base64 编码

浏览器端(JavaScript)
├── 调用 MiMo API 识别每段音频
├── 拼接识别结果
└── 生成 SRT 字幕并提供下载

前置条件

CORS 跨域解决方案

如果遇到跨域错误,可以使用以下任一方式解决:

安装 Allow CORS 扩展,启用后刷新页面。

运行本项目的 Flask 版本(python app.py)https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT/tree/beta ,由服务端代理 API 请求。

许可

本项目仅用于学习和个人使用。语音识别服务由 Xiaomi MiMo 提供。


本项目使用 mimo-v2.5-pro 编写。