MiMo V2.5 ASR 视频、音频转字幕工具

2026-06-10 #软件 #数字媒体 #小米

基于 MiMo-V2.5-ASR 语音识别模型，支持从视频/音频文件中提取音频并自动生成 SRT 字幕文件。纯浏览器端处理，无需安装任何软件。项目地址：https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT 。

在线使用

访问 GitHub Pages 地址即可使用。

特性

纯浏览器端处理，音频提取由 FFmpeg.wasm 完成
支持视频格式：MP4、MKV、AVI、MOV、WebM
支持音频格式：MP3、WAV、FLAC、AAC、OGG、M4A
自动按固定时长切片，逐段识别
识别语言支持：中文、英文、自动检测
生成标准 SRT 字幕文件，可直接下载
API Key 本地保存，无需重复输入

使用方法

在设置区填入你的 MiMo API Key（从 MiMo 开放平台获取）
选择识别语言（默认自动检测）
拖拽或点击上传视频/音频文件
点击「开始处理」
等待处理完成，预览字幕内容
点击「下载 SRT 字幕文件」

文件结构

public/
├── index.html              # 主页面
├── README.md               # 本文档
└── static/
    └── ffmpeg/             # FFmpeg.wasm 文件（约 30MB）
        ├── ffmpeg.js
        ├── ffmpeg-core.js
        ├── ffmpeg-core.wasm
        └── 814.ffmpeg.js

工作原理

浏览器端（FFmpeg.wasm）
├── 读取上传的视频/音频文件
├── 提取音频（WAV 16kHz 单声道）
├── 按 15 秒切片
└── 逐段 Base64 编码

浏览器端（JavaScript）
├── 调用 MiMo API 识别每段音频
├── 拼接识别结果
└── 生成 SRT 字幕并提供下载

前置条件

现代浏览器（Chrome / Edge / Firefox / Safari）
MiMo API Key

CORS 跨域解决方案

如果遇到跨域错误，可以使用以下任一方式解决：

方式一：使用 CORS 浏览器扩展

安装 Allow CORS 扩展，启用后刷新页面。

方式二：本地代理

运行本项目的 Flask 版本（python app.py）https://github.com/XieYuQAQ/MiMo-V2.5-ASR-Video-to-SRT/tree/beta ，由服务端代理 API 请求。

许可

本项目仅用于学习和个人使用。语音识别服务由 Xiaomi MiMo 提供。

本项目使用 mimo-v2.5-pro 编写。