浏览器端音视频转文字工具:自动分段,利用讯飞API识别长音频
一款基于前端的音视频转文字工具,无需后端服务器,支持自动分段识别长音频,适用于需要自行处理音频转文字的个人用户和开发者。
发现了一款非常实用的开源工具,它是一款纯前端的音视频转文字工具,无需后端服务器支持,可以直接作为静态网页使用,也可以部署到GitHub Pages、Cloudflare Pages等静态托管平台。
🌐 官网在线演示直达,需要自备并填入讯飞凭证才能使用。

长音频转文字的难点往往不在于识别本身,而在于时长限制。许多在线SaaS工具会对免费转写时长进行限制;自己调用语音识别API时,也经常会遇到单次音频长度限制。例如,科大讯飞的语音听写流式接口主要面向短音频即时识别场景,长会议录音通常不能直接整段处理。
voice-to-text-tools将这一步骤前置到浏览器中完成。它会先在本地将长音频自动切成多个短片段,然后按照接口规则逐段发送识别,最后将识别结果重新合并成完整文本。这样用户不需要额外搭建后端服务,也不需要手动剪辑音频。

纯前端音视频转文字工具的核心原理:浏览器分段 + 讯飞API
许多简单的转文字网页实际上只是添加了一个漂亮的UI,你上传大文件进去,它还是会因为不符合API的时长要求而报错。
而这个纯前端音视频转文字工具真正有价值的地方,是引入了FFmpeg WebAssembly。这相当于将一个基础的音视频处理软件搬到了你的浏览器中。

当你上传一段1小时的会议录音时,工具会在你的本地浏览器中自动将其切成一个个几十秒的小段,然后按照讯飞接口的规则,一段段地发送过去识别。识别完成后,前端再将文字原封不动地拼装好,甚至还能帮你导出TXT或Word。它使用你电脑的本地算力,巧妙地适配了API的单次音频时长限制。
上手流程:纯前端如何配置大厂API?
因为没有后端,这个工具运行的前提是你得自备“钥匙”。使用前需要先准备讯飞API凭证,整体跑通大概需要三步:

- 注册账号:前往讯飞开放平台(xfyun.cn),注册并完成实名认证。
- 获取凭证:进入控制台,找到“语音听写服务”,创建应用后,获取对应的APPID、API Key和API Secret。
- 填入配置:打开这个工具的网页(无论是在线演示版还是你自己本地双击打开的HTML),在设置中填入这三项数据,就可以上传文件开始转录了。
纯前端不等于完全离线,隐私边界需要了解清楚
看到“无后端服务器”,很多人容易产生一个误区,以为它完全是在本地断网运行的,或者“数据绝对不上传”。所以这里必须明确它的边界。
项目确实不需要把你的API Key交给作者的服务器,凭证只保存在你浏览器的localStorage中,这防止了中间商窃取秘钥。但是,语音识别的过程依然要走网络。你的音频切片会被真实地发送给科大讯飞的云端服务器进行解析。

适合哪些人使用,不适合哪些场景?
适合折腾的场景:
- 个人用户偶尔转录长会议、课程、采访录音。
- 不想在商业工具上花钱,自己有能力配置API,想尽量控制转写成本的独立开发者或极客。
- 需要快速搭建一个自用的音视频转文字页面,直接部署到GitHub Pages等静态托管平台。
不太适合的场景:

- 对音频数据有严格合规要求、不允许经过任何第三方大厂的企业用户。
- 需要团队共享、多终端云同步、历史记录管理的场景(这只是个单页工具,没有账户体系)。
- 完全不想懂任何配置,只想要一键拖拽出结果的小白用户(老老实实用剪映或飞书更顺手)。
常见问题
Q:讯飞API免费额度怎么算?
A:根据讯飞语音听写接口当前公开文档,新创建应用默认通常会有每日500次免费调用量。具体额度、计费方式和政策可能调整,使用前建议以讯飞控制台显示为准。
Q:我的音视频文件会被第三方小网站存下来吗?
A:不会。文件切割分段在你的浏览器本地完成,识别时音频流直接发送给大厂(讯飞)的API,不经过这个开源项目作者的任何中转服务器。
项目主页与在线演示入口
免责声明:本文基于项目公开源码特性与官方接口说明整理介绍。该工具仅提供前端切片与接口调用框架,实际语音识别质量、隐私数据处理策略及免费配额均受限于第三方服务商(科大讯飞)的官方政策。本站不对第三方API的稳定性及计费负责。