浏览器端音视频转文字工具：自动分段，利用讯飞API识别长音频

一款基于前端的音视频转文字工具，无需后端服务器，支持自动分段识别长音频，适用于需要自行处理音频转文字的个人用户和开发者。

2 个月前1 小时前79AI工具音视频转文字讯飞API前端工具长音频识别

发现了一款非常实用的开源工具，它是一款纯前端的音视频转文字工具，无需后端服务器支持，可以直接作为静态网页使用，也可以部署到GitHub Pages、Cloudflare Pages等静态托管平台。

🌐 官网在线演示直达，需要自备并填入讯飞凭证才能使用。

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

长音频转文字的难点往往不在于识别本身，而在于时长限制。许多在线SaaS工具会对免费转写时长进行限制；自己调用语音识别API时，也经常会遇到单次音频长度限制。例如，科大讯飞的语音听写流式接口主要面向短音频即时识别场景，长会议录音通常不能直接整段处理。

voice-to-text-tools将这一步骤前置到浏览器中完成。它会先在本地将长音频自动切成多个短片段，然后按照接口规则逐段发送识别，最后将识别结果重新合并成完整文本。这样用户不需要额外搭建后端服务，也不需要手动剪辑音频。

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

纯前端音视频转文字工具的核心原理：浏览器分段 + 讯飞API

许多简单的转文字网页实际上只是添加了一个漂亮的UI，你上传大文件进去，它还是会因为不符合API的时长要求而报错。

而这个纯前端音视频转文字工具真正有价值的地方，是引入了FFmpeg WebAssembly。这相当于将一个基础的音视频处理软件搬到了你的浏览器中。

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

当你上传一段1小时的会议录音时，工具会在你的本地浏览器中自动将其切成一个个几十秒的小段，然后按照讯飞接口的规则，一段段地发送过去识别。识别完成后，前端再将文字原封不动地拼装好，甚至还能帮你导出TXT或Word。它使用你电脑的本地算力，巧妙地适配了API的单次音频时长限制。

上手流程：纯前端如何配置大厂API？

因为没有后端，这个工具运行的前提是你得自备“钥匙”。使用前需要先准备讯飞API凭证，整体跑通大概需要三步：

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

注册账号：前往讯飞开放平台（xfyun.cn），注册并完成实名认证。
获取凭证：进入控制台，找到“语音听写服务”，创建应用后，获取对应的APPID、API Key和API Secret。
填入配置：打开这个工具的网页（无论是在线演示版还是你自己本地双击打开的HTML），在设置中填入这三项数据，就可以上传文件开始转录了。

纯前端不等于完全离线，隐私边界需要了解清楚

看到“无后端服务器”，很多人容易产生一个误区，以为它完全是在本地断网运行的，或者“数据绝对不上传”。所以这里必须明确它的边界。

项目确实不需要把你的API Key交给作者的服务器，凭证只保存在你浏览器的localStorage中，这防止了中间商窃取秘钥。但是，语音识别的过程依然要走网络。你的音频切片会被真实地发送给科大讯飞的云端服务器进行解析。

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

适合哪些人使用，不适合哪些场景？

适合折腾的场景：

个人用户偶尔转录长会议、课程、采访录音。
不想在商业工具上花钱，自己有能力配置API，想尽量控制转写成本的独立开发者或极客。
需要快速搭建一个自用的音视频转文字页面，直接部署到GitHub Pages等静态托管平台。

不太适合的场景：

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

对音频数据有严格合规要求、不允许经过任何第三方大厂的企业用户。
需要团队共享、多终端云同步、历史记录管理的场景（这只是个单页工具，没有账户体系）。
完全不想懂任何配置，只想要一键拖拽出结果的小白用户（老老实实用剪映或飞书更顺手）。

常见问题

Q：讯飞API免费额度怎么算？
A：根据讯飞语音听写接口当前公开文档，新创建应用默认通常会有每日500次免费调用量。具体额度、计费方式和政策可能调整，使用前建议以讯飞控制台显示为准。
Q：我的音视频文件会被第三方小网站存下来吗？
A：不会。文件切割分段在你的浏览器本地完成，识别时音频流直接发送给大厂（讯飞）的API，不经过这个开源项目作者的任何中转服务器。

项目主页与在线演示入口

🌐 官网在线演示直达纯前端体验页，需自备并填入讯飞凭证才能运转

纯前端音视频转文字工具：浏览器自动分段，基于讯飞 API 识别长音频

🐙 GitHub 项目主页查看完整前端架构源码与自部署说明

免责声明：本文基于项目公开源码特性与官方接口说明整理介绍。该工具仅提供前端切片与接口调用框架，实际语音识别质量、隐私数据处理策略及免费配额均受限于第三方服务商（科大讯飞）的官方政策。本站不对第三方API的稳定性及计费负责。