github开源网页在线音频转文本工具 node.js+html源码

今夕资源网

553人浏览 · 2026-06-15 18:52:33

今夕资源网 · 2026-06-15 18:52:33 发布

今夕在线音频转文本工具

一个浏览器端音频转文字、音频转字幕的静态网页工具。它使用 Transformers.js 在浏览器中运行 Whisper 模型，支持上传音频、试听、转写、分段预览，并导出 SRT、LRC、TXT。

界面预览

在线预览

在线音频转字幕工具 - MP3转SRT字幕、音频转文本、LRC导出

项目特点

不需要自建转写后端，主要流程在访客浏览器中完成
支持本地音频上传后直接播放试听
支持 TXT、SRT、LRC 三种结果格式
内置 Xenova/whisper-tiny 和 Xenova/whisper-base 本地模型目录
适合静态部署、学习浏览器端 AI 工具实现、二次开发字幕工具

功能

本地音频上传，上传后可直接播放试听
支持公网音频 URL 导入
浏览器内完成音频解码、重采样和 Whisper 推理
支持 SRT、LRC、TXT 三种结果格式
支持时间分段预览
支持简繁转换
支持远端模型仓库和本地模型目录两种模型来源

目录结构

.
├── index.html          # 主页面
├── app.js              # 页面交互、音频处理、结果导出
├── worker.js           # Web Worker，负责模型加载和转写
├── server.js           # 本地静态服务
├── start-site.bat      # Windows 一键启动脚本
├── screenshots/        # README 预览图片
├── vendor/             # 前端依赖文件
└── models/             # 可选本地模型目录

本地运行

需要安装 Node.js。

node server.js 8000

然后打开：

http://localhost:8000

Windows 下也可以双击：

start-site.bat

模型说明

默认模型为 Xenova/whisper-tiny。当前本地目录已预置 Xenova/whisper-tiny 和 Xenova/whisper-base，可以在模型来源中选择“本地模型目录”直接使用。tiny 更快，base 更稳但加载和转写会更慢。

如果要继续增加其他本地模型，请把 Transformers.js 兼容格式的模型文件放到：

models/Xenova/模型名称/

常见文件包括：

config.json
generation_config.json
preprocessor_config.json
tokenizer.json
tokenizer_config.json
onnx/encoder_model_quantized.onnx
onnx/decoder_model_merged_quantized.onnx

部署

这个项目是静态前端工具，可以部署到任意静态 Web 服务，例如 Nginx、Apache、GitHub Pages 或 Cloudflare Pages。

注意事项：

.wasm 文件需要用 application/wasm 类型返回
模型文件较大，首次加载时间取决于网络环境
URL 导入音频时，目标音频地址需要允许跨域访问
浏览器需要支持 WebAssembly、Web Worker 和 Web Audio API

隐私说明

本地上传的音频在浏览器中解码和处理，不需要上传到你自己的转写服务器。使用远端模型时，浏览器会请求模型仓库下载模型文件。

适用场景

课程录音转字幕
采访录音转文字
口播音频生成字幕初稿
MP3 转 SRT / LRC / TXT
静态站点中的浏览器端 AI 工具演示

源码下载

GitHub 仓库：https://github.com/xielaoban-pro/jinxi-audio-to-text

百度网盘：https://pan.baidu.com/s/1h6E7rHoYIRH3h6COL6zhNw?pwd=eqwp
夸克网盘：https://pan.quark.cn/s/737027169871

openEuler 社区

openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目，面向数字基础设施四大核心场景（服务器、云计算、边缘计算、嵌入式），全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

更多推荐

网络基本知识

它由Gartner分析师Anton Chuvakin提出，通过在PC、服务器、IoT设备等终端部署轻量代理，持续采集终端的进程、文件、网络连接等行为数据，结合AI分析、威胁情报识别已知和未知恶意活动，实现威胁的快速检测与响应处置。CDN（内容分发网络）是在全球各地部署大量边缘缓存节点，把网站的图片、视频、脚本等静态资源提前缓存到离用户最近的节点，让用户就近获取内容，不用跨地域远距离访问源站服务器，

openEuler 社区

灵秀识图：华为 Mate 80 上的中国智造 — HarmonyOS NEXT AI 实时手部检测开发全纪实

摘要：苏州华镁莱电子科技开发总监韩青松团队基于HarmonyOSNEXT开发出国内首款纯鸿蒙AI视觉检测应用"灵秀识图"。该应用采用YOLOv8n模型实现毫秒级手部实时检测，在华为Mate80上达到8FPS流畅度。开发过程中攻克了PhotoOutput取帧卡顿、NPU推理兼容性等核心技术难题，通过模型瘦身（640→320分辨率）和定时器优化将CPU推理耗时降至55ms。作为纯血