今夕在线音频转文本工具

一个浏览器端音频转文字、音频转字幕的静态网页工具。它使用 Transformers.js 在浏览器中运行 Whisper 模型,支持上传音频、试听、转写、分段预览,并导出 SRT、LRC、TXT。

界面预览

 

 

 

在线预览

      在线音频转字幕工具 - MP3转SRT字幕、音频转文本、LRC导出

    项目特点

    • 不需要自建转写后端,主要流程在访客浏览器中完成
    • 支持本地音频上传后直接播放试听
    • 支持 TXT、SRT、LRC 三种结果格式
    • 内置 Xenova/whisper-tiny 和 Xenova/whisper-base 本地模型目录
    • 适合静态部署、学习浏览器端 AI 工具实现、二次开发字幕工具

    功能

    • 本地音频上传,上传后可直接播放试听
    • 支持公网音频 URL 导入
    • 浏览器内完成音频解码、重采样和 Whisper 推理
    • 支持 SRT、LRC、TXT 三种结果格式
    • 支持时间分段预览
    • 支持简繁转换
    • 支持远端模型仓库和本地模型目录两种模型来源

    目录结构

    .
    ├── index.html          # 主页面
    ├── app.js              # 页面交互、音频处理、结果导出
    ├── worker.js           # Web Worker,负责模型加载和转写
    ├── server.js           # 本地静态服务
    ├── start-site.bat      # Windows 一键启动脚本
    ├── screenshots/        # README 预览图片
    ├── vendor/             # 前端依赖文件
    └── models/             # 可选本地模型目录
    

    本地运行

    需要安装 Node.js。

    node server.js 8000

    然后打开:

    http://localhost:8000
    

    Windows 下也可以双击:

    start-site.bat
    

    模型说明

    默认模型为 Xenova/whisper-tiny。当前本地目录已预置 Xenova/whisper-tiny 和 Xenova/whisper-base,可以在模型来源中选择“本地模型目录”直接使用。tiny 更快,base 更稳但加载和转写会更慢。

    如果要继续增加其他本地模型,请把 Transformers.js 兼容格式的模型文件放到:

    models/Xenova/模型名称/
    

    常见文件包括:

    config.json
    generation_config.json
    preprocessor_config.json
    tokenizer.json
    tokenizer_config.json
    onnx/encoder_model_quantized.onnx
    onnx/decoder_model_merged_quantized.onnx
    

    部署

    这个项目是静态前端工具,可以部署到任意静态 Web 服务,例如 Nginx、Apache、GitHub Pages 或 Cloudflare Pages。

    注意事项:

    • .wasm 文件需要用 application/wasm 类型返回
    • 模型文件较大,首次加载时间取决于网络环境
    • URL 导入音频时,目标音频地址需要允许跨域访问
    • 浏览器需要支持 WebAssembly、Web Worker 和 Web Audio API

    隐私说明

    本地上传的音频在浏览器中解码和处理,不需要上传到你自己的转写服务器。使用远端模型时,浏览器会请求模型仓库下载模型文件。

    适用场景

    • 课程录音转字幕
    • 采访录音转文字
    • 口播音频生成字幕初稿
    • MP3 转 SRT / LRC / TXT
    • 静态站点中的浏览器端 AI 工具演示

     源码下载  

       GitHub 仓库:https://github.com/xielaoban-pro/jinxi-audio-to-text

    Logo

    openEuler 是由开放原子开源基金会孵化的全场景开源操作系统项目,面向数字基础设施四大核心场景(服务器、云计算、边缘计算、嵌入式),全面支持 ARM、x86、RISC-V、loongArch、PowerPC、SW-64 等多样性计算架构

    更多推荐