怎么从视频中提取内嵌字幕？

使用 Subtitle Edit 打开视频文件，软件会自动识别字幕轨道。如果是图像格式字幕如 DVD 的 VobSub 或蓝光 PGS 字幕，软件会提示进行 OCR 识别，中文和日文建议选择 Paddle OCR 引擎。提取完成后可另存为 SRT、ASS 等格式。

Subtitle Edit 除了提取字幕还能做什么？

Subtitle Edit 功能丰富，支持语音转写（推荐 Whisper 引擎）、字幕翻译（调用 Google Translate 和 DeepL 等）、时间轴同步与修正、字幕格式批量互转、编码转换等。还可以切换波形图或频谱图视图进行精修同步。

约 1530 字大约 5 分钟...

今天在听中岛美雪的演唱会时，发现视频里内置了字幕。相比我之前用 Whisper 转写出来的版本，原生字幕肯定要准确得多。于是我开始找工具，希望能把这些内嵌字幕提取出来。试了好几款之后，最终脱颖而出的是 —— Subtitle Edit。

Subtitle Edit 是一款功能强大的开源字幕编辑器，适用于字幕的提取、编辑、格式转换与翻译等多种场景。它支持多种视频与字幕格式，并内置 OCR 字符识别、语音转写、时间轴同步等实用功能。

最新版可在 GitHub 发布页获取，或通过国内镜像下载。支持 Windows，部分 Linux 系统可通过 Mono 兼容运行。

启动软件后，点击菜单栏的“文件”（File） -> “打开”（Open），选择你想提取字幕的视频文件。

如果视频中包含多个字幕轨道，Subtitle Edit 会弹出窗口供你选择需要提取的那一条。

若视频字幕为图像格式（如 DVD 的 VobSub 或蓝光的 PGS 字幕），软件会提示你进行“光学字符识别”（OCR）。此时建议选择 Paddle OCR 引擎，并根据字幕语言进行设置。点击「开始 OCR」后进行识别，完成后点击右侧的「确定」按钮。MP4 无法识别。

🚀 小提示：对于中文、日文等非拉丁字符，Paddle OCR 的识别效果明显优于 Tesseract 等传统引擎；后者更适用于英文字幕。

字幕提取后，你可以在主界面中查看字幕文本与对应的时间轴。点击“文件”（File） -> “另存为”（Save as），在保存类型中选择所需格式。

除了基础的字幕提取功能，Subtitle Edit 还提供了丰富的扩展能力，适用于更复杂的字幕编辑与翻译需求。

当视频中没有字幕轨道时，可以通过“工具”（Tools） -> “语音识别”（Audio to text）自动生成字幕。Subtitle Edit 支持多种识别引擎：

用户可选择语言或启用自动识别，支持断点恢复、每句字幕自动分段等配置。

在已有字幕的基础上，Subtitle Edit 支持一键翻译所有字幕内容，可通过“翻译”菜单调用主流翻译引擎，如：Google Translate、DeepL、Yandex 等。你还可以选择手动逐句翻译，适合需要逐句优化语序的场景。

如果你需要批量的字幕翻译体验或使用 AI 翻译字幕，可以使用我开源的 Subtitle Translator 工具。该工具支持批量上传字幕，调用多个翻译 API，并可选择中英对照、断句模式、自定义输出格式等，适合字幕组、译者和内容创作者使用。

Subtitle Edit 提供多种对齐和修正工具，帮助字幕更精确地贴合音视频内容：

可切换为“波形图”或“频谱图”视图，辅助进行精确的起止时间调整。非常适合精修口型同步字幕或歌词字幕。

MKVToolNix 并不能直接导出文本字幕：尽管有些 AI 推荐该工具提取 MKV 字幕，但实际上它输出的是 .mks 格式（容器文件），而非可读的字幕文本。
HandBrake 不支持字幕提取：该工具适用于视频转码与压制，但无法直接提取字幕。

Windows 11 实时字幕：
- 快捷键：Win + Ctrl + L
- 适用于系统层面的视频、音频播放，能够在屏幕上直接显示字幕。
Chrome 浏览器实时字幕（Live Caption）：
- 开启方式：进入浏览器 设置 → 无障碍 → 实时字幕，打开后在观看网页视频时会自动生成字幕。并可实时翻译为其他语言。

这类实时字幕和翻译功能，可以理解为一种轻量级的本地 Whisper。对于英文内容，识别效果已经相当不错；在其他语言环境下，也能生成字幕，只是准确度较差。