SubtitleEdit中Whisper语音转文字后去除<br>标签的解决方案

2025-05-23 07:01:57作者：郁楠烈Hubert

the subtitle editor :)

项目地址：https://gitcode.com/gh_mirrors/su/subtitleedit

问题背景

在使用SubtitleEdit的Whisper语音转文字功能时，系统会自动在生成的文本中插入<br>或<br />标签来表示换行。这些标签在某些应用场景下（如使用Sonitranslate进行视频配音时）会被错误地识别为句点符号，导致配音效果异常。

技术分析

标签来源：这是SubtitleEdit的默认行为，用于在字幕中保留原始语音的段落结构
影响范围：所有通过Whisper转换生成的文本都会包含这些换行标记
特殊限制：在设置中无法完全禁用此功能，只能修改标记的显示形式

解决方案

方法一：批量取消换行（推荐）

在SubtitleEdit主界面按Ctrl+A全选所有字幕行
点击工具栏中的"Unbreak"按钮（位于文本输入框右侧）
系统将自动移除所有换行标记，合并为连续文本

方法二：修改换行标记显示

进入设置（Settings → Settings）
找到"Show line breaks in list as"选项
虽然不能留空，但可以修改为其他不影响后续处理的符号

注意事项

使用"Unbreak"功能会永久合并文本行，可能影响原始语音的停顿节奏
如果后续需要重新分段，建议先备份原始文件
对于专业配音场景，建议测试不同处理方式对最终效果的影响

技术原理

SubtitleEdit内部使用HTML风格的标签来维护文本格式，<br>标签是HTML标准中的换行元素。Whisper引擎在转换时会根据语音停顿自动插入这些标记，以保持与原始语音一致的文本结构。

最佳实践

对于配音工作流程，建议：

先使用Whisper转换并保留原始标签
人工审核文本内容
最后使用"Unbreak"功能统一处理
导出前再次检查文本连贯性

通过这种分阶段处理方式，可以在保持语音自然流畅的同时，避免技术标记对后续流程的干扰。

the subtitle editor :)

项目地址：https://gitcode.com/gh_mirrors/su/subtitleedit

登录后查看全文

项目优选

收起

deepin linux kernel

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

ops-transformer

本项目是CANN提供的transformer类大模型算子库，实现网络在NPU上加速计算。

Ascend Extension for PyTorch

本项目是CANN提供的神经网络类计算算子库，实现网络在NPU上加速计算。

昇腾LLM分布式训练框架

本项目是CANN提供的数学类基础计算算子库，实现网络在NPU上加速计算。

flutter_flutter

本仓库是 Flutter SDK 与 Flutter Engine 的 OpenHarmony 适配版本，由 CPF-Flutter 团队维护。开发者可使用熟悉的 Flutter 技术栈开发 OpenHarmony 应用，3.35.7 及以后的适配版本可基于本仓库源码构建支持 OpenHarmony 的 Flutter Engine。

JiuwenSwarm 是一款基于openJiuwen开发的智能AI Agent，它能够将大语言模型的强大能力，通过你日常使用的各类通讯应用，直接延伸至你的指尖。