PyVideoTrans 项目中 clone-voice 功能的时间格式问题分析与修复

2025-05-18 07:55:45作者：申梦珏Efrain

问题背景

在 PyVideoTrans 视频翻译工具的最新版本 v1.23 和 v1.24 中，用户报告了一个关于 clone-voice 功能的严重问题：即使使用本地部署的 clone-voice 服务(127.0.0.1)，在合成语音时也会出现错误。而较早的 v1.22 版本则没有这个问题。

错误现象

从错误日志中可以清楚地看到，问题发生在 ffmpeg 命令执行阶段。系统尝试将一个 WAV 音频文件转换为 MP3 格式时失败，返回了非零退出状态 4294967274。具体命令显示系统试图处理从 00:00:00.00 到 00:00:01.600 的音频片段。

根本原因分析

经过技术团队深入调查，发现问题的根源在于字幕时间格式的处理上。具体来说：

在字幕时间字符串处理过程中，代码没有正确去除时间字符串中的空格
这导致毫秒部分(小数点后的时间)处理出现异常
最终生成的 ffmpeg 命令中包含格式不正确的时间参数

技术细节

在音频处理流程中，PyVideoTrans 需要精确计算每个字幕片段对应的时间范围，然后将原始音频切割成相应片段进行处理。当时间格式不正确时：

时间字符串中的空格干扰了毫秒部分的解析
ffmpeg 无法识别格式不正确的时间参数
导致整个音频处理流程中断

解决方案

项目维护者迅速定位并修复了这个问题，主要修改包括：

在处理字幕时间字符串时，增加了严格的空格去除(strip)操作
确保时间格式统一为 HH:MM:SS.mmm 的标准格式
对时间参数进行了更严格的格式校验

经验总结

这个案例提醒开发者在处理时间格式时需要注意：

时间字符串的预处理(如去除空格)至关重要
音频处理工具对时间格式通常有严格要求
在生成系统命令时，参数格式必须精确无误
版本迭代时应特别注意基础功能的回归测试

该修复已包含在项目的最新更新中，用户升级后即可解决 clone-voice 功能的相关问题。

pyvideotrans

Translate the video from one language to another and add dubbing. 将视频从一种语言翻译为另一种语言，并添加配音

项目地址：https://gitcode.com/gh_mirrors/py/pyvideotrans

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

986

248