10分钟自动生成YouTube短视频:ShortGPT全流程工作流详解
你还在为视频创作流程繁琐而烦恼吗?脚本撰写、素材寻找、配音剪辑、字幕添加,每个环节都耗费大量时间?现在,只需10分钟,ShortGPT就能帮你完成从脚本到YouTube视频的全自动化生成。本文将带你深入了解ShortGPT的内容生成工作流,让你轻松掌握AI视频创作的秘诀。
读完本文,你将能够:
- 理解ShortGPT的核心工作原理
- 掌握从脚本生成到视频渲染的完整流程
- 学会使用ContentShortEngine创建短视频
- 了解EditingEngine的强大编辑功能
- 快速上手ShortGPT的实际应用
ShortGPT简介
ShortGPT是一个实验性的AI框架,旨在实现短视频和视频内容的自动化创作。它简化了视频创建、素材获取、语音合成和编辑等任务,特别适用于YouTube自动化和TikTok创意计划自动化。
ShortGPT的核心功能包括:
- 🎞️ 自动化编辑框架:采用面向LLM的视频编辑语言,简化视频创建流程
- 📃 脚本和提示:提供各种LLM自动化编辑流程的即用型脚本和提示
- 🗣️ 多语言配音/内容创作:支持30多种语言的语音合成
- 🔗 自动字幕生成:自动化视频字幕生成
- 🌐🎥 素材获取:从互联网获取图像和视频素材
- 🧠 记忆和持久性:使用TinyDB确保自动化编辑变量的长期持久性
核心引擎介绍
ShortGPT提供了多个核心引擎,满足不同类型的视频创作需求:
ContentShortEngine
ContentShortEngine专为创建短视频而设计,处理从脚本生成到最终渲染的所有任务,包括添加YouTube元数据。它是实现短视频自动化创作的核心引擎。
ContentVideoEngine
ContentVideoEngine适用于较长视频的创作,负责生成音频、自动获取背景视频素材、字幕同步和背景资产准备等任务。
ContentTranslationEngine
ContentTranslationEngine用于视频的配音和翻译,支持从主流语言到特定目标语言的转换。它可以处理视频文件或YouTube链接,转录音频,翻译内容,用目标语言配音,添加字幕,最终生成一个全新语言的视频。
EditingEngine
EditingEngine是自动化编辑引擎,使用编辑标记语言和JSON,将编辑过程分解为可管理和可定制的模块,便于大型语言模型理解和操作。
完整工作流程解析
ShortGPT的内容生成工作流主要分为12个关键步骤,让我们逐一了解:
1. 生成脚本
_generateScript方法负责生成视频脚本。这是视频创作的基础,后续所有步骤都基于此脚本展开。
2. 生成临时音频
_generateTempAudio方法使用语音合成技术将脚本转换为音频。如果需要,它会先将脚本翻译成目标语言,然后生成对应的语音。
3. 加速音频
_speedUpAudio方法对生成的音频进行加速处理,以适应短视频的节奏需求。
4. 字幕时间同步
_timeCaptions方法使用语音识别技术分析音频,生成带有时间戳的字幕。
5. 生成图像搜索词
_generateImageSearchTerms方法根据字幕内容生成相关的图像搜索词,用于后续的素材获取。
6. 生成图像URL
_generateImageUrls方法使用上一步生成的搜索词,从互联网获取相关图像的URL。
7. 选择背景音乐
_chooseBackgroundMusic方法从资产数据库中选择合适的背景音乐。
8. 选择背景视频
_chooseBackgroundVideo方法从资产数据库中选择合适的背景视频素材。
9. 准备背景资产
_prepareBackgroundAssets方法处理背景视频和音频,确保它们的时长匹配语音旁白。
10. 准备自定义资产
_prepareCustomAssets方法处理用户自定义的资产,如水印、logo等。
11. 编辑和渲染短视频
_editAndRenderShort方法是整个工作流的核心,它使用EditingEngine将所有元素(视频、音频、字幕、图像等)组合在一起,生成最终的视频文件。
以下是EditingEngine支持的部分编辑步骤:
| 编辑步骤 | 描述 | JSON文件 |
|---|---|---|
| ADD_CAPTION_SHORT | 添加短视频字幕 | make_caption.json |
| ADD_CAPTION_SHORT_ARABIC | 添加阿拉伯语短视频字幕 | make_caption_arabic.json |
| ADD_WATERMARK | 添加水印 | show_watermark.json |
| ADD_SUBSCRIBE_ANIMATION | 添加订阅动画 | subscribe_animation.json |
| SHOW_IMAGE | 显示图像 | show_top_image.json |
| ADD_VOICEOVER_AUDIO | 添加旁白音频 | add_voiceover.json |
| ADD_BACKGROUND_MUSIC | 添加背景音乐 | background_music.json |
12. 添加YouTube元数据
_addYoutubeMetadata方法为生成的视频添加YouTube所需的标题和描述,方便直接上传到YouTube平台。
快速上手示例
下面是一个使用FactsShortEngine创建"有趣的19世纪科学事实"短视频的示例代码:
from shortGPT.config.api_db import ApiKeyManager, ApiProvider
from shortGPT.config.asset_db import AssetDatabase, AssetType
from shortGPT.engine.facts_short_engine import FactsShortEngine
from shortGPT.audio.eleven_voice_module import ElevenLabsVoiceModule
from shortGPT.config.languages import Language
from shortGPT.audio.edge_voice_module import EdgeTTSVoiceModule, EDGE_TTS_VOICENAME_MAPPING
# 设置API密钥
ApiKeyManager.set_api_key(ApiProvider.OPENAI, "your_openai_key")
ApiKeyManager.set_api_key(ApiProvider.ELEVEN_LABS, "your_eleven_labs_key")
# 添加资产
AssetDatabase.add_remote_asset("minecraft background cube", AssetType.BACKGROUND_VIDEO, "https://www.youtube.com/watch?v=Pt5_GSKIWQM")
AssetDatabase.add_remote_asset('chill music', AssetType.BACKGROUND_MUSIC, "https://www.youtube.com/watch?v=uUu1NcSHg2E")
# 配置语音模块
voice_name = EDGE_TTS_VOICENAME_MAPPING[Language.ENGLISH]['male']
voice_module = EdgeTTSVoiceModule(voice_name)
# 配置内容引擎
facts_video_topic = "Interesting scientific facts from the 19th century"
content_engine = FactsShortEngine(voiceModule=voice_module,
facts_type=facts_video_topic,
background_video_name="minecraft background cube",
background_music_name='chill music',
num_images=5,
language=Language.ENGLISH)
# 生成内容
for step_num, step_logs in content_engine.makeContent():
print(f" {step_logs}")
# 获取视频输出路径
print(content_engine.get_video_output_path())
这个简单的示例展示了如何使用ShortGPT快速创建一个完整的短视频。只需几行代码,你就可以实现从脚本生成到视频渲染的全自动化过程。
总结与展望
ShortGPT通过将AI技术与视频创作流程深度融合,极大地简化了短视频的制作过程。它的自动化工作流涵盖了从脚本生成到视频渲染的每个环节,让用户能够在几分钟内完成原本需要数小时甚至数天的工作。
无论是内容创作者、营销人员还是企业,都可以通过ShortGPT快速生成高质量的视频内容,节省时间和资源。随着AI技术的不断发展,ShortGPT未来还将支持更多功能,如更精准的语音合成、更智能的视频剪辑和更丰富的素材库。
如果你想了解更多关于ShortGPT的使用方法,可以参考官方文档:docs/getting-started.mdx。现在就开始你的AI视频创作之旅吧!
希望这篇文章对你了解ShortGPT的内容生成工作流有所帮助。如果你有任何问题或建议,欢迎在评论区留言。别忘了点赞、收藏并关注我们,获取更多关于AI视频创作的技巧和教程!
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00- QQwen3-Coder-Next2026年2月4日,正式发布的Qwen3-Coder-Next,一款专为编码智能体和本地开发场景设计的开源语言模型。Python00
xw-cli实现国产算力大模型零门槛部署,一键跑通 Qwen、GLM-4.7、Minimax-2.1、DeepSeek-OCR 等模型Go06
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin08
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00