告别无声录制:ScreenToGif音频设备全攻略(系统声音+麦克风设置)
你是否曾录制完教程却发现没有声音?想添加解说却不知如何开启麦克风?本文将详解ScreenToGif的音频录制功能,从设备选择到参数配置,帮你实现高质量音画同步录制。
音频录制架构解析
ScreenToGif通过DirectShow框架实现音频捕获,核心代码位于Webcam/DirectShow/Uuid.cs,定义了音频输入设备类别GUID:
/// <summary> CLSID_AudioInputDeviceCategory, audio capture category </summary>
public static readonly Guid AudioInputDevice = new Guid(0x33d9a762, 0x90c8, 0x11d0, 0xbd, 0x43, 0x00, 0xa0, 0xc9, 0x11, 0xce, 0x86);
音频处理逻辑在VideoSourceViewModel.cs中实现,支持AAC编码格式:
Stream #0:0(und): Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 104 kb/s (default)
麦克风录制设置
设备选择界面
麦克风录制功能集成在摄像头控制面板中,对应XAML文件Controls/WebcamControl.xaml:
<UserControl x:Class="ScreenToGif.Controls.WebcamControl"
Loaded="WebcamControl_OnLoaded" Unloaded="UserControl_Unloaded"/>
在主界面通过Windows/Webcam.xaml加载:
<n:WebcamControl Grid.Row="0" x:Name="WebcamControl"/>
启用步骤
- 打开ScreenToGif,点击顶部菜单栏"摄像头"按钮
- 在弹出的Webcam窗口中,点击右下角"设置"图标
- 在设备列表中选择你的麦克风设备(通常显示为"麦克风阵列"或品牌名称)
- 勾选"启用音频录制"选项,调整输入音量至合适水平(建议-12dB至-6dB)
系统声音捕获配置
技术实现
系统声音录制通过DirectX筛选器实现,相关代码位于Webcam/DirectX/Filters.cs:
//public FilterCollection AudioInputDevices = new FilterCollection(Uuid.FilterCategory.AudioInputDevice);
//public FilterCollection AudioCompressors = new FilterCollection(Uuid.FilterCategory.AudioCompressorCategory);
虽然当前代码被注释,但通过启用这些筛选器可以实现系统声音捕获。
设置方法
- 安装虚拟音频驱动(如VB-Cable或Soundflower)
- 在系统声音设置中将"立体声混音"设为默认录制设备
- 打开ScreenToGif的VideoSource配置界面:
<v:VideoSourceViewModel/>
- 在音频设备列表中选择虚拟音频驱动(通常显示为"CABLE Output")
- 测试音频电平,确保波形指示器有信号响应
常见问题解决
麦克风无响应
- 检查WebcamControl.xaml.cs中的设备加载逻辑
- 确认应用在系统设置中有麦克风访问权限
- 尝试更换USB接口或重新安装声卡驱动
系统声音不同步
- 调整VideoSourceViewModel.cs中的音频延迟补偿:
Stream #0:0(und): Audio: aac (LC) (mp4a / 0x6134706D), 44100 Hz, stereo, fltp, 2 kb/s (default)
- 将录制帧率固定为30fps以减少音画错位
- 避免同时运行多个音频捕获软件
高级配置技巧
多设备混合录制
通过修改VideoSourceViewModel.cs中的音频处理逻辑,可以实现系统声音与麦克风的混合录制。找到以下代码段:
handler_name : Core Media Audio
添加音频混合器模块,将两个音频流合并为单声道或立体声输出。
音频格式优化
在导出设置中选择AVI格式(支持更好的音频编码),对应枚举定义在Enums/ExportFormats.cs:
/// Audio Video Interleaved.
建议配置:采样率44100Hz,比特率128-192kbps,立体声模式。
总结与展望
ScreenToGif通过WebcamControl和VideoSourceViewModel提供了基础的音频录制功能,但系统声音捕获需要配合虚拟驱动使用。未来版本可能会直接集成系统声音录制功能,相关计划可关注CONTRIBUTING.md中的开发路线图。
掌握音频设置后,你的教程和演示将更加专业。尝试结合麦克风解说与系统声音,创造更丰富的多媒体内容吧!如果遇到问题,可以查阅官方文档Docs/Documentation.md或提交issue反馈。
Kimi-K2.5Kimi K2.5 是一款开源的原生多模态智能体模型,它在 Kimi-K2-Base 的基础上,通过对约 15 万亿混合视觉和文本 tokens 进行持续预训练构建而成。该模型将视觉与语言理解、高级智能体能力、即时模式与思考模式,以及对话式与智能体范式无缝融合。Python00
GLM-4.7-FlashGLM-4.7-Flash 是一款 30B-A3B MoE 模型。作为 30B 级别中的佼佼者,GLM-4.7-Flash 为追求性能与效率平衡的轻量化部署提供了全新选择。Jinja00
VLOOKVLOOK™ 是优雅好用的 Typora/Markdown 主题包和增强插件。 VLOOK™ is an elegant and practical THEME PACKAGE × ENHANCEMENT PLUGIN for Typora/Markdown.Less00
PaddleOCR-VL-1.5PaddleOCR-VL-1.5 是 PaddleOCR-VL 的新一代进阶模型,在 OmniDocBench v1.5 上实现了 94.5% 的全新 state-of-the-art 准确率。 为了严格评估模型在真实物理畸变下的鲁棒性——包括扫描伪影、倾斜、扭曲、屏幕拍摄和光照变化——我们提出了 Real5-OmniDocBench 基准测试集。实验结果表明,该增强模型在新构建的基准测试集上达到了 SOTA 性能。此外,我们通过整合印章识别和文本检测识别(text spotting)任务扩展了模型的能力,同时保持 0.9B 的超紧凑 VLM 规模,具备高效率特性。Python00
KuiklyUI基于KMP技术的高性能、全平台开发框架,具备统一代码库、极致易用性和动态灵活性。 Provide a high-performance, full-platform development framework with unified codebase, ultimate ease of use, and dynamic flexibility. 注意:本仓库为Github仓库镜像,PR或Issue请移步至Github发起,感谢支持!Kotlin07
compass-metrics-modelMetrics model project for the OSS CompassPython00