Sonic项目中运动控制器的技术解析

2025-06-30 07:40:54作者：伍霜盼Ellen

运动桶(Motion Bucket)的量化处理

在Sonic项目的运动控制器设计中，采用了两种运动量化指标：平移运动桶(mt)和表情运动桶(me)。这两种指标都是通过计算方差得到的，但最终被量化为0到128之间的整数值。

具体实现上，mt是通过计算视频片段边界框的方差得到的，而me则是通过计算相对面部标志点的方差获得的。在训练过程中，系统会过滤掉方差值超过128的视频片段，确保所有训练数据都在预设范围内。这种量化处理不仅简化了模型输入，还保证了训练数据的统一性。

运动嵌入的应用机制

运动嵌入(emb)是通过将两种运动桶指标经过位置编码(Pe)处理后，再通过权重矩阵W转换得到的。这一嵌入向量在模型中的具体应用方式如下：

在ResnetBlock2D模块中，运动嵌入会被广播(即扩展到合适的维度)，然后直接加到输入的隐藏状态上。这种设计使得运动信息能够直接影响特征表示，为模型提供了明确的运动控制信号。

这种将运动信息作为嵌入向量直接融入网络结构的设计，相比传统方法具有以下优势：

保持了端到端的训练特性
允许运动控制信号在网络深层仍然有效
实现了运动强度与生成结果的直接关联

技术实现考量

项目团队在设计这一机制时，特别考虑了数值范围的合理性。通过限制运动桶的最大值为128，不仅避免了极端值对模型训练的影响，还简化了模型的输入处理流程。这种设计体现了深度学习实践中常见的"数值归一化"思想。

运动嵌入的加法融合方式，相比拼接(concatenation)等其他融合策略，计算效率更高，且不会显著增加模型参数量。这种设计选择反映了项目团队在模型效果和计算效率之间的平衡考量。

Sonic

Official implementation of "Sonic: Shifting Focus to Global Audio Perception in Portrait Animation"

项目地址：https://gitcode.com/gh_mirrors/sonic5/Sonic

登录后查看全文

项目优选

收起

kernel

deepin linux kernel

docs

OpenHarmony documentation | OpenHarmony开发者文档

Ascend Extension for PyTorch

🎉 (RuoYi)官方仓库基于SpringBoot，Spring Security，JWT，Vue3 & Vite、Element Plus 的前后端分离权限管理系统

🍒 Cherry Studio 是一款支持多个 LLM 提供商的桌面客户端

openEuler内核是openEuler操作系统的核心，既是系统性能与稳定性的基石，也是连接处理器、设备与服务的桥梁。

openJiuwen agent-studio提供零码、低码可视化开发和工作流编排，模型、知识库、插件等各资源管理能力

TSX

986

248

Sonic项目中运动控制器的技术解析

运动桶(Motion Bucket)的量化处理

运动嵌入的应用机制

技术实现考量

热门内容推荐

最新内容推荐

项目优选

Sonic项目中运动控制器的技术解析

运动桶(Motion Bucket)的量化处理

运动嵌入的应用机制

技术实现考量

相关内容推荐

热门内容推荐

最新内容推荐

项目优选