Sonic是什么
Sonic是一个新的研究范例,旨在探索全球音频感知。这项技术通过解耦音频感知为内部剪辑和外部剪辑两部分,并使它们相互合作,从而加强了整体的音频感知。在内部剪辑音频感知中,包括:1)上下文增强的音频学习,提取长范围的内部剪辑音频知识,隐式地为面部表情和嘴唇运动提供语音的音调和速度作为先行参考。2)运动解耦控制器,解耦头部运动和表情动作,并由内部音频剪辑独立控制。最重要的是,在外部剪辑音频感知中,通过时间感知位移融合,考虑全局的外部剪辑音频信息,并通过连续的时间感知位移窗口融合,用于长音频推理,作为连接内部剪辑以实现全球感知的桥梁。
Sonic截图展示

Sonic主要功能
《Sonic》实现了一种全新的全球音频感知模型,主要功能包括:
- 上下文增强的音频学习:通过提取长期的内部剪辑音频知识,隐式地为面部表情和嘴唇运动提供预设,从而增强语音表达的精确性和真实感。
- 运动解耦控制器:解耦头部和表情运动,实现精准独立的控制,优化动画的自然性和协调性。
- 时间感知位移融合:整合外部剪辑音频信息,通过时间感知的方式连续地进行数据融合,有效提升长时间音频的处理能力和精度,支持全球声音的深度感知和动画的高质量展现。
Sonic官网
https://github.com/jixiaozhong/Sonic