Sonic是什么

Sonic是一个新的研究范例,旨在探索全球音频感知。这项技术通过解耦音频感知为内部剪辑和外部剪辑两部分,并使它们相互合作,从而加强了整体的音频感知。在内部剪辑音频感知中,包括:1)上下文增强的音频学习,提取长范围的内部剪辑音频知识,隐式地为面部表情和嘴唇运动提供语音的音调和速度作为先行参考。2)运动解耦控制器,解耦头部运动和表情动作,并由内部音频剪辑独立控制。最重要的是,在外部剪辑音频感知中,通过时间感知位移融合,考虑全局的外部剪辑音频信息,并通过连续的时间感知位移窗口融合,用于长音频推理,作为连接内部剪辑以实现全球感知的桥梁。

Sonic截图展示

Sonic主要功能

《Sonic》实现了一种全新的全球音频感知模型,主要功能包括:

  1. 上下文增强的音频学习:通过提取长期的内部剪辑音频知识,隐式地为面部表情和嘴唇运动提供预设,从而增强语音表达的精确性和真实感。
  2. 运动解耦控制器:解耦头部和表情运动,实现精准独立的控制,优化动画的自然性和协调性。
  3. 时间感知位移融合:整合外部剪辑音频信息,通过时间感知的方式连续地进行数据融合,有效提升长时间音频的处理能力和精度,支持全球声音的深度感知和动画的高质量展现。

Sonic官网

https://github.com/jixiaozhong/Sonic

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。