什么是OmniAudio?听个响!
最近,通义实验室语音团队可是搞了个厉害的玩意儿,叫做OmniAudio技术。这技术简单来说,就是能直接从 360° 全景视频里“抠”出 3D 空间音频。你戴上 VR 眼镜,看的听的都是全方位的,沉浸感直接爆表!
以前的音效弱爆了!
你知道吗?以前的技术,要么是声音定位不准,要么就是只能处理固定视角的视频,没法充分利用 360° 视频里那些丰富的环境信息。想想看,你转个头,声音的位置也应该跟着变才对啊!传统的视频生成音频技术,生成的声音不带空间信息,没法满足我们对 3D 沉浸式体验的需求。而且,它们通常只能处理有限视角的视频,错过了全景视频中丰富的视觉信息。现在,360° 摄像头越来越普及,VR 技术也越来越火,所以,怎么用全景视频生成匹配的空间音频,就成了亟待解决的问题。
360V2SA:让视频和声音“谈恋爱”
为了解决这个问题,通义实验室提出了一个叫做 360V2SA 的任务。简单说,就是让 360° 视频和空间音频完美结合。他们用的 FOA(First-order Ambisonics)格式,这是一种标准的3D空间音频格式,用四个通道(W、X、Y、Z)来表示声音,能捕捉到声音的方向性,实现真实的 3D 音频再现。更牛的是,你戴着耳机转头,声音的位置也能保持准确!
没数据?咱就自己造!
机器学习模型要厉害,数据可是关键。但是,现在配对的 360° 视频和空间音频数据太少了!怎么办?通义实验室就自己动手,打造了一个叫做 Sphere360 的数据集。里面有超过 10 万个真实世界的视频片段,涵盖了 288 种声音事件,总时长 288 个小时!这些数据,既有 360° 的视觉内容,又支持 FOA 音频。为了保证数据质量,他们还采用了严格的筛选和清洗标准,用各种算法确保视频和音频是对齐的。
OmniAudio 训练大法:两步走!
OmniAudio 的训练方法分两步。
第一步是自监督的预训练,就是让模型先自己学习一些通用的音频知识。他们利用了大量的非空间音频资源,把立体声转换成“伪 FOA”格式,然后送到一个编码器里,获得一些隐藏的表示。再把这些表示随机遮盖一部分,让模型学习恢复。这样,模型就能掌握通用的音频特征和时间规律。
第二步是基于双分支视频表示的有监督微调,这一步只使用真实的 FOA 音频数据,继续用刚才的训练方法,强化模型对声源方向的表征能力,提升对高保真空间音频细节的重建效果。
完成自监督预训练后,团队将模型与双分支视频编码器结合进行有监督微调,从噪声中有针对性地“雕刻”出符合视觉指示的FOA潜在轨迹,输出与360°视频高度对齐、具备精确方向感的四通道空间音频。
效果杠杠的!
为了验证 OmniAudio 的效果,研究团队在 Sphere360-Bench 和 YT360-Test 这两个测试集上进行了测试,用客观和主观指标来衡量生成音频的质量。结果显示,OmniAudio 在这两个测试集上都比其他方法好得多!尤其是在 YT360-Test 上,各项指标都大幅降低。
在 Sphere360-Bench 上,也取得了优异的成绩。更重要的是,在人机主观评估中,OmniAudio 在空间音频质量和视音对齐两项上的得分也远高于最优基线,说明它合成的声音在清晰度、空间感和与画面同步性方面都更出色。
此外,实验还证明了预训练策略、双分支设计和模型规模对性能提升的贡献。