根据 NVIDIA 技术博客,NVIDIA 宣布发布 BigVGAN v2,一款创新的零样本波形音频生成 AI 模型。新模型在速度和质量上实现了显著提升,定位为音频生成 AI 领域的最先进解决方案。
BigVGAN:通用神经声码器
BigVGAN 是一款通用神经声码器,设计用于从 Mel 频谱图合成音频波形。该模型采用完全卷积架构,包含多个上采样块和残差扩张卷积层。一个关键功能是反混叠多周期组成 (AMP) 模块,优化生成高频和周期性声波,从而减少伪影。
BigVGAN v2 的改进
BigVGAN v2 引入了相对于其前身的几项改进:
- 最先进的音频质量,在各种指标和音频类型上表现优异。
- 高达3倍的合成速度,通过优化的 CUDA 内核实现。
- 预训练检查点,适用于多种音频配置。
- 支持最高采样率达 44 kHz,覆盖人耳可听到的最高频率。
生成世界上的每一种声音
波形音频生成对虚拟世界至关重要,并且一直是研究的重要焦点。BigVGAN v2 通过提供高质量、细节丰富的音频解决了以前的限制。该模型使用 NVIDIA A100 Tensor Core GPUs 进行训练,训练数据集比其前身大100多倍。BigVGAN v2 能够从各种领域生成高质量的声波,包括语音、环境声音和音乐。
达到人耳可以检测到的最高频率声波
以前的模型限制在 22 kHz 到 24 kHz 之间的采样率。BigVGAN v2 将这一范围扩展到 44 kHz,捕捉人类听觉范围内的全部频谱。这使得该模型能够再现全面的音景,从音乐中的强劲鼓声到清脆的镲音。
通过定制 CUDA 内核实现更快的合成
BigVGAN v2 还具有加速的合成速度,通过使用定制的 CUDA 内核实现高达3倍的推理速度。这些内核使得在单个 NVIDIA A100 GPU 上生成音频波形的速度高达实时的240倍。
音频质量的结果
BigVGAN v2 对语音和一般音频的音频质量表现优于其前身,并且在 44 kHz 采样率下与 Descript 音频编解码器相当。 这表明该模型能够在各种音频类型中生成高质量的波形。
结论
NVIDIA 的 BigVGAN v2 在音频合成方面树立了新基准,在所有音频类型上实现了最先进的质量,并覆盖了人类听觉的全频范围。该模型的合成速度现已提高到3倍,使其在各种音频配置中更为高效。
更多信息,用户可查看 GitHub 上的 BigVGAN v2 模型卡。
Image source: Shutterstock