NVIDIA Riva TTS 增强多语言语音和语音克隆技术

realtime news   Jul 15, 2025 21:28  UTC 13:28

1 Min Read

NVIDIA 发布了其最新的文本转语音 (TTS) 技术进展,推出 Riva TTS 模型,旨在提升多语言语音合成和语音克隆能力。根据 NVIDIA 的说法,这些模型包括 Magpie TTS Multilingual、Magpie TTS Zeroshot 和 Magpie TTS Flow,能够通过支持 AI 语音代理、数字人类等应用来改变行业。

新 TTS 模型及其应用

Riva TTS 模型采用流式编码解码器变压器架构,确保在各种语言和应用中实现高质量、自然的语音合成。Magpie TTS Multilingual 模型支持英语、西班牙语、法语和德语,非常适合多语言交互式语音响应 (IVR) 系统和数字人类互动。同时,Magpie TTS Zeroshot 和 Magpie TTS Flow 专注于英语,针对实时电话、游戏中的非玩家角色 (NPC)、工作室配音和播客解说。

先进的架构和偏好对齐

这些模型采用非自回归 (NAR) 编码器和自回归 (AR) 解码器,利用 NVIDIA 的偏好对齐框架和无分类器指导 (CFG) 提高准确性和真实性。此技术确保 AI 生成可靠的音频输出,最大限度地减少错误并改善对输入文本的遵循。

Magpie TTS Flow 模型引入了一种对齐感知预训练框架,将离散语音单元如 HuBERT 整合到训练框架中,以高效学习文本语音对齐。这种方法减少了对大型转录数据集的依赖,使在最少数据的情况下进行有效的语音克隆成为可能。

安全语音 AI 的合作

NVIDIA 致力于合成语音技术的负责任发展。作为其可信赖 AI 计划的一部分,NVIDIA 与 Pindrop 等行业领导者合作,以解决语音克隆相关的潜在风险。这些合作旨在建立安全语音部署的标准,增强媒体完整性并在关键部门防止欺诈。

对行业和研究的影响

通过从短音频样本中合成语音的能力,NVIDIA 的 Riva TTS 模型为需要实时、逼真语音交互的各行各业带来了重大潜力,包括医疗保健和可访问性。这些模型的灵活性和高性能,通过低词错误率表现出来,使其成为需要动态和自适应音频输出的应用的理想解决方案。

总的来说,NVIDIA 的 Riva TTS 模型在语音 AI 领域代表了一个重大的进步,为开发者和研究人员提供强大的工具,以创建更具互动性和吸引力的基于语音的应用程序。



Read More