NVIDIA Riva TTS 增强多语言语音和语音克隆技术

realtime news Jul 15, 2025 21:28 UTC 13:28

1 Min Read

NVIDIA 发布了其最新的文本转语音 (TTS) 技术进展，推出 Riva TTS 模型，旨在提升多语言语音合成和语音克隆能力。根据 NVIDIA 的说法，这些模型包括 Magpie TTS Multilingual、Magpie TTS Zeroshot 和 Magpie TTS Flow，能够通过支持 AI 语音代理、数字人类等应用来改变行业。

新 TTS 模型及其应用

Riva TTS 模型采用流式编码解码器变压器架构，确保在各种语言和应用中实现高质量、自然的语音合成。Magpie TTS Multilingual 模型支持英语、西班牙语、法语和德语，非常适合多语言交互式语音响应 (IVR) 系统和数字人类互动。同时，Magpie TTS Zeroshot 和 Magpie TTS Flow 专注于英语，针对实时电话、游戏中的非玩家角色 (NPC)、工作室配音和播客解说。

先进的架构和偏好对齐

这些模型采用非自回归 (NAR) 编码器和自回归 (AR) 解码器，利用 NVIDIA 的偏好对齐框架和无分类器指导 (CFG) 提高准确性和真实性。此技术确保 AI 生成可靠的音频输出，最大限度地减少错误并改善对输入文本的遵循。

Magpie TTS Flow 模型引入了一种对齐感知预训练框架，将离散语音单元如 HuBERT 整合到训练框架中，以高效学习文本语音对齐。这种方法减少了对大型转录数据集的依赖，使在最少数据的情况下进行有效的语音克隆成为可能。

安全语音 AI 的合作

NVIDIA 致力于合成语音技术的负责任发展。作为其可信赖 AI 计划的一部分，NVIDIA 与 Pindrop 等行业领导者合作，以解决语音克隆相关的潜在风险。这些合作旨在建立安全语音部署的标准，增强媒体完整性并在关键部门防止欺诈。

对行业和研究的影响

通过从短音频样本中合成语音的能力，NVIDIA 的 Riva TTS 模型为需要实时、逼真语音交互的各行各业带来了重大潜力，包括医疗保健和可访问性。这些模型的灵活性和高性能，通过低词错误率表现出来，使其成为需要动态和自适应音频输出的应用的理想解决方案。

总的来说，NVIDIA 的 Riva TTS 模型在语音 AI 领域代表了一个重大的进步，为开发者和研究人员提供强大的工具，以创建更具互动性和吸引力的基于语音的应用程序。

News ▸

NVIDIA Riva TTS 增强多语言语音和语音克隆技术

新 TTS 模型及其应用

先进的架构和偏好对齐

安全语音 AI 的合作

对行业和研究的影响

Read More

xAI Launches Grok for Government to Enhance U.S. Federal AI Capabilities

NVIDIA Riva TTS Enhances Multilingual Speech and Voice Cloning

Tether (USDT) Sponsors Key Cybersecurity Hackathon in Thailand

OKX Ventures Backs SUI's Move Language Adoption in Layer1 Blockchain

NVIDIA CEO Jensen Huang Advocates for AI Advancement in U.S. and China