NVIDIA通过尖端的Parakeet和Canary模型推动语音AI进步
realtime news Jun 04, 2025 18:11
NVIDIA的最新语音AI模型Parakeet和Canary在Hugging Face ASR排行榜上获得了最高排名,为实时应用提供了无与伦比的准确性和速度。

NVIDIA在语音AI技术方面的持续进展已在自动语音识别(ASR)领域设立了新标杆。根据NVIDIA的说法,他们的最新模型Parakeet和Canary以顶级性能指标和创新功能引领行业,在Hugging Face ASR排行榜上名列前茅。
突破性表现
NVIDIA的Parakeet TDT 0.6B v2模型表现突出,实现了仅6.05%的词错误率(WER),是其类别中最低的。该模型以其快速推理能力受到赞誉,比同类模型快50倍,并具有准确的时间戳和歌曲到歌词的转录功能。这些特性使其成为寻求高精度和速度的开发人员的首选。
全面的语言支持
值得注意的是,NVIDIA的模型提供广泛的语言支持。循环神经网络转换器(RNNT)多语言模型覆盖25种语言,促进全球沟通。这些模型集成了Silero VAD,以在医院和机场等嘈杂环境中保持准确性,确保即使在困难条件下也能可靠地进行转录。
模型亮点和部署
Parakeet和Canary模型均为NVIDIA Riva的一部分,这是一套GPU加速的多语言语音和翻译微服务。受到社区反馈和现实世界需求的影响,这些模型从研究原型过渡到可扩展的部署。这些模型可用于商业用途,为开发人员提供强大的工具,以创建企业级语音解决方案。
现实应用
NVIDIA 的语音AI模型旨在用于各种应用,从媒体和娱乐到医疗保健和金融。Parakeet模型例如就非常适合媒体应用和边缘设备,提供清晰的听写功能。同时,Canary模型在多语言任务中表现出色,在主要语言的语音识别和翻译中排名靠前。
总体而言,NVIDIA 继续推动语音AI的可能性,将其模型不仅在性能上达到了最先进的水平,而且足够多样化以满足不同行业的需求。
Image source: Shutterstock