NVIDIA通过尖端的Parakeet和Canary模型推动语音AI进步

NEW

NVIDIA通过尖端的Parakeet和Canary模型推动语音AI进步 - Blockchain.News

NVIDIA在语音AI技术方面的持续进展已在自动语音识别（ASR）领域设立了新标杆。根据NVIDIA的说法，他们的最新模型Parakeet和Canary以顶级性能指标和创新功能引领行业，在Hugging Face ASR排行榜上名列前茅。

突破性表现

NVIDIA的Parakeet TDT 0.6B v2模型表现突出，实现了仅6.05%的词错误率（WER），是其类别中最低的。该模型以其快速推理能力受到赞誉，比同类模型快50倍，并具有准确的时间戳和歌曲到歌词的转录功能。这些特性使其成为寻求高精度和速度的开发人员的首选。

值得注意的是，NVIDIA的模型提供广泛的语言支持。循环神经网络转换器（RNNT）多语言模型覆盖25种语言，促进全球沟通。这些模型集成了Silero VAD，以在医院和机场等嘈杂环境中保持准确性，确保即使在困难条件下也能可靠地进行转录。

Parakeet和Canary模型均为NVIDIA Riva的一部分，这是一套GPU加速的多语言语音和翻译微服务。受到社区反馈和现实世界需求的影响，这些模型从研究原型过渡到可扩展的部署。这些模型可用于商业用途，为开发人员提供强大的工具，以创建企业级语音解决方案。

NVIDIA 的语音AI模型旨在用于各种应用，从媒体和娱乐到医疗保健和金融。Parakeet模型例如就非常适合媒体应用和边缘设备，提供清晰的听写功能。同时，Canary模型在多语言任务中表现出色，在主要语言的语音识别和翻译中排名靠前。

总体而言，NVIDIA 继续推动语音AI的可能性，将其模型不仅在性能上达到了最先进的水平，而且足够多样化以满足不同行业的需求。

Image source: Shutterstock