Together AI与NVIDIA的Blackwell GPU实现突破性推理速度

NEW

Together AI与NVIDIA的Blackwell GPU实现突破性推理速度 - Blockchain.News

Together AI宣布在AI性能上取得重大进展，通过为DeepSeek-R1-0528模型提供最快的推理速度，该推理引擎是专为NVIDIA HGX B200平台设计的。据together.ai称，这一发展使Together AI成为大规模运行开源推理模型的领先平台。

NVIDIA Blackwell集成

今年早些时候，Together AI邀请包括Zoom和Salesforce在内的大型公司测试其GPU集群上的NVIDIA Blackwell GPU。结果促成了NVIDIA Blackwell支持的更广泛推广，为AI应用解锁了增强的性能。截至2025年7月17日，该公司声称已使用该技术实现DeepSeek-R1的最快无服务器推理性能。

技术进步

新的推理引擎优化了每一层技术堆栈，结合定制的GPU内核和专有推理引擎。这些创新旨在提升速度和效率，同时不影响模型质量。堆栈包括最先进的推测解码方法和先进的模型优化技术。

性能指标

Together AI的推理堆栈实现了每秒高达334个token的速度，超越了先前的基准。这种性能得益于NVIDIA第五代Tensor Cores和Together AI用于开发优化GPU内核的ThunderKittens框架的整合。

推测解码和量化

推测解码通过使用更小、更快的推测模型来预测多个token，显著加速大型语言模型。Together AI的Turbo推测器通过在不同场景中保持高目标-推测器对齐度，超过了现有模型。此外，Together AI开创了一种无损量化技术，在减少计算开销的同时保持模型准确性。

现实世界应用

这些增强旨在支持一系列AI工作负载，为推理和训练提供灵活的基础设施选项。专用端点提供了额外的优化，在保持质量和性能标准的同时，实现了显著的速度提升。

随着AI领域的不断发展，Together AI与NVIDIA的合作及其对推理引擎开发的创新方法使其成为AI竞赛中强劲的竞争者。

Image source: Shutterstock