Together AI与NVIDIA的Blackwell GPU实现突破性推理速度
realtime news Jul 18, 2025 09:08
Together AI使用NVIDIA HGX B200展示了全球最快的DeepSeek-R1-0528模型推理速度,提升了AI在实际应用中的能力。

Together AI宣布在AI性能上取得重大进展,通过为DeepSeek-R1-0528模型提供最快的推理速度,该推理引擎是专为NVIDIA HGX B200平台设计的。据together.ai称,这一发展使Together AI成为大规模运行开源推理模型的领先平台。
NVIDIA Blackwell集成
今年早些时候,Together AI邀请包括Zoom和Salesforce在内的大型公司测试其GPU集群上的NVIDIA Blackwell GPU。结果促成了NVIDIA Blackwell支持的更广泛推广,为AI应用解锁了增强的性能。截至2025年7月17日,该公司声称已使用该技术实现DeepSeek-R1的最快无服务器推理性能。
技术进步
新的推理引擎优化了每一层技术堆栈,结合定制的GPU内核和专有推理引擎。这些创新旨在提升速度和效率,同时不影响模型质量。堆栈包括最先进的推测解码方法和先进的模型优化技术。
性能指标
Together AI的推理堆栈实现了每秒高达334个token的速度,超越了先前的基准。这种性能得益于NVIDIA第五代Tensor Cores和Together AI用于开发优化GPU内核的ThunderKittens框架的整合。
推测解码和量化
推测解码通过使用更小、更快的推测模型来预测多个token,显著加速大型语言模型。Together AI的Turbo推测器通过在不同场景中保持高目标-推测器对齐度,超过了现有模型。此外,Together AI开创了一种无损量化技术,在减少计算开销的同时保持模型准确性。
现实世界应用
这些增强旨在支持一系列AI工作负载,为推理和训练提供灵活的基础设施选项。专用端点提供了额外的优化,在保持质量和性能标准的同时,实现了显著的速度提升。
随着AI领域的不断发展,Together AI与NVIDIA的合作及其对推理引擎开发的创新方法使其成为AI竞赛中强劲的竞争者。
Image source: Shutterstock