微软必应视觉搜索是一款使全球用户能够通过照片进行搜索的工具,通过与NVIDIA的合作进行了重大优化,带来了显著的性能提升。根据NVIDIA技术博客的说法,将NVIDIA的TensorRT、CV-CUDA和nvImageCodec集成到必应的TuringMM视觉嵌入模型中,使离线索引管道的吞吐量提高了5.13倍,减少了能源消耗和成本。
多模态AI和视觉搜索
像微软的TuringMM这样的多模态AI技术对于需要在不同数据类型(如文本和图像)之间无缝交互的应用至关重要。用于图像和文本联合理解的流行模型是CLIP,它使用双编码器架构来处理数亿对图像和标题。这些先进模型对于文本基础的视觉搜索、零样本图像分类和图像字幕等任务至关重要。
优化工作
必应视觉嵌入管道的优化是通过利用NVIDIA的GPU加速技术实现的。这个工作重点是通过使用NVIDIA的TensorRT进行模型执行来提升TuringMM管道的性能,从而提高了变压器架构中计算密集层的效率。此外,使用nvImageCodec和CV-CUDA加速了图像解码和预处理阶段,大大降低了图像处理任务的延迟。
实施与结果
在优化之前,必应的视觉嵌入模型运行在一个GPU服务器集群上,负责处理Microsoft各种深度学习服务的推理任务。原始实现使用ONNXRuntime配合CUDA Execution Provider,由于OpenCV处理的图像解码过程面临瓶颈。通过整合NVIDIA的库,管道的吞吐量从每秒88个查询(QPS)增加到452 QPS,展示了5.14倍的加速。
这些改进不仅提高了处理速度,还通过将任务转移到GPU上减轻了CPU的计算负荷,从而最大限度地提高了电能效率。NVIDIA的TensorRT对性能的提升贡献最大,而nvImageCodec和CV-CUDA库额外提升了27%的性能改进。
结论
微软必应视觉搜索的成功优化突显了NVIDIA加速库在增强AI驱动应用中的潜力。合作展示了如何有效利用GPU资源来加速深度学习和图像处理工作负载,即使基线系统已经采用了GPU加速。这些进展为更高效、更响应的视觉搜索能力奠定了基础,同时也使用户和服务提供商受益。
如需了解更多有关优化过程的详细见解,请访问原始NVIDIA技术博客。
Image source: Shutterstock