NVIDIA发布TensorRT for RTX以提升AI应用性能
NVIDIA宣布发布TensorRT for RTX,这是一款新的软件开发包(SDK),设计用于提升NVIDIA RTX GPU上AI应用的性能。这款SDK可以集成到C++和Python应用中,适用于Windows和Linux平台。该声明是在Microsoft Build活动上发布的,强调了该SDK在各种工作负载(如卷积神经网络、语音模型和扩散模型)中简化高性能AI推理的潜力,详细信息请查看NVIDIA的官方博客。
关键特点和优势
TensorRT for RTX被定位为现有NVIDIA TensorRT推理库的直接替代品,简化了在NVIDIA RTX GPU上部署AI模型的过程。它在运行时引入了Just-In-Time(JIT)优化器,直接在用户的RTX加速PC上增强推理引擎。这一创新消除了冗长的预编译步骤,提高了应用的可移植性和运行时性能。该SDK支持轻量级应用集成,适用于内存受限环境,包体积不到200 MB。
SDK包包括对Windows和Linux的支持,C++开发头文件,快速原型设计的Python绑定,部署用的优化器和运行时库,导入ONNX模型的解析库,以及各种简化部署和基准测试的开发工具。
高级优化技术
TensorRT for RTX分两个阶段应用优化:预先优化(Ahead-Of-Time,AOT)和运行时优化。在AOT阶段,模型图被改进并转换为可部署的引擎。在运行时,JIT优化器根据已安装的RTX GPU来专门化引擎,允许快速引擎生成和性能提升。
值得注意的是,TensorRT for RTX引入了动态形状,使开发者可以在运行时推迟指定张量的维度。此功能允许灵活处理网络输入和输出,基于特定用例优化引擎性能。
增强的部署能力
该SDK还具有一个运行时缓存,用于存储JIT编译的内核,这些内核可以序列化以在应用调用中保持持久性,减少启动时间。此外,TensorRT for RTX支持可以在NVIDIA Ampere、Ada和Blackwell一代RTX GPU上运行的AOT优化引擎,无需在构建时使用GPU。
此外,该SDK允许创建无权重引擎,最小化当权重与引擎一同发布时的应用程序包大小。此功能与推理期间重新拟合权重的能力相结合,为开发者提供了更大的灵活性,高效部署AI模型。
通过这些进步,NVIDIA旨在赋能开发者构建适用于各种消费级设备的实时响应AI应用,增强创意和游戏应用的生产力。
Read More
NVIDIA Offers 40% Discount on GeForce NOW Performance Day Passes
Jun 12, 2025 1 Min Read
NVIDIA Unveils TensorRT for RTX to Boost AI Application Performance
Jun 12, 2025 1 Min Read
BNB Chain to Host Super Meetup in New York City
Jun 12, 2025 1 Min Read
Animoca Brands Reports Significant Growth in FY2021 Annual Report
Jun 12, 2025 1 Min Read
Tether Expands Gold Strategy with Stake in Elemental Altus Royalties
Jun 12, 2025 1 Min Read