NVIDIA 研究使用新型 AI 模型推进 3D 机器人感知

realtime news Jun 17, 2025 17:12 UTC 09:12

1 Min Read

NVIDIA 正通过其机器人研究与开发文摘 (R²D²) 在 AI 3D 机器人感知方面开创进展，致力于提高机器人对环境的理解和互动能力。根据NVIDIA Research的最新研究，几种创新模型增强了复杂环境中的自主导航、物体操作和实时映射能力。

统一的 3D 感知模型

NVIDIA 的一整套感知模型将 3D 场景理解、物体跟踪和空间记忆集成到一个系统中。关键模型包括 FoundationStereo、PyCuVSLAM、BundleSDF 和 FoundationPose，每个模型都为强大的 3D 感知系统做出贡献。在 CVPR 2025 上获得最佳论文提名的 FoundationStereo，在各种环境中在立体深度估计方面表现出色，提供无需场景特定调优的零样本性能。

高级 SLAM 和映射技术

PyCuVSLAM 和 nvblox 提供实时相机姿态估计和 3D 环境映射。这些技术使机器人能够使用传统 3D 激光雷达传感器的经济替代方案在非结构化空间中导航和互动。nvblox 的 PyTorch 包装器加速了 3D 重建，实现了高速的、仅基于视觉的障碍物规避。

物体姿态跟踪和重建

FoundationPose 和 BundleSDF 解决了 6 自由度（6-DoF）物体姿态跟踪的挑战，即使对于新物体也如此。FoundationPose 利用统一的基础模型进行准确的姿态估计，而 BundleSDF 提供了从 RGB-D 视频中进行实时神经 3D 重建，随着时间推移优化姿态轨迹。

通用化的基础模型

FoundationStereo 和 FoundationPose 等基础模型在任务上的强大通用化能力增强了零样本情景下的可靠性。这些模型将通用先验嵌入到实时系统中，支持机器人在训练中未见过的环境和物体中工作。

机器人感知的未来

NVIDIA 的集成 3D 感知系统是实现具有空间和语义意识的机器人的重大进步。通过将基础模型与神经 3D 表达结合在一起，机器人可以在复杂环境中实现用于导航、操作和交互的实时感知。

News ▸

NVIDIA 研究使用新型 AI 模型推进 3D 机器人感知

统一的 3D 感知模型

高级 SLAM 和映射技术

物体姿态跟踪和重建

通用化的基础模型

机器人感知的未来

Read More

NVIDIA Research Advances 3D Robot Perception with New AI-Based Models

Hexagon Utilizes NVIDIA AI to Launch AEON Humanoid for Industrial Applications

EigenCloud Revolutionizes Blockchain with Cloud-Scale Programmability

EigenCloud Launches to Revolutionize Crypto App Development

Astar Network Boosts Performance with Asynchronous Backing Activation