Place your ads here email us at info@blockchain.news
NEW
NVIDIA 研究使用新型 AI 模型推进 3D 机器人感知 - Blockchain.News

NVIDIA 研究使用新型 AI 模型推进 3D 机器人感知

realtime news Jun 17, 2025 09:12

NVIDIA 的 R²D² 计划探索用于机器人技术的 AI 3D 感知模型,增强自主导航、物体操作和实时环境映射。

NVIDIA 研究使用新型 AI 模型推进 3D 机器人感知

NVIDIA 正通过其机器人研究与开发文摘 (R²D²) 在 AI 3D 机器人感知方面开创进展,致力于提高机器人对环境的理解和互动能力。根据NVIDIA Research的最新研究,几种创新模型增强了复杂环境中的自主导航、物体操作和实时映射能力。

统一的 3D 感知模型

NVIDIA 的一整套感知模型将 3D 场景理解、物体跟踪和空间记忆集成到一个系统中。关键模型包括 FoundationStereo、PyCuVSLAM、BundleSDF 和 FoundationPose,每个模型都为强大的 3D 感知系统做出贡献。在 CVPR 2025 上获得最佳论文提名的 FoundationStereo,在各种环境中在立体深度估计方面表现出色,提供无需场景特定调优的零样本性能。

高级 SLAM 和映射技术

PyCuVSLAM 和 nvblox 提供实时相机姿态估计和 3D 环境映射。这些技术使机器人能够使用传统 3D 激光雷达传感器的经济替代方案在非结构化空间中导航和互动。nvblox 的 PyTorch 包装器加速了 3D 重建,实现了高速的、仅基于视觉的障碍物规避。

物体姿态跟踪和重建

FoundationPose 和 BundleSDF 解决了 6 自由度(6-DoF)物体姿态跟踪的挑战,即使对于新物体也如此。FoundationPose 利用统一的基础模型进行准确的姿态估计,而 BundleSDF 提供了从 RGB-D 视频中进行实时神经 3D 重建,随着时间推移优化姿态轨迹。

通用化的基础模型

FoundationStereo 和 FoundationPose 等基础模型在任务上的强大通用化能力增强了零样本情景下的可靠性。这些模型将通用先验嵌入到实时系统中,支持机器人在训练中未见过的环境和物体中工作。

机器人感知的未来

NVIDIA 的集成 3D 感知系统是实现具有空间和语义意识的机器人的重大进步。通过将基础模型与神经 3D 表达结合在一起,机器人可以在复杂环境中实现用于导航、操作和交互的实时感知。

Image source: Shutterstock
Place your ads here email us at info@blockchain.news