Search results for
grpo
NVIDIA NeMo-RL 利用 GRPO 实现先进的强化学习
NVIDIA 推出 NeMo-RL,这是一个用于强化学习的开源库,实现了通过 GRPO 的可扩展训练,并与 Hugging Face 模型无缝集成。