looyifan

😀

looyifan xwlu

日拱一卒

Organizations

2 results for 强化学习

RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

想象一下，你在教一个新手司机开车。用模仿学习（Imitation Learning）的方式，就像给他一大堆"老司机录像"反复看——他能学到很多驾驶技巧，但问题是，他只知道"该怎么开"，却从来没有为自己的失误付出过代价。

自动驾驶端到端强化学习扩散模型运动规划 Created Fri, 24 Apr 2026 00:00:00 +0000
DiffusionDriveV2: Truncated Diffusion Model for End-to-End Autonomous Driving

自动驾驶规划面临一个经典的两难困境：多样性 vs 质量

自动驾驶端到端扩散模型强化学习 GRPO Created Tue, 17 Mar 2026 00:00:00 +0000