RAD-2: Scaling Reinforcement Learning in a Generator-Discriminator Framework

Fri, 24 Apr 2026 00:00:00 +0000

想象一下，你在教一个新手司机开车。用模仿学习（Imitation Learning）的方式，就像给他一大堆"老司机录像"反复看——他能学到很多驾驶技巧，但问题是，他只知道"该怎么开"，却从来没有为自己的失误付出过代价。

运动规划 on 朝花夕拾