s
发布时间:2022年10月14日
由我研究所师生合作完成的一篇论文Lexicographic Actor-Critic Deep Reinforcement Learning for Urban Autonomous Driving被自动驾驶领域知名期刊IEEE Transactions on Vehicular Technology录用,论文由我所博士生张恒瑞在林友芳老师、韩升老师、吕凯老师的指导下完成。
由于道路场景的复杂性和多车之间的频繁交互性,城市自动驾驶成为一项艰巨的任务。自动驾驶汽车需要在复杂场景中平衡多个目标,例如安全和速度。传统的强化学习方法通过优化具有单一目标奖励的智能体来处理多目标问题。然而,这些方法对奖励规模敏感,并且需要大量实验来设计奖励权重。在本文中,我们提出了字典序近端策略优化算法(Lexicographical Proximal Policy Optimization algorithm,LPPO)。该算法可以通过目标之间的字典顺序来表达人们的偏好关系,所提出的方法有两个主要优点。一方面,该方法具有更小的参数调整空间,这使得很容易找到满足实际问题偏好的最优解。另一方面,该方法受奖励规模的影响较小,并且易于在各种驾驶场景中部署。我们在两个驾驶模拟环境中评估了我们的算法,结果表明,所提出的方法在城市驾驶任务中的性能优于之前的强化学习算法。此外,实验表明即使奖励规模发生变化,所提出的方法也具有更好的稳定性。