专利 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211135878.7 (22)申请日 2022.09.19 (71)申请人吉林大学地址 130000 吉林省长春市前进大街269 9 号 (72)发明人李云　赵睿　高镇海　高菲　张天瑶　 (74)专利代理机构深圳众邦专利代理有限公司 44545 专利代理师李茂松 (51)Int.Cl. G08G 1/081(2006.01) G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01)G06F 30/20(2020.01) (54)发明名称基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法 (57)摘要本发明属于自动驾驶技术领域，具体为基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，包括步骤1：交叉口问题马尔可夫建模，综合考虑安全约束马尔可夫决策(constrained Markov decision process,CMDP)与马尔可夫博弈(Markov Game,MG)理论，将道路交叉口环境转化为为符合强化学习算法要求的模型；步骤2：单策略网络与双价值网络更新过程设计，设计单策略‑双评论家(Actor ‑Critic1‑Critic2)网络架构；步骤3：马尔可夫形式数据搜集；步骤4：强化学习训练，训练单策略 ‑双评论家(Actor ‑ Critic1‑Critic2)神经网络；步骤5：强化学习测试，在仿真器Carla中实际测试该强化学习算法的性能，能够针对时变的交通网络拓扑结构输出符合预期的车辆通行策略，在安全、舒适与效率方面均能够获得良好性能。权利要求书1页说明书8页附图4页 CN 115457782 A 2022.12.09 CN 115457782 A 1.基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，其特征在于：包括如下步骤：步骤1：交叉口问题马尔可夫建模，综合考虑安全约束马尔可夫决策(constrained Markov decision process,CMDP)与马尔可夫博弈(Markov Game,MG)理论，将道路交叉口环境转化为为符合强化学习算法要求的模型；步骤2：单策略网络与双价值网络更新过程设计，设计单策略 ‑双评论家(Actor ‑ Critic1‑Critic2)网络架构，以满足高随机动态道路交叉口环境中对安全性的需求：步骤3：马尔可夫形式数据搜集，实时搜集当前环境中所有车辆离开道路交叉口的距离、预期转向、车速以及当前环境中存在的车辆作为强化学习算法的状态空间；步骤4：强化学习训练，训练单策略 ‑双评论家(Actor ‑Critic1‑Critic2)神经网络，通过CMDP环境信息来不断更新神经网络，最终使策略收敛，在高动态的环境中也能实时输出安全、高效、舒适的策略；步骤5：强化学习测试，在仿真器Carla中实际测试该强化学习算法的性能，并与传统 MPC方法对比，重点测试公开的策略在计算实效性、安全性、舒适性与通行效率等方面相对于传统方法的优势。 2.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，其特征在于：所述步骤2中，策略网络用于输出控制行为，价值网络cr itic1用于评估全局环境的安全、高效与舒适性， critic2用于专门评估全局环境的安全性。 3.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，其特征在于：所述步骤3中，在车辆与环境不断交互的过程中搜集全局奖励函数与安全函数，将搜集到的信息组合形成轨迹以作为神经网络的输入。权　利　要　求　书 1/1 页 2 CN 115457782 A 2基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法技术领域 [0001]本发明涉及自动驾驶技术领域，具体为基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法。背景技术 [0002]随着智能化与网联化的发展，多辆自动驾驶汽车通过车联网协作通行的方式将改变未来交通管理和组织的模式，尤其是在交叉路口。自动驾驶车辆在基于信号灯的道路交叉口中往往有着较低的通行效率，由于部分车辆可能会由于红灯而产生许多无意义的等待。相比之下，在无信号灯道路交叉口环境中的自动车辆协作通行近几年得到了许多研究。该方式赋予自动驾驶车辆充分的自主权，能够最大化提升交通场景整体通行效率。然而，由于缺乏交通信号灯的管控，在复杂高动态的道路交叉口中保证多车通行的安全性面临较强的挑战性。 [0003]目前在无信号道路交叉口自动驾驶车辆协作通行方面，现有公开的技术包括模型预测控制算法、前馈 ‑反馈控制、预测维仿真算法等。该类方法通过将道路交叉口下多台车辆安全、舒适、高效通行问题建模为带约束的优化问题，并通过求解该带约束的优化问题来为交通场景中的每台车辆提供实时通行方式。然而当交通场景中车辆数目较多时求解NP ‑ hard问题需要巨大的计算，求解往往需要较长时间，在实际交通场景中难以部署。作为当下在各个领域均获得广泛关注的技术，强化学习方法在自动驾驶领域得到了越来越多的关注。自动驾驶的本质是在没有驾驶员参与的情况下，仅根据车辆对环境的感知来输出节气门开度、方向盘转角、刹车片开合力度等车辆控制量。在道路交通场景越来越复杂与传统基于解约束问题的计算方法的矛盾越来越显著的情况下，利用神经网络来进行决策正成为重要的解决方案，通过在高维度的环境中不断探索最优策略，经过训练的强化学习模型能够以极少的计算成本输出实时、高效、安全的道路交叉口通行策略。 [0004]基于上述问题，我们提出一种基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法。发明内容 [0005]本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实施方式。在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使本部分、说明书摘要和发明名称的目的模糊，而这种简化或省略不能用于限制本发明的范围。 [0006]鉴于现有技术中存在的问题，提出了本发明。 [0007]因此，本发明的目的是提供基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法，能够针对时变的交通网络拓扑结构输出符合预期的车辆通行策略，在安全、舒适与效率方面均能够获得良好性能。 [0008]为解决上述技术问题，根据本发明的一个方面，本发明提供了如下技术方案：说　明　书 1/8 页 3 CN 115457782 A 3

专利 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法

专利基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法