(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211135878.7
(22)申请日 2022.09.19
(71)申请人 吉林大学
地址 130000 吉林省长 春市前进大街269 9
号
(72)发明人 李云 赵睿 高镇海 高菲
张天瑶
(74)专利代理 机构 深圳众邦专利代理有限公司
44545
专利代理师 李茂松
(51)Int.Cl.
G08G 1/081(2006.01)
G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)G06F 30/20(2020.01)
(54)发明名称
基于深度强化学习的自动驾驶车辆交叉口
无冲突合作方法
(57)摘要
本发明属于自动驾驶技术领域, 具体为基于
深度强化学习的自动驾驶车辆交叉口无冲突合
作方法, 包括步骤1: 交叉口问题马尔可夫建模,
综合考虑安全约束马尔可夫决策(constrained
Markov decision process,CMDP)与马尔可夫博
弈(Markov Game,MG)理论, 将道路交叉口环境转
化为为符合强化学习算法要 求的模型; 步骤2: 单
策略网络与双价值网络更新过程 设计, 设计单策
略‑双评论家(Actor ‑Critic1‑Critic2)网络架
构; 步骤3: 马尔可夫形式数据搜集; 步骤4: 强化
学习训练, 训练单策略 ‑双评论家(Actor ‑
Critic1‑Critic2)神经网络; 步骤5: 强化学习测
试, 在仿真器Carla中实 际测试该强化学习算法
的性能, 能够针对时变的交通网络拓扑结构输出
符合预期 的车辆通行策略, 在安全、 舒适与效率
方面均能够获得良好 性能。
权利要求书1页 说明书8页 附图4页
CN 115457782 A
2022.12.09
CN 115457782 A
1.基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法, 其特征在于: 包括如下
步骤:
步骤1: 交叉口问题马尔可夫建模, 综合考虑安全约束马尔可夫决策(constrained
Markov decision process,CMDP)与马尔可夫博弈(Markov Game,MG)理论, 将道路交叉口
环境转化为为符合强化学习算法要求的模型;
步骤2: 单策略网络与双价值网络更新过程设计, 设计单策略 ‑双评论家(Actor ‑
Critic1‑Critic2)网络架构, 以满足高随机动态 道路交叉口环境中对安全性的需求:
步骤3: 马尔可夫形式数据搜集, 实时搜集当前环境中所有车辆离开道路交叉口的距
离、 预期转向、 车速以及当前环境中存在的车辆作为强化学习算法的状态空间;
步骤4: 强化学习训练, 训练单策略 ‑双评论家(Actor ‑Critic1‑Critic2)神经网络, 通
过CMDP环境信息来不断更新神经网络, 最终使策略收敛, 在高动态的环境中也能实时输出
安全、 高效、 舒 适的策略;
步骤5: 强化学习测试, 在仿真器Carla中实际测试该强化学习算法的性能, 并与传统
MPC方法对比, 重点测试公开的策略在计算实效性、 安全性、 舒适性与通行效率等方面相对
于传统方法的优势。
2.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法,
其特征在于: 所述步骤2中, 策略网络用于输出控制行为, 价值网络cr itic1用于评估全局环
境的安全、 高效与舒 适性, critic2用于专门评估 全局环境的安全性。
3.根据权利要求1所述的基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法,
其特征在于: 所述步骤3中, 在车辆与环境不断交互的过程中搜集全局奖励函数与安全函
数, 将搜集到的信息组合形成轨 迹以作为神经网络的输入。权 利 要 求 书 1/1 页
2
CN 115457782 A
2基于深度强化学习的 自动驾驶车辆交叉口无冲突合作方 法
技术领域
[0001]本发明涉及自动驾驶技术领域, 具体为基于深度强化学习的自动驾驶车辆交叉口
无冲突合作方法。
背景技术
[0002]随着智能化与网联化的发展, 多辆自动驾驶汽车通过车联 网协作通行的方式将改
变未来交通管理和组织的模式, 尤其是在交叉路口。 自动驾驶车辆在基于信号灯的道路交
叉口中往往有着较低的通行效率, 由于部分车辆可能会由于红灯而产生许多无意义的等
待。 相比之下, 在无信号灯道路交叉口环境中的自动车辆协作通行近几年得到了许多研究。
该方式赋予自动 驾驶车辆充分的自主权, 能够最大化提升交通场景整体通行效率。 然而, 由
于缺乏交通信号灯的管控, 在复杂高动态的道路交叉口中保证多 车通行的安全性面临较强
的挑战性。
[0003]目前在无信号道 路交叉口自动驾驶车辆协作通行方面, 现有公开的技术包括模型
预测控制算法、 前馈 ‑反馈控制、 预测维仿真算法等。 该类方法通过将道路交叉口下多台车
辆安全、 舒适、 高效通行问题建模为带约束的优化问题, 并通过求解该带约束的优化问题 来
为交通场景中的每台车辆提供实时通行方式。 然而当交通场景中车辆数目较多时求解NP ‑
hard问题需要巨大的计算, 求解往往需要较长时间, 在实际交通场景中难以部署。 作为当下
在各个领域均获得广泛关注的技术, 强化学习方法在自动驾驶领域得到了越来越多的关
注。 自动驾驶的本质是在没有驾驶员参与的情况下, 仅根据车辆对环境的感知来输出节气
门开度、 方向盘转角、 刹车片开合力度等车辆控制量。 在道路交通场景越来越复杂与传统基
于解约束问题的计算方法的矛盾越来越显著的情况下, 利用神经网络来进 行决策正成为重
要的解决方案, 通过在高维度的环境中不断探索最优策略, 经过训练的强化学习模型能够
以极少的计算成本 输出实时、 高效、 安全的道路交叉口通行 策略。
[0004]基于上述问题, 我们提出一种基于深度强化学习的自动驾驶车辆交叉口无冲突合
作方法。
发明内容
[0005]本部分的目的在于概述本发明的实施方式的一些方面以及简要介绍一些较佳实
施方式。 在本部分以及本申请的说明书摘要和发明名称中可能会做些简化或省略以避免使
本部分、 说明书摘要和发明名称的目的模糊, 而这种简化或省略不能用于限制 本发明的范
围。
[0006]鉴于现有技 术中存在的问题, 提出了 本发明。
[0007]因此, 本发明的目的是提供基于深度强化学习的自动驾驶车辆交叉口无冲突合作
方法, 能够针对时变的交通网络拓扑结构输出符合预期的车辆通行策略, 在安全、 舒适与效
率方面均能够获得良好 性能。
[0008]为解决上述 技术问题, 根据本发明的一个方面, 本发明提供了如下技 术方案:说 明 书 1/8 页
3
CN 115457782 A
3
专利 基于深度强化学习的自动驾驶车辆交叉口无冲突合作方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:01:05上传分享