(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211150119.8
(22)申请日 2022.09.21
(71)申请人 交控科技股份有限公司
地址 100070 北京市丰台区智成北街3号院
交控大厦1号楼1层101室
(72)发明人 陈明亮 张蕾 肖骁 王伟
(74)专利代理 机构 北京科慧致远知识产权代理
有限公司 1 1739
专利代理师 宋珊珊
(51)Int.Cl.
B61L 27/04(2006.01)
B61L 27/60(2022.01)
B61L 15/00(2006.01)
G06F 30/20(2020.01)
G06N 20/00(2019.01)G06F 111/06(2020.01)
G06F 119/14(2020.01)
(54)发明名称
基于强化学习的列车ATO控制方法、 设备及
存储介质
(57)摘要
本申请提供基于强化学习的列车ATO控制方
法、 设备、 存储介质, 其中方法包括: 每隔预设控
制周期, 将被控列车的当前状态信息和移动授权
信息作为预先训练好的列车自动驾驶控制算法
的输入, 得到期望控制量; 其中, 列车自动驾驶控
制算法基于强化学习训练环境训练, 所述强化学
习训练环境基于被控列车的动力学特性和被控
列车的运行控制系统功能搭建; 将期望控制量下
发给被控列车, 以使被控列车根据期望控制量,
通过被控车辆的控制 系统得出施加的牵引力/制
动力, 控制被控列车运行, 实现了列车运行安全、
准时、 节能、 舒适、 精确停车的多目标优化控制,
增强列车自动驾驶控制算法自适应和泛化能力,
适配多种运行场景的参数自适应, 提升控制算法
的鲁棒性。
权利要求书2页 说明书10页 附图2页
CN 115489572 A
2022.12.20
CN 115489572 A
1.一种基于强化学习的列车ATO控制方法, 其特 征在于, 所述方法包括:
每隔预设控制周期, 将被控列车的当前状态信 息和移动授权信 息作为预先训练好的列
车自动驾驶控制算法的输入, 得到期 望控制量; 其中, 列车自动驾驶控制算法基于强化学习
训练环境训练, 所述 强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制
系统功能搭建;
将所述期望控制量下发给所述被控列车, 以使所述被控列车根据所述期望控制量, 通
过所述被控车辆的控制系统得 出施加的牵引力/制动力, 控制所述被控列车运行。
2.根据权利要求1所述的方法, 其特征在于, 所述每隔预设控制周期, 将被控列车的当
前状态信息和移动授权信息作为预先训练好的列车自动 驾驶控制算法的输入, 得到期 望控
制量之前, 还 包括:
对被控列车的动力学 特性进行建模;
基于建立的模型, 结合所述被控列车的运行控制系统功能搭建强化学习训练环境;
确定基于强化学习的列车自动驾驶控制算法架构;
基于架构和所述强化学习训练环境, 对列车自动驾驶控制算法进行训练, 得到训练好
的列车自动驾驶控制算法。
3.根据权利要求2所述的方法, 其特征在于, 所述对被控列车的动力学特性进行建模,
包括:
提取被控列车的数据, 所述数据包括: 自动驾驶通控数据中的控制指令以及列车实 际
的加速度;
通过所述数据辨识出系统增益K和时间常数τ;
采用惯性环 节对被控列车制动延时建立如下模型:
其中, a为表示被控列车的实际加速度, ades表示被控列车的期望加速度。
4.根据权利要求2所述的方法, 其特征在于, 所述强化学习训练环境, 根据所述被控列
车在N周期时刻施加的动作指令aN, 得到执行所述动作指令的状态转移: SN+1←SN(aN);
其中, SN+1为所述被控列车N+1周期时刻的状态, SN表示列车N周期的状态。
5.根据权利要求4所述的方法, 其特征在于, 所述动作指令为加速指令, 或者, 减速指
令, 或者惰行指令 。
6.根据权利要求4所述的方法, 其特征在于, 所述状态为如下的一种或多种: 速度, 加速
度, 位置。
7.根据权利要求2所述的方法, 其特征在于, 所述基于架构和所述强化学习训练环境,
对列车自动驾驶控制算法进行训练, 得到训练好的列车自动驾驶控制算法, 包括:
基于架构和所述强化学习训练环境, 得到状态空间
动作空间
折扣率γ, 学习率
α;
随机初始化Q表Q(s,a), 其中, s为状态空间
中的状态标识, a为动作标识, 且对于任意
状态s和动作a,
初始化起始状态s;
选择动作a= π(s);权 利 要 求 书 1/2 页
2
CN 115489572 A
2执行动作a, 得到环境反馈的即时奖励r和新状态s ′;
更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)‑Q(s,a)), 其中, a ′为新动作;
更新状态s ←s′;
重复初始化 起始状态s的步骤及后续 步骤, 直至s为终止状态;
重复初始化 起始状态s的步骤及后续 步骤, 直至Q表Q(s,a)收敛;
得到训练好的列车自动驾驶控制算法
8.根据权利要求1所述的方法, 其特征在于, 所述将被控列车的当前状态信 息和移动授
权信息作为预 先训练好的列车自动驾驶控制算法的输入, 得到期望控制量之前, 还 包括:
将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块。
9.一种电子设备, 其特 征在于, 包括:
存储器;
处理器; 以及
计算机程序;
其中, 所述计算机程序存储在所述存储器中, 并被配置为由所述处理器执行以实现如
权利要求1 ‑8任一项所述的方法。
10.一种计算机可读存储介质, 其特征在于, 其上存储有计算机程序; 所述计算机程序
被处理器执行以实现如权利要求1 ‑8任一项所述的方法。权 利 要 求 书 2/2 页
3
CN 115489572 A
3
专利 基于强化学习的列车ATO控制方法、设备及存储介质
文档预览
中文文档
15 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:00:53上传分享