专利 基于强化学习的列车ATO控制方法、设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211150119.8 (22)申请日 2022.09.21 (71)申请人交控科技股份有限公司地址 100070 北京市丰台区智成北街3号院交控大厦1号楼1层101室 (72)发明人陈明亮　张蕾　肖骁　王伟　 (74)专利代理机构北京科慧致远知识产权代理有限公司 1 1739 专利代理师宋珊珊 (51)Int.Cl. B61L 27/04(2006.01) B61L 27/60(2022.01) B61L 15/00(2006.01) G06F 30/20(2020.01) G06N 20/00(2019.01)G06F 111/06(2020.01) G06F 119/14(2020.01) (54)发明名称基于强化学习的列车ATO控制方法、设备及存储介质 (57)摘要本申请提供基于强化学习的列车ATO控制方法、设备、存储介质，其中方法包括：每隔预设控制周期，将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入，得到期望控制量；其中，列车自动驾驶控制算法基于强化学习训练环境训练，所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建；将期望控制量下发给被控列车，以使被控列车根据期望控制量，通过被控车辆的控制系统得出施加的牵引力/制动力，控制被控列车运行，实现了列车运行安全、准时、节能、舒适、精确停车的多目标优化控制，增强列车自动驾驶控制算法自适应和泛化能力，适配多种运行场景的参数自适应，提升控制算法的鲁棒性。权利要求书2页说明书10页附图2页 CN 115489572 A 2022.12.20 CN 115489572 A 1.一种基于强化学习的列车ATO控制方法，其特征在于，所述方法包括：每隔预设控制周期，将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入，得到期望控制量；其中，列车自动驾驶控制算法基于强化学习训练环境训练，所述强化学习训练环境基于被控列车的动力学特性和被控列车的运行控制系统功能搭建；将所述期望控制量下发给所述被控列车，以使所述被控列车根据所述期望控制量，通过所述被控车辆的控制系统得出施加的牵引力/制动力，控制所述被控列车运行。 2.根据权利要求1所述的方法，其特征在于，所述每隔预设控制周期，将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入，得到期望控制量之前，还包括：对被控列车的动力学特性进行建模；基于建立的模型，结合所述被控列车的运行控制系统功能搭建强化学习训练环境；确定基于强化学习的列车自动驾驶控制算法架构；基于架构和所述强化学习训练环境，对列车自动驾驶控制算法进行训练，得到训练好的列车自动驾驶控制算法。 3.根据权利要求2所述的方法，其特征在于，所述对被控列车的动力学特性进行建模，包括：提取被控列车的数据，所述数据包括：自动驾驶通控数据中的控制指令以及列车实际的加速度；通过所述数据辨识出系统增益K和时间常数τ；采用惯性环节对被控列车制动延时建立如下模型：其中， a为表示被控列车的实际加速度， ades表示被控列车的期望加速度。 4.根据权利要求2所述的方法，其特征在于，所述强化学习训练环境，根据所述被控列车在N周期时刻施加的动作指令aN，得到执行所述动作指令的状态转移： SN+1←SN(aN)；其中， SN+1为所述被控列车N+1周期时刻的状态， SN表示列车N周期的状态。 5.根据权利要求4所述的方法，其特征在于，所述动作指令为加速指令，或者，减速指令，或者惰行指令。 6.根据权利要求4所述的方法，其特征在于，所述状态为如下的一种或多种：速度，加速度，位置。 7.根据权利要求2所述的方法，其特征在于，所述基于架构和所述强化学习训练环境，对列车自动驾驶控制算法进行训练，得到训练好的列车自动驾驶控制算法，包括：基于架构和所述强化学习训练环境，得到状态空间动作空间折扣率γ，学习率 α；随机初始化Q表Q(s,a)，其中， s为状态空间中的状态标识， a为动作标识，且对于任意状态s和动作a，初始化起始状态s；选择动作a＝ π(s)；权　利　要　求　书 1/2 页 2 CN 115489572 A 2执行动作a，得到环境反馈的即时奖励r和新状态s ′；更新Q(s,a)←Q(s,a)+α(r+γmaxa′Q(s′,a′)‑Q(s,a))，其中， a ′为新动作；更新状态s ←s′；重复初始化起始状态s的步骤及后续步骤，直至s为终止状态；重复初始化起始状态s的步骤及后续步骤，直至Q表Q(s,a)收敛；得到训练好的列车自动驾驶控制算法 8.根据权利要求1所述的方法，其特征在于，所述将被控列车的当前状态信息和移动授权信息作为预先训练好的列车自动驾驶控制算法的输入，得到期望控制量之前，还包括：将预先训练好的列车自动驾驶控制算法集成至所述被控列车的自动驾驶模块。 9.一种电子设备，其特征在于，包括：存储器；处理器；以及计算机程序；其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如权利要求1 ‑8任一项所述的方法。 10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1 ‑8任一项所述的方法。权　利　要　求　书 2/2 页 3 CN 115489572 A 3

专利 基于强化学习的列车ATO控制方法、设备及存储介质

专利基于强化学习的列车ATO控制方法、设备及存储介质