专利 订单分派方法、装置、电子设备及可读存储介质

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111274760.8 (22)申请日 2021.10.2 9 (71)申请人拉扎斯网络科技（上海）有限公司地址 200333 上海市普陀区真北路78 8号 507室 (72)发明人丁一　郭保申　丁凡　沈国斌　 (74)专利代理机构北京智信四方知识产权代理有限公司 1 1519 代理人宋海龙 (51)Int.Cl. G06Q 10/08(2012.01) G06Q 30/06(2012.01) G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/06(2012.01) (54)发明名称订单分派方法、装置、电子设备及可读存储介质 (57)摘要本公开实施例公开了订单分派方法、装置、电子设备及可读存储介质。订单分派方法包括：获取历史订单数据、历史快递员数据和历史配送过程数据，其中，历史配送过程数据包括与配送过程相关的环境数据；从历史订单数据、历史快递员数据和历史配送过程数据提取快递员的状态和快递员与订单之间的匹配动作的动作特征；通过预设强化学习模型基于时间步利用快递员的状态和快递员与订单之间的匹配动作的动作特征进行训练以输出快递员与订单之间的匹配值，作为订单分派决策；基于所述订单分派决策向快递员进行订单分派，可以综合考虑分派订单的当前影响和未来影响实现效率优化的并发订单分派，保证整体配送量并提高配送效率。权利要求书2页说明书20页附图4页 CN 114004564 A 2022.02.01 CN 114004564 A 1.一种订单分派方法，包括：获取历史订单数据、历史快递员数据和历史配送过程数据，其中，所述历史配送过程数据包括与配送过程相关的环境数据；从所述历史订单数据、所述历史快递员数据和所述历史配送过程数据提取快递员的状态和快递员与订单之间的匹配动作的动作特征；通过预设强化学习模型基于时间步利用所述快递员的状态和所述快递员与订单之间的匹配动作的动作特征进行训练以输出所述快递员与订单之间的匹配值，作为订单分派决策；基于所述订单分派决策向快递员进行订单分派。 2.根据权利要求1所述的方法，其中，所述快递员的状态包括快递员在时间步的个人状态、基于时间步从订单分派区域观察到的全局配送需求和配送供应信息、以及基于时间步的上下文时空特征。 3.根据权利要求1所述的方法，其中，所述快递员与订单之间的匹配动作的动作特征包括订单特征和快递员与订单之间的匹配特征，其中，所述订单特征包括商户位置、用户位置、价格、配送费、承诺配送时间与当前时间的差值，其中，所述快递员与订单之间的匹配特征包括商户与快递员当前位置之间的距离和时间开销、以及此匹配动作增加的配送时间。 4.根据权利要求1至3任一项所述的方法，其中，所述预设强化学习模型是时间受限的 Actor‑Critic模型，其中，所述时间受限的Actor ‑Critic模型包括作为预匹配模块的时间受限的动作空间剪枝模块、作为Actor的深度匹配网络、和作为Cr itic的价值网络，其中，所述时间受限的动作空间剪枝模块用于过滤掉不满足时间受限条件的快递员与订单之间的匹配动作，并且所述深度匹配网络具有可变的动作空间。 5.根据权利要求4所述的方法，其中，所述通过预设强化学习模型基于时间步利用所述快递员的状态和所述快递员与订单之间的匹配动作的动作特征进行训练以输出所述快递员与订单之间的匹配值，作为订单分派决策，包括：所述时间受限的分派动作空间剪枝模块获取基于时间步的对订单的候选快递员集，估计订单的配送时间，并且从所述候选快递员集中过滤掉不满足时间受限条件的快递员，以实现过滤掉不满足时间受限条件的快递员与订单之间的匹配动作；基于所述快递员的状态和满足时间受限条件的所述快递员与订单之间的匹配动作的动作特征对，所述深度匹配网络得到快递员与订单之间的匹配值，并且根据所述快递员与订单之间的匹配值以及预设匹配策略计算所述深度匹配网络的权重；基于所述快递员的状态、所述状态和所述动作特征对、对所述快递员的激励值和对所述激励值的折扣，所述价值网络计算利用预设优势函数确定所述快递员与订单之间的匹配动作的优秀程度，并且计算所述深度匹配网络的梯度以更新所述深度匹配网络的权重。 6.根据权利要求1 ‑3任一项所述的方法，其中，所述方法还包括：设置仿真器以利用历史订单数据、历史快递员数据和历史配送过程数据模拟订单分派的实时情况，以在所述仿真器中对所述预设强化学习模型进行训练，其中，所述预设强化学习模型做出订单分派决策并且将所述快递员与订单之间的匹配权　利　要　求　书 1/2 页 2 CN 114004564 A 2结果反馈给所述仿真器以供所述仿真器评估订单分派性能。 7.一种订单分派装置，包括：历史数据获取模块，被配置为获取历史订单数据、历史快递员数据和历史配送过程数据，其中，所述历史配送过程数据包括与配送过程相关的环境数据；状态和动作特征提取模块，被配置为从所述历史订单数据、所述历史快递员数据和所述历史配送过程数据提取快递员的状态和快递员与订单之间的匹配动作的动作特征；强化学习模块，被配置为通过预设强化学习模型基于时间步利用所述快递员的状态和所述快递员与订单之间的匹配动作的动作特征进行训练以输出所述快递员与订单之间的匹配值，作为订单分派决策；订单分派模块，被配置为基于所述订单分派决策向快递员进行订单分派。 8.根据权利要求7所述的装置，其中，所述快递员的状态包括快递员在时间步的个人状态、基于时间步从订单分派区域观察到的全局配送需求和配送供应信息、以及基于时间步的上下文时空特征。 9.一种电子设备，其特征在于，包括存储器和处理器；其中，所述存储器用于存储一条或多条计算机指令，其中，所述一条或多条计算机指令被所述处理器执行以实现权利要求 1 ～6任一项所述的方法步骤。 10.一种可读存储介质，其上存储有计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1～6任一项所述的方法步骤。权　利　要　求　书 2/2 页 3 CN 114004564 A 3

专利 订单分派方法、装置、电子设备及可读存储介质

专利订单分派方法、装置、电子设备及可读存储介质