水利行业标准网
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111274760.8 (22)申请日 2021.10.2 9 (71)申请人 拉扎斯网络科技 (上海) 有限公司 地址 200333 上海市普陀区真北路78 8号 507室 (72)发明人 丁一 郭保申 丁凡 沈国斌  (74)专利代理 机构 北京智信四方知识产权代理 有限公司 1 1519 代理人 宋海龙 (51)Int.Cl. G06Q 10/08(2012.01) G06Q 30/06(2012.01) G06F 30/27(2020.01) G06N 20/00(2019.01) G06Q 10/06(2012.01) (54)发明名称 订单分派方法、 装置、 电子设备及可读存储 介质 (57)摘要 本公开实施例公开了订单分派方法、 装置、 电子设备及可读存储介质。 订单分派方法包括: 获取历史订单数据、 历史快递员数据和历史配送 过程数据, 其中, 历史配送过程数据包括与配送 过程相关的环境数据; 从历史订单数据、 历史快 递员数据和历史配送过程数据提取快递员的状 态和快递员与订单之间的匹配动作的动作特征; 通过预设强化学习模型基于时间步利用快递员 的状态和快递员与订单之间的匹配动作的动作 特征进行训练以输出快递员与订单之间的匹配 值, 作为订单分派决策; 基于所述订单分派决策 向快递员进行订单分派, 可以综合考虑分派订单 的当前影响和未来影响实现效率优化的并发订 单分派, 保证整体 配送量并提高配送效率。 权利要求书2页 说明书20页 附图4页 CN 114004564 A 2022.02.01 CN 114004564 A 1.一种订单分派方法, 包括: 获取历史订单数据、 历史快递员数据和历史配送过程数据, 其中, 所述历史配送过程数 据包括与配送过程相关的环境数据; 从所述历史订单数据、 所述历史快递员数据和所述历史配送过程数据提取快递员的状 态和快递员与订单之间的匹配动作的动作特 征; 通过预设强化学习模型基于时间步利用所述快递员的状态和所述快递员与订单之间 的匹配动作的动作特征进 行训练以输出所述快递员与订单之间的匹配值, 作为订单分派决 策; 基于所述 订单分派决策向快递员进行订单分派。 2.根据权利要求1所述的方法, 其中, 所述快递员的状态包括快递员在时间步的个人状 态、 基于时间步从订单分派区域观察到的全局配送需求和配送供应信息、 以及基于时间步 的上下文时空特 征。 3.根据权利要求1所述的方法, 其中, 所述快递员与订单之间的匹配动作的动作特征包 括订单特征和快递员与订单之间的匹配特 征, 其中, 所述订单特征包括商户位置、 用户位置、 价格、 配送费、 承诺配送时间与当前时间 的差值, 其中, 所述快递员与订单之间的匹配特征包括商户与 快递员当前位置之间的距离和时 间开销、 以及此匹配动作增 加的配送时间。 4.根据权利要求1至3任一项所述的方法, 其中, 所述预设强化学习模型是时间受限的 Actor‑Critic模型, 其中, 所述时间受限的Actor ‑Critic模型包括作为预匹配模块的时间 受限的动作空间剪枝模块、 作为Actor的深度匹配网络、 和作为Cr itic的价值网络, 其中, 所 述时间受 限的动作 空间剪枝模块用于过滤掉不满足时间受 限条件的快递员与订单之间的 匹配动作, 并且所述深度匹配网络具有可变的动作空间。 5.根据权利要求4所述的方法, 其中, 所述通过预设强化学习模型基于时间步利用所述 快递员的状态和所述快递员与订单之间的匹配动作的动作特征进行训练以输出所述快递 员与订单之间的匹配值, 作为 订单分派决策, 包括: 所述时间受限的分派动作空间剪枝模块获取基于时间步的对订单的候选快递员集, 估 计订单的配送时间, 并且从所述候选快递员集中过滤掉不满足时间受 限条件的快递员, 以 实现过滤掉不满足时间受限条件的快递员与订单之间的匹配动作; 基于所述快递员的状态和满足时间受限条件的所述快递员与订单之间的匹配动作的 动作特征对, 所述深度匹配网络得到快递员与订单之间的匹配值, 并且根据所述快递员与 订单之间的匹配值以及预设匹配策略计算所述深度匹配网络的权 重; 基于所述快递员的状态、 所述状态和所述动作特征对、 对所述快递员的激励值和对所 述激励值的折扣, 所述价值网络计算利用预设优势 函数确定所述快递员与订单之 间的匹配 动作的优秀 程度, 并且计算所述深度匹配网络的梯度以更新所述深度匹配网络的权 重。 6.根据权利要求1 ‑3任一项所述的方法, 其中, 所述方法还 包括: 设置仿真器以利用历史订单数据、 历史快递员数据和历史配送过程数据模拟订单分派 的实时情况, 以在所述仿真器中对所述预设强化学习模型进行训练, 其中, 所述预设强化学习模型做出订单分派决策并且将所述快递员与订单之间的匹配权 利 要 求 书 1/2 页 2 CN 114004564 A 2结果反馈给 所述仿真器以供 所述仿真器评估订单分派性能。 7.一种订单分派装置, 包括: 历史数据获取模块, 被配置为获取历史订单数据、 历史快递员数据和历史配送过程数 据, 其中, 所述历史配送过程数据包括与配送过程相关的环境数据; 状态和动作特征提取模块, 被配置为从所述历史订单数据、 所述历史快递员数据和所 述历史配送过程数据提取 快递员的状态和快递员与订单之间的匹配动作的动作特 征; 强化学习 模块, 被配置为通过预设强化学习 模型基于时间步利用所述快递员的状态和 所述快递员与订单之间的匹配动作的动作特征进行训练以输出所述快递员与订单之间的 匹配值, 作为 订单分派决策; 订单分派模块, 被 配置为基于所述 订单分派决策向快递员进行订单分派。 8.根据权利要求7所述的装置, 其中, 所述快递员的状态包括快递员在时间步的个人状 态、 基于时间步从订单分派区域观察到的全局配送需求和配送供应信息、 以及基于时间步 的上下文时空特 征。 9.一种电子设备, 其特征在于, 包括存储器和 处理器; 其中, 所述存储器用于存储一条 或多条计算机指 令, 其中, 所述一条或多 条计算机指令被所述处理器执行以实现权利要求 1 ~6任一项所述的方法步骤。 10.一种可读存储介质, 其上存储有计算机指令, 其特征在于, 该计算机指令被处理器 执行时实现权利要求1~6任一项所述的方法步骤。权 利 要 求 书 2/2 页 3 CN 114004564 A 3

.PDF文档 专利 订单分派方法、装置、电子设备及可读存储介质

文档预览
中文文档 27 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 订单分派方法、装置、电子设备及可读存储介质 第 1 页 专利 订单分派方法、装置、电子设备及可读存储介质 第 2 页 专利 订单分派方法、装置、电子设备及可读存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:41上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。