水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111399979.0 (22)申请日 2021.11.19 (71)申请人 荣耀终端 有限公司 地址 518040 广东省深圳市福田区香蜜湖 街道东海社区红荔西路8089号深业中 城6号楼A单元3401 (72)发明人 赵杰 陈贵龙  (74)专利代理 机构 深圳市深佳知识产权代理事 务所(普通 合伙) 44285 专利代理师 戴皓 (51)Int.Cl. G06N 20/00(2019.01) G06K 9/62(2022.01) G06F 3/04817(2022.01) G06F 9/451(2018.01) (54)发明名称 特征选择方法、 应用程序预测方法及装置 (57)摘要 本申请提供了特征选择方法、 应用程序预测 方法及装置, 该特征选择方法获取每个初始特征 与原始标签 之间的MIC值, 以及, 对原始标签进行 随机打乱得到错误标签, 并获取每个初始特征与 各个错误标签之间的MIC"值。 获得同一初始特征 对应的MIC值及各个MIC"值之间的偏离度, 并基 于各个初始特征的偏离度选取目标特征。 该方案 减少了特征数量, 加快了模型训练速度, 进而降 低了模型训练过程的功耗。 而且, 与通过树模型 获得特征重要性的方案相比, 该方案直接基于特 征与类别标签之间的MIC值来衡量特征的重要 性, 无需针对每次随机打乱操作训练相应的树模 型, 缩短了特征选择过程的耗时, 因此提高了效 率。 进而减少了APP预测模型的复杂 度, 以及减少 APP预测模型占用的系统内存。 权利要求书4页 说明书17页 附图11页 CN 115018081 A 2022.09.06 CN 115018081 A 1.一种特 征选择方法, 其特 征在于, 应用于电子设备, 所述方法包括: 提取样本集的初始特 征; 获取每个所述初始特征与 所述样本集的初始标签之间的第 一最大信 息系数, 所述第 一 最大信息系数表征 所述初始特 征在所述初始标签下的重要程度; 对所述初始标签分别进行N次随机打乱, 得到N个打乱后的错误标签, 其中, N为大于1的 正整数; 获取每个所述初始特征与任一个所述错误标签之间的第 二最大信 息系数, 所述第 二最 大信息系数表征 所述初始特 征在所述 错误标签下的重要程度; 获得同一所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数 之间的偏离度, 所述偏离度表征每个所述初始特征分别 在所述初始标签下与各个所述错误 标签下的重要程度的差异; 基于每个所述初始特 征对应的所述偏离度, 确定出目标 特征。 2.根据权利要求1所述的方法, 其特征在于, 所述对所述初始标签分别进行N次随机打 乱, 得到N个打乱后的错 误标签, 包括: 分别对同一类别的不同样本对应的标签, 进行N次随机打乱, 得到N个打乱后的错误标 签。 3.根据权利要求1或2所述的方法, 其特征在于, 所述获得同一个所述初始特征对应的 所述第一 最大信息系数与各个所述第二 最大信息系数之间的偏离度, 包括: 对于任一初始特征, 获取所述任一初始特征对应的各个所述第 二最大信 息系数的中位 数; 获得所述任一初始特征对应的所述第一最大信息系数与所述第二最大信息系数的中 位数之间的偏离度。 4.根据权利要求3所述的方法, 其特征在于, 所述获得所述任一初始特征对应的所述第 一最大信息系数与所述第二 最大信息系数的中位数之间的偏离度, 包括: 基于如下公式计算得到所述任一初始特 征对应的偏离度: 其中, scor ei表示第i个初始特征对应的偏离度, MICi表示第i个初始 特征与原始 标签之 间的第一最大信 息系数, MICij"表示第i个初始特征与第j个错误标签之间的第 二最大信 息 系数, j为 正整数, 且1≤j≤N, N 为所述错误标签的总数量, γ是一个极小值。 5.根据权利要求4所述的方法, 其特征在于, 所述获得所述任一初始特征对应的所述第 一最大信息系数与所述第二 最大信息系数的中位数之间的偏离度, 还 包括: 利用正则化算法将所述任一初始特征对应的所述偏离度对应的值域调整至预设范围 内。 6.根据权利要求1至5任一项所述的方法, 其特征在于, 所述基于每个所述初始特征对 应的所述偏离度, 确定出目标 特征, 包括: 选取所述偏离度大于预设阈值的所述初始特 征确定为所述目标 特征。 7.根据权利要求1所述的方法, 其特征在于, 应用于基于排序算法模型的应用程序 预测权 利 要 求 书 1/4 页 2 CN 115018081 A 2模型, 每个样 本包括一个查询APP和一个候选APP, 且每一条查询APP使用记录对应一个包括 M个样本的样本 子集, 所述M个样本中的查询AP P相同、 候选AP P互不相同; 所述对所述初始标签分别进行N次随机打乱, 得到N个打乱后的错 误标签, 包括: 针对属于同一类别的至少两个不同的所述查询APP, 将各个所述查询APP对应的样本子 集的标签之间进行N次随机打乱, 得到所述样本集对应的N个打乱后的错 误标签。 8.根据权利要求7 所述的方法, 其特 征在于, 包括: 从所述样本集中的所述查询APP对应的信 息中提取得到第 一类初始特征, 以及, 从所述 样本集中的所述 候选APP对应的信息中提取 得到第二类初始特 征; 获得每个第一类初始特 征与所述样本集的初始标签之间的第一 最大信息系数; 获得每个第二类初始特 征与所述样本集的初始标签之间的第一 最大信息系数; 对所述初始标签分别进行N次随机打乱, 得到N个打乱后的错 误标签; 获取所述每个第一类初始特 征与任一所述 错误标签之间的第二 最大信息系数; 获得同一个所述第一类初始特征对应的所述第一最大信息系数与各个所述第二最大 信息系数之间的偏离度; 基于每个所述第一类初始特 征对应的所述偏离度, 确定出第一类目标 特征; 获取所述每个第二类初始特 征与任一个所述 错误标签之间的第二 最大信息系数; 获得同一个所述第二类初始特征对应的所述第一最大信息系数与各个所述第二最大 信息系数之间的偏离度; 基于每个所述第二类初始特 征对应的所述偏离度, 确定出第二类目标 特征。 9.一种应用程序预测方法, 其特 征在于, 应用于电子设备, 所述方法包括: 获取历史APP序列, 所述历史APP序列包括所述电子设备在历史时间段内的APP使用记 录信息; 基于所述历史AP P序列构造样本集; 提取所述样本集的初始特 征; 获取每个所述初始特征与 所述样本集的初始标签之间的第 一最大信 息系数, 所述第 一 最大信息系数表征 所述初始特 征在所述初始标签下的重要程度; 对所述初始标签分别进行N次随机打乱, 得到N个打乱后的错误标签, 其中, N为大于1的 正整数; 获取每个所述初始特征与任一个所述错误标签之间的第 二最大信 息系数, 所述第 二最 大信息系数表征 所述初始特 征在所述 错误标签下的重要程度; 获得同一所述初始特征对应的所述第一最大信息系数与各个所述第二最大信息系数 之间的偏离度, 所述偏离度表征每个所述初始特征分别 在所述初始标签下与各个所述错误 标签下的重要程度的差异; 基于每个所述初始特 征对应的所述偏离度, 确定出目标 特征; 基于所述目标 特征训练预设模型 得到APP预测模型; 检测到APP预测事件后, 基于所述APP预测模型预测得到所述APP预测事件对应的预测 APP序列。 10.根据权利 要求9所述的方法, 其特征在于, 所述检测到APP预测事件后, 基于所述APP 预测模型 预测得到所述AP P预测事件对应的预测AP P序列, 包括:权 利 要 求 书 2/4 页 3 CN 115018081 A 3

.PDF文档 专利 特征选择方法、应用程序预测方法及装置

文档预览
中文文档 33 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共33页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 特征选择方法、应用程序预测方法及装置 第 1 页 专利 特征选择方法、应用程序预测方法及装置 第 2 页 专利 特征选择方法、应用程序预测方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:03:10上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。