水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210462035.1 (22)申请日 2022.04.28 (71)申请人 南京大学 地址 210023 江苏省南京市栖霞区仙林大 道163号 (72)发明人 姚远 徐锋 袁佳莉  (74)专利代理 机构 南京乐羽知行专利代理事务 所(普通合伙) 32326 专利代理师 李玉平 (51)Int.Cl. G06F 21/62(2013.01) G06F 40/205(2020.01) G06F 40/216(2020.01) (54)发明名称 一种基于程序上下文的移动应用敏感行为 描述生成方法 (57)摘要 本发明公开了一种基于程序上下文的移动 应用敏感行为描述生成方法。 本方法包括移动应 用程序敏感行为上下文提取、 应用文档中敏感行 为相关句子提取和补充、 以及敏感行为描述生 成。 首先通过静态分析提取移动应用敏感行为上 下文, 再通过机器阅读理解和关键词匹配抽取应 用文档中敏感行为的相关句子, 最后基于提示学 习生成敏感行为描述。 本发明相比于现有方法, 综合考虑了应用程序上下文与应用敏感行为的 联系, 解决了应用文档中敏感行为描述普遍缺失 的问题, 实现了移动应用敏感行为描述自动化生 成。 该方法将有效合理地为用户生成移动应用敏 感行为描述, 保障用户的知情权, 有较大应用价 值。 权利要求书2页 说明书11页 附图1页 CN 114861221 A 2022.08.05 CN 114861221 A 1.一种基于程序上下文的移动应用敏感行为描述生成方法, 其特征在于, 利用移动应 用的程序上下文信息和 应用文档, 通过提示学习微调GPT3自然语言生成模型, 自动生成移 动应用的敏感行为描述, 方法包括以下步骤: (1)移动应用上 下文提取 (1.1)移动 应用程序调用图构造: 根据解包后的移动 应用包, 构造结合移动系统特点的 程序调用图; (1.2)程序代码上下文提取: 根据PScount构造敏感权限调用方法子图, 得到敏感调用 接口调用图序列; (1.3)图形界面上下文提取: 根据程序调用图中方法和应用图形界面的映射关系, 提取 布局文件中的文字和资源名; (2)应用隐私权政策文档中敏感行为相关句子提取和补充 从移动应用的隐私权政策文档中提取和补充应用敏感行为相关句子; 包括根据关键 词、 结合机器阅读理解问答抽取敏感行为相关句子以及根据词 频‑逆文档频率相似度为部 分移动应用补充敏感行为相关句子 两个步骤; (3)移动应用敏感行为描述 生成 使用移动应用上下文提取和应用隐私权政策文档中敏感行为相关句子提取和补充所 得的移动应用敏感行为信息作为训练输入 数据, 基于提示学习微调GPT ‑3模型; 将训练所得 的生成模型最终输出的生成结果作为结果报告。 2.根据权利要求1所述的基于程序上下文的移动应用敏感行为描述生成方法, 其特征 在于, 结合安卓移动应用特点构造程序调用图, 提取程序代码上下文和图形界面上下文作 为应用敏感行为信息; 安卓程序是由组件构成, 将组件间通信、 生命周期事件、 界面交互、 多 线程的调用关系纳入应用调用图构造; 使用SOOT构造应用调用图, 提取应用程序中所有类 和所有方法, 使用宽度优先搜索进行程序方法节点的扫描与拓展; 如果扫描到的程序方法 中的语句是关于生命周期事件、 界面交互或多线程语句, 则也执行加边操作; 使用IC3工具 分析安卓应用组件间通信过程, 在获取组件通信的双方后, 在调用图中进一步加入节点和 有向调用边。 3.根据权利要求1所述的基于程序上下文的移动应用敏感行为描述生成方法, 其特征 在于, 程序代码上下文提取中, 使用PScout提供的映射表在应用调用图中找到敏感权限调 用方法, 并用宽度优 先搜索方法构造敏感权限调用方法子图; 在敏感权限调用方法子图中, 采用节点中方法签名里的方法名称作为程序 代码上下文, 根据驼峰命名法或下划线命名法 分割方法名。 4.根据权利要求1所述的基于程序上下文的移动应用敏感行为描述生成方法, 其特征 在于, 图形界面上下文提取中, 使用SOOT遍历应用程序中的方法体提取Activity绑定的布 局文件id; 根据敏感权限调用方法子图确 定应用程序中使用了敏感权限的Activity, 提取 使用敏感权限的Activity与布局文件id 的映射关系; 解包移动应用包获取应用中布局文件 名字和布局的映射关系, 匹配出使用敏感权限的Activity与布局文件名称的绑定关系, 提 取资源中的文本属性和资源名作为图形界面上 下文。 5.根据权利要求1所述的基于程序上下文的移动应用敏感行为描述生成方法, 其特征 在于, 根据关键词、 结合机器阅读理解问答抽取与根据词频 ‑逆文档频率相似度补充敏感行权 利 要 求 书 1/2 页 2 CN 114861221 A 2为相关句子; 首先, 以在官方文档 中出现频次高或敏感权限名和资源名为关键词, 在分句后的文档 中抽取相关句子; 然后, 使用基于BERT的机器阅读理解问答模型在去除已抽取的相关句子 后的文档中多次循环抽取文档中敏感行为相应句子; 对于应用文档敏感行为相关句子抽取结果为空应用, 根据其提取的程序上下文, 在已 抽取的其他应用的备选数据中按照敏感权限和应用程序上下文补充隐私权政策文档敏感 行为相关句子; 基于词频 ‑逆文档频率(TF ‑IDF)计算两个 应用程序上 下文的相似度: TF‑IDFw=TFw*IDFw 其中Nw是在某一应用程序上下文文本中词条w出现的次数, N是该文本总词条数, Y是相 同敏感权限中敏感行为描述备选数据库中的文档总数, Yw是包含词条w的文档数; 对于某一缺少隐私权政策文档敏感行为相关句子的应用, 计算程序上下文中每个词条 的TF‑IDF, 形成词频 ‑逆文档频率矩阵, 分别计算相同敏感权限中其他应用的程序上下文的 词频‑逆文档频率矩阵, 计算 余弦相似度: 其中, A、 B分别为待补充应用和备选数据库中相同敏感权限的其他应用的程序上下文 的词频‑逆文档频率矩阵; 从备选数据库中选取余弦相似度最高的应用, 将其隐私权政策文 档敏感行为相关句子作为待补充的应用的隐私权政策文档敏感行为相关句子 。 6.根据权利要求1所述的基于程序上下文的移动应用敏感行为描述生成方法, 其特征 在于, 基于提示学习, 增加 程序上下文, 改造敏感行为描述的下游任务; 通过为输入文本增 加任务提示语言, 把敏感行为描述生成任务转换为基于预训练语言模型 的文章续写问题; 设计提示为: “User Interface:user  interface  texts; Call  Graph:call  graph texts; Privacy Policy:referenced  privacy policy; This  application  uses permission   permission  to”, 使任务的输入 更贴近原始训练语料, 其中, permission为应用用到的敏感 权限, call graph texts为程序代码上下文, user  interface  texts为程序图形界面上下 文, referenced  privacy policy为隐私权政策文档中敏感行为相关句子; 在训练过程中, 使用部分数据样例对GPT3进行微调, 对于用于训练的数据, 将其应用描述文档中敏感行为 描述文本extracted  application  description改写为 “This application  uses  permission  permission  to extracted  application  description ”并加以修改调整, 最 后加入提 示中进行训练。权 利 要 求 书 2/2 页 3 CN 114861221 A 3

PDF文档 专利 一种基于程序上下文的移动应用敏感行为描述生成方法

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 0 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于程序上下文的移动应用敏感行为描述生成方法 第 1 页 专利 一种基于程序上下文的移动应用敏感行为描述生成方法 第 2 页 专利 一种基于程序上下文的移动应用敏感行为描述生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 SC 于 2024-02-07 12:39:25上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。