水利行业标准网
(19)国家知识产权局 (12)发明 专利 (10)授权公告 号 (45)授权公告日 (21)申请 号 202210139536.6 (22)申请日 2022.02.16 (65)同一申请的已公布的文献号 申请公布号 CN 114202038 A (43)申请公布日 2022.03.18 (73)专利权人 广州番禺职业 技术学院 地址 511483 广东省广州市番禺区沙湾镇 市良路1342号 专利权人 广东拓思软件科 学园有限公司 (72)发明人 杨鹏 张晋桂 余明辉 赵聚雪  王瑾 陈振宇  (74)专利代理 机构 广州汇盈知识产权代理事务 所(普通合伙) 44603 专利代理师 邓有才 (51)Int.Cl. G06K 9/62(2022.01)G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 11/36(2006.01) (56)对比文件 CN 112000818 A,2020.1 1.27 US 20191473 66 A1,2019.0 5.16 高帆等.基 于DBM-LSTM的多特 征语音情感识 别. 《计算机 工程与设计》 .2020,第41卷(第02 期),465-470. 审查员 谭岳峰 (54)发明名称 一种基于DBM深度学习的众包缺陷分类方法 (57)摘要 本发明披露了一种基于DBM深度学习的众包 缺陷分类方法, 其是对在众包场景下测试工人提 交的测试报告, 对测试报告中的文本描述和图片 分别进行数据预处理得到文本数据和图像数据; 然后进行多模态数据特征的提取与融合, 借助深 度玻尔兹曼机, 对所述文本数据和图像数据进行 特征融合, 且输出得到文本和图像的合成向量; 最后是训练分类模型, 包括将所述合成向量输入 到SVM支持向量机中, 直接输出预定义好的分类 结果。 本发 明可以更加精准地对 众包测试场景下 的Bug报告进行特征融合, Bug分类, 从而有效进 行任务分配, 提高了众包测试场景下Bug分类的 准确率, 降低了人工审核的压力, 提高了人工审 核的效率。 权利要求书2页 说明书7页 附图4页 CN 114202038 B 2022.05.31 CN 114202038 B 1.一种基于DBM深度 学习的众包缺陷分类方法, 其特征在于, 该众包缺陷分类方法是对 众包场景下测试工人提交的测试报告, 对所述测试报告中的文本描述和图片分别进行数据 预处理得到文本数据和图像数据; 然后进 行多模态数据特征的提取与融合, 即通过DBM对所 述文本数据和图像数据进行特征融合, 且输出得到文本和图像的合成向量; 最后是训练分 类模型, 包括将所述合成向量输入到SVM中, 直接输出预定义好的分类结果, 所述预定义好 的分类结果包含了不正常退出、 数据错误、 功能错误、 页面布局错误、 用户体验、 和性能问题 六大类别, 所述DBM中文之意 为深度玻尔兹曼机, 所述SVM中文之意 为支持向量机; 所述深度玻尔兹曼机是以受限玻尔兹曼机为基础的深度 学习模型, 由多层受限玻尔兹 曼机叠加而成, 受 限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络, 为 双层神经网络, 即只有一个可见层和一个隐藏层, 而所述深度玻尔兹曼机具有多层隐单元 层, 即除了输入的可见层和输出层外的其他所有层; 该模型用于结合不同模态的数据特征 来创建融合数据的表征, 能够同时对文本数据和图像数据进行压缩, 得到测试报告信息的 有效表示; 该模型是从每个数据模态的条件分布中取样, 即使在某些数据模态缺失的情况 下也可以完成特 征表示; 所述文本描述进行预处理是: 首先进行清洗, 清洗掉非常规字符, 非常规字符包括数 字、 英文、 标点, 其次采用jieba (结巴) , 进行分词与去除停用词, 分词即将语句拆 分成词汇, 去除停用词即去除对文本分析没有帮助的词, 包括连词、 虚词、 语气词, 最后通过TF ‑IDF进 行词频统计, TF 是指词频, IDF 是指逆文本频率指数; 所述图片进行预处理是: 首先对图片进行尺寸调整, 屏蔽掉图像像素特征的差异, 之后 进行滤波处理, 平滑图像, 去除噪音; 所述多模态数据特征的提取与融合包括下列步骤: 首先, 以所述文本数据和图像数据 作为可见层数据, 所述可见层数据是指输入神经网络的用户可见 的神经网络层, 通过对比 散列算法提取出隐单元层的特征向量, 最后, 形成一个多模态的DBM网络, 所述多模态的DBM 网络包括文本DBM网络模 型和图像DBM网络模 型, 在所述文本DBM网络模 型和图像DBM网络模 型的基础上增加一层二进制神经网络层进 行结合, 即将文本和图像模态的特征一起映射到 该层二进制神经网络层上, 这一层也作为整个模型的最 终输出层再使用反向传播算法寻找 最优解, 作为分类结果, 所述反向传播算法是适合于多层神经元网络的一种学习算法, 通过 反馈的方式从输出层倒推输入层, 直到网络输入层达到预定的目标范围, 所述最优解是指 经过反向传播后误差值 最小的参数; 玻尔兹曼机是一种基于能量的模型, 其对应的联合 概率分布为 其中, 能量E越小, 对应 状态的概 率越大, Z是归一 化因子, 用作归一 化, 包含三层隐藏层的深度玻尔兹曼机, 联合 概率分布为: 其能量形式如下:权 利 要 求 书 1/2 页 2 CN 114202038 B 2其中, E为可见层与输入层之间的能量函数;   表示可见输入层, T表示转置,   表 示隐藏层,   表示整个模 型的参数; v∈{0,1}, 为可见节 点状态; ∈{0,1}, 为第一层隐单 元状态; 为第一组单元连接权值; ∈{0,1}, 为第二层隐单元状态; 为第二组单元连 接权值; ∈{0,1}, 为第三层隐单元状态; 为第三组单元连接权值; 联合概率 分布表示 映射到某一合成向量上的概率, 能量E确保模型稳定性, 最 终输出得到所述文本和图像的合 成向量。 2.根据权利 要求1所述的基于DBM深度学习的众包缺陷分类方法, 其特征在于, 所述TF ‑ IDF是一种用于信息检索与数据 挖掘的常用加权技 术, 某一特定词语的IDF, IDF中文之意为逆向文件频率: 某一特定词语的IDF, 可以由总文 件数目除以包 含该词语的文件的数目, 再将得到的商取对数 得到; 其中, 分母之所以要加1, 是为了避免分母为0; 如果包含词条t的文档越少,  IDF越大, 则说明词条具有很好的类别区分能力, 而TF ‑ IDF实际上等于TF与IDF的乘积: 。权 利 要 求 书 2/2 页 3 CN 114202038 B 3

.PDF文档 专利 一种基于DBM深度学习的众包缺陷分类方法

文档预览
中文文档 14 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于DBM深度学习的众包缺陷分类方法 第 1 页 专利 一种基于DBM深度学习的众包缺陷分类方法 第 2 页 专利 一种基于DBM深度学习的众包缺陷分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:35上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。