(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210139536.6
(22)申请日 2022.02.16
(65)同一申请的已公布的文献号
申请公布号 CN 114202038 A
(43)申请公布日 2022.03.18
(73)专利权人 广州番禺职业 技术学院
地址 511483 广东省广州市番禺区沙湾镇
市良路1342号
专利权人 广东拓思软件科 学园有限公司
(72)发明人 杨鹏 张晋桂 余明辉 赵聚雪
王瑾 陈振宇
(74)专利代理 机构 广州汇盈知识产权代理事务
所(普通合伙) 44603
专利代理师 邓有才
(51)Int.Cl.
G06K 9/62(2022.01)G06V 10/80(2022.01)
G06V 10/774(2022.01)
G06V 10/764(2022.01)
G06V 10/82(2022.01)
G06F 16/35(2019.01)
G06F 40/284(2020.01)
G06F 40/216(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G06F 11/36(2006.01)
(56)对比文件
CN 112000818 A,2020.1 1.27
US 20191473 66 A1,2019.0 5.16
高帆等.基 于DBM-LSTM的多特 征语音情感识
别. 《计算机 工程与设计》 .2020,第41卷(第02
期),465-470.
审查员 谭岳峰
(54)发明名称
一种基于DBM深度学习的众包缺陷分类方法
(57)摘要
本发明披露了一种基于DBM深度学习的众包
缺陷分类方法, 其是对在众包场景下测试工人提
交的测试报告, 对测试报告中的文本描述和图片
分别进行数据预处理得到文本数据和图像数据;
然后进行多模态数据特征的提取与融合, 借助深
度玻尔兹曼机, 对所述文本数据和图像数据进行
特征融合, 且输出得到文本和图像的合成向量;
最后是训练分类模型, 包括将所述合成向量输入
到SVM支持向量机中, 直接输出预定义好的分类
结果。 本发 明可以更加精准地对 众包测试场景下
的Bug报告进行特征融合, Bug分类, 从而有效进
行任务分配, 提高了众包测试场景下Bug分类的
准确率, 降低了人工审核的压力, 提高了人工审
核的效率。
权利要求书2页 说明书7页 附图4页
CN 114202038 B
2022.05.31
CN 114202038 B
1.一种基于DBM深度 学习的众包缺陷分类方法, 其特征在于, 该众包缺陷分类方法是对
众包场景下测试工人提交的测试报告, 对所述测试报告中的文本描述和图片分别进行数据
预处理得到文本数据和图像数据; 然后进 行多模态数据特征的提取与融合, 即通过DBM对所
述文本数据和图像数据进行特征融合, 且输出得到文本和图像的合成向量; 最后是训练分
类模型, 包括将所述合成向量输入到SVM中, 直接输出预定义好的分类结果, 所述预定义好
的分类结果包含了不正常退出、 数据错误、 功能错误、 页面布局错误、 用户体验、 和性能问题
六大类别, 所述DBM中文之意 为深度玻尔兹曼机, 所述SVM中文之意 为支持向量机;
所述深度玻尔兹曼机是以受限玻尔兹曼机为基础的深度 学习模型, 由多层受限玻尔兹
曼机叠加而成, 受 限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络, 为
双层神经网络, 即只有一个可见层和一个隐藏层, 而所述深度玻尔兹曼机具有多层隐单元
层, 即除了输入的可见层和输出层外的其他所有层; 该模型用于结合不同模态的数据特征
来创建融合数据的表征, 能够同时对文本数据和图像数据进行压缩, 得到测试报告信息的
有效表示; 该模型是从每个数据模态的条件分布中取样, 即使在某些数据模态缺失的情况
下也可以完成特 征表示;
所述文本描述进行预处理是: 首先进行清洗, 清洗掉非常规字符, 非常规字符包括数
字、 英文、 标点, 其次采用jieba (结巴) , 进行分词与去除停用词, 分词即将语句拆 分成词汇,
去除停用词即去除对文本分析没有帮助的词, 包括连词、 虚词、 语气词, 最后通过TF ‑IDF进
行词频统计, TF 是指词频, IDF 是指逆文本频率指数;
所述图片进行预处理是: 首先对图片进行尺寸调整, 屏蔽掉图像像素特征的差异, 之后
进行滤波处理, 平滑图像, 去除噪音;
所述多模态数据特征的提取与融合包括下列步骤: 首先, 以所述文本数据和图像数据
作为可见层数据, 所述可见层数据是指输入神经网络的用户可见 的神经网络层, 通过对比
散列算法提取出隐单元层的特征向量, 最后, 形成一个多模态的DBM网络, 所述多模态的DBM
网络包括文本DBM网络模 型和图像DBM网络模 型, 在所述文本DBM网络模 型和图像DBM网络模
型的基础上增加一层二进制神经网络层进 行结合, 即将文本和图像模态的特征一起映射到
该层二进制神经网络层上, 这一层也作为整个模型的最 终输出层再使用反向传播算法寻找
最优解, 作为分类结果, 所述反向传播算法是适合于多层神经元网络的一种学习算法, 通过
反馈的方式从输出层倒推输入层, 直到网络输入层达到预定的目标范围, 所述最优解是指
经过反向传播后误差值 最小的参数;
玻尔兹曼机是一种基于能量的模型, 其对应的联合 概率分布为
其中, 能量E越小, 对应 状态的概 率越大, Z是归一 化因子, 用作归一 化,
包含三层隐藏层的深度玻尔兹曼机, 联合 概率分布为:
其能量形式如下:权 利 要 求 书 1/2 页
2
CN 114202038 B
2其中, E为可见层与输入层之间的能量函数;
表示可见输入层, T表示转置,
表
示隐藏层,
表示整个模 型的参数; v∈{0,1}, 为可见节 点状态;
∈{0,1}, 为第一层隐单
元状态;
为第一组单元连接权值;
∈{0,1}, 为第二层隐单元状态;
为第二组单元连
接权值;
∈{0,1}, 为第三层隐单元状态;
为第三组单元连接权值; 联合概率 分布表示
映射到某一合成向量上的概率, 能量E确保模型稳定性, 最 终输出得到所述文本和图像的合
成向量。
2.根据权利 要求1所述的基于DBM深度学习的众包缺陷分类方法, 其特征在于, 所述TF ‑
IDF是一种用于信息检索与数据 挖掘的常用加权技 术,
某一特定词语的IDF, IDF中文之意为逆向文件频率: 某一特定词语的IDF, 可以由总文
件数目除以包 含该词语的文件的数目, 再将得到的商取对数 得到;
其中, 分母之所以要加1, 是为了避免分母为0;
如果包含词条t的文档越少, IDF越大, 则说明词条具有很好的类别区分能力, 而TF ‑
IDF实际上等于TF与IDF的乘积:
。权 利 要 求 书 2/2 页
3
CN 114202038 B
3
专利 一种基于DBM深度学习的众包缺陷分类方法
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 01:15:35上传分享