专利 一种基于DBM深度学习的众包缺陷分类方法

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202210139536.6 (22)申请日 2022.02.16 (65)同一申请的已公布的文献号申请公布号 CN 114202038 A (43)申请公布日 2022.03.18 (73)专利权人广州番禺职业技术学院地址 511483 广东省广州市番禺区沙湾镇市良路1342号专利权人广东拓思软件科学园有限公司 (72)发明人杨鹏　张晋桂　余明辉　赵聚雪　王瑾　陈振宇　 (74)专利代理机构广州汇盈知识产权代理事务所(普通合伙) 44603 专利代理师邓有才 (51)Int.Cl. G06K 9/62(2022.01)G06V 10/80(2022.01) G06V 10/774(2022.01) G06V 10/764(2022.01) G06V 10/82(2022.01) G06F 16/35(2019.01) G06F 40/284(2020.01) G06F 40/216(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06F 11/36(2006.01) (56)对比文件 CN 112000818 A,2020.1 1.27 US 20191473 66 A1,2019.0 5.16 高帆等.基于DBM-LSTM的多特征语音情感识别. 《计算机工程与设计》 .2020,第41卷(第02 期),465-470. 审查员谭岳峰 (54)发明名称一种基于DBM深度学习的众包缺陷分类方法 (57)摘要本发明披露了一种基于DBM深度学习的众包缺陷分类方法，其是对在众包场景下测试工人提交的测试报告，对测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据；然后进行多模态数据特征的提取与融合，借助深度玻尔兹曼机，对所述文本数据和图像数据进行特征融合，且输出得到文本和图像的合成向量；最后是训练分类模型，包括将所述合成向量输入到SVM支持向量机中，直接输出预定义好的分类结果。本发明可以更加精准地对众包测试场景下的Bug报告进行特征融合， Bug分类，从而有效进行任务分配，提高了众包测试场景下Bug分类的准确率，降低了人工审核的压力，提高了人工审核的效率。权利要求书2页说明书7页附图4页 CN 114202038 B 2022.05.31 CN 114202038 B 1.一种基于DBM深度学习的众包缺陷分类方法，其特征在于，该众包缺陷分类方法是对众包场景下测试工人提交的测试报告，对所述测试报告中的文本描述和图片分别进行数据预处理得到文本数据和图像数据；然后进行多模态数据特征的提取与融合，即通过DBM对所述文本数据和图像数据进行特征融合，且输出得到文本和图像的合成向量；最后是训练分类模型，包括将所述合成向量输入到SVM中，直接输出预定义好的分类结果，所述预定义好的分类结果包含了不正常退出、数据错误、功能错误、页面布局错误、用户体验、和性能问题六大类别，所述DBM中文之意为深度玻尔兹曼机，所述SVM中文之意为支持向量机；所述深度玻尔兹曼机是以受限玻尔兹曼机为基础的深度学习模型，由多层受限玻尔兹曼机叠加而成，受限玻尔兹曼机是通过输入数据集学习概率分布的随机生成神经网络，为双层神经网络，即只有一个可见层和一个隐藏层，而所述深度玻尔兹曼机具有多层隐单元层，即除了输入的可见层和输出层外的其他所有层；该模型用于结合不同模态的数据特征来创建融合数据的表征，能够同时对文本数据和图像数据进行压缩，得到测试报告信息的有效表示；该模型是从每个数据模态的条件分布中取样，即使在某些数据模态缺失的情况下也可以完成特征表示；所述文本描述进行预处理是：首先进行清洗，清洗掉非常规字符，非常规字符包括数字、英文、标点，其次采用jieba （结巴），进行分词与去除停用词，分词即将语句拆分成词汇，去除停用词即去除对文本分析没有帮助的词，包括连词、虚词、语气词，最后通过TF ‑IDF进行词频统计， TF 是指词频， IDF 是指逆文本频率指数；所述图片进行预处理是：首先对图片进行尺寸调整，屏蔽掉图像像素特征的差异，之后进行滤波处理，平滑图像，去除噪音；所述多模态数据特征的提取与融合包括下列步骤：首先，以所述文本数据和图像数据作为可见层数据，所述可见层数据是指输入神经网络的用户可见的神经网络层，通过对比散列算法提取出隐单元层的特征向量，最后，形成一个多模态的DBM网络，所述多模态的DBM 网络包括文本DBM网络模型和图像DBM网络模型，在所述文本DBM网络模型和图像DBM网络模型的基础上增加一层二进制神经网络层进行结合，即将文本和图像模态的特征一起映射到该层二进制神经网络层上，这一层也作为整个模型的最终输出层再使用反向传播算法寻找最优解，作为分类结果，所述反向传播算法是适合于多层神经元网络的一种学习算法，通过反馈的方式从输出层倒推输入层，直到网络输入层达到预定的目标范围，所述最优解是指经过反向传播后误差值最小的参数；玻尔兹曼机是一种基于能量的模型，其对应的联合概率分布为其中，能量E越小，对应状态的概率越大， Z是归一化因子，用作归一化，包含三层隐藏层的深度玻尔兹曼机，联合概率分布为：其能量形式如下：权　利　要　求　书 1/2 页 2 CN 114202038 B 2其中， E为可见层与输入层之间的能量函数；表示可见输入层， T表示转置，表示隐藏层，表示整个模型的参数； v∈{0,1}，为可见节点状态； ∈{0,1}，为第一层隐单元状态；为第一组单元连接权值； ∈{0,1}，为第二层隐单元状态；为第二组单元连接权值； ∈{0,1}，为第三层隐单元状态；为第三组单元连接权值；联合概率分布表示映射到某一合成向量上的概率，能量E确保模型稳定性，最终输出得到所述文本和图像的合成向量。 2.根据权利要求1所述的基于DBM深度学习的众包缺陷分类方法，其特征在于，所述TF ‑ IDF是一种用于信息检索与数据挖掘的常用加权技术，某一特定词语的IDF， IDF中文之意为逆向文件频率：某一特定词语的IDF，可以由总文件数目除以包含该词语的文件的数目，再将得到的商取对数得到；其中，分母之所以要加1，是为了避免分母为0；如果包含词条t的文档越少, IDF越大，则说明词条具有很好的类别区分能力，而TF ‑ IDF实际上等于TF与IDF的乘积：。权　利　要　求　书 2/2 页 3 CN 114202038 B 3

专利 一种基于DBM深度学习的众包缺陷分类方法

专利一种基于DBM深度学习的众包缺陷分类方法