水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 20221021748 8.8 (22)申请日 2022.03.07 (71)申请人 浙江大华 技术股份有限公司 地址 310051 浙江省杭州市滨江区滨安路 1187号 (72)发明人 江歆霆  (74)专利代理 机构 深圳市威世博知识产权代理 事务所(普通 合伙) 44280 专利代理师 何倚雯 (51)Int.Cl. G06V 20/62(2022.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) G06V 10/80(2022.01)G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/26(2022.01) (54)发明名称 一种场景文本检测模 型的训练方法、 装置和 存储介质 (57)摘要 本申请公开了一种场景文本检测模型的训 练方法、 装置和存储介质, 该训练方法包括: 获取 样本图像; 获取样本图像的目标掩膜和中心掩 膜; 将样本图像的掩膜与样本图像融合, 得到样 本特征图, 样本特征图包括真值目标特征图、 预 测目标特征图、 真值中心特征图和预测中心特征 图; 将预测目标特征图和真值目标特征图输入第 一判别器, 得到第一判别结果, 将预测中心特征 图和真值中心特征图输入第二判别器, 得到第二 判别结果; 基于第一判别结果和第二判别结果计 算生成器的损失, 以更新调整生成器的参数, 将 训练完成的生成器作为场景文本检测模型。 通过 上述方式, 本申请能够提高场景文本检测的精 度。 权利要求书3页 说明书10页 附图8页 CN 114898346 A 2022.08.12 CN 114898346 A 1.一种场景文本检测模型的训练方法, 其特 征在于, 包括: 获取样本图像; 获取所述样本 图像的图像掩膜, 所述图像掩膜包括目标掩膜和中心掩膜, 所述目标掩 膜携带目标区域标识和背 景区域标识, 所述中心掩膜携带目标中心区域标识和背 景区域标 识, 所述目标掩膜包括真值 目标掩膜和预测目标掩膜, 所述中心掩膜包括真值中心掩膜和 预测中心掩膜, 所述预测目标掩膜和所述预测中心掩膜是利用生成对抗网络的生成器获取 得到的, 所述 生成对抗网络包括所述 生成器以及第一判别器和第二判别器; 将所述图像掩膜与所述样本 图像融合, 得到样本特征图, 所述样本特征图包括真值目 标特征图、 预测目标 特征图、 真值中心特 征图和预测中心特 征图; 将所述预测目标特征图和所述真值目标特征图输入所述第 一判别器, 得到第 一判别结 果, 将所述预测中心特征图和所述真值中心特征图输入所述第二判别器, 得到第二判别结 果; 基于所述第 一判别结果和所述第 二判别结果计算所述生成器的损失, 以更新调 整所述 生成器的参数, 直至满足训练结束条件, 将训练完成的生成器作为场景文本检测模型。 2.根据权利要求1所述的场景文本检测模型的训练方法, 其特 征在于, 所述第一判别结果包括预测目标概率值, 所述预测目标概率值为所述预测目标特征图 为真的概率, 所述第二判别结果包括预测中心概率值, 所述预测中心概率值为所述预测中 心特征图为真的概 率; 所述基于所述第一判别结果和所述第二判别结果计算所述生成器的损失的步骤, 包 括: 获取第一判别损失和第 二判别损失, 所述第 一判别损失为所述第 一判别器判别所述预 测目标特征图为真的损失, 所述第一判别损失为所述预测目标概率值与1的交叉熵损失, 所 述第二判别损失为所述第二判别器判别所述预测中心特征图为真的损失, 所述第二判别损 失为所述预测中心概 率值与1的交叉熵损失; 融合所述第一判别损失和所述第二判别损失, 计算所述 生成器的损失。 3.根据权利要求2所述的场景文本检测模型的训练方法, 其特征在于, 所述方法还包 括: 获取第一预测损失和第 二预测损失, 所述第 一预测损失为所述预测目标掩膜与所述真 值目标掩膜的交叉熵损失, 所述第二预测损失为所述预测中心掩膜与所述真值中心掩膜的 交叉熵损失; 融合所述第 一预测损失、 第 二预测损失、 第一判别损失和第 二判别损失, 计算所述生成 器的损失。 4.根据权利要求2所述的场景文本检测模型的训练方法, 其特征在于, 所述基于所述第 一判别结果和所述第二判别结果计算所述 生成器的损失的步骤之前, 包括: 基于所述第 一判别结果计算所述第 一判别器的损失, 基于所述第 二判别结果计算所述 第二判别器的损失, 以更新调整所述第一判别器和第二判别器的参数, 直至满足训练结束 条件, 固定所述第一判别器和第二判别器的参数。 5.根据权利要求4所述的场景文本检测模型的训练方法, 其特征在于, 所述第 一判别结 果还包括真值 目标概率值, 所述真值 目标概率值为所述真值 目标特征图为真的概率, 所述权 利 要 求 书 1/3 页 2 CN 114898346 A 2第二判别结果还包括真值中心概率值, 所述真值中心概率值为所述真值中心特征图为真的 概率; 所述基于所述第 一判别结果计算所述第 一判别器的损失, 基于所述第 二判别结果计算 所述第二判别器的损失的步骤, 包括: 融合第三判别损失和第四判别损失得到所述第 一判别器的损失, 融合第五判别损失和 第六判别损失得到所述第二判别器的损失; 其中, 所述第三判别损 失为所述第一判别器判别所述预测目标特征图为假的损 失, 所 述第三判别损失为所述预测目标概率值与0的交叉熵损失, 所述第四判别损失为所述第一 判别器判别所述真值目标特征图为真的损失, 所述第四判别损失为所述真值目标概率值与 1的交叉熵损失, 所述第 五判别损失为所述第二判别器判别所述预测中心特征图为假的损 失, 所述第五判别损失为所述预测中心 概率值与0的交叉熵损失, 所述第六判别损失为所述 第二判别器判别所述真值中心特征图为真的损失, 所述第六判别损失为所述真值中心概率 值与1的交叉熵损失。 6.根据权利要求1所述的场景文本检测模型的训练方法, 其特征在于, 所述将所述图像 掩膜与所述样本图像融合, 得到样本特 征图的步骤, 包括: 对所述图像掩膜进行拆分, 得到包含目标标识的第 一样本掩膜以及包含所述背景区域 标识的第二样本掩膜, 所述目标 标识包括所述目标区域标识或所述目标中心区域标识; 将所述样本图像进行通道拆分, 得到第一 通道图像、 第二 通道图像以及第三 通道图像; 分别将所述第 一样本掩膜与 所述第一通道图像、 所述第 二通道图像以及所述第 三通道 图像融合, 得到第一特征图像、 第二特征图像以及第三特征图像, 并基于通道 顺序将所述第 一特征图像、 所述第二特 征图像以及所述第三特 征图像叠加, 得到第一样本特 征图像; 分别将所述第 二样本掩膜与 所述第一通道图像、 所述第 二通道图像以及所述第 三通道 图像融合, 得到第四特征图像、 第五特征图像以及第六特征图像, 并基于所述通道顺序将所 述第四特 征图像、 所述第五特 征图像以及所述第六 特征图像叠加, 得到第二样本特 征图像; 叠加所述第一样本特 征图像和所述第二样本特 征图像, 得到所述样本特 征图。 7.根据权利要求1所述的场景文本检测模型的训练方法, 其特征在于, 所述方法还包 括: 分别对所述真值目标掩膜和所述预测目标掩膜进行拆分, 得到包含所述目标区域标识 的第一真值目标掩膜和 第一预测目标掩膜, 以及包含所述背 景区域标识的第二真值目标掩 膜和第二预测目标掩膜; 缩小所述第 一真值目标掩膜和所述第 一预测目标掩膜的尺寸, 得到第 三真值目标掩膜 和第三预测目标掩膜; 叠加所述第 三真值目标掩膜和所述第 二真值目标掩膜得到所述真值中心掩膜, 叠加所 述第三预测目标掩膜和所述第二预测目标掩膜得到所述预测中心掩膜。 8.根据权利要求1所述的场景文本检测模型的训练方法, 其特征在于, 所述方法还包 括: 分别获取所述预测目标掩膜和所述真值目标掩膜所标识的目标区域, 缩小所述目标区 域得到目标中心区域, 得到带有目标中心区域标识的所述预测中心掩膜和所述真值中心掩 膜。权 利 要 求 书 2/3 页 3 CN 114898346 A 3

.PDF文档 专利 一种场景文本检测模型的训练方法、装置和存储介质

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种场景文本检测模型的训练方法、装置和存储介质 第 1 页 专利 一种场景文本检测模型的训练方法、装置和存储介质 第 2 页 专利 一种场景文本检测模型的训练方法、装置和存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:32上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。