水利行业标准网
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210265977.0 (22)申请日 2022.03.17 (71)申请人 京东鲲鹏(江苏)科技有限公司 地址 215500 江苏省苏州市 常熟市东 南街 道云深路2号 (72)发明人 徐鑫  (74)专利代理 机构 中原信达知识产权代理有限 责任公司 1 1219 专利代理师 李娜 张效荣 (51)Int.Cl. G06V 20/62(2022.01) G06V 30/148(2022.01) G06K 9/62(2022.01) G06V 30/19(2022.01) G06V 10/80(2022.01)G06V 30/18(2022.01) G06V 30/146(2022.01) (54)发明名称 一种场景文字 检测的方法和装置 (57)摘要 本发明公开了一种场景文字检测的方法和 装置, 涉及图像文字处理技术领域。 该方法的一 具体实施方式包括: 获取待检测图像, 待检测图 像中包含文字区域, 确定文字区域的文字中心线 图和方向距离图, 根据文字中心线图和方向距离 图, 确定文字区域的文字轮廓。 本发明实施例的 场景文字检测的方法通过文字中心线图能够有 效将紧邻的文字分离开, 方向距离图能够检测具 有任意形状和方向的场景文字, 解决了不规则场 景文字的检测问题, 进而能够有效提升检测性 能。 权利要求书2页 说明书10页 附图4页 CN 114842460 A 2022.08.02 CN 114842460 A 1.一种场景文字检测的方法, 其特 征在于, 包括: 获取待检测图像, 所述待检测图像中包 含文字区域; 确定所述文字区域的文字中心线图和方向距离图; 根据所述文字中心线图和所述方向距离图, 确定所述文字区域的文字轮廓; 其中, 所述文字中心线图是根据所述文字区域的文字中心线构成的, 所述方向距离 图 是采用极坐标 的方式回归所述文字中心线上的点沿多个预设方向到达所述文字轮廓边缘 的距离得到的。 2.根据权利要求1所述的方法, 其特征在于, 确定所述文字区域的文字中心线图和方向 距离图之前, 包括: 获取图像数据训练集, 其中, 所述图像数据训练集中的图像数据训练样本中包含文字 区域; 构建网络结构并为所述网络结构 构建多任务损失函数; 利用所述图像数据训练集对所述网络结构进行训练, 直至所述多任务损失函数的值达 到预设条件, 获得场景文字检测模型。 3.根据权利要求2所述的方法, 其特征在于, 所述多任务损失函数包括分割损失函数和 回归损失函数, 所述分割损失函数是基于预测的和实际的文字中心线图构造的, 所述回归 损失函数 是基于预测的和实际的方向距离图构造的; 所述确定所述文字区域的文字中心线图和方向距离图, 包括: 将所述待检测图像输入到训练好的所述场景文字检测模型中, 预测得到所述待检测图 像对应的文字中心线图和方向距离图。 4.根据权利要求3所述的方法, 其特征在于, 所述将所述待检测图像输入到训练好的所 述场景文字检测模型中, 预测得到所述待检测图像对应的文字中心线图和方向距离图, 包 括: 根据所述场景文字检测模型, 提取所述待检测图像的特征并进行特征融合, 获得融合 特征图; 根据所述融合特征图和所述场景文字检测模型, 预测得到所述待检测图像对应的文字 中心线图和方向距离图。 5.根据权利要求1所述的方法, 其特征在于, 所述根据所述文字中心线图和所述方向距 离图, 确定所述文字区域的文字轮廓, 包括: 根据文字中心线图中所述文字中心线上相邻的点聚合形成连通区域; 确定所述连通区域上的各个采样点; 根据所述采样点和所述方向距离图, 确定与每 个所述采样点对应的方向点; 根据各个所述采样点的方向点, 确定所述文字区域的文字轮廓。 6.根据权利要求5所述的方法, 其特征在于, 所述确定所述连通区域上的各个采样点, 包括: 确定所述连通区域的最小旋转外 接矩形; 对所述矩形进行n 等分, 形成n ‑1条垂线; 其中, n 为大于1的整数; 以每条垂线与所述连通区域的交线的中点作为所述采样点。 7.根据权利要求4所述的方法, 其特征在于, 所述提取所述待检测图像的特征并进行特权 利 要 求 书 1/2 页 2 CN 114842460 A 2征融合, 获得融合特 征图, 包括: 通过骨干网络对所述待检测图像进行 特征提取, 获得多个不同尺度的特 征图; 将多个不同尺度的特 征图融合, 获得 所述融合特 征图。 8.根据权利要求7所述的方法, 其特征在于, 所述通过骨干网络对所述待检测图像进行 特征提取, 获得多个不同尺度的特 征图, 包括: 通过骨干网络的多个卷积模块提取待检测图像的特征, 获得多个不同尺度的深层特征 图和浅层特 征图; 将多个不同尺度的特征图融合, 获得所述融合特征图, 包括: 采用标准卷积和多个不同 空洞率的空洞卷积网络对多个所述深层特征图进 行上下文 特征提取, 将提取上下文特征后 的多个深层特 征图与所述浅层特 征图通过级联的方式进行合并, 获得 所述融合特 征图。 9.一种场景文字检测的装置, 其特 征在于, 包括: 获取模块, 获取待检测图像, 所述待检测图像中包 含文字区域; 模型预测模块, 确定所述文字区域的文字中心线图和方向距离图; 确定模块, 根据所述文字中心线图和所述方向距离图, 确定所述文字区域的文字轮廓, 其中, 所述文字中心线图是根据所述文字区域的文字中心线构成的, 所述方向距离 图 是采用极坐标 的方式回归所述文字中心线上的点沿多个预设方向到达所述文字轮廓边缘 的距离得到的。 10.一种电子设备, 其特 征在于, 包括: 一个或多个处 理器; 存储装置, 用于存 储一个或多个程序, 当所述一个或多个程序被所述一个或多个处理器执行, 使得所述一个或多个处理器实 现如权利要求1 ‑8中任一所述的方法。 11.一种计算机可读介质, 其上存储有计算机程序, 其特征在于, 所述程序被处理器执 行时实现如权利要求1 ‑8中任一所述的方法。权 利 要 求 书 2/2 页 3 CN 114842460 A 3

.PDF文档 专利 一种场景文字检测的方法和装置

文档预览
中文文档 17 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共17页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种场景文字检测的方法和装置 第 1 页 专利 一种场景文字检测的方法和装置 第 2 页 专利 一种场景文字检测的方法和装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 01:15:31上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。