(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211341307.9
(22)申请日 2022.10.31
(71)申请人 天津恒达文博科技股份有限公司
地址 300384 天津市滨 海新区华苑产业区
榕苑路15号1-B-701、 702、 703、 704、
705、 706
申请人 西安文数保科技有限公司
河南文数保智能科技研究院有限公
司
(72)发明人 李世杰 马晋 金沛然 闫升
曹承瑞 韩国民
(74)专利代理 机构 中科专利商标代理有限责任
公司 11021
专利代理师 鄢功军(51)Int.Cl.
G06V 30/414(2022.01)
G06V 30/148(2022.01)
G06V 30/19(2022.01)
G06V 10/82(2022.01)
G06N 3/08(2006.01)
(54)发明名称
古籍文本信息化处理方法、 系统、 电子设备
及存储介质
(57)摘要
本发明公开了一种古籍文本信息化处理方
法、 系统、 电子设备及存储介质, 该方法包括: 利
用古籍文本信息化模型对古籍文本图像训练样
本进行预标注处理, 得到预标注结果; 对预标注
结果进行专家校验, 得到人工标注结果; 利用 深
度神经网络对 古籍文本信息化模 型进行训练, 得
到经过训练的古籍文本信息化模 型; 将古籍文本
图像验证样本输入到经过训练的古籍文本信息
化模型中, 对 经过训练的古籍文本信息化模型进
行测试, 得到古籍文本处理结果; 重复进行预标
注操作、 人工标注操作、 模型训练操作以及模型
测试操作, 得到训练完成的古籍文本信息化模
型; 利用训练完成的古籍文本信息化模型对待处
理的古籍文本图像进行信息化处理, 得到信息化
处理结果。
权利要求书3页 说明书14页 附图20页
CN 115410216 A
2022.11.29
CN 115410216 A
1.一种古 籍文本信息化处 理方法, 其特 征在于, 包括:
利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处理, 得到预标注结
果, 其中, 所述古籍文本信息化模型包括检测子模块、 过滤子模块、 识别子模块以及版面分
析子模块;
根据预设校验规则, 对所述预标注结果进行专家校验 并将错误的预标注结果重新进行
人工标注, 得到人工标注结果;
根据所述人工标注结果, 利用深度神经网络对所述古籍文本信息化模型进行训练, 得
到经过训练的古 籍文本信息化模型;
将古籍文本图像验证样本输入到所述经过训练的古籍文本信 息化模型中, 并根据 预设
测试规则, 对所述经过训练的古籍文本信息化模型进行测试, 得到经过测试 的古籍文本信
息化模型输出的古籍文本处理结果, 将所述古籍文本处理结果进 行筛选后作为下一轮次的
信息化处 理过程的训练样本的预 标注结果;
根据预设迭代条件, 重复进行预标注操作、 人工标注操作、 模型训练操作以及模型测试
操作, 得到训练完成的古 籍文本信息化模型;
利用所述训练完成的古籍文本信 息化模型对待处理 的古籍文本图像进行信 息化处理,
得到信息化处理结果, 其中, 所述信息化处理结果包括文本检测框、 文本检测框过滤结果、
文字识别结果以及版面分析 结果;
根据用户检索请求和所述信 息化处理结果, 利用所述训练完成的古籍文本信 息化模型
完成定制化的精确检索和/或模糊检索请求。
2.根据权利要求1所述的方法, 其特征在于, 所述检测子模块包括具有通道注意力 机制
的单阶段目标检测深度神经网络;
其中, 所述过 滤子模块包括具有 文本置信度预测功能的像素级语义分割网络;
其中, 所述识别子模块包括预处理单元、 具有由深度残差网络组成的特征提取单元和
由多个损失分支组成的分类单 元;
其中, 所述分类单元包括以交叉熵为损失函数的分类层和以三元组损失为损失函数的
特征嵌入层;
其中, 所述版面分析子模块包括用于文本关系回归的图神经网络和/或聚类单元, 其
中, 所述聚类单 元通过聚类方法用于文本行 逐层框定。
3.根据权利要求1所述的方法, 其特征在于, 所述利用古籍文本信 息化模型对古籍文本
图像训练样本进行 预标注处理, 得到预 标注结果包括:
利用所述检测子模块处理所述古籍文本图像训练样本, 得到文本检测框, 其中, 所述文
本检测框用于古 籍文本图像的文本 定位;
利用过滤子模块对所述古籍文本图像训练样本进行像素级回归, 得到文本区域置信度
图, 并利用所述文本区域置信度图对所述文本检测框进行文本置信度计算, 根据预设过滤
阈值, 对计算结果进行 过滤, 得到文件检测框过 滤结果;
利用所述识别子模块对所述文本检测框过滤结果进行处理, 得到古籍文本图像块集
合, 并利用所述识别子模块对所述古 籍文本图像块 集合进行文字识别, 得到文字识别结果;
根据所述文本检测框过滤结果, 利用所述版面分析子模块处理所述古籍文本图像训练
样本, 得到版面分析结果, 其中, 所述版面分析结果用于根据文字位置 分布来确定文字之间权 利 要 求 书 1/3 页
2
CN 115410216 A
2的顺序和行列关系。
4.根据权利要求1所述的方法, 其特征在于, 所述根据预设校验规则, 对所述预标注结
果进行专 家校验并将错 误的预标注结果重新进行 人工标注, 得到人工标注结果包括:
通过专家对所述预标注结果进行校验, 得到校验结果, 其中, 所述校验结果包括文本检
测框校验结果和文字识别校验结果;
在所述文本检测框校验结果是未通过的情况下, 通过所述专家对所述预标注结果进行
删除文本检测框操作和添加文本检测框操作;
在文字识别校验结果是未通过的情况下, 通过所述专家根据所述文字识别结果的文字
置信度进行排序, 并从前N个所述文字识别结果进行筛选或直接对所述文字识别结果进行
更改, 其中, N 为正整数。
5.根据权利要求1所述的方法, 其特征在于, 根据所述人工标注结果, 利用深度神经网
络对所述古 籍文本信息化模型进行训练, 得到经 过训练的古 籍文本信息化模型包括:
利用所述检测子模块处理所述古籍文本训练样本, 包括: 通过目标检测算法对所述人
工标注结果进行检测, 获得初始文本检测框预测结果, 将所述文本检测框预测结果与所述
人工标注结果进行比对, 得到第一损失值, 并通过梯度回传对所述检测子模块的参数进行
训练;
利用所述过滤子模块对所述文本检测框预测结果进行过滤, 并将过滤结果与 所述人工
标注结果进行比对, 得到第二损失值, 并通过梯度回传对过 滤子模块的参数进行训练;
利用所述识别 子模块对所述人工标注结果进行特征提取和文字分类, 并将所述人工标
注结果、 特征提取结果和文字分类结果输入到损失函数中, 得到第三损失值, 并通过梯度回
传对所述识别子模块的参数进行训练。
6.根据权利要求1所述的方法, 其特征在于, 还包括: 根据用户图像分割需求和所述信
息化处理结果, 利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进 行像
素级分割, 得到 定制化分割结果。
7.根据权利要求6所述的方法, 其特征在于, 根据用户图像分割需求和所述信 息化处理
结果, 利用训练完成的古籍文本信息化模型对所述待处理的古籍文本图像进行像素级分
割, 得到定制化分割结果包括:
根据所述用户图像分割需求和所述信 息化处理结果, 利用所述训练完成的古籍文本信
息化模型对所述信息化处理结果中的文本检测框过滤结果进 行预处理, 得到古籍文本图像
块, 对所述古籍文本图像块进 行最大类间方差局部二值化, 并对二值化结果进 行处理, 得到
定制化分割结果。
8.一种古 籍文本信息化处 理系统, 其特 征在于, 包括:
预标注模块, 用于利用古籍文本信息化模型对古籍文本图像训练样本进行预标注处
理, 得到预标注结果, 其中, 所述古籍文本信息化模型包括检测子模块、 过滤子模块、 识别子
模块以及版面分析子模块;
标注模块, 用于根据预设校验规则, 对所述预标注结果进行专家校验并将错误的预标
注结果重新进行 人工标注, 得到人工标注结果;
训练模块, 用于根据所述人工标注结果, 利用深度神经网络对所述古籍文本信息化模
型进行训练, 得到经 过训练的古 籍文本信息化模型;权 利 要 求 书 2/3 页
3
CN 115410216 A
3
专利 古籍文本信息化处理方法、系统、电子设备及存储介质
文档预览
中文文档
38 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共38页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:44上传分享