(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211294936.0
(22)申请日 2022.10.21
(71)申请人 神州医疗科技股份有限公司
地址 100080 北京市海淀区北四环西路6 6
号16层1901室
(72)发明人 宋佳祥 杨雅婷 白焜太 刘硕
许娟
(74)专利代理 机构 北京星通盈泰知识产权代理
有限公司 1 1952
专利代理师 夏晶
(51)Int.Cl.
G06F 40/295(2020.01)
G06F 40/242(2020.01)
G06F 16/36(2019.01)
G06K 9/62(2022.01)G06N 3/08(2006.01)
G16H 10/00(2018.01)
(54)发明名称
基于医学命名实体识别的持续学习的模型
训练方法及装置
(57)摘要
本发明公开了基于医学命名实体识别的持
续学习的模 型训练方法及装置, 通过在进行持续
学习的模型训练过程中保留种子数据, 在使用模
型训练新数据时, 和新数据一块进行模型训练,
在训练得到的新模型具备旧知识后, 让新模型能
同时拥有新旧知识 的能力, 采取冻结第0、 4、 8层
的bert层以及参数信息, 让其不进行参数更新,
保留之前学到的信息, 降低旧知识的遗忘性, 得
到的训练结果遗忘率最低并且准确率最高, 在医
学领域中, 可 以既不需要全量的数据进行训练,
又不会忘记在原始医院学到的知识, 所以能将原
始医院的模 型适应到新医院进行训练, 从而避免
新医院进行大量文本标注, 节约训练时间, 提高
训练效率和训练结果的准确率, 让医学命名实体
识别更为精准。
权利要求书2页 说明书11页 附图2页
CN 115374787 A
2022.11.22
CN 115374787 A
1.基于医学命名实体识别的持续学习的模型训练方法, 其特 征在于: 包括以下步骤:
从多个数据源获取医学文本语料;
采用二元语言统计模型对所述医学文本语料进行处 理后构建医学知识图谱;
从所述医学知识图谱中抽调出待训练语句;
将所述待训练语句输入bert语言模型进行持续学习训练, 在训练过程中对种子数据进
行保留, 将保留后的种子数据和新数据进行融合;
将所述bert语言模型中的预设层数和参数信息进行冻结, 向处理后bert语言模型输入
融合后的数据, 得到最终训练结果。
2.根据权利要求1所述的方法, 其特征在于: 所述多个数据源至少包括: 目标医院数据
源、 诊疗数据源和医学专业书籍 数据源。
3.根据权利要求2所述的方法, 其特征在于: 所述采用二元语言统计模型对所述医学文
本语料进行处 理后构建医学知识图谱, 包括:
利用所述二元语言统计模型对所述医学文本语料进行分词处理, 获取相邻词间的搭配
信息;
根据所述搭配信息构建所述 二元语言统计模型对应的医学词典;
图形化重构所述词典, 得到所述 二元语言统计模型对应的医学知识图谱。
4.根据权利要求3所述的方法, 其特征在于: 所述根据所述搭配信 息构建所述二元语言
统计模型对应的医学词典, 包括:
根据所述搭配信息遍历所述医学文本语料, 计算所述搭配信息的词频;
建立所述搭配信息与词频的对应关系, 并保存所述对应关系形成所述医学词典。
5.根据权利要求4所述的方法, 其特征在于: 所述图形化重构所述词典, 得到所述二元
语言统计模型的知识图谱, 包括:
以所述医学词典中搭配信 息包含的相邻词作为两相邻节点, 按照相邻词的搭配关系连
接两相邻节点形成边, 并以所述搭配信息的词频 标识所述 边, 构建得到所述医学知识图谱。
6.根据权利要求5所述的方法, 其特征在于: 所述从所述医学知识图谱中抽调出待训练
语句, 包括:
基于所述 二元语言统计模型计算神经网络中自然语句的联合 概率;
根据所述联合 概率抽调所述自然语句, 得到联合 概率不为零的合理语句;
根据所述医学知识图谱对所述合理语句进行路径搜索, 并根据搜索结果映射得到所述
待训练语句。
7.根据权利要求6所述的方法, 其特征在于: 所述将所述待训练语句输入bert语言模型
进行持续学习训练, 在训练过程中对种子数据进行保留, 包括:
从所述待训练语句中任意 提取两条待训练语句作为待判断语句;
通过余弦相似度计算所述待判断语句之间的相似性, 得到相似度计算结果;
根据所述相似度计算结果和预设的相似度阈值对所述待判断语句进行筛选, 得到相似
度计算结果低于相似度阈值的保留语句;
对所有所述待训练语句进行计算和筛选, 并设定种子数据的保留数量阈值, 如果最终
得到所述保留语句的数量小于等于所述保留数量阈值, 则全部作为种子数据存储在json文
件中, 如果最终得到所述保留语句的数量大于所述保留数量阈值, 则随机选取与所述保留权 利 要 求 书 1/2 页
2
CN 115374787 A
2数量阈值相等数值的保留语句作为种子数据存 储在json文件中。
8.根据权利要求7所述的方法, 其特征在于: 所述通过余弦相似度计算所述待判断语句
之间的相似性, 得到相似度计算结果, 包括:
所述待判断语句包括第一待判断语句和第二待判断语句;
使用语言处理工具对所述第 一待判断语句和所述第 二待判断语句进行文本拆分, 得到
第一分词结果和第二分词结果;
对所述第一分词结果和所述第二分词结果取并集, 得到分词清单;
使用one‑hot编码将所述第一待判断语句和所述第二待判断语句转换为数字向量, 并
结合上述第一待判断语句和所述第二待判断语句和所述分词清单进行重复度对照, 得到第
一句子向量表示和第二句子向量表示;
将所述第一句子向量表示和第 二句子向量表示带入余弦相似度公式, 得到相似度计算
结果。
9.根据权利要求8所述的方法, 其特征在于: 所述将保留后的种子数据和新数据进行融
合, 包括:
获取持续训练过程中产生的新数据;
通过加载jso n文件获取保留的种子数据;
将所述新数据和所述种子数据进行合并, 得到融合数据, 所述融合数据既具备新数据
的特征, 也具备所述种子数据的特 征。
10.根据权利要求9所述的方法, 其特征在于: 所述将所述bert语言模型中的预设层数
和参数信息进行冻结, 向处理后bert语言模型输入融合后的数据, 得到最终训练结果, 包
括:
在持续训练过程中遍历bert语言模型的编码器的第1 ‑11层, 当遍历到第0、 4和8层时,
将第0、 4和8层的梯度更新设置为停止更新, 完成对第0、 4和8层的参数信息的冻结;
将所述融合数据输入冻结处 理后的模型进行训练, 得到最终训练结果。
11.一种基于医学命名实体识别的持续学习的模型训练装置, 其特 征在于: 包括:
数据获取模块, 用于从多个数据源获取医学文本语料;
医学知识图谱构建模块, 用于采用二元语言统计模型对所述医学文本语料进行处理后
构建医学知识图谱;
语句抽调模块, 用于从所述医学知识图谱中抽调出待训练语句;
数据处理模块, 用于将所述待训练语句输入bert语言模型进行持续学习训练, 在训练
过程中对种子数据进行保留, 将保留后的种子数据和新数据进行融合;
模型处理模块, 用于将所述bert语言模型中的预设层数和参数信息进行冻结, 向处理
后bert语言模型输入融合后的数据, 得到最终训练结果。
12.一种电子设备, 包括存储器、 处理器以及存储在所述存储器中并且可以在所述处理
器上运行的计算机程序, 其特征在于, 所述处理器执行所述计算机程序时实现如权利要求 1
至10中任一项所述方法的步骤。
13.一种计算机可读存储介质, 所述计算机可读存储介质存储有计算机程序, 其特征在
于, 所述计算机程序被处 理器执行时实现如权利要求1至10中任一项所述方法的步骤。权 利 要 求 书 2/2 页
3
CN 115374787 A
3
专利 基于医学命名实体识别的持续学习的模型训练方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
0 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 SC 于 2024-02-18 22:24:46上传分享