专利 基于医学命名实体识别的持续学习的模型训练方法及装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202211294936.0 (22)申请日 2022.10.21 (71)申请人神州医疗科技股份有限公司地址 100080 北京市海淀区北四环西路6 6 号16层1901室 (72)发明人宋佳祥　杨雅婷　白焜太　刘硕　许娟　 (74)专利代理机构北京星通盈泰知识产权代理有限公司 1 1952 专利代理师夏晶 (51)Int.Cl. G06F 40/295(2020.01) G06F 40/242(2020.01) G06F 16/36(2019.01) G06K 9/62(2022.01)G06N 3/08(2006.01) G16H 10/00(2018.01) (54)发明名称基于医学命名实体识别的持续学习的模型训练方法及装置 (57)摘要本发明公开了基于医学命名实体识别的持续学习的模型训练方法及装置，通过在进行持续学习的模型训练过程中保留种子数据，在使用模型训练新数据时，和新数据一块进行模型训练，在训练得到的新模型具备旧知识后，让新模型能同时拥有新旧知识的能力，采取冻结第0、 4、 8层的bert层以及参数信息，让其不进行参数更新，保留之前学到的信息，降低旧知识的遗忘性，得到的训练结果遗忘率最低并且准确率最高，在医学领域中，可以既不需要全量的数据进行训练，又不会忘记在原始医院学到的知识，所以能将原始医院的模型适应到新医院进行训练，从而避免新医院进行大量文本标注，节约训练时间，提高训练效率和训练结果的准确率，让医学命名实体识别更为精准。权利要求书2页说明书11页附图2页 CN 115374787 A 2022.11.22 CN 115374787 A 1.基于医学命名实体识别的持续学习的模型训练方法，其特征在于：包括以下步骤：从多个数据源获取医学文本语料；采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱；从所述医学知识图谱中抽调出待训练语句；将所述待训练语句输入bert语言模型进行持续学习训练，在训练过程中对种子数据进行保留，将保留后的种子数据和新数据进行融合；将所述bert语言模型中的预设层数和参数信息进行冻结，向处理后bert语言模型输入融合后的数据，得到最终训练结果。 2.根据权利要求1所述的方法，其特征在于：所述多个数据源至少包括：目标医院数据源、诊疗数据源和医学专业书籍数据源。 3.根据权利要求2所述的方法，其特征在于：所述采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱，包括：利用所述二元语言统计模型对所述医学文本语料进行分词处理，获取相邻词间的搭配信息；根据所述搭配信息构建所述二元语言统计模型对应的医学词典；图形化重构所述词典，得到所述二元语言统计模型对应的医学知识图谱。 4.根据权利要求3所述的方法，其特征在于：所述根据所述搭配信息构建所述二元语言统计模型对应的医学词典，包括：根据所述搭配信息遍历所述医学文本语料，计算所述搭配信息的词频；建立所述搭配信息与词频的对应关系，并保存所述对应关系形成所述医学词典。 5.根据权利要求4所述的方法，其特征在于：所述图形化重构所述词典，得到所述二元语言统计模型的知识图谱，包括：以所述医学词典中搭配信息包含的相邻词作为两相邻节点，按照相邻词的搭配关系连接两相邻节点形成边，并以所述搭配信息的词频标识所述边，构建得到所述医学知识图谱。 6.根据权利要求5所述的方法，其特征在于：所述从所述医学知识图谱中抽调出待训练语句，包括：基于所述二元语言统计模型计算神经网络中自然语句的联合概率；根据所述联合概率抽调所述自然语句，得到联合概率不为零的合理语句；根据所述医学知识图谱对所述合理语句进行路径搜索，并根据搜索结果映射得到所述待训练语句。 7.根据权利要求6所述的方法，其特征在于：所述将所述待训练语句输入bert语言模型进行持续学习训练，在训练过程中对种子数据进行保留，包括：从所述待训练语句中任意提取两条待训练语句作为待判断语句；通过余弦相似度计算所述待判断语句之间的相似性，得到相似度计算结果；根据所述相似度计算结果和预设的相似度阈值对所述待判断语句进行筛选，得到相似度计算结果低于相似度阈值的保留语句；对所有所述待训练语句进行计算和筛选，并设定种子数据的保留数量阈值，如果最终得到所述保留语句的数量小于等于所述保留数量阈值，则全部作为种子数据存储在json文件中，如果最终得到所述保留语句的数量大于所述保留数量阈值，则随机选取与所述保留权　利　要　求　书 1/2 页 2 CN 115374787 A 2数量阈值相等数值的保留语句作为种子数据存储在json文件中。 8.根据权利要求7所述的方法，其特征在于：所述通过余弦相似度计算所述待判断语句之间的相似性，得到相似度计算结果，包括：所述待判断语句包括第一待判断语句和第二待判断语句；使用语言处理工具对所述第一待判断语句和所述第二待判断语句进行文本拆分，得到第一分词结果和第二分词结果；对所述第一分词结果和所述第二分词结果取并集，得到分词清单；使用one‑hot编码将所述第一待判断语句和所述第二待判断语句转换为数字向量，并结合上述第一待判断语句和所述第二待判断语句和所述分词清单进行重复度对照，得到第一句子向量表示和第二句子向量表示；将所述第一句子向量表示和第二句子向量表示带入余弦相似度公式，得到相似度计算结果。 9.根据权利要求8所述的方法，其特征在于：所述将保留后的种子数据和新数据进行融合，包括：获取持续训练过程中产生的新数据；通过加载jso n文件获取保留的种子数据；将所述新数据和所述种子数据进行合并，得到融合数据，所述融合数据既具备新数据的特征，也具备所述种子数据的特征。 10.根据权利要求9所述的方法，其特征在于：所述将所述bert语言模型中的预设层数和参数信息进行冻结，向处理后bert语言模型输入融合后的数据，得到最终训练结果，包括：在持续训练过程中遍历bert语言模型的编码器的第1 ‑11层，当遍历到第0、 4和8层时，将第0、 4和8层的梯度更新设置为停止更新，完成对第0、 4和8层的参数信息的冻结；将所述融合数据输入冻结处理后的模型进行训练，得到最终训练结果。 11.一种基于医学命名实体识别的持续学习的模型训练装置，其特征在于：包括：数据获取模块，用于从多个数据源获取医学文本语料；医学知识图谱构建模块，用于采用二元语言统计模型对所述医学文本语料进行处理后构建医学知识图谱；语句抽调模块，用于从所述医学知识图谱中抽调出待训练语句；数据处理模块，用于将所述待训练语句输入bert语言模型进行持续学习训练，在训练过程中对种子数据进行保留，将保留后的种子数据和新数据进行融合；模型处理模块，用于将所述bert语言模型中的预设层数和参数信息进行冻结，向处理后bert语言模型输入融合后的数据，得到最终训练结果。 12.一种电子设备，包括存储器、处理器以及存储在所述存储器中并且可以在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述计算机程序时实现如权利要求 1 至10中任一项所述方法的步骤。 13.一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至10中任一项所述方法的步骤。权　利　要　求　书 2/2 页 3 CN 115374787 A 3

专利 基于医学命名实体识别的持续学习的模型训练方法及装置

专利基于医学命名实体识别的持续学习的模型训练方法及装置