专利 融合文本分布律特征的中文文本可读性评价方法及系统

(19)国家知识产权局 (12)发明专利 (10)授权公告号 (45)授权公告日 (21)申请号 202111289536.6 (22)申请日 2021.11.02 (65)同一申请的已公布的文献号申请公布号 CN 113934850 A (43)申请公布日 2022.01.14 (73)专利权人北京语言大学地址 100083 北京市海淀区学院路15号 (72)发明人赵慧周　郭雯钰　 (74)专利代理机构北京市广友专利事务所有限责任公司 1 1237 专利代理师张仲波　邓琳 (51)Int.Cl. G06F 16/35(2019.01) G06N 20/00(2019.01) G06K 9/62(2022.01) (56)对比文件 CN 107506346 A,2017.12.2 2CN 107506346 A,2017.12.2 2 CN 113569556 A,2021.10.2 9 CN 109933668 A,2019.0 6.25 US 2015348300 A1,2015.12.0 3 JP 2009032240 A,20 09.02.12 US 2020066174 A1,2020.02.27 刘苗苗等.阅读初探:基于小学教材的汉语性公式研究. 《语言文字应用》 .2021,(第02期), 116-126. 许明等. 《阿Q 正传》译入译出文本的风格计量学对比. 《外语研究》 .2020,第37 卷(第03期), 86-92、 103. Y. Sun 等.A ttention-based De ep Learning Model for Text Readabi lity Evaluati on. 《2020 I nternati onal Joint Conference o n Neural Netw orks (IJCN N)》 .2020,1-8. 审查员刘明惠 (54)发明名称融合文本分布律特征的中文文本可读性评价方法及系统 (57)摘要本发明公开了一种融合文本分布律特征的中文文本可读性评价方法及系统，所述方法包括：确定文本特征候选集，所述文本特征候选集包括：字、词、句、篇、分布律、可读性公式六类特征；计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值；基于所述文本特征候选集中的特征及计算的特征值，进行可读性公式设计或者机器学习模型训练；利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测。本发明将文本分布律特征与字、词、句、篇、可读性公式特征相结合，经过特征选择后，进行可读性公式设计和机器学习模型训练，篇章文本可读性预测准确率有明显提升。权利要求书2页说明书12页附图1页 CN 113934850 B 2022.06.17 CN 113934850 B 1.一种融合文本分布律特征的中文文本可读性评价方法，其特征在于，包括以下步骤： S1、确定文本特征候选集，所述文本特征候选集包括：字、词、句、篇、分布律、可读性公式六类特征； S2、计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值； S3、基于所述文本特征候选集中的特征及计算的特征值，进行可读性公式设计或者机器学习模型训练； S4、利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测；所述可读性公式设计具体包括以下步骤：对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析，筛选出相互之间皮尔逊相关系数在预定数值α 以下的特征，作为建立多元线性回归模型的特征；通过对筛选出的特征进行回归分析，得到与可读性等级拟合优度最高的回归模型；当α ＝0.7且步骤S2所述训练篇章文本是包括多个版本的小学1 ‑6年级语文教材的六个可读性分类等级标注的篇章文本时，拟合得到的可读性公式表示为： Y＝15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+ 6.380*Gini+0.253*strokefre+1.437*lgcharfre ‑1.914*charwordpro ‑1.013*TC+6.121* subs tanpro‑2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+ 0.688*La mbda+0.64 4*avelgw ordfre；其中， avesen_char是平均句长， difficult_char是汉字难度， difficult_word是词汇难度， Gini是基尼系数， strokefre是频率加权的笔画数， lgcharfre是平均对数字频， charwordpro是字词比， TC是主题集中度， substanpro是实词比例， adjpro是形容词比例， funcpro是虚词比例， unlistwordpro是未登录词比例， wordlenfre是频率加权的词长， Lambda是Lambda值， avelgw ordfre是平均对数词频。 2.根据权利要求1所述的中文文本可读性评价方法，其特征在于，步骤S2所述训练篇章文本是有多个可读性分类等级标注的文本，步骤S4所述任意篇章文本是指待依据步骤S2所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。 3.根据权利要求1所述的中文文本可读性评价方法，其特征在于，所述机器学习模型训练具体包括以下步骤：对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析，筛选出与分类等级关联较大，并且相互之间关联性较小的特征；将筛选出的特征作为输入特征进行机器学习模型的训练，选出最优的机器学习模型。 4.一种融合文本分布律特征的中文文本可读性评价系统，其特征在于，包括：文本特征候选集确定模块，用于确定文本特征候选集，所述文本特征候选集包括：字、词、句、篇、分布律、可读性公式六类特征；特征值计算模块，用于计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六类特征的特征值；设计及训练模块，用于基于所述文本特征候选集中的特征及计算的特征值，进行可读性公式设计或者机器学习模型训练；权　利　要　求　书 1/2 页 2 CN 113934850 B 2预测模块，用于利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预测；所述设计及训练模块具体用于：对所述文本特征候选集中的第一预设组的特征进行皮尔逊相关性分析，筛选出相互之间皮尔逊相关系数在预定数值α 以下的特征，作为建立多元线性回归模型的特征；通过对筛选出的特征进行回归分析，得到与可读性等级拟合优度最高的回归模型；当α ＝0.7且所述训练篇章文本是包括多个版本的小学1 ‑6年级语文教材的六个可读性分类等级标注的篇章文本时，拟合得到的可读性公式表示为： Y＝15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+ 6.380*Gini+0.253*strokefre+1.437*lgcharfre ‑1.914*charwordpro ‑1.013*TC+6.121* subs tanpro‑2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+ 0.688*La mbda+0.64 4*avelgw ordfre；其中， avesen_char是平均句长， difficult_char是汉字难度， difficult_word是词汇难度， Gini是基尼系数， strokefre是频率加权的笔画数， lgcharfre是平均对数字频， charwordpro是字词比， TC是主题集中度， substanpro是实词比例， adjpro是形容词比例， funcpro是虚词比例， unlistwordpro是未登录词比例， wordlenfre是频率加权的词长， Lambda是Lambda值， avelgw ordfre是平均对数词频。 5.根据权利要求4所述的中文文本可读性评价系统，其特征在于，所述训练篇章文本是有多个可读性分类等级标注的文本，所述任意篇章文本是指待依据所述训练篇章文本可读性分类等级进行分类预测的任意篇章文本。 6.根据权利要求4所述的中文文本可读性评价系统，其特征在于，所述设计及训练模块还具体用于：对所述文本特征候选集中的第二预设组的特征进行皮尔逊相关性分析，筛选出与分类等级关联较大，并且相互之间关联性较小的特征；将筛选出的特征作为输入特征进行机器学习模型的训练，选出最优的机器学习模型。权　利　要　求　书 2/2 页 3 CN 113934850 B 3

专利 融合文本分布律特征的中文文本可读性评价方法及系统

专利融合文本分布律特征的中文文本可读性评价方法及系统