(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202111289536.6
(22)申请日 2021.11.02
(65)同一申请的已公布的文献号
申请公布号 CN 113934850 A
(43)申请公布日 2022.01.14
(73)专利权人 北京语言大 学
地址 100083 北京市海淀区学院路15号
(72)发明人 赵慧周 郭雯钰
(74)专利代理 机构 北京市广友专利事务所有限
责任公司 1 1237
专利代理师 张仲波 邓琳
(51)Int.Cl.
G06F 16/35(2019.01)
G06N 20/00(2019.01)
G06K 9/62(2022.01)
(56)对比文件
CN 107506346 A,2017.12.2 2CN 107506346 A,2017.12.2 2
CN 113569556 A,2021.10.2 9
CN 109933668 A,2019.0 6.25
US 2015348300 A1,2015.12.0 3
JP 2009032240 A,20 09.02.12
US 2020066174 A1,2020.02.27
刘苗苗 等.阅读初探:基 于小学教材的汉语
性公式研究. 《语言文字 应用》 .2021,(第02期),
116-126.
许明 等. 《阿Q 正传》 译入译出文本的风格 计
量学对比. 《外 语研究》 .2020,第37 卷(第03期),
86-92、 103.
Y. Sun 等.A ttention-based De ep
Learning Model for Text Readabi lity
Evaluati on. 《2020 I nternati onal Joint
Conference o n Neural Netw orks (IJCN N)》
.2020,1-8.
审查员 刘明惠
(54)发明名称
融合文本分布律特征的中文文本可读性评
价方法及系统
(57)摘要
本发明公开了一种融合文本分布律特征的
中文文本可读性评价方法及系统, 所述方法包
括: 确定文本特征候选集, 所述文本特征候选集
包括: 字、 词、 句、 篇、 分布律、 可读性公式六类特
征; 计算用于拟合可读性公式参数和用于训练机
器学习模型的训练篇章文本的上述六类特征的
特征值; 基于所述文本特征候选集中的特征及计
算的特征值, 进行可读性公式设计或者机器学习
模型训练; 利用设计的可读性公 式或者训练的机
器学习模型对任意篇章文本进行可读性预测。 本
发明将文本分布律特征与字、 词、 句、 篇、 可读性
公式特征相结合, 经过特征选择后, 进行可读性
公式设计和机器学习模型训练, 篇章文本可读性
预测准确率有明显提升 。
权利要求书2页 说明书12页 附图1页
CN 113934850 B
2022.06.17
CN 113934850 B
1.一种融合文本分布律特 征的中文 文本可读性评价方法, 其特 征在于, 包括以下步骤:
S1、 确定文本特征候选集, 所述文本特征候选集包括: 字、 词、 句、 篇、 分布律、 可读性公
式六类特 征;
S2、 计算用于拟合可读性公式参数和用于训练机器学习模型的训练篇章文本的上述六
类特征的特征值;
S3、 基于所述文本特征候选集中的特征及计算的特征值, 进行可读性公式设计或者机
器学习模型训练;
S4、 利用设计的可读性公式或者训练的机器学习模型对任意篇章文本进行可读性预
测;
所述可读性公式设计具体包括以下步骤:
对所述文本特征候选集中的第 一预设组的特征进行皮尔逊相关性分析, 筛选出相互之
间皮尔逊相关系数在预定数值α 以下的特 征, 作为建立多元线性回归 模型的特 征;
通过对筛 选出的特 征进行回归分析, 得到与可读性 等级拟合优度最高的回归 模型;
当α =0.7且步骤S2所述训练篇章文本是包括多个版本的小学1 ‑6年级语文教材的六个
可读性分类等级标注的篇 章文本时, 拟合得到的可读性公式表示 为:
Y=15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+
6.380*Gini+0.253*strokefre+1.437*lgcharfre ‑1.914*charwordpro ‑1.013*TC+6.121*
subs tanpro‑2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+
0.688*La mbda+0.64 4*avelgw ordfre;
其中, avesen_char是平均句长, difficult_char是汉字难度, difficult_word是词汇
难度, Gini是基尼系数, strokefre是频率加权的笔画数, lgcharfre是平均对数字频,
charwordpro是字词比, TC是主题集中度, substanpro是实词比例, adjpro是形容词比例,
funcpro是虚词比例, unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,
Lambda是Lambda值, avelgw ordfre是平均对数词频。
2.根据权利要求1所述的中文文本可读性评价方法, 其特征在于, 步骤S2所述训练篇章
文本是有多个可读性分类等级 标注的文本, 步骤S4所述任意篇章文本是指待依据步骤S2所
述训练篇 章文本可读性分类等级 进行分类预测的任意 篇章文本。
3.根据权利要求1所述的中文文本可读性评价方法, 其特征在于, 所述机器学习 模型训
练具体包括以下步骤:
对所述文本特征候选集中的第 二预设组的特征进行皮尔逊相关性分析, 筛选出与分类
等级关联较大, 并且相互之间关联性较小的特 征;
将筛选出的特 征作为输入特 征进行机器学习模型的训练, 选出最优的机器学习模型。
4.一种融合文本分布律特 征的中文 文本可读性评价系统, 其特 征在于, 包括:
文本特征候选集确定模块, 用于确定文本特征候选集, 所述文本特征候选集包括: 字、
词、 句、 篇、 分布律、 可读性公式六类特 征;
特征值计算模块, 用于计算用于拟合可读性公式参数和用于训练机器学习模型的训练
篇章文本的上述六类特 征的特征值;
设计及训练模块, 用于基于所述文本特征候选集中的特征及计算的特征值, 进行可读
性公式设计或者机器学习模型训练;权 利 要 求 书 1/2 页
2
CN 113934850 B
2预测模块, 用于利用设计的可读性公式或者训练 的机器学习模型对任意篇章文本进行
可读性预测;
所述设计及训练模块具体用于:
对所述文本特征候选集中的第 一预设组的特征进行皮尔逊相关性分析, 筛选出相互之
间皮尔逊相关系数在预定数值α 以下的特 征, 作为建立多元线性回归 模型的特 征;
通过对筛 选出的特 征进行回归分析, 得到与可读性 等级拟合优度最高的回归 模型;
当α =0.7且所述训练篇章文本是包括多个版本的小学1 ‑6年级语文教材的六个可读性
分类等级标注的篇 章文本时, 拟合得到的可读性公式表示 为:
Y=15.739+0.025*avesen_char+0.04*difficult_char+51.588*difficult_word+
6.380*Gini+0.253*strokefre+1.437*lgcharfre ‑1.914*charwordpro ‑1.013*TC+6.121*
subs tanpro‑2.914*adjpro+4.38*funcpro+2.5*unlistwordpro+4.236*wordlenfre+
0.688*La mbda+0.64 4*avelgw ordfre;
其中, avesen_char是平均句长, difficult_char是汉字难度, difficult_word是词汇
难度, Gini是基尼系数, strokefre是频率加权的笔画数, lgcharfre是平均对数字频,
charwordpro是字词比, TC是主题集中度, substanpro是实词比例, adjpro是形容词比例,
funcpro是虚词比例, unlistwordpro是未登录词比例, wordlenfre是频率加权的词长,
Lambda是Lambda值, avelgw ordfre是平均对数词频。
5.根据权利要求4所述的中文文本可读性评价系统, 其特征在于, 所述训练篇章文本是
有多个可读性分类等级标注的文本, 所述任意篇章文本是指待依据所述训练篇章文本可读
性分类等级 进行分类预测的任意 篇章文本。
6.根据权利要求4所述的中文文本可读性评价系统, 其特征在于, 所述设计及训练模块
还具体用于:
对所述文本特征候选集中的第 二预设组的特征进行皮尔逊相关性分析, 筛选出与分类
等级关联较大, 并且相互之间关联性较小的特 征;
将筛选出的特 征作为输入特 征进行机器学习模型的训练, 选出最优的机器学习模型。权 利 要 求 书 2/2 页
3
CN 113934850 B
3
专利 融合文本分布律特征的中文文本可读性评价方法及系统
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 19:03:39上传分享