
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于文档与词汇知识融合的自动可读性评估方法创新研究
【字体: 大 中 小 】 时间:2025年06月28日 来源:Expert Systems with Applications 7.5
编辑推荐:
本研究针对自动可读性评估(ARA)中词汇难度信息缺失与特征冗余问题,提出融合文档级与词汇级知识的创新方法。通过动态加权求和、多头注意力机制(Multi-head Attention)和图卷积网络(GCN)整合多层次特征,构建完整有向图模型。在剑桥数据集上实现88.7%的SOTA准确率,中文教材数据集上分别达到57.6%(6类)和78.8%(3类)的分类性能,为分级阅读教育提供了更精准的技术支持。
在分级阅读教育中,文本难度匹配直接影响读者的学习效果和兴趣。然而,现有自动可读性评估(Automatic Readability Assessment, ARA)方法面临三大挑战:长文本语义特征提取不完整、词汇级难度信息利用不足,以及简单特征拼接导致的信息冗余。这些问题限制了ARA模型在中文等语言环境中的适用性。为此,国内研究人员开展了一项创新研究,提出融合文档与词汇知识的ARA方法,相关成果发表于《Expert Systems with Applications》。
研究团队采用Longformer处理长文本序列,避免传统预训练模型(如BERT)的截断问题;构建中英文词汇难度分类数据集,引入词汇语义深度特征;设计动态加权求和与多头注意力机制(Multi-head Attention)整合多层次特征;最后通过图卷积网络(Graph Convolutional Network, GCN)构建完整有向图学习结构化知识。实验采用剑桥数据集和中文教材数据集(ChineseText),通过五折交叉验证评估性能。
Related work
现有研究将ARA视为分类任务,结合传统语言特征与深度学习模型(如BiGRU+Attention、BERT)。但英语研究成果难以直接迁移至中文场景,且多数方法依赖特征拼接,缺乏细粒度词汇难度分析。
Method
提出序数分类框架,整合Longformer的文档级表征与词汇语义特征。通过动态权重分配和多头注意力机制实现特征交互,利用GCN构建包含文档节点、词汇节点和融合节点的有向图。
Datasets
剑桥数据集51%文本超过512词,中文教材数据集46%超长,验证了Longformer处理长文本的优势。构建的词汇难度数据集为首次引入词汇级语义特征提供支持。
Experiments
五折交叉验证显示,该方法在剑桥数据集达到88.7%准确率(SOTA),较BERT基线提升12.3%。中文数据集上,细粒度6分类和粗粒度3分类分别提升9.8%和7.2%。
Results
消融实验证实:词汇难度特征贡献率达23.7%,GCN融合使长文本分类F1值提高14.5%。注意力权重可视化显示模型能聚焦关键难度词汇如学术术语。
Conclusion
该研究首次实现文档与词汇知识的深度耦合,突破传统ARA模型的特征冗余瓶颈。动态加权和GCN架构为多源特征融合提供新范式,尤其适用于中英文混合场景。教育应用方面,模型对教材难度分级准确率突破78%,为个性化阅读推荐系统奠定技术基础。未来可扩展至多模态阅读材料评估领域。
生物通微信公众号
知名企业招聘