基于复杂概念的阿拉伯语课程可读性评估
《ACM Transactions on Asian and Low-Resource Language Information Processing》:Complex Concept-Based Readability Estimation from Arabic Curriculum
【字体:
大
中
小
】
时间:2025年11月08日
来源:ACM Transactions on Asian and Low-Resource Language Information Processing
编辑推荐:
本文提出基于概念复杂性的可读性评估方法,利用沙特 textbooks 1-12年级数据构建DARES 2.0数据集,替换重复概念并优化上下文特征,通过微调XLM-R Base、mBERT等模型,发现需进一步扩展高质量数据集,支持多语言迁移学习并丰富阿拉伯概念。
摘要
本文提出了一种可读性评估方法,该方法侧重于概念复杂性而非语言复杂性,并利用了大量的SaudiTextBooks教材作为数据来源。我们介绍了DARES 2.0,这是一个改进的基于概念的可读性训练数据集,旨在评估沙特教育文本的可读性。在DARES 1.0的基础上,DARES 2.0通过替换重复的概念,并手动用来自SaudiTextBooks中的独特术语及其上下文来修改输入特征,从而扩展了概念复杂性的范围,涵盖了1至12年级的教材。改进后的DARES 2.0被用于对预训练的Transformer模型(包括XLM-R Base、mBERT、AraELECTRA、AraBERTv2和CAMeLBERTmix)进行微调。研究结果表明,该数据集和实验设置仍需进一步改进,以获得更大规模、更高质量的数据集,并支持更广泛的微调实验。此外,还需要探索从其他语言进行迁移学习的方法,以及增强阿拉伯语概念的多样性和丰富性。这些进展为未来在教育领域中基于概念的可读性评估研究奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号