大型语言模型在认知与教育预测中的突破:超越基因组学与专家评估的潜力

【字体: 时间:2025年07月05日 来源:Communications Psychology

编辑推荐:

  本研究通过分析11岁儿童撰写的志向短文,创新性地结合大型语言模型(LLM)嵌入与SuperLearner框架,成功预测了认知能力、非认知特质及最终教育程度。研究团队对比了文本分析、教师评估(TA)和基因组数据(PGS)的预测效能,发现LLM模型预测准确度(R2Holdout=0.7)接近金标准测试的重测信度,解释了个体教育差异的38%。这项发表于《Communications Psychology》的研究为行为科学提供了新的预测工具,挑战了传统社会调查数据预测力不足的认知。

  

在行为科学领域,预测个体的认知能力和教育成就一直是个重大挑战。传统方法如社会调查数据往往预测力有限,而基因组数据虽具潜力却解释力不足。更棘手的是,关于人类生活轨迹"不可预测性"的理论争议不断——究竟是我们缺乏有效工具,还是生命本身具有固有随机性?这种背景下,英国国家儿童发展研究(NCDS)收集的独特纵向数据为破解这一难题提供了钥匙。这项始于1958年的出生队列研究,保存了11岁儿童撰写的"想象你25岁"主题短文,配合教师评估和后期基因组数据,构成了跨越半个世纪的生命轨迹记录。

为探索预测新范式,研究人员创新性地将自然语言处理(NLP)前沿技术与传统预测方法相结合。研究团队从10,511份约250词的短文中提取四类特征:GPT-3生成的1536维文本嵌入、534项计算语言学指标、31项可读性评分,以及语法错误率。这些特征与22项教师评估变量、33个多基因评分(PGS)共同输入SuperLearner集成算法,通过嵌套交叉验证(内环5折/外环10折)构建预测模型。关键技术包括:使用text-embedding-ada-002模型生成语义嵌入,采用TAALES/TAALED工具量化词汇特征,以及通过LDPred算法构建多基因评分。队列数据来自英国国家儿童发展研究的6,437名参与者。

认知与非认知特质预测
研究发现文本嵌入对认知能力的预测力(R2Holdout=0.55-0.59)接近教师评估(0.45-0.62),显著超过基因组预测(0.11-0.17)。

显示,阅读能力预测最佳(11岁R2=0.59),非言语能力最低(0.37)。非认知特质如学业动机预测精度为0.11,外化行为达0.19。

文本特征贡献解析
图3揭示深度学习嵌入贡献了主要预测力,传统语言学指标仅带来边际增益。

中,完整模型比单纯文本长度预测提升5-10倍,但仅使用嵌入已能捕获绝大部分信息。

教育程度预测突破
三源数据集成模型对33岁教育程度的预测达R2=0.38,超越Fragile Family Challenge基准(0.18)。

显示,教师评估单独预测力为0.29,文本数据0.26,基因组0.19。组合模型对认知能力的预测更达0.7,接近智力测验重测信度。

这项研究颠覆了行为遗传学" gloomy prospect"理论关于社会预测局限性的论断,证明LLM可从微小文本中提取强预测信号。方法论上,研究展示了如何通过SuperLearner整合高维文本嵌入与传统变量,其采用的L1正则化预筛选确保特征选择稳健性——87%的常选特征来自LLM嵌入,仅两项传统指标(词根类符比和词汇多样性)进入前十。实践层面,研究为教育早期干预提供了低成本工具,250词短文分析即可达到接近教师评估的预测力。伦理方面,作者警示预测技术增强可能带来的算法偏见风险,强调需平衡预测精度与公平性。尽管存在样本时代局限(1958年英国出生队列),这项发表于《Communications Psychology》的研究为行为预测树立了新标杆,预示了LLM在社会科学中的变革潜力。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号