
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于NLP与ATSO-LLM的结直肠癌营养干预预测框架:多模态数据驱动的精准医疗新策略
【字体: 大 中 小 】 时间:2025年06月21日 来源:SLAS Technology 2.5
编辑推荐:
本研究针对结直肠癌(CRC)预测模型在年轻人群和营养因素分析的局限性,创新性结合自然语言处理(NLP)与自适应被囊群优化大语言模型(ATSO-LLMs),构建了NICRP-Framework。通过分析>1000例多区域膳食数据,采用随机过采样处理样本不平衡,最终实现98.4%预测准确率,为CRC精准营养干预提供数据驱动新范式。
随着全球结直肠癌(CRC)发病率呈现年轻化趋势,现有预测模型面临两大困境:训练数据主要来自老年群体,且忽视膳食营养这一可干预风险因素。更棘手的是,临床采集的膳食数据兼具结构化与非结构化特征,传统机器学习方法难以有效挖掘文本描述的深层信息。这种现状促使南通大学附属医院的研究团队在《SLAS Technology》发表突破性研究,开发出融合自然语言处理(NLP)与自适应被囊群优化大语言模型(ATSO-LLMs)的NICRP-Framework。
研究团队首先构建包含211,000名参与者的结直肠癌膳食生活方式数据集(CRC-DLD),涵盖多区域人群的饮食记录、BMI等结构化数据和食物成分文本描述。通过三级文本标准化处理(小写转换、标点清除、停用词过滤)和词云可视化,提取关键营养特征。针对数据不平衡问题,采用随机过采样技术调整二分类标签分布。核心创新在于ATSO-LLMs的双重优化机制:被囊群算法(ATSO)动态筛选特征并调整LLM超参数,而大语言模型则深度解析膳食文本的语义关联,最终实现CRC风险的精准预测。
关键技术路线包含:1) 多源膳食数据采集与NLP预处理;2) 基于ATSO的特征选择(通过重力向量→B和社会力向量→N的群体智能优化);3) LLM的上下文感知建模(利用自注意力机制捕捉营养术语关联);4) 随机过采样解决类别不平衡问题。
研究结果部分显示:
ROC分析:模型AUC达0.91,显著降低假阳性率
误分类率:经200次迭代后稳定在1.6%以下
性能对比:相较KNN+SMOTE(85.18%)和GLM(95.2%),ATSO-LLMs准确率提升至98.4%,特异性达96.9%
F1-score:96.2%表明模型在样本不平衡场景下的稳健性
讨论部分强调,该框架突破传统模型的三重局限:首次将营养文本分析纳入CRC预测,通过ATSO优化解决特征冗余问题,并创新性地用LLM解码膳食模式与癌症的复杂关联。临床转化价值体现在两方面:为年轻人群提供个性化膳食建议,辅助医生制定精准干预方案。
该研究仍存在数据集地域局限性,未来将通过纳入微生物组学数据和扩大亚洲人群样本进一步优化。值得注意的是,ATSO算法中的社会力参数Qmax=4与Qmin=1的设定,经实验验证能最佳平衡探索与开发能力。这些发现为数字健康时代下的癌症预防提供了可扩展的技术框架,标志着营养流行病学研究正式迈入多模态数据分析新阶段。
生物通微信公众号
知名企业招聘