
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于MASIT算法的跨模态多组学预测模型解析病毒感染下3D气道组织的分子应答机制
【字体: 大 中 小 】 时间:2025年09月25日 来源:Frontiers in Genetics 2.8
编辑推荐:
本综述系统介绍了MASIT(Magnitude-Altitude Score Analysis for Tracking Infection and Time-Dependent Genes)这一创新算法,该算法通过整合效应量(log2FC)与统计显著性(BH校正p值),有效筛选病毒感染相关特征基因(如IFIT家族、OASL等),解决了小样本多组学数据(如RNA-Seq与NanoString)的过拟合问题,并在跨模态预测中展现出92%的分类准确率,为呼吸道病毒感染机制研究与精准诊疗提供了新范式。
引言:呼吸道病毒感染机制与模型挑战
呼吸道支气管树不仅是空气传导的通道,更是多种生物功能的关键界面。它通过 mucociliary clearance、气道湿化以及病原体检测与防御等功能,显著影响免疫系统的应答。气道上皮的细胞多样性(包括纤毛细胞、杯状细胞和基底细胞)与哮喘、慢性阻塞性肺病(COPD)等呼吸系统疾病直接相关。传统模型使用人支气管上皮(HBE)细胞在气液界面(ALI)的多孔聚合物膜上进行单层培养,虽有助于研究某些气道功能(如黏液生成和纤毛运动),但缺乏与非上皮细胞的全面细胞间相互作用,且无法充分模拟复杂的细胞-ECM相互作用。此外,较硬的生长表面会改变HBE细胞的表型、多样性和功能,无法准确反映活体气道上皮的真实条件。
为克服这些限制,研究团队开发了一种创新的平面气道3D器官组织等效物(OTE)模型,显著增强了体外模拟人体气道生理学的能力。该模型在包含天然肺成纤维细胞和人肺细胞外基质(ECM)的水凝胶基底上,集成了分化良好的HBE细胞层,并维持ALI条件。这种配置能更真实地再现细胞与ECM之间的生理相互作用,以及对于研究气道功能和疾病至关重要的生物力学影响。
材料与方法:病毒感染与多组学数据采集
本研究采用3D气道OTE模型,分别感染甲型流感病毒(IAV)、人偏肺病毒(MPV)和3型副流感病毒(PIV3),并在感染后24小时和72小时提取RNA。使用Illumina? NovaSeq 6000系统进行RNA测序(RNA-Seq),覆盖19,671个蛋白质编码基因;同时采用NanoString nCounter?分析系统对773个特定基因进行高度多重mRNA检测。数据标准化分别采用Trimmed Mean of M-values(TMM)方法(RNA-Seq)和两步正标准化流程(NanoString)。
MASIT算法框架与特征选择策略
MASIT(Magnitude-Altitude Score Analysis for Tracking Infection and Time-Dependent Genes)算法被设计用于识别能够区分不同感染状态及其对应感染后时间点的基因。该算法整合了效应大小(通过fold change衡量)与统计显著性(通过Benjamini-Hochberg校正p值衡量),其核心公式为:
MASl = |log2(FCl)|M · |log10(pBHl)|A
其中超参数M和A均设为1,以平衡p值与log fold change的贡献。MASIT首先在NanoString数据上进行训练与验证,随后在保留的RNA-Seq测试集上进行测试,并与Fisher score、mRMR、Lasso回归和Boruta等常用特征选择方法进行性能对比。
跨模态预测建模流程
建模过程分为两个阶段:首先在NanoString数据上通过6折分层交叉验证训练MASIT,识别出最具统计显著性的感染依赖基因和时间依赖基因;随后将这些基因作为预测特征,应用于多种分类器(包括Logistic Regression、SVM、Naive Bayes、Random Forest、XGBoost、AdaBoost等)的训练。为降低过拟合风险,树基集成模型(如Random Forest、XGBoost)的树数量和最大深度受到严格限制。最终,利用从NanoString中选定的基因对RNA-Seq数据进行分类验证,评估模型的跨平台泛化能力。
结果:基因筛选与模型性能
通过MASIT算法,从NanoString数据中筛选出8个关键基因(占全部基因的1%),包括6个感染依赖基因(IFIT1、IFIT2、IFIT3、OASL、OAS3和IFI44)和2个时间依赖基因(IL33、CCL20)。层次聚类分析表明,这些基因能够在RNA-Seq数据中有效区分不同病毒感染组及感染时间点。
在预测建模中,使用MASIT选定的三个基因(IFIT1、CXCL10和IL33)作为输入特征,多种分类器在NanoString和RNA-Seq数据上均表现出较高准确率(最高达92%)。与使用全部基因集相比,MASIT显著降低了过拟合风险,提升了模型泛化能力。特别是在复杂模型(如Random Forest、XGBoost和AdaBoost)中,MASIT特征集的验证准确性明显优于全基因集。
嵌套交叉验证进一步显示,在超参数优化后,Random Forest在NanoString数据上的最优配置(6棵树,最大深度5)实现了0.90±0.10的外层验证准确率。在跨平台测试中,MASIT选定的基因在RNA-Seq数据上保持了0.87±0.12的高准确率,显著优于mRMR等对比方法(0.67±0.12)。
讨论:生物学意义与模型优势
MASIT选定的基因具有明确的生物学意义。IFIT家族蛋白(IFIT1、IFIT2、IFIT3)通过结合病毒RNA(如PPP-RNA)抑制病毒复制与翻译,并在JAK-STAT信号通路中调节免疫应答。OASL和OAS3通过激活RNase L降解病毒RNA,而IFI44在干扰素-α刺激下参与微管结构形成,成为RSV感染的潜在生物标志物。时间依赖基因IL33和CCL20则分别与2型免疫激活和炎症应答相关,体现了宿主对病毒感染的时间动态响应。
从方法论角度,MASIT通过整合效应量与统计显著性,克服了传统方法仅关注单一指标的局限性。其在小样本多组学数据中展现出的高精度与稳定性,为基因组学研究提供了可推广的特征选择框架。此外,MASIT的跨模态能力(从NanoString到RNA-Seq)进一步证明了其在多平台数据整合中的实用性。
研究局限与未来方向
本研究的局限性包括生物重复数量较少、残留过拟合风险尚未完全消除,以及跨平台验证范围有限(目前仅针对转录组数据)。未来工作需在更大样本集和更多组学数据类型(如蛋白质组、代谢组)中进一步验证MASIT的泛化能力。
结论
MASIT算法通过严格的特征选择与跨模态验证,显著提升了小样本多组学数据预测模型的准确性与可解释性。其在病毒感染机制研究、生物标志物发现及精准医疗中的应用前景广阔,为多组学数据整合分析提供了新的方法论支持。
生物通微信公众号
知名企业招聘