编辑推荐:
为解决多组织基因表达预测难题,研究人员开展相关研究,提出 TISSLET 框架,其能有效处理缺失数据,对多组学研究意义重大。
转录组全关联研究(TWAS)在多组学数据分析中意义重大,它借助基因表达数据,探寻与复杂性状相关的遗传变异,为揭示疾病遗传机制带来希望。然而,当前多组织基因表达预测面临诸多挑战。现有方法常忽略组织间表达的相互作用,导致预测准确性大打折扣,难以精准识别与复杂性状相关的区域,限制了 TWAS 在解析复杂疾病遗传基础方面的应用。
为攻克这些难题,研究人员开展了深入研究。研究提出了一种全新的方法 ——TISSLET。该方法基于非线性多元模型,充分考虑组织 - 组织表达相关性,在多组织基因表达预测领域取得重要突破。相关研究成果发表于《BMC Bioinformatics》期刊。
在研究方法上,研究人员运用了多种关键技术。首先,基于 SNP 基因型构建了带有交叉组织表达的偏态模型。该模型假设基因表达是随机向量的实现,通过引入偏态分布,有效捕捉基因表达数据的不对称信息,使 eQTL 定位更为精准。其次,采用了惩罚偏态正态对数似然估计方法。针对基因表达矩阵存在随机缺失值的情况,研究人员将观测数据进行合理拆分,通过一系列复杂的推导和计算,构建出相应的对数似然函数,并对精度矩阵进行正则化处理,从而实现对模型参数的有效估计。此外,研究人员还进行了大量模拟研究和真实数据实验。模拟研究中,精心设计数据生成过程,涵盖多种参数组合;真实数据实验则基于 GTEx 数据集中 SPATC1L 基因的相关数据,严格模拟实际研究场景,全面评估 TISSLET 方法的性能。
在模拟研究方面,研究人员生成了 80 组模拟数据,涵盖不同样本量、变量维度和参数组合。结果显示,TISSLET 算法在预测误差(PE)方面表现卓越,与传统的基于正态假设的算法相比,具有显著优势,经 Wilcoxon 符号秩检验,p 值仅为 0.0124。在稀疏性识别性能上,TISSLET 算法的真阳性率(TPR)和真阴性率(TNR)表现良好,虽与 Molstad 等人的算法略有差异,但整体性能更优。同时,TISSLET 算法的计算效率较高,与其他算法相比,平均 CPU 时间比更具优势。
在 SPATC1L 基因研究中,研究人员从 GTEx 数据集获取相关数据,模拟多组织联合 eQTL 定位的真实场景。研究结果表明,TISSLET 的插补方法能精准保持基因表达数据的原始分布结构,在处理缺失数据时表现出色。在数据集大小与预测准确性的关系上,尽管随着数据集增大,R2 分数有所下降,但 TISSLET 框架在不同基因表达数据偏态水平下,均展现出强大的稳定性和适应性,预测准确性明显优于 MEANimputer、k - NN 和迭代插补等方法。在因果变体数量的影响研究中,发现增加因果变体数量对 TISSLET 的预测性能影响甚微,其预测准确性主要取决于因果 SNP 解释的总遗传力。此外,对比偏态正态和正态模型在预测基因表达上的表现,发现 TISSLET 方法预测的表达值略高于正态假设方法。在不同组织 - 组织误差相关性(
)的研究中,当
时,TISSLET 方法的预测准确性显著优于其他方法,充分彰显了其考虑组织 - 组织相关性和正确基因表达分布假设的优势。
研究结论和讨论部分指出,TISSLET 框架在多组织基因表达研究中,对缺失数据处理具有强大的稳健性。其在不同插补参数下保持高精度,且在复杂多组学研究中,对复杂性状预测的能力优于其他方法,展现出良好的稳定性。然而,随着数据集规模的不断扩大,预测准确性有所下降,这表明该框架仍有优化空间。总体而言,TISSLET 框架为多组学研究提供了有力的工具,有助于深入解析复杂性状的遗传基础,推动个性化医学的发展。尽管目前该框架尚处于发展阶段,但未来通过进一步优化,有望在复杂多组学研究和个性化医疗领域发挥更大的作用。