编辑推荐:
在高维基因表达数据分类难题面前,研究人员开展了名为 “Double weighted k nearest neighbours for binary classification of high dimensional genomic data” 的研究。通过实验对比,发现双重加权 k 近邻(DWkNN)方法在多数数据集上分类准确率、Cohen's kappa、灵敏度和 F1得分等表现更优,为基因数据分析提供新途径。
在生命科学领域,基因研究一直是探索生命奥秘的核心环节。随着技术的进步,研究人员能够获取海量的基因表达数据,但这些高维基因表达数据却像是一团乱麻,给疾病诊断和治疗带来了巨大挑战。高维基因数据中,基因数量众多,远远超过样本数量,许多基因在组织样本分类中作用不显著,传统的分类方法在处理这类数据时,预测准确性和执行时间都难以令人满意。就好比在茫茫基因海洋中寻找宝藏,却没有精准的导航图,这使得现有方法难以高效地挖掘出数据背后的关键信息。
为了突破这一困境,来自阿联酋大学(Department of Statistics and Bussines Analytics, United Arab Emirates University)、杜兰大学(Department of Mathematical Sciences, Durham University)和华东理工大学(School of Mathematics, East China University of Science and Technology)的研究人员 Amjad Ali、zardad Khan、Haiang Du 和 Saeed Aldahmani 开展了一项极具创新性的研究。他们提出了一种全新的分类方法 —— 双重加权 k 近邻(Double weighted k nearest neighbours,DWkNN)算法,旨在解决高维基因表达数据的二元分类难题。这一研究成果发表在《Scientific Reports》上,为基因数据分析领域带来了新的曙光。
研究人员在研究过程中运用了多种关键技术方法。首先,使用了 7 个基准基因表达数据集(这些数据集来源于公开平台 OpenML)进行实验分析。在实验设置上,对每个数据集进行了不同比例(70%、60%、50%)的训练集和测试集划分,并重复 500 次以减少样本波动的影响。同时,利用 10 折交叉验证对 DWkNN 中的参数 k 进行调优,其他对比算法的参数也进行了相应调优,以确保实验结果的可靠性。
研究结果
- 分类准确性:通过对 7 个高维基因表达数据集的测试,DWkNN 在 6 个数据集(D2、D3、D4、D5、D6、D7)上展现出了卓越的准确性。在数据集 D2中,DWkNN 的准确率高达 0.991,远超传统 k 近邻(kNN)等方法。在其他数据集上,虽然传统 kNN 等方法也有一定表现,但 DWkNN 在整体上更具优势,证明其能更准确地识别基因表达模式。
- Cohen's kappa 统计:Cohen's kappa 用于评估分类结果与实际情况的一致性。DWkNN 在大多数情况下表现出色,在 6 个数据集(D2、D3、D4、D5、D6、D7)中,其 kappa 值超过了其他所有对比方法。例如在数据集 D2中,DWkNN 的 kappa 值达到 0.981,这表明该方法在分类结果的可靠性方面表现优异,能更好地反映实际情况。
- 灵敏度:灵敏度是衡量分类方法正确识别真阳性样本的能力。DWkNN 在多数数据集上灵敏度表现突出,在数据集 D2、D4、D5、D7上,分别达到了 0.998、0.863、0.842 和 0.900,相比传统 kNN 及其变体,更能准确地找出真正的阳性样本,这在基因表达数据分析中至关重要,因为错过真阳性样本可能会导致严重的后果。
- F1得分:F1得分综合了精确率和召回率,是衡量分类性能的重要指标。DWkNN 在 7 个数据集中的 6 个(D2、D3、D4、D5、D6、D7)上 F1得分优于其他方法,在数据集 D2上,其 F1得分达到 0.990,说明该方法在平衡精确率和召回率方面表现出色,能够更全面地评估分类效果。
- 运行时间:在运行时间方面,DWkNN 展现出了显著的优势。在配备 8 代英特尔酷睿 i7 处理器、3.00 GHz 主频、16GB 内存且运行 Windows 11 Home(64 位)的戴尔计算机上进行测试,DWkNN 的运行时间仅为 0.357 秒,比标准 kNN(0.416 秒)更快,更远远快于 WkNN(12.258 秒)、kCNN(10.556 秒)和 EkCNN(10.59 秒)等方法,适合实时和计算密集型应用场景。
研究结论与讨论
研究表明,DWkNN 通过独特的双重加权方案,有效地提升了传统 kNN 的性能。在距离计算中引入特征权重,不仅提高了分类准确率,还降低了无关特征的影响。这种方法在高维基因表达数据的二元分类中表现卓越,能够准确地发现基因表达数据中的模式并做出精准预测,为临床决策、生物研究等领域提供了有力的工具。
然而,DWkNN 也存在一定的局限性。当基因表达差异较为微妙时,其分类效果可能会受到影响;并且该方法目前只能处理连续型特征,无法应用于含有分类特征的数据集。尽管如此,DWkNN 的优势依然显著,其在多数数据集上的优异表现为基因数据分析开辟了新的道路。未来,研究人员可以进一步探索改进 DWkNN,使其能够适用于含有分类预测变量的数据集以及基因表达差异微妙的情况,同时也可以尝试将其应用于解决其他领域的分类问题,如多类问题,以及分析单细胞研究中的高维数据集,为生命科学和健康医学的发展提供更多的可能性。