编辑推荐:
为解决 COVID-19 检测中假阴性率高的问题,研究人员开展了拓扑数据分析(TDA)与机器学习结合用于 COVID-19 肺部 CT 影像检测的研究。结果显示随机森林分类器(RF)准确率达 97.5%,支持向量机(SVM)的 AUC 超 0.99,该研究为 COVID-19 诊断提供了新方法。
在新冠疫情的阴霾下,COVID-19 的快速传播对全球公共卫生构成了巨大威胁。及时且精准地检测 COVID-19 病例,对于控制疫情传播、提供适当医疗护理以及防止医疗系统不堪重负至关重要。然而,现有的检测方法存在诸多不足。例如,病原实验室检测虽为标准方法,但假阴性率较高;分子检测(如聚合酶链反应 PCR 检测)虽准确,但需要专业设备且耗时;抗原检测虽快速、廉价,但敏感性较低;血清学检测不适用于早期诊断。在这样的背景下,研究人员迫切需要探索更高效、准确的检测方法。
来自黎巴嫩圣灵大学(Holy Spirit University of Kaslik)、黎巴嫩美国大学(Lebanese American University)和法国兰斯香槟 - 阿登大学(Université de Reims Champagne Ardenne)的研究人员,开展了一项将拓扑数据分析(Topological Data Analysis,TDA)与机器学习相结合的研究,用于 COVID-19 肺部 CT 影像检测。该研究成果发表在《BMC Biomedical Engineering》上。
研究人员为开展此项研究,主要运用了以下关键技术方法:首先是数据收集与图像预处理,收集 800 例正常和 COVID-19 患者的胸部 CT 影像,对其进行图像 resize、归一化、增强以及肺部分割处理;其次,通过计算持久同源性(Persistent Homology,PH)特征,提取如 0 - 循环、1 - 循环的寿命、持久熵等关键信息;最后,将提取的特征输入多种监督机器学习算法,包括决策树(Decision Trees,DT)、随机森林分类器(Random Forest Classifier,RF)、支持向量机(Support Vector Machines,SVM)、朴素贝叶斯分类(Na?ve Bayes Classification,NBC)和逻辑回归(Logistic regression,LG)进行分类。
研究结果如下:
- 分类模型性能评估:通过计算混淆矩阵、准确率、F1 分数和 AUC 分数来评估各模型性能。结果显示,随机森林分类器在所有测试规模下准确率最高,达 97.5% ;支持向量机的 AUC 值最高,为 0.992495。决策树、朴素贝叶斯分类器和逻辑回归的准确率和 AUC 值相对较低。
- 特征重要性分析:研究发现,结合拓扑特征和统计特征形成的 8 个特征,能提高分类方法的准确率。单独使用拓扑特征或仅基于像素统计特征的分类效果均不如两者结合。
- 不同数据集验证:在其他数据集上验证时,随机森林分类器和支持向量机依然表现出色,进一步证明了该方法的有效性。
研究结论和讨论部分指出,随机森林分类器和支持向量机在 COVID-19 肺部 CT 影像检测中表现优异,拓扑特征的加入显著提升了分类性能。然而,研究也存在一定局限性,如 CT 图像质量的差异可能影响模型准确性,拓扑特征的临床可解释性有待提高。尽管如此,该研究为 COVID-19 的诊断提供了新的思路和方法,具有重要的意义。它不仅为临床医生提供了更准确的诊断工具,也为后续相关研究奠定了基础,有望在未来进一步推动 COVID-19 检测技术的发展。