编辑推荐:
为解决心血管疾病预测系统存在的问题, 研究人员开展 ID-DTN 相关研究。结果显示该方法可优化网络和特征选择,预测准确率达 97.11%。此研究成果能助力临床诊断,推荐科研读者阅读。
在全球范围内,心脏病已然成为人类健康的 “头号杀手”,夺走了无数人的生命。你瞧,很多人即便出现了疲惫、出汗、胸部不适等症状,却还浑然不知自己已身患心脏病,直到心脏病发作,才追悔莫及。据世界卫生组织统计,在巴基斯坦,每 10 万人中就有 110.65 人因心血管疾病离世,其死亡率在世界排名第 63 位 。这组数据就像一记警钟,让我们深刻意识到预防心脏病的重要性和紧迫性。
目前,要准确诊断心血管疾病(CVD)可不是一件容易的事。虽然全面的医学检查必不可少,包括实验室检测、身体检查以及先进的成像检查等,但每种方法都有其局限性。比如说心脏生物标志物检测,它虽然价格便宜,能在一定程度上辅助诊断心脏病,可结果常常模棱两可,需要进一步检查才能确诊。而且,仅依靠基于生物标志物的风险评估模型也不靠谱,因为心血管疾病的发生与多种因素相关,像糖尿病、吸烟、高血压和高胆固醇等,它们之间的关系错综复杂,远不是简单的直接联系。
与此同时,医院和诊所里存储着海量的医疗数据,这些数据就像一座隐藏的宝藏,蕴含着无数有价值的信息,然而大部分都还未被挖掘。这时候,机器学习技术就像一把神奇的钥匙,为解锁这些数据宝藏带来了希望。它可以帮助医生更早、更准确地诊断疾病,减少医疗错误,改善患者的治疗效果。在诊断心血管疾病方面,监督学习和无监督学习发挥着重要作用。监督学习能通过分析已有数据的标签,训练算法,提高诊断的准确性;无监督学习则能深入挖掘匿名数据中的隐藏模式,发现新的心血管疾病亚型或风险因素。
临床决策支持系统(CDSS)作为辅助医疗诊断的重要工具,可分为基于知识和非基于知识的两类。基于知识的 CDSS 就像一位经验丰富的医学专家,凭借精心挑选的医学数据,能更快速、准确地诊断疾病,尤其是在诊断心力衰竭等疾病方面表现出色。而深度学习技术的出现,更是为 CDSS 带来了新的突破。它可以从原始数据中自动提取相关特征,有效捕捉复杂的关系和隐藏模式,随着训练数据的增加,诊断的准确性也会不断提高。
尽管如此,现有的心血管疾病预测系统仍存在不少问题。许多研究往往只关注某一个方面,比如特征选择、优先级排序或预测准确性,缺乏一个全面综合的方法。此外,网络设计不合理、容易出现过拟合(模型在训练数据上表现良好,但在测试数据上表现不佳的现象)和欠拟合(模型无法很好地拟合数据,对数据中的规律学习不足的现象),以及模型的鲁棒性(模型在不同环境下的稳定性和适应性)差等问题,都严重影响了系统的性能。
为了解决这些难题,[第一作者单位] 的研究人员在《期刊原文名称》上发表了题为《论文原文标题》的论文。他们提出了一种全新的方法 —— 理想设计深度信任网络(ID-DTN),旨在提高心血管疾病预测系统的性能。经过一系列的研究,他们发现 ID-DTN 方法在优化网络架构和特征选择方面表现出色,能有效克服过拟合和欠拟合问题,提高预测的准确性。这一成果意义重大,它可以为临床医生提供更可靠的诊断建议,帮助他们更好地为心血管疾病患者制定治疗方案,从而改善患者的预后情况。
在这项研究中,研究人员主要运用了以下几种关键技术方法:
- Ruzzo-Tompa 算法:这是一种用于优化特征子集选择的算法。它就像一个 “数据筛选大师”,能从众多的心血管数据特征中,精准地找出最关键、最相关的特征,大大提高了分类模型的准确性,为后续的分析和预测奠定了坚实的基础。
- 深度信任网络(DTN):它是一种基于受限玻尔兹曼机(RBM)构建的人工神经网络。DTN 通过水平训练和水平适应两个阶段,构建出高效的预测算法。不过,DTN 在确定最优的层数、节点数和超参数时存在一定困难,这就需要其他方法来帮忙优化。
- 海鸥优化算法(SOA):该算法模仿海鸥的群体运动和捕食行为,在解决网络优化问题上表现出色。它能够高效地探索参数空间,找到最优的网络配置,从而提升模型的性能。
接下来,让我们详细了解一下这项研究的结果:
- 特征选择分析:研究人员运用 Ruzzo-Tompa 算法对心血管疾病数据集进行特征选择。通过一系列复杂而精妙的计算步骤,该算法成功找出了像 A3、A7、A8 等对模型性能提升至关重要的特征。这些特征就像是搭建高楼大厦的基石,为后续模型的良好表现奠定了基础。与其他特征提取方法相比,Ruzzo-Tompa 算法表现更为优异,其分类准确率达到了 91% ,在精准度、召回率和 F1 评分等方面也取得了高分,这充分证明了它在筛选关键特征方面的强大能力。
- 十折交叉验证结果:为了全面评估模型的性能,研究人员采用了十折交叉验证技术。他们将数据集分成 10 个相等的部分,每次用 9 个部分进行模型训练,剩下 1 个部分用于验证,如此重复 10 次。结果显示,经过 Seagull Optimization Algorithm(SOA)和 Ruzzo-Tompa 特征选择方法优化的 ID-DTN 模型,准确率高达 97.11%,精准度为 97%,召回率为 97.2%,F1 评分为 97.3%,响应时间为 20.1 秒。而去掉 Ruzzo-Tompa 特征选择的模型,准确率降至 95.0% ;完全去掉 SOA 的模型,准确率更是低至 92.5% ;仅使用 DTN 结构、未进行任何优化的模型,准确率只有 83.0%。这些数据清晰地表明,Ruzzo-Tompa 方法和 Seagull Optimization Algorithm(SOA)在提升模型性能方面起着不可或缺的作用。
- 对比分析:研究人员将 ID-DTN 模型与多种标准的现有模型进行对比。结果发现,ID-DTN 模型以 97.11% 的最高准确率脱颖而出。相比之下,其他模型各有优劣。例如,包含逻辑回归和通过 PCA 进行降维的模型,准确率为 93.33%;简单的 DNN 模型,准确率为 94.2% ;采用深度信念网络和正交变换的模型,虽然结构简单,但准确率也达到了一定水平。不过,这些模型都无法与 ID-DTN 模型相媲美,这进一步凸显了 ID-DTN 模型在心血管疾病预测方面的优势。
- 不同数据集下的模型表现:为了验证 ID-DTN 模型在不同数据环境下的有效性,研究人员使用了 Cardio Data、匈牙利数据集、CVD 数据集和 Framingham 数据集进行测试。Cardio Data 包含 70,000 条记录和 11 个独立变量,规模较大;匈牙利数据集有 293 个实例,与其他数据集有 13 个共同特征;CVD 数据集包含 29,702 条患者记录和 12 个数据特征,输出变量为是否患过中风;Framingham 数据集则用于预测患者 10 年内患冠心病(CHD)的风险。实验结果表明,ID-DTN 模型在这些不同的数据集上都能保持良好的性能,这充分证明了其具有较强的鲁棒性和泛化能力。
- 模型收敛与学习率的关系:研究人员还研究了学习率对 ID-DTN 模型收敛的影响。他们发现,学习率为 0.01 时,模型能达到较好的拟合效果,但可能会浪费训练周期;学习率为 0.005 时,收敛速度较慢,但更稳定;学习率为 0.001 时,收敛过程非常缓慢。通过分析不同学习率和训练周期下的训练损失和验证损失,研究人员确定了合适的学习率和训练周期,这对于优化模型训练过程具有重要意义。
在论文的结论和讨论部分,研究人员总结了 ID-DTN 方法的优势和研究成果。ID-DTN 通过 Ruzzo-Tompa 算法获得最优特征子集,再利用 Seagull Optimization Algorithm(SOA)对深度信任网络进行优化,成功解决了最优相关性形成、过拟合和心血管疾病预测粗糙等问题。与传统的 DNN 和 ANN 方法相比,ID-DTN 表现更为出色,其分类准确率高达 97.11%,显著优于现有的机器学习算法和其他方法。这一研究成果为心血管疾病的预测和诊断提供了新的有力工具,能够帮助临床医生更准确地评估患者的病情,制定更合理的治疗方案,从而改善心血管疾病患者的预后情况,对提高人类健康水平具有重要的现实意义。同时,该研究也为后续相关领域的研究提供了新的思路和方法,有望推动心血管疾病研究领域的进一步发展。