成人宫颈癌风险预测模型:基于2019–2023年全国健康访谈调查(NHIS)的研究
《Journal of the National Medical Association》:A risk prediction model for cervical cancer in adults: A study based on the national health interview survey (NHIS) 2019–2023
【字体:
大
中
小
】
时间:2025年10月23日
来源:Journal of the National Medical Association 2.3
编辑推荐:
宫颈癌风险预测模型的构建与验证基于2019-2023年美国国家健康访谈调查数据,运用机器学习算法筛选出年龄、PIR、性取向和吸烟等关键变量,建立包含四项核心指标的nomogram模型,其AUC达到0.82,经ROC曲线、校准曲线和决策曲线验证显示良好预测性能,为临床精准预防和筛查提供工具。
宫颈癌(Cervical Cancer, CC)是一种严重影响女性健康的重要疾病,其发生与宫颈鳞状上皮细胞的异常增殖和癌变密切相关。该疾病主要由高危型人乳头瘤病毒(Human Papillomavirus, HPV)的持续感染引起,其中HPV 16和18型是最常见的致病因素。随着病毒DNA整合到宿主细胞的基因组中,可能会干扰正常的细胞调控机制,导致宫颈上皮细胞的异常生长和不受控制的分化,最终发展为癌症。早期症状可能表现为性交后出血或异常阴道分泌物,而随着病情进展,患者可能出现不规则阴道出血、下腹部疼痛,甚至影响泌尿系统,如尿频和尿急。在更晚期,肿瘤扩散可能导致盆腔疼痛、下肢肿胀以及全身性虚弱感。
宫颈癌的发病率和死亡率在全球范围内存在显著差异,尤其是在欠发达地区,其发生率通常高于发达国家。这种差异主要归因于筛查、疫苗接种和医疗资源获取的不均衡。近年来,宫颈癌的总体发病率呈现上升趋势,特别是在25至40岁年龄段的女性中更为明显。因此,深入了解宫颈癌的病理机制、临床表现、流行趋势以及主要风险因素对于制定有效的预防、筛查和治疗策略至关重要。
本研究基于美国国家健康访谈调查(National Health Interview Survey, NHIS)2019至2023年的数据,旨在分析变量与宫颈癌之间的关联,构建一个可靠的预测模型,并评估其性能。NHIS是由美国疾病控制与预防中心(Centers for Disease Control and Prevention, CDC)下属的国家健康统计中心(National Center for Health Statistics, NCHS)每年进行的一项全国性调查,涵盖了美国家庭的代表性样本。该数据库包含丰富的人口统计学信息、健康状况、医疗服务使用情况、医疗保险覆盖情况、残疾状况以及与工作相关的健康问题,为研究美国居民的健康状况提供了重要的资源。
作为全球最大的、最全面的健康数据库之一,NHIS在疾病研究、健康趋势分析以及相关政策制定方面发挥着关键作用。然而,目前针对2019至2023年NHIS数据的宫颈癌综合研究仍较为缺乏。因此,本研究利用该时间段的数据,通过机器学习和统计方法构建了一个精准且及时的宫颈癌风险预测模型,旨在提升宫颈癌的预防和治疗效果,从而改善患者的健康结局。
研究选取了2019至2023年NHIS数据库中的一组代表性样本,其中包括150,220名女性。在数据预处理阶段,剔除了不符合纳入标准的数据,最终纳入研究的样本共有830例,其中疾病组55例,对照组775例。通过卡方检验,研究人员发现13个协变量中有4个与宫颈癌的发生具有显著相关性(P < 0.001),包括年龄、贫困指数、性取向和吸烟状态。这些变量在宫颈癌的风险评估中具有重要作用,提示了社会经济状况、生活方式以及个体行为特征对宫颈癌的发生可能产生影响。
在筛选关键分类变量的过程中,研究人员采用了一种机器学习算法,从38个分类变量中识别出7个具有显著意义的变量。这些变量涵盖了多个方面,包括性行为、生育史、免疫状态以及生活习惯等。通过整合这些变量,研究构建了一个具有良好预测能力的模型,其曲线下面积(Area Under the Curve, AUC)达到了0.82,表明该模型在区分宫颈癌患者与非患者方面具有较高的准确性。校准曲线进一步验证了模型的可靠性,而决策曲线则表明该模型在临床应用中能够带来净收益,即其预测结果在实际操作中具有积极意义。
构建的预测模型不仅有助于识别高风险人群,还能帮助医疗机构更高效地进行针对性筛查,提高临床干预的有效性。此外,该模型为宫颈癌的预防策略提供了坚实的理论基础,有助于推动基于数据驱动的公共卫生干预措施。研究还强调了“三级预防”体系的重要性,即在宫颈癌的发生、发展和治疗各阶段采取相应的措施,以降低疾病负担。例如,通过推广HPV疫苗接种,可以有效预防高危型HPV的感染,从而减少宫颈癌的发生率。此外,提高筛查覆盖率和频率,以及加强健康教育,也有助于早期发现和干预,提高患者的生存率。
本研究的成果对于宫颈癌的临床管理具有重要的指导意义。通过机器学习技术,研究人员不仅识别了关键的风险因素,还构建了一个能够有效评估宫颈癌风险的模型。这一模型可以为医生提供科学依据,帮助他们制定个性化的干预措施,提高患者的治疗效果。同时,该模型也为公共卫生政策的制定提供了支持,有助于优化资源配置,提高筛查效率,从而在更大范围内降低宫颈癌的发病率和死亡率。
研究的实施过程充分体现了多学科交叉合作的重要性。在研究设计阶段,研究人员与公共卫生专家、流行病学家以及数据科学家密切协作,确保研究的科学性和实用性。在数据处理阶段,采用了先进的机器学习算法,如最小绝对收缩和选择算子(Least Absolute Shrinkage and Selection Operator, LASSO)和支持向量机-递归特征消除(Support Vector Machine-Recursive Feature Elimination, SVM-RFE),这些算法在筛选关键变量和构建预测模型方面发挥了重要作用。此外,研究人员还结合了统计学方法,确保模型的稳健性和可解释性。
研究的结论表明,基于NHIS数据构建的预测模型在宫颈癌的风险评估中具有良好的应用前景。该模型不仅能够有效识别高风险人群,还能帮助医疗机构优化筛查流程,提高干预效率。此外,该模型的构建过程也揭示了多个关键的风险因素,这些因素可能在不同人群中具有不同的影响。因此,针对不同社会经济背景、生活方式和健康状况的女性,应采取差异化的预防和干预策略,以提高宫颈癌防控的整体效果。
本研究的成果对于推动宫颈癌的精准医学研究具有重要意义。通过整合多源数据和先进的分析技术,研究人员能够更全面地理解宫颈癌的发生机制,为疾病的早期诊断和个性化治疗提供支持。此外,该模型的构建也为公共卫生政策的制定提供了科学依据,有助于推动宫颈癌防控工作的系统化和规范化。研究还强调了数据共享和开放获取的重要性,确保研究结果能够被广泛应用于临床实践和政策制定。
研究的实施过程中,研究人员严格遵守伦理规范,确保数据的合法性和研究的伦理性。此外,研究得到了福建省财政厅和福建省自然科学基金的支持,为研究的顺利开展提供了资金保障。研究数据的可获取性也得到了充分保障,所有原始数据均可在NHIS数据库中找到,并且通过官方网站可以方便地访问。这不仅提高了研究的透明度,也促进了数据的共享和应用,为未来的宫颈癌研究提供了宝贵资源。
总体而言,本研究通过分析2019至2023年NHIS数据,构建了一个具有良好预测性能的宫颈癌风险评估模型。该模型在识别高风险人群、评估风险因素以及优化筛查流程方面具有显著优势,为宫颈癌的精准防控提供了新的思路和方法。研究的成果不仅有助于提升宫颈癌的临床管理效果,也为公共卫生政策的制定提供了科学支持,具有重要的现实意义和应用价值。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号