《BioMed Research International》:Unveiling Epidemiologic Insights: A Case–Control Study of Congenital Cleft Lip and/or Palate Using Association Rule Mining
编辑推荐:
背景
唇裂和/或腭裂(CLP)是最常见的出生缺陷之一,由面部组成部分生长不全及闭合失败所致。本研究旨在描述先天性CLP患者的流行病学特征,并识别与该疾病相关的危险因素。
方法
本研究采用流行病学观察性研究报告加强声明(STROBE)清单,对伊朗MOHKA
背景
唇裂和/或腭裂(CLP)是最常见的出生缺陷之一,由面部组成部分生长不全及闭合失败所致。本研究旨在描述先天性CLP患者的流行病学特征,并识别与该疾病相关的危险因素。
方法
本研究采用流行病学观察性研究报告加强声明(STROBE)清单,对伊朗MOHKAM研究所1341份CLP患者记录进行报告。研究人员对2006年9月至2023年5月期间的记录进行了描述性分析。在应用纳入标准后,最终纳入950例CLP病例和950例患有其他先天性疾病的对照。数据预处理阶段去除了偏倚。随后,研究人员采用描述性统计、关联规则挖掘(ARM)和Apriori算法对预处理后的数据集进行分析。
结果
研究显示,88%的母亲在妊娠期间未使用化妆品。此外,9%的病例在妊娠期有疾病史,6%的病例有妊娠期用药史。研究还考察了儿童出生顺位,发现先天性疾病患儿数量在家庭第1胎至第3胎之间最多。母亲年龄分布显示,病例组和对照组中频数最高的年龄段均为18–24岁,而父亲频数最高的年龄段均为41岁以上。ARM识别出5条置信度超过0.567的关联规则,提示人口学变量与地理变量组合和CLP发生之间存在中等程度关联。这些规则表现出弱至中等的提升度(lift)值,提示数据集中存在非随机关联。
结论
若干母体及家族因素,包括妊娠相关状况和父母年龄,与CLP相关。鉴于CLP具有多因素病因学特征,且易受多种遗传与环境因素影响,仍需进一步开展大样本、多中心研究,以验证这些关联并探索其他潜在贡献因素。
本文发表于《BioMed Research International》,是一项围绕先天性唇裂和/或腭裂(CLP)的流行病学病例-对照研究,核心目标是在真实世界登记数据基础上,描述该病的人群分布特征,并借助关联规则挖掘(ARM)识别可能共同作用的危险因素组合。研究背景在于,先天性异常仍是全球新生儿发病和死亡的重要原因之一,而CLP作为常见颅颌面畸形,既影响外观,也常伴随听力、喂养、言语及发育等多方面问题。既往研究表明,CLP的病因复杂,受遗传因素和环境暴露共同影响,如吸烟、营养不良、病毒感染、致畸药物、叶酸不足及体质量等均可能参与其发生。然而,这类疾病相关数据往往高度复杂且多维,传统分析方法较难有效揭示变量之间潜在的组合关系。基于此,研究人员尝试将数据挖掘(DM)中的ARM方法用于CLP分析,以发现隐匿的流行病学模式,为后续病因学研究和循证决策提供线索。
研究人员开展的是一项回顾性病例-对照研究,数据来源于伊朗MOHKAM研究所登记系统。该机构为先天畸形患儿提供支持,登记资料具有标准化临床报告格式。研究共分析2006年9月至2023年5月间1341份CLP记录,经纳入标准筛选后,保留950例经儿科医师确认诊断、人口学与临床资料完整且具有伊朗国籍的CLP病例;同时从同一数据库其他先天性疾病患者中随机选取950例作为对照,以保证资料采集过程的可比性。研究显示,CLP患者以男性略多见;部分母体妊娠期疾病史、妊娠期用药史、父母年龄结构及某些地域分布特征与CLP存在一定关联。进一步通过ARM获得5条置信度较高的规则,提示地理因素与人口学因素的组合可能与CLP发生相关。总体而言,研究支持CLP具有多因素致病特征,单一暴露因素不足以解释其发生,组合模式识别对于理解其流行病学特征具有现实意义。
作者开展研究所采用的主要技术方法包括:基于MOHKAM登记系统的回顾性病例-对照设计;按照观察性研究报告规范(STROBE)进行研究报告;对原始病历数据实施缺失值剔除、异常值识别与清理等数据预处理;采用描述性统计分析病例组与对照组的人口学和临床特征;在R 4.3.0与RStudio Version 2023.03.0?+?386环境中运用Apriori算法实施关联规则挖掘(ARM),并以支持度、置信度、提升度和覆盖度评价规则,同时结合Fisher精确检验(双侧)评估规则显著性,预设α = 0.01。
以下结合论文结果部分的小标题,对主要发现进行凝练解读。
3.1. Baseline Characteristics
在基线特征分析中,研究共纳入950例先天性CLP病例和950例其他先天性疾病对照。病例组中男性555例,占58%;对照组男性530例,占56%,提示CLP在男性中略多见。母体暴露特征方面,病例组88%的母亲妊娠期间未使用化妆品,99%的母亲无妊娠期化学品接触史;9%的母亲存在妊娠期疾病史,6%的母亲存在妊娠期用药史。居住环境方面,7%的父母居住地靠近电塔或能源设施。分娩方式方面,60%的病例经阴道自然分娩,40%经剖宫产分娩。
该部分结果还显示,病例组与对照组在若干常见变量上的差异并不十分突出。例如,叶酸补充在两组中均较常见,病例组为72%,对照组为73%;妊娠方式绝大多数为自然妊娠;孕期吸烟史、孕期应激史及父母亲缘婚配情况在两组中也均有一定比例。这说明,至少在单变量描述层面,多数因素并未表现出特别强的区分能力,也为后续采用ARM探索多因素联合作用提供了方法学依据。
关于出生顺位,研究根据家庭中子女排行对病例组和对照组进行分布展示,结果提示先天性疾病患儿数量主要集中于家庭第1胎至第3胎。对照组中其他先天性疾病患儿人数随出生顺位增加至第3胎而上升,并超过CLP病例数。该结果反映出出生顺位可能与先天性异常负担分布有关,但在本研究中主要体现为总体分布特征,而非对CLP的独立判别指标。
父母年龄分布分析显示,母亲年龄在病例组和对照组中均以18–24岁最高,分别占31%和31%;父亲年龄则在两组中均以≥41岁最高,病例组占26%,对照组占29%。论文明确指出,两组父母年龄分布总体上无实质性差异,提示仅凭年龄本身,尚不足以在该数据集中形成对CLP的强鉴别作用。
在合并先天性疾病方面,CLP患者中共识别出65例伴发其他先天性异常,约占病例总数的7%。频率较高的伴发疾病包括生长激素缺乏、马蹄内翻足、食管闭锁、室间隔缺损(VSD)、无肛、心肌病等,但各单项异常发生率大多较低,多数为1%或以下。研究人员据此认为,尽管单种合并畸形频率不高,但CLP可与多系统发育异常共存,这一现象提示其可能涉及共享的胚胎发育通路或潜在遗传易感性。不过,由于单项频率有限,仅依靠单变量描述尚不足以得出明确的疾病聚集结论。
地域分布方面,研究显示先天性CLP在Tehran、Isfahan、Sistan和Baluchistan等地区的频数较高,提示地理空间因素可能在病例分布中具有一定作用。这一观察结果也为后续ARM中地理变量频繁进入关联规则提供了经验支持。
3.2. ARM Results
关联规则挖掘结果是本文的核心。研究最终获得5条置信度大于0.567的规则。所有规则的支持度为0.203–0.285,提升度为1.14–1.20,覆盖度为0.34–0.49。整体上,这些数值提示相关规则在数据集中具有一定频度,且对应的前件与CLP结局之间存在弱到中等强度的非随机关联。
规则1以前件“居住地为Tehran(True)且父亲年龄不在35–40岁(False)”预测结局“患病”。该规则支持度为0.202632,置信度为0.598756,覆盖度为0.338421,提升度为1.198774,计数为385。研究人员据此认为,在Tehran居住且父亲年龄不处于35–40岁范围这一组合条件下,CLP出现的可能性较高,且这一关联呈正向。
其余规则同样显示,地理变量与其他人口学或行为变量的组合反复出现。例如,“非Razavi Khorasan地区且自然分娩”“Tehran居住且母亲年龄不在25–29岁”“Tehran居住且出生顺位并非第3胎”“Tehran居住且无吸烟史”等,均可形成与“患病”有关的规则。这些发现说明,在该研究数据集中,CLP并非由某一个单独危险因素所驱动,而更可能体现为多种人口学、地域和家族相关变量的组合模式。虽然提升度整体不高,但其大于1,提示这些关联并非随机产生。
4. Discussion
在讨论部分,研究人员首先强调,本研究应用ARM识别了与CLP相关的隐匿流行病学模式,提示CLP是由人口学、环境和家族因素共同影响的多因素疾病,而非单一暴露造成。男性病例比例较高这一结果与既往研究一致。对于孕期吸烟、妊娠期用药和妊娠期患病等母体暴露变量,虽然既往文献广泛认为其与口裂风险相关,但本研究中病例组与对照组差异幅度有限,说明其作用可能具有情境依赖性,并受特定人群特征影响。
关于叶酸补充,研究发现两组中超过70%的母亲均报告在妊娠期间补充叶酸,说明在本研究数据中,叶酸补充并未形成清晰的组间差异。关于家族史、吸烟史、妊娠期应激和父母年龄,讨论部分认为这些因素可能共同构成CLP风险图谱的一部分,且与文献中“不可改变因素”和“可改变因素”共同参与非综合征性口面裂发生的观点一致。
ARM相较传统统计方法的优势,在于能够识别变量之间的联合模式,而不是局限于孤立变量效应。研究中特别指出,与Tehran居住地和父亲年龄相关的规则提示,地域聚集与人口学特征可能共同影响疾病发生。不过,论文也强调,这类结果应谨慎解释,因为其中可能存在母亲年龄、社会经济因素和医疗可及性等混杂影响。因此,这些规则更适合作为病因学假设生成的依据,而非直接证明因果关系。
在实践意义方面,论文指出,识别CLP的流行病学特征、潜在成因和风险因素,对于患者准备、资源配置、预防、诊断、治疗、康复以及生活质量改善都具有重要价值。研究同时强调,本研究基于单一慈善机构登记数据,可能存在选择偏倚,且结果的外推性受到地区、民族、遗传背景、社会经济水平和环境差异的限制。此外,仅依赖ARM也限制了分析视角,未来研究应扩大样本来源,并整合更多数据挖掘与机器学习(ML)方法。
研究结论部分可译为:根据本研究结果,男性较女性更易发生先天性CLP,这提示性别可能是该病的一个危险因素。CLP组中有一定比例的母亲报告妊娠期疾病史,另有较小比例报告妊娠期用药史。尽管这些因素既往已被认为与先天性异常相关,但在缺乏与对照组直接比较的情况下,本研究观察到的频率仍需谨慎解读。鉴于先天性CLP是一种易受多种因素影响的复杂性疾病,仍需进一步研究验证本研究发现,并探索其他潜在危险因素。总体而言,本研究为伊朗人群中CLP的流行病学模式提供了探索性证据,可为未来研究中的假设提出提供基础。