编辑推荐:
为解决非时间到事件纵向数据联合建模研究较少的问题,伦敦卫生与热带医学院的研究人员开展相关研究。结果显示相关方法多样且应用广泛,近十年呈指数增长。推荐科研读者阅读,以了解该领域现状与潜力。
在医学和各类研究领域中,纵向研究(指在较长时间内对同一组对象进行多次观察和测量的研究方法)就像是一场追踪生命轨迹的奇妙旅程,它能帮我们捕捉到随时间变化的各种信息,了解个体的改变以及背后的影响因素。想象一下,我们想知道一个人的身高、体重在不同年龄段是如何变化的,又是什么因素在起作用,纵向研究就能派上用场。
不过,这场 “旅程” 可没那么轻松。纵向研究收集到的数据就像一团复杂的乱麻,多维且有着复杂的随机误差结构,处理起来相当棘手。而且,研究中经常会遇到数据缺失、随访中断这些让人头疼的问题。更麻烦的是,很多研究往往会涉及多个相互关联的结果变量,它们还会随着时间不断变化。要是像以前一样,把这些相关变量分开单独研究,就好像把一幅完整的拼图拆得七零八落,根本无法准确展现出数据背后的真实关系。
这时候,联合模型(一种能够同时分析多个相关结果变量之间关系的统计模型)闪亮登场了。它就像一个神奇的拼图大师,能把这些零散的数据巧妙地组合起来,通过定义一个联合似然来量化两个或多个结果之间的关联。在过去十年里,联合模型在纵向数据分析中越来越受欢迎,尤其是在处理时间到事件数据(比如从疾病发生到死亡的时间)方面。联合模型就像给研究人员配备了一把 “秘密武器”,它不仅能减少参数估计中的偏差,还能通过考虑测量之间的相关性,提高统计推断的效率,甚至在部分数据缺失的情况下,也能巧妙地 “借用” 其他信息,让研究结果更可靠。
但让人意外的是,在实际研究中,像胎儿头围和腹围与胎儿生长受限这类非时间到事件的纵向数据其实非常常见,可它们在联合模型的研究中却没有得到足够的重视。就好像一群默默努力的 “小透明”,明明有着巨大的潜力,却被大家忽视了。为了填补这个空白,来自伦敦卫生与热带医学院(Faculty of Epidemiology and Population Health, London School of Hygiene & Tropical Medicine)的 Rehema K. Ouko、Mavuto Mukaka 和 Eric O. Ohuma 决定深入探索这个被忽视的领域。他们的研究成果发表在了《BMC Medical Research Methodology》期刊上,论文题目是 “Joint modelling of longitudinal data: a scoping review of methodology and applications for non-time to event data”。
经过一番严谨的研究,他们发现,目前已经有各种各样的方法可以用于非时间到事件纵向数据的联合建模,并且这些方法已经在多个领域得到了应用。过去十年间,这类联合模型的应用更是呈指数级增长。这一发现意义重大,它意味着研究人员以后可以更好地利用联合模型的优势,减少参数估计的偏差,提高统计推断的效率,还能更有效地处理数据缺失的情况,为各个领域的研究提供更可靠的依据。
在研究过程中,研究人员采用了多种关键技术方法。他们按照 PRISMAScR 指南,在 PubMed、Embase、Medline、Scopus 和 Web of Science 这五个大型数据库中进行搜索,筛选出符合要求的研究。筛选时,他们只保留专注于非时间到事件纵向数据联合建模且用英文发表的研究,把时间到事件的文章、会议摘要、书籍章节以及没有全文的研究都排除在外。然后,他们从符合条件的文章中提取各种信息,像统计方法、关联结构、估计方法、使用的软件等等,为后续的分析做准备。
下面我们来详细看看他们的研究结果。
研究文章的筛选情况
研究人员通过数据库搜索,最初找到了 4681 项研究。这就像是在大海里捞针,面对这么多 “候选者”,他们开始了仔细的筛选工作。首先,剔除了 2769 个重复的研究,就像把重复的拼图碎片扔掉一样。接着,对剩下的 1912 项研究进行标题和摘要审查,这一步就像快速浏览拼图的大致轮廓,把明显不符合要求的排除掉。经过这一轮筛选,有 190 项研究进入了全文审查阶段。最后,只有 74 项研究符合所有的纳入标准。这些研究的发表时间跨度从 2001 年到 2024 年 1 月,其中大部分(64 项,占 86%)是在 2014 年到 2024 年之间发表的。这表明在近几年,非时间到事件纵向数据的联合建模研究越来越受到关注,就像一颗逐渐升起的新星,开始在科研的天空中闪耀。
研究中涉及的纵向变量情况
在这些研究中,大部分同时分析了两个(57 项,占 77.0%)、三个(13 项,占 17.6%)和四个(3 项,占 4.1%)纵向变量。有一项研究甚至同时考察了八个混合纵向协变量的联合建模,这就好比在一幅拼图中加入了更多复杂的元素,让研究变得更加丰富和全面。从数据类型来看,26 项研究(占 35%)的纵向协变量是同一种数据类型,其中连续 - 连续类型最为常见。而在混合数据类型的研究中,大多数是连续和二元协变量的组合。这就像拼图中的不同形状,有的是规则的方形,有的是不规则的三角形,它们以各种组合方式呈现出数据的多样性。
纵向子模型的使用情况
研究发现,一共有 50 种不同的纵向子模型被使用。其中,线性混合效应模型(LME)是最受欢迎的,尤其适用于连续纵向协变量,有 54 项研究选择了它。除此之外,广义线性混合模型和 hurdle 模型也有一定的应用,不过其他 47 种模型就比较少被使用了。就像在一场比赛中,LME 一马当先,成为了众多研究人员的首选工具。而且,还有 10 项研究在联合建模框架中使用了非线性混合效应模型,这些研究采用了各种各样的方法来处理非线性问题,比如半参数分位数回归模型、使用样条函数处理非线性协变量效应等等,展现了科研人员在面对复杂数据时的创新和智慧。
误差分布和关联结构
在研究中,大部分研究假设随机效应和误差都服从正态或多元正态分布。这就好像给数据设定了一个 “标准模板”,认为大多数情况下数据的变化是符合这种分布规律的。不过,也有一些研究采用了其他分布,比如用非对称拉普拉斯分布来处理数据的不同分位数。在关联结构方面,大部分文章基于随机效应来连接两个子模型。其中,使用单独随机效应的研究最多,占 36.5%;还有些研究使用了未明确说明是单独还是共享的随机效应;另外,有 21.6% 的研究采用了共享随机效应。不同的关联结构就像不同的连接方式,把纵向子模型紧密地联系在一起,共同构建出数据之间的关系网络。
建模方法和估计方法
在 74 项纳入研究中,48 项(占 64.9%)采用了频率主义方法。在这种方法中,最大似然估计是最常用的估计方法,有 33 项研究选择了它。最大似然估计就像一个精准的导航仪,能在复杂的数据海洋中找到最符合数据特征的参数估计值。而采用贝叶斯方法的研究有 26 项(占 35.1%),其中大部分使用马尔可夫链蒙特卡罗(Markov Chain Monte Carlo,MCMC)和吉布斯采样器算法进行估计。MCMC 和吉布斯采样器算法就像是两个默契的伙伴,一起在贝叶斯的世界里探索,帮助研究人员找到更准确的参数估计。此外,研究还发现,大部分研究对固定效应、随机效应和关联参数采用了弱或非信息先验,并且在贝叶斯建模中,逆 Wishart 分布是最常用的关联结构先验。
使用的软件
在分析数据时,研究人员使用了各种软件。其中,R 统计软件最受欢迎,有 33 项研究(占 45%)使用了它;其次是 SAS,有 25 项研究(占 34%)选择了它。其他软件如 WinBUGs、Fortran、MATLAB、Stata 和 SPSS 也有一定的应用,不过相对较少。还有 9 项研究(占 12%)没有报告使用的软件。这就好比在一场工具大战中,R 软件凭借其强大的功能和广泛的适用性,赢得了众多研究人员的青睐。
综合研究结果和讨论部分,这项研究全面总结了非时间到事件纵向数据联合建模的方法和应用现状。它不仅让我们看到了目前该领域的研究成果,也揭示了存在的问题和挑战。比如,最大似然估计虽然有很多优点,但在高维或复杂相关结构的情况下,计算会变得复杂,而且对模型假设的依赖较强,容易受到异常值的影响。而贝叶斯方法虽然能利用先验信息,但在评估 MCMC 收敛性时需要谨慎,并且不同的先验设定可能会影响结果。
不过,这些问题并没有阻挡科研的脚步。研究人员发现,通过采用一些技术手段,比如并行计算、使用更高效的算法、采用灵活的模型和稳健的估计技术等,可以解决这些问题。而且,联合建模在预测方面有着巨大的潜力,虽然目前在非时间到事件结果的动态预测方面还有待加强,但未来充满了希望。
这项研究的意义非凡。它为后续的研究指明了方向,让研究人员知道在非时间到事件纵向数据联合建模的道路上该如何前行。它就像一座灯塔,照亮了科研人员探索的方向,帮助他们更好地利用联合模型,提高研究的准确性和可靠性,为医学、生物学等多个领域的发展提供有力的支持。相信在未来,随着研究的不断深入,非时间到事件纵向数据的联合建模会发挥更大的作用,为我们揭示更多生命和健康的奥秘。