药品定价与各国预期寿命的可解释机器学习分析

《Discover Health Systems》:Explainable machine learning analysis of medicine pricing and life expectancy across countries

【字体: 时间:2026年06月30日 来源:Discover Health Systems

编辑推荐:

  量化国家药品定价结构与总体预期寿命之间的统计关系,对于制定有效的全球卫生政策至关重要。本研究利用涵盖60个国家的国际面板数据集,纳入29项多维健康与社会经济指标,在控制医疗卫生基础设施、经济水平和环境风险等混杂因素的条件下,评估药品价格相关联性。对7种机器学习

  
量化国家药品定价结构与总体预期寿命之间的统计关系,对于制定有效的全球卫生政策至关重要。本研究利用涵盖60个国家的国际面板数据集,纳入29项多维健康与社会经济指标,在控制医疗卫生基础设施、经济水平和环境风险等混杂因素的条件下,评估药品价格相关联性。对7种机器学习算法进行比较分析后,识别出随机森林回归器(Random Forest Regressor)为最优模型,其性能达到R2=0.77、均方根误差(RMSE)=2.90、平均绝对误差(MAE)=2.02。通过对仅含结构性控制变量、仅含价格变量以及二者组合的模型开展消融实验,证实社会经济因素解释了大部分方差,而药品定价则通过边际误差降低提供增量预测价值。研究进一步借助SHapley加性解释(SHAP)与基于模型的效应估计,增强模型可解释性,从而实现对13类治疗药物的类别特异性解释。在支付能力受限的情境中,糖皮质激素、胃肠道药物和呼吸系统药物价格较高与预期寿命较低呈负相关;而在资源充足的卫生体系中,内分泌药物、精神药物和抗组胺药物价格上升则与寿命延长相关。国家间比较,尤其是印度与巴西的对比,凸显了医疗保障覆盖与定价政策在调节上述关联中的影响。这些发现强调了可解释人工智能(XAI)在解析复杂健康—经济关系中的效用,并为通过药品定价干预优化人群健康提供了证据。
该文发表于《Discover Health Systems》,围绕国家层面药品价格结构与预期寿命之间的统计关联展开,旨在以可解释机器学习方法识别不同治疗类别药物价格在全球健康结果中的差异化作用。研究背景在于,预期寿命是衡量社会发展与卫生体系绩效的核心指标,而药品价格既关系到可及性与依从性,也嵌入更广泛的社会经济和卫生资源配置结构之中。现有研究虽已证明经济发展、教育、疫苗接种、卫生基础设施等因素与寿命密切相关,但药品定价与预期寿命之间并非单一线性关系,而是受到医疗可负担性、保险覆盖、技术采纳、环境暴露和行为因素共同调节。正因如此,传统简单相关分析难以充分揭示其中的多层次关系。研究人员因此开展本研究,试图在跨国观察性数据框架下,结合解释性人工智能(AI)方法,评估药品价格在控制多重混杂因素后的关联模式,并为卫生政策提供更具针对性的证据。

在研究设计上,研究人员整合了60个国家的数据,以Health Action International(HAI)药品价格数据为核心,提取最低价仿制药的中位价格比(Median Price Ratio, MPR),并联合世界银行、世界卫生组织(WHO)及联合国数据库中的社会经济、卫生系统与环境指标,构建包含29个特征的分析数据集。药品按治疗用途归并为13个功能类别,以降低维度并增强跨国可比性。方法学流程包括相关性分析、基于孤立森林(Isolation Forest)的异常值识别、7种机器学习模型比较、消融实验以及基于SHAP的模型解释。研究结论显示,随机森林回归(Random Forest)在小样本、高维表格数据环境下表现最佳;社会经济结构因素解释了大部分预期寿命差异,而药品价格对误差降低具有补充价值。研究的重要意义在于,药品价格的健康效应具有显著情境依赖性,不能脱离卫生保障体系、支付能力和供给制度单独解读,因此跨国药品定价政策应实施分层、分类与制度适配的设计。

主要技术方法可概括如下:研究样本来自60个国家的跨国汇总数据;以最低价仿制药MPR表征药价;纳入GDP、识字率、疫苗覆盖、清洁用水、卫生设施、空气质量、医院床位和医师密度等控制变量;采用Pearson相关与Spearman秩相关分析变量关系;使用Isolation Forest识别异常国家,并将异常分数转换为样本权重;比较决策树、随机森林、XGBoost、LightGBM、支持向量机回归(SVM Regressor)、梯度提升和多层感知机回归(MLP Regressor);最终以SHAP和基于模型的效应估计解释13类药物价格与预期寿命的关联方向和相对贡献。

以下结合论文主体结果进行解读。

在“Introduction”部分,研究人员指出,技术进步和医学创新长期推动了全球预期寿命提升,而卫生支出与药品费用在各国国内生产总值中占据重要比重,使药品定价成为值得量化评估的健康决定因素。论文同时强调,人口老龄化正在持续加大卫生预算压力,因此需要更透明、可复现且能处理复杂非线性关系的方法。研究据此采用CHEERS 2022报告规范指导分析流程,并将可解释人工智能引入健康经济学分析框架。

在“Dataset preparation”部分,研究人员完成了跨国数据整合,并将药物划分为13个治疗类别。论文展示了全球预期寿命和人类发展指数(HDI)的空间分布,指出高HDI地区通常也具有较高预期寿命,而撒哈拉以南非洲和南亚部分国家则相对较低。这一结果为后续分析提供了结构性背景,也说明药品价格必须放置于发展水平与卫生系统能力的背景中加以理解。

在“Correlation analysis”部分,研究人员通过Pearson与Spearman两类相关分析发现,GDP、识字率、疫苗覆盖率以及卫生基础设施等指标与预期寿命呈明显正相关。药品价格方面,抗生素、精神药物和糖皮质激素价格与预期寿命呈中等程度正相关,而驱虫药与非甾体抗炎药(NSAIDs)相关性较弱甚至为负。论文特别指出,Spearman相关整体强于Pearson相关,提示药品价格与寿命之间更可能表现为单调但非线性的关联,而非简单线性关系。

在“Anomaly detection using isolation forest”部分,研究人员识别出若干在多维健康与社会经济指标上偏离常规模式的国家。例如,Nigeria在基础公共服务、经济指标、环境与生活方式风险、卫生系统能力及感染与免疫相关药物方面呈现异常;Kuwait在经济、环境风险、慢性病治疗及疼痛炎症管理方面异常;USA与Burkina Faso也在特定药物类别和卫生结构上表现出偏离。研究进一步将孤立森林异常分数转化为样本权重,在监督学习阶段降低异常国家对模型拟合的杠杆效应,从而提高估计稳健性。

在“Machine learning model for prediction”部分,研究人员比较了7种机器学习算法在相同训练—测试划分下的表现,并采用R2、MAE和RMSE综合评估。随机森林取得最佳性能,R2=0.77,RMSE=2.90,MAE=2.02,说明其能较好解释跨国预期寿命差异,并保持较低预测误差。论文指出,在n=60、p=29的小样本高维表格数据条件下,树模型较深度神经网络更具优势;单棵决策树易发生高方差过拟合,而支持向量回归对复杂非线性交互的捕捉不及集成树模型。由此,随机森林被选作后续解释分析的最终模型。

在“Ablation study: incremental value of pharmaceutical prices”部分,研究人员构建了仅控制变量、仅价格变量以及控制变量+价格变量三类随机森林模型。结果表明,仅控制变量模型已具备较强解释力,R2约为0.72,说明GDP、识字率、卫生基础设施等结构性因素解释了大部分预期寿命方差。仅价格变量模型表现明显较差,R2约为0.18,提示药品价格单独不足以预测国家寿命水平。加入价格变量后的全模型在方差解释上与控制变量模型相近,但MAE约下降7%,表明药品价格主要发挥“边际修正”作用,即不是决定性主导因素,但可在控制结构条件后改善预测精度。

在“Explainable visualisations”部分,研究人员首先利用基于模型的效应估计,在静默社会经济协变量后评估不同药物类别价格的方向性关联。结果显示,内分泌药物、精神药物和抗组胺药物价格与更高预期寿命呈正关联;呼吸系统药物、糖皮质激素和胃肠道药物价格与较低预期寿命呈负关联;心血管药物、抗生素和NSAIDs则接近零效应。随后,SHAP蜂群图进一步验证了这些模式:内分泌药物、精神药物和抗组胺药物对寿命预测的正向贡献较明显,而抗生素与NSAIDs的SHAP值多数接近零,说明模型对其依赖度较低。论文还引入归一化Shapley–Lorenz values(SLV),将各治疗类别的平均绝对SHAP值转化为总效应份额,以便比较不同药物类别在跨国模型中的相对重要性。

在“Concluding clinical remarks”部分,研究人员将统计发现与临床和政策语境相联系。糖皮质激素价格升高与预期寿命中度负相关,提示单纯降低价格并不足够,还需配合合理用药教育与管理;胃肠道药物价格升高具有更显著负效应,说明在急症和慢病场景中,中断治疗会迅速导致并发症和更高死亡风险;呼吸系统药物,尤其是哮喘和慢性阻塞性肺疾病(COPD)吸入药,呈现最强负相关,反映持续治疗对生命结局的重要性;而内分泌、精神和抗组胺药物价格较高时出现正相关,则更多反映资源充足卫生系统中创新药物可及性、医保吸收能力和治疗质量。

在“Cross-country evidence”部分,研究人员重点比较了印度和巴西。结果显示,印度中胃肠道药物和呼吸系统药物价格升高与预期寿命下降相关,体现出明显的可负担性缺口和疾病负担;糖皮质激素误用在健康素养较低人群中进一步削弱了健康结果。相对地,论文在引言中指出,巴西较高药价有时对应于公共卫生项目支持下更高质量药物的可及性,因此与更好的寿命结果相关。该部分强调,同样的药价变动,在不同保障体系和供给结构中可对应完全不同的健康含义。

在“Health and policy implications”部分,论文提出了若干政策方向,但核心仍可归纳为:对呼吸系统药物和胃肠道药物等价格敏感型必需药,应优先保证可负担性和供应连续性;对内分泌和精神类等高价值创新药,应在保障可及性的前提下考虑价值导向定价;国家层面的药品定价制度应根据全民健康覆盖(UHC)水平进行系统校准;同时,必须将药品支付政策与合理用药管理、健康素养提升和本土制药产业能力建设结合。

论文讨论部分的核心观点是:药品定价与预期寿命之间的关系具有显著异质性和情境依赖性,其方向和强度会被卫生覆盖、支付能力、疾病负担及监管环境共同塑造。社会经济和卫生系统因素仍是解释寿命差异的主体变量,但药品价格能够在边际上改善模型对健康结果的识别,尤其是在按治疗类别细分后,可揭示哪些药物类别最易受到可负担性约束、哪些类别更可能代表高质量医疗投入。研究同时明确承认本研究为横断面、观察性、国家层级聚合数据分析,未采用因果识别策略,因此结果应被理解为预测性关联和假设生成证据,而非因果效应证明。

研究结论部分可译为:本研究存在若干重要局限,解读结果时需予以考虑。首先,分析属于横断面观察性研究,依赖于单一时间点的国家层面汇总数据。其次,研究未采用因果识别策略或实验设计,因此所报告的关联不应被解释为因果效应。尽管控制了多种混杂变量并采用异常感知加权,仍不能排除未测量混杂和反向因果。第三,研究发现代表的是预测关系与假设生成性洞见,而非针对政策干预的决定性证据。未来若采用纵向数据、准实验设计或随机对照试验,方可进一步确立潜在因果机制。总体而言,该研究证明了可解释人工智能(XAI)在全球健康经济学中的应用潜力,为基于治疗类别、兼顾公平与效率的药品定价政策设计提供了具有实践意义的跨国证据。
相关新闻
生物通微信公众号
微信
新浪微博

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号