利用大型语言模型和机器学习进行癌症众筹预测的成功分析:一项定量研究
《JMIR AI》:Leveraging Large Language Models and Machine Learning for Success Analysis in Robust Cancer Crowdfunding Predictions: Quantitative Study
【字体:
大
中
小
】
时间:2025年11月22日
来源:JMIR AI 2
编辑推荐:
本研究利用GPT-4o提取医疗众筹文本的 linguistic 和 social 决定因素,结合随机森林、梯度提升等机器学习模型,发现梯度提升树在敏感性和准确性上表现最佳,重要预测因素包括医疗严重程度、收入损失、清晰沟通等,为政策制定提供依据。
在当今社会,医疗众筹作为一种新兴的筹资方式,已经成为许多癌症患者及其家庭在面对高昂医疗费用时的重要支持渠道。随着人工智能技术的快速发展,特别是大型语言模型(LLMs)的出现,为医疗众筹研究带来了新的机遇。这些模型不仅能够处理大量的文本数据,还能从中提取出更加细腻的语言、情感和社会特征,从而帮助研究人员更深入地理解影响众筹成功的各种因素。本研究旨在通过结合LLMs和机器学习(ML)算法,构建一个更全面的预测模型,以识别和解释癌症众筹成功的关键预测因子。
在本研究中,研究人员利用GPT-4o这一先进的LLM来分析GoFundMe平台上的癌症众筹项目描述,提取与语言、情感和社会经济因素相关的特征。这些特征包括但不限于癌症的类型、治疗阶段、治疗方式、患者的情绪状态、社会行为、家庭参与度以及与医疗组织的关联等。通过这些特征,研究团队希望揭示哪些因素最能影响众筹的成功率,并进一步探讨如何通过优化这些因素来提高众筹的效率和效果。
在数据收集方面,研究人员使用了GoFundMe的公共API和网络爬虫技术,获取了2023年1月3日至2023年12月31日期间发布的4990个癌症相关众筹项目。这些项目涵盖了从799.99美元到10万美元不等的目标金额。通过对这些数据的分析,研究团队发现,目标金额越高,平均吸引的捐助者数量也越多,这表明较高的目标金额可能代表更复杂的医疗需求,从而引发更多的关注和支持。然而,值得注意的是,较低的目标金额更为常见,这可能反映出众筹发起人倾向于设定更为实际的筹资目标。
在评估模型性能时,研究团队采用了四种不同的机器学习算法:随机森林、梯度提升、逻辑回归和弹性网络。这些算法在不同的特征子集上进行了测试,以评估其在预测众筹成功方面的表现。结果显示,梯度提升算法在敏感性方面表现最佳,其敏感性范围在0.786至0.798之间,表明该算法在识别成功众筹项目方面具有显著优势。相比之下,逻辑回归和弹性网络虽然在特异性方面表现良好,但它们的敏感性较低,这意味着这些算法可能在识别成功项目方面存在一定的局限性。
此外,研究团队还利用随机森林算法结合排列重要性(permutation importance)技术,对提取出的特征进行了排序和评估。排列重要性是一种衡量特征对模型预测性能贡献的方法,通过随机打乱特征值并观察模型性能的变化来评估其重要性。结果显示,对于严重的医疗状况,如住院治疗或未明确的临终关怀,收入损失、化疗治疗、清晰有效的沟通、认知理解、家庭参与、共情以及社会行为等因素在预测众筹成功方面具有重要作用。这些发现为政策制定者和众筹发起人提供了重要的参考,表明在设计和推广众筹项目时,应重点关注这些因素。
本研究的另一个重要发现是,众筹项目的成功与项目持续时间密切相关。高度成功的项目平均持续时间超过250天,这可能意味着较长的项目周期有助于吸引更多捐助者。此外,研究团队还发现,项目描述中使用积极的语言和展示社会行为的项目更容易获得支持,这表明情感表达和社交互动在众筹成功中的重要性。
尽管本研究取得了显著成果,但也存在一些局限性。首先,研究主要关注了语言、社会、人口统计和医疗相关的特征,而未考虑其他可能影响众筹成功的因素,如捐助者互动指标或社交媒体上的可见性。其次,虽然交叉验证有助于减少过拟合的风险,但模型的泛化能力在应用于其他类型的众筹项目时仍需进一步验证。此外,研究团队在随机森林特征选择中选择了默认参数,这可能并不适用于所有数据集,因此在实际应用中需要根据具体情况进行调整。
与以往的研究相比,本研究的创新之处在于首次将LLM应用于医疗众筹的特征提取,并结合机器学习算法构建了一个有效的预测模型。以往的研究多依赖于传统的统计方法,如线性回归和逻辑回归,这些方法在处理复杂的数据关系时存在一定的局限性。而LLMs的引入使得研究人员能够从文本中提取出更加丰富的特征,从而更全面地理解影响众筹成功的各种因素。此外,本研究还引入了新的特征,如医疗程序和治疗因素,这些特征在以往的研究中并未被充分探讨。
总的来说,本研究不仅在理论上为医疗众筹的成功预测提供了新的视角,还在实践中为政策制定者和众筹发起人提供了切实可行的建议。通过识别和优化关键预测因子,可以更好地支持癌症患者及其家庭,减少他们在面对高昂医疗费用时的经济负担。同时,研究结果也强调了加强医疗保障体系、提高收入保护政策以及增强医疗组织对患者的支持的重要性。这些发现对于改善医疗众筹的效率和公平性具有重要意义,也为未来的相关研究奠定了基础。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号