基于大语言模型与检索增强生成技术的跨国非法肾脏交易地理定位提取研究

【字体: 时间:2025年04月29日 来源:International Journal of Health Geographics 3

编辑推荐:

  为解决非法肾脏交易数据匮乏及地理位置提取难题,研究人员开展利用大语言模型(LLM)和检索增强生成(RAG)提取相关地理信息的研究。结果显示,BERT 分类模型准确率 88.75%,Llama3.3 - 70B 模型提取角色信息也有较高准确率,该研究构建了相关数据库,意义重大。

  慢性肾脏疾病如同一个隐匿的 “健康杀手”,在全球范围内肆意蔓延。据统计,2017 年,全球约有 843.6 million 人受到慢性肾脏疾病的困扰。对于终末期肾病(ESRD)患者而言,肾脏移植本是延续生命的希望之光,然而现实却极为残酷。全球肾脏供需严重失衡,平均每 255 位需要肾移植的患者中,仅有 13.5 人能幸运地接受移植手术 ,漫长的等待时间甚至长达 5 年。在这煎熬的等待过程中,每年约 7% 的患者因病情恶化,无奈地在等待名单上消逝生命,或者因不堪重负而退出。
在这样的困境下,非法肾脏交易悄然滋生,如同毒瘤一般侵蚀着医疗伦理和法律的底线。“移植旅游”“器官贩运” 等非法行为屡禁不止,背后是复杂的跨国犯罪网络,涉及卖家、买家、经纪人以及医疗专业人员和机构。尽管国际社会一直在努力打击,世界卫生组织(WHO)自上世纪 80 年代起就制定相关准则,2008 年《伊斯坦布尔器官贩运和移植旅游宣言》的发布,以及联合国毒品和犯罪问题办公室(UNODC)建立数据库、国际刑警组织发起专项行动等,但非法肾脏交易依旧猖獗。例如 2008 年的 “科索沃器官贩运指控” 和 “古尔冈肾脏丑闻”,都令人触目惊心。

为了深入了解这一全球性难题,来自乔治梅森大学(George Mason University)等机构的研究人员开展了一项极具意义的研究。他们运用先进的技术手段,试图揭开非法肾脏交易背后的地理信息面纱,构建更全面的时空数据库,研究成果发表在《International Journal of Health Geographics》上。

在研究过程中,研究人员采用了多种关键技术方法。首先,他们从 LexisNexis 数据库(2000 - 2022 年)中提取报道非法肾脏交易的新闻文章作为数据来源。接着,利用双向编码器表征(Bidirectional Encoder Representations from Transformers,BERT)模型对文章进行分类,判断其与非法肾脏交易的相关性。之后,运用生成式预训练变换器(Generative Pre - Trained Transformers,GPT)模型 Llama3.3 - 70B 结合检索增强生成(Retrieval Augmented Generation,RAG)技术,提取文章中的国家名称,并确定各国在非法肾脏交易中所扮演的角色,包括卖家、买家、经纪人和手术实施地。最后,借助 PostgreSQL 构建空间数据库存储数据,并使用 QGIS 软件进行数据可视化展示。

在文章分类环节,研究人员手动标注了 800 行数据,其中 720 行用于训练,80 行用于验证。为确保训练数据的随机性和平衡性,数据涵盖了 23 年中的不同年份。此外,还使用了一个包含 1003 行数据的不平衡数据集进行二次评估,该数据集包含 90 篇相关文章和 913 篇不相关文章,以模拟原始数据的真实分布情况。最终,BERT 分类模型展现出了较高的性能,准确率达到 88.75%,灵敏度为 88.75%,特异性为 90.0%。

对于重复文章的处理,研究人员利用词向量(word2vec)和余弦相似度技术。将文章内容转化为向量格式后,通过计算余弦相似度来衡量文章之间的相似程度。研究设定相似度阈值为 0.2,若文章相似度超过该阈值且发表时间间隔小于 7 天,则判定为重复文章,仅保留其中一篇,以此保证数据的独特性。

在关键的位置提取步骤,研究人员使用 Llama3.3 - 70B 模型和 RAG 技术。在输入文章文本和指定目标角色识别任务的提示后,模型会对输入进行分词、嵌入等一系列处理。通过多头注意力机制(Multi - Headed Attention)理解上下文关系,计算注意力分数以突出国家名称与目标角色之间的关系,最终输出最可能的国家 - 角色关联。为了优化模型性能,研究人员还通过多次输入提示找到最佳提示,并使用特定的提示模板对大语言模型(LLM)进行微调。经过验证,Llama3.3 - 70B 模型在提取不同角色的地理位置时表现出色,卖家、买家、经纪人和手术的准确率分别达到 86.30%、88.89%、93.33% 和 95.93%。

通过对大量数据的分析,研究人员发现了许多有价值的信息。在国家参与度方面,印度在肾脏交易案件中的参与度极高,共涉及 352 起案件。多数文章提及肾脏卖家的国籍,而买家、经纪人国籍及手术地点的提及频率相对较低。进一步分析各国在交易中所扮演的角色,发现发展中国家更倾向于成为肾脏卖家的来源地,而发达国家则多为买家所在地。例如,印度在卖家角色中占比突出,在 2012 - 2022 年期间,其作为卖家的案件占比达到 33%;而在买家角色方面,早期以色列、美国等国家较为突出,后期印度成为最大买家。

从时空趋势来看,各国在肾脏交易中的主要角色并非固定不变,而是随着时间动态变化。约半数在某一角色中排名前十的国家,在十年内会被其他国家取代。这可能与各国执法力度、移植法律的制定以及社会经济状况的变化等因素有关。

该研究具有多方面的重要意义。在方法上,与传统的命名实体识别(NER)等方法相比,研究中使用的 LLM 和 RAG 技术在提取地理信息方面具有更高的准确性,能够更有效地识别文章中复杂的地理位置信息及其相关角色。在数据层面,成功构建了描述过去二十年跨国肾脏交易国家网络的地理空间数据库,为后续深入研究提供了坚实的数据基础。然而,研究也存在一定的局限性,如数据来源仅为英文文章、可能无法准确反映实际案件数量、RAG 调优方法仍需改进以及新闻文章样本存在偏差等。但总体而言,这项研究为非法肾脏交易的研究开辟了新的道路,为全球打击非法器官贩运提供了有力的支持,有望推动相关领域在未来取得更多的突破。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号