
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于Transformer嵌入模型的生物医学术语标准化性能评估与CANTOS框架开发
【字体: 大 中 小 】 时间:2025年06月13日 来源:Machine Learning with Applications
编辑推荐:
针对生物医学数据库术语不统一影响机器学习应用的问题,本研究开发了CANTOS框架,系统评估36种文本匹配和LLM/transformer嵌入方法在肿瘤命名标准化中的表现。结果显示all-MiniLM-L12-v2+Euclidean距离对WHO-5th版准确率达67.7%,LTE-3+Euclidean距离对WHO全版达69.4%,显著优于传统文本匹配方法(最高32.6%)。多数投票策略进一步提升准确率至71.9%,为生物医学数据整合提供了可扩展的解决方案。
在生物医学研究领域,公共数据库中的文本数据呈现爆炸式增长,但术语不统一和表述不一致的问题严重阻碍了机器学习应用和数据整合。以美国国立卫生研究院临床试验注册库(CTR)为例,这个包含超过48万项治疗试验的数据库中,疾病名称采用自由文本格式记录,存在拼写错误、同义词混淆和表述差异等问题。这种混乱不仅影响临床信息学应用,更阻碍了与其他生物医学数据源的整合。特别是在肿瘤研究领域,世界卫生组织肿瘤分类系统(WHO System)作为临床"金标准",与CTR中非标准化术语的匹配成为重大挑战。
为解决这一难题,来自Children's Hospital of Philadelphia's Research Institute的研究团队开发了名为CANTOS(Clinical Trials Automated Nomenclature and Tumor Ontology Standardization)的计算框架。该研究系统评估了36种方法在肿瘤命名标准化任务中的表现,包括传统文本匹配算法和基于transformer/大型语言模型(LLM)的文本嵌入方法。研究成果发表在《Machine Learning with Applications》上,为生物医学文本标准化提供了重要方法论参考。
研究采用了多项关键技术:1)从CTR的conditions.txt和interventions.txt文件中提取肿瘤名称;2)使用编辑距离(Levenshtein/Jaro-Winkler/cosine)和嵌入模型(26种)生成文本表示;3)采用最近邻匹配和聚类(亲和传播AP/K-means)两种标准化策略;4)基于1600个手动标注样本评估性能;5)开发多数投票集成方法提升准确率。样本来源于NIH Clinical Trials Registry 2023年8月版本。
研究结果显示,在WHO系统标准化任务中,文本嵌入方法显著优于传统文本匹配方法。具体表现为:使用all-MiniLM-L12-v2模型配合欧氏距离对WHO第5版准确率达67.7%,LTE-3模型对WHO全版本准确率达69.4%,而文本匹配方法最高仅32.6%。通过分析发现,基于语义相似度优化的通用嵌入模型(如LTE-3、all-MiniLM-L12-v2)性能最佳,而针对生物医学领域专门训练的模型(如BioBERT、PubMedBERT)表现反而不理想,准确率仅20-40%。
在方法学比较方面,研究发现最近邻匹配策略普遍优于聚类方法。例如LTE-3+欧氏距离(69.4%)比LTE-3+AP聚类(67.8%)效果更好。通过McNemar检验发现,不同嵌入模型预测结果存在显著差异(p<0.05),表明它们捕捉了肿瘤术语的不同语义特征。研究者进一步开发多数投票集成策略,组合三种高准确率低一致性方法(ADA-002+AP、LTE-3+K-means和all-MiniLM-L12-v2+欧氏距离),将WHO-5th版准确率提升至71.9%,WHO全版达71.6%。
错误分析揭示了关键挑战:阶段混淆(Stage-Based Confusion)是最常见错误类型,占高准确率方法错误的36.7%,源于CTR肿瘤名包含大量分期信息而WHO术语中缺失;部分名称重叠(Partial Name Overlap)占19.7%,反映模型过度依赖表面词汇相似度;亚型/子类不匹配(Subtype/Subclass Mismatch)占18.6%,在WHO全版本中更显著。值得注意的是,生物医学专用模型产生的解剖定位错误(Anatomical Mislocalization)比通用模型高2-3倍。
该研究的创新价值主要体现在三个方面:首先,CANTOS是首个系统评估现代嵌入方法在生物医学术语标准化中性能的研究框架,填补了该领域的空白;其次,研究发现通用语义相似性模型优于生物医学专用模型,颠覆了领域适应的传统认知;最后,提出的多数投票策略为处理模型预测分歧提供了有效方案。研究建立的标准化流程可扩展至MONDO、疾病本体论(DO)等其他生物医学本体系统,对促进多源数据整合、提升真实世界证据研究质量具有重要意义。未来工作将探索微调领域专用模型、整合规则与嵌入方法,以及扩展至ICD-10、SNOMED CT等临床编码系统的标准化应用。
生物通微信公众号
知名企业招聘