
-
生物通官微
陪你抓住生命科技
跳动的脉搏
医学大麻研究新工具:基于自然语言处理的治疗活性文献数据库构建与应用
【字体: 大 中 小 】 时间:2025年07月09日 来源:Journal of Cannabis Research 4.1
编辑推荐:
研究人员针对大麻治疗研究文献庞杂且质量参差的问题,开发了医学大麻图书馆(Medical Cannabis Library, MCL)。该数据库通过自然语言处理(NLP)技术从PubMed提取11,441篇文献,建立48,461组大麻素-疾病关系,分类准确率达87%,为临床研究和政策制定提供结构化证据支持。
随着全球38个州和国家将大麻医疗用途合法化,关于大麻素治疗潜力的研究呈现爆炸式增长。然而,PubMed中“大麻或大麻素”相关治疗文献已超2.5万篇,研究者面临三大困境:检索术语混乱(如“CBG”同时指代大麻萜酚和皮质类固醇结合球蛋白)、非研究主题文献干扰(87篇论文仅讨论部分提及CBG)以及综述占比过高(60/582篇)。这种信息过载使得医生和科学家难以快速获取可靠证据,甚至可能因确认偏误(confirmation bias)忽视矛盾结果。
为解决这一难题,研究人员开发了医学大麻图书馆(MCL)。该数据库通过构建74种大麻素及其27种别名的词典,结合5,189种医学主题词(MeSH)疾病术语,从PubMed筛选出11,441篇原创研究。创新性采用生物医学专用语言模型BioBERT和SciSpaCy卷积神经网络,将大麻素-疾病关系分类为阳性(26,450例)、阴性(19,217例)或无效(2,794例),准确率达87.45%。
关键技术包括:1)基于Python Bio.Entrez包的文献自动化检索;2)MeSH术语扩展的56,997种疾病同义词映射;3)大麻素-疾病关系提取的NLP组合模型(ROC AUC=0.8745);4)Laravel-MySQL架构的动态数据库,支持按大麻素(如△9-THC)、疾病(如癫痫)和效应类型三重过滤。
研究结果揭示:
讨论指出,MCL的创新性在于:
该研究发表于《Journal of Cannabis Research》,为首次将NLP关系提取技术系统应用于大麻素治疗评估。尽管存在术语不一致(如“植物大麻素”与特定化合物混用)和阴性样本不足的局限,但其分类框架已显著提升证据整合效率。未来将通过纳入全植物研究专区和用户反馈系统持续优化,为医疗决策提供更全面的循证支持。
(注:△9-THC=△9-tetrahydrocannabinol;MeSH=Medical Subject Headings;ROC AUC=Receiver Operating Characteristic Area Under Curve)
生物通微信公众号
知名企业招聘