
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于语义特征分组关系抽取的药用植物属性知识图谱构建及其在社交媒体中的应用研究
【字体: 大 中 小 】 时间:2025年08月11日 来源:Frontiers in Artificial Intelligence 4.7
编辑推荐:
这篇研究创新性地提出从学术文本中自动抽取植物部位-药用属性组关系(pp-mpG),通过结构方程建模(SEM)解决高维相关特征空间下的关系提取难题。研究构建了药用属性概念表(MPC Table),采用词共现模式(word-co)和解决性动词集(SVC)识别基本话语单元(EDU),最终实现无需人工标注的药用植物属性知识图谱构建,为疫情期间替代医疗提供可视化解决方案。
研究背景与方法创新
在COVID-19大流行背景下,传统医疗资源紧张促使研究者将目光转向 indigenous medicinal plants(本土药用植物)。该研究突破性地提出 grouped semantic-feature relation extraction(分组语义特征关系抽取)方法,重点挖掘植物部位概念(ppi)与药用属性特征组(mpGg)之间的 pp-mpG 关系。通过构建包含50种泰国药用植物的语料库,采用结构方程建模(SEM)处理88维高相关性的药用属性特征(mpj),解决了传统关系抽取方法忽视特征相关性的关键问题。
技术突破与实现路径
研究团队创新设计了三阶段技术路线:首先基于解决性动词集(SVC)识别含药用属性的基本话语单元(EDU),其次通过词共现模式(WCPattern)构建药用属性概念表(MPC Table),最终运用分层因子分析将特征维度从88降至3个核心因子(FA/FB/FC)。实验显示,该方法在药用属性EDU识别准确率达97%,pp-mpG关系提取精度达95%(p<0.05),较传统SVM方法提取的pp-mp关系更高效(2组vs16组关联)。
核心发现与应用价值
研究发现叶部(pp2)与根茎(pp4)部位显著关联抗病毒(AntiViral)、缓解疼痛(relievePain)等特征组,如罗勒叶与穿心莲叶均含抗炎抗病毒协同效应。通过Plant Table可视化(图6),非专业人员对知识图谱的易理解性评分达4.5分(Likert量表),显著高于原始文献的2.9分。社交媒体情感分析显示,用户对药用植物信息的正向情感强度达0.81,证实该表示方法可提升替代医疗的公众接受度。
局限性与未来方向
当前方法受限于单EDU内药用属性表达(≤5词)的语料特性,未来需拓展跨句关系抽取。研究者建议结合主成分分析(PCA)进一步优化特征降维,并探索深度学习在 dominant mpj feature(主导药用属性)识别中的应用,以增强在藏药、日药等多语种医疗文本的迁移能力。
学科交叉价值
该研究开创性地将SEM引入NLP领域,为分析植物成分-功效关系提供新范式。所提出的分组语义关系模型可延伸至消费者行为分析等领域,通过挖掘产品属性组与用户行为的潜在关联,助力社交媒体精准营销策略制定。
生物通微信公众号
知名企业招聘