SinoMedminer:基于R语言与Shiny应用的中医药方数据挖掘与可视化工具开发

【字体: 时间:2025年06月07日 来源:Chinese Medicine 5.3

编辑推荐:

  针对中医药(TCM)处方数据挖掘中现有工具存在性能局限、可视化不足等问题,中国中医科学院团队开发了R包SinoMedminer及其Shiny交互应用。该工具整合标准化数据集与45项核心功能,支持从数据清洗到网络药理学分析的全流程,显著提升TCM大数据处理效率。其菜单式操作界面降低了编程门槛,为中医药现代化研究提供了高效、标准化的解决方案。

  

传统中医药(TCM)处方蕴含着千年临床智慧,但海量异构数据的高效挖掘一直是研究瓶颈。现有工具如"传承计算平台"面临三大痛点:处理大规模数据时性能骤降,可视化结果难以满足期刊出版要求,且缺乏标准化数据集支持。更棘手的是,临床记录的复杂性——从四气五味到经络归经的非结构化描述,使得分析流程碎片化。中国中医科学院广安门医院心血管科贺青永团队联合国内多家机构,开发出创新性解决方案SinoMedminer,相关成果发表于《Chinese Medicine》。

研究团队采用R语言与Shiny框架协同开发策略,关键技术包括:1)构建含1005种标准化中药名的内置数据集;2)开发45个核心函数实现从Phi相关系数矩阵计算到加权处方相似性分析(grpSimScore);3)通过k_selection函数集成20种聚类算法投票机制;4)设计交互式Shiny界面支持零代码操作。测试数据涵盖7178份银屑病病历等9类异构数据集。

核心结果展示
数据标准化引擎:内置数据集整合《中国药典》等权威来源的8287种草药别名对照表,通过herb_to_add函数实现罕见药材的自定义扩展,解决因地域、时代差异导致的术语混乱问题。

智能参数优化:explore_rules函数突破传统关联规则挖掘的盲目性,可批量评估90种支持度-置信度组合(图5A),输出规则数量、提升度(lift)等关键指标矩阵,避免人工试错。测试显示70%参数组合能稳定生成有效规则(lift>1)。

多维处方特征解析:通过calc_jaccard函数量化处方组内相似性,发现国医大师薛伯寿门诊处方相似系数显著低于张广忠教授数据集(图6)。结合网络拓扑分析,识别出Jaccard系数>0.8的核心处方群(图7),其节点度中心性反映临床使用频次。

跨时代处方比对:grpSimScore函数首创组间相似性评估,公式n×m1Σi=1nΣj=1mJ(Ai,Bj)可量化不同朝代、流派处方的传承变异特征,为TCM知识传承提供数据支撑。

突破性进展
该研究首次实现TCM处方分析的"四维融合":1)性能维度——单机可处理35万条处方数据;2)标准化维度——内置2053种诊断术语映射表;3)可视化维度——fig_cooc函数提供9种网络布局参数,满足期刊出版要求;4)可及性维度——Shiny应用部署于http://formulaharmony.com,支持全流程菜单操作。

局限与展望
当前版本尚存两点不足:未实现传承计算平台数据格式的直接兼容,且处方相似性计算未整合剂量参数。团队计划开发Python兼容库,并融合网络药理学(network pharmacology)技术,通过"中药-靶点-通路"多维网络深化机制阐释。这项研究为TCM大数据分析建立了方法论范式,其开源特性(R包发布于GitHub)将加速中医药数字化研究进程。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号