综述:药用植物基因组学的过去十年:进展与挑战
《Engineering》:The Last Decade of Medicinal Plant Genomics: Advances and Challenges
【字体:
大
中
小
】
时间:2025年10月17日
来源:Engineering 11.6
编辑推荐:
过去十年,随着测序技术进步和成本降低,药用植物基因组(MPGs)研究快速发展,已测序物种超1800种。中国贡献了72.5%的MPGs新组装,技术突破如长读长测序(PacBio HiFi、Nanopore)显著提升组装质量,平均contig N50从1.66 Mb增至47.05 Mb。基因组数据推动次生代谢途径解析,如识别STORR基因在罂粟中合成吗啡的关键作用,以及diterpene和triterpene生物合成簇的进化机制。多组学整合(表观基因组、群体基因组、单细胞测序)揭示代谢调控的细胞特异性与环境适应性。AI技术开始应用于基因组组装、注释和变异分析,但需解决药用植物基因组异质性问题及标准化数据库建设。
随着近年来基因组测序技术的迅猛发展,特别是高通量测序平台的广泛应用以及测序成本的显著降低,对药用植物基因组(Medicinal Plant Genomes, MPGs)的研究取得了突破性进展。过去十年(2014年至2025年),药用植物基因组的测序数量和质量都实现了大幅提升,这不仅推动了对药用植物活性成分合成路径的深入理解,也为濒危物种的保护、分子育种策略的优化以及代谢工程的创新提供了重要基础。本文将围绕药用植物基因组的测序进展、数据库建设、代谢路径解析以及多组学方法的应用展开探讨,同时分析当前研究中存在的主要挑战与未来发展方向。
### 药用植物基因组测序的进展
截至2025年8月,全球已测序的植物物种超过1800种,其中药用植物基因组的种类也在不断增加。根据多国药典定义,药用植物的种类总数达到435种,涵盖了亚洲、欧洲、美洲和非洲等多个地区的传统草药。从2014年至2019年,每年仅有1至12种药用植物基因组被发表,主要原因在于早期测序技术的限制和高昂的测序成本。然而,随着PacBio Sequel II平台和Nanopore技术的引入,测序效率和准确性得到了显著提升,使得药用植物基因组的测序工作进入快速发展阶段。自2022年起,每年发布的药用植物基因组数量已达到约100种,且在过去三年中,药用植物基因组在所有新测序植物物种中的占比接近40%。
药用植物基因组的测序不仅在数量上取得突破,其组装质量也有了显著提升。例如,组装的contig N50值从2014至2020年的1.66 Mb增长到2021至2023年的13.17 Mb,再到2024至2025年的47.05 Mb。这一变化表明,随着测序技术的进步,即使是复杂的基因组结构也能被更精确地解析。值得注意的是,近年来一些具有巨大基因组的药用植物,如“多花黄精”(*Paris polyphylla*)和“贝母”(*Fritillaria*)等,其基因组的测序和组装也取得了重要进展。*P. polyphylla*的基因组大小达到54.58 Gb,成为目前测序的最大的药用植物基因组之一。这类大型基因组的测序不仅需要先进的技术手段,还依赖于更高效的计算资源和更复杂的生物信息学分析工具。
此外,随着测序数据的积累,一些药用植物的基因组被多次重新测序以进一步优化其组装质量。例如,丹参(*Salvia miltiorrhiza*)的基因组已发布至少六个版本,其中最新版本为一个纯合体基因组,这为利用CRISPR/Cas9等基因编辑技术奠定了基础。类似地,黄芩(*Scutellaria baicalensis*)的基因组也经历了多次更新,其中最新版本已实现无间隙(T2T)组装,这在一定程度上提高了基因组数据的完整性和可靠性。尽管T2T组装技术在药用植物基因组研究中展现出巨大潜力,但由于其较高的测序成本和较长的分析时间,目前尚未被广泛采用。
### 药用植物基因组数据库的建设
药用植物基因组的广泛应用离不开专门的数据库支持。目前,多个数据库已建立,用于存储和分析药用植物的基因组数据。例如,1K Medicinal Plant Genome Database收录了113种药用植物的基因组信息,提供了基因注释、引物设计等功能。Herbal Medicine Omics Database(MPOD)则收录了50种药用植物的基因组数据,并支持多种在线分析工具,如基因表达分析、基因组可视化和共表达分析。MPDB(Medicinal Plant DataBase)则收录了约200种药用植物的基因组信息,涵盖了从基因注释到代谢路径预测的多种功能。
此外,Integrated Medicinal Plantomics(IMP)数据库提供了84种高质量的药用植物基因组组装,并支持基因组浏览器、基因表达分析、共表达分析等工具。该数据库不仅方便研究人员获取基因组数据,还促进了药用植物基因组数据的整合与比较分析。而N3database则收录了3517种植物的基因组数据,虽然其主要目标并非局限于药用植物,但其庞大的数据量也为药用植物基因组研究提供了重要资源。
值得注意的是,GNDC(Gene-encoded Natural Diverse Components Repository)作为基于药用植物基因组的数据库,已收录超过2.34亿种天然成分,这些成分由基因直接或间接编码,为新型药物开发和合成生物学研究提供了关键支持。然而,尽管这些数据库为药用植物基因组研究提供了便利,但它们的在线分析功能仍有待完善,特别是在支持更复杂的多组学整合分析方面。
### 药用植物基因组在代谢路径解析中的应用
药用植物基因组测序的核心目标之一是揭示其活性成分的生物合成路径。传统的转录组共表达分析曾是识别候选基因的主要方法,但这种方法在识别缺乏转录特异性或存在于大量同源基因家族中的基因时存在局限性。因此,随着药用植物基因组数据的积累,研究人员开始利用全基因组注释和基因组比较分析来深入解析代谢路径。
全基因组注释能够提供更全面的基因信息,包括基因簇(BGCs)、串联重复和共线性区域,这些信息对于理解药用植物中特定代谢物的合成机制至关重要。例如,在罂粟(*Papaver somniferum*)基因组中,研究人员发现染色体2和染色体11上的共线性片段可能与吗啡合成相关。其中,染色体2上的基因片段经历了复制和基因间区域的缺失,导致P450和氧化还原酶基因的融合,从而形成了新的编码基因STORR。这一发现不仅揭示了吗啡合成的关键基因,也为理解植物中代谢路径的进化提供了重要线索。
此外,基因簇在不同植物中可能具有保守性或特异性。例如,萜类化合物的合成路径在多个植物中表现出高度保守的特征,而一些特定的基因簇则可能仅在某些植物中存在。通过分析这些基因簇的分布和进化,研究人员能够更准确地识别与特定代谢物合成相关的基因,并进一步探讨其在不同物种中的功能分化。例如,某些基因簇可能在不同植物中经历了亚功能化(subfunctionalization)、新功能化(neofunctionalization)或功能丧失(loss-of-function)等过程,从而导致代谢物的多样性。
### 多组学方法在药用植物研究中的应用
药用植物基因组的测序不仅为代谢路径的解析提供了基础,还促进了多组学方法的广泛应用。多组学方法结合了基因组学、转录组学、表观基因组学、群体遗传学和单细胞测序等多种技术手段,为全面理解药用植物的代谢机制提供了新的视角。
在表观基因组学方面,研究人员发现表观遗传调控在代谢合成路径中可能发挥关键作用。例如,在*Salvia*属植物中,研究发现与肉桂酸和丹参酮合成相关的基因在根部和地上部分表现出不同的转录模式,这与染色质可及性(chromatin accessibility)和组蛋白修饰(histone methylation and acetylation)密切相关。通过整合表观基因组学数据,研究人员能够更深入地揭示基因表达调控的复杂机制,包括染色质空间邻近性(chromatin spatial proximity)对代谢路径的协同调控作用。
在群体遗传学研究中,药用植物基因组的广泛应用为揭示活性成分的遗传基础提供了重要支持。通过将活性成分含量视为数量性状,研究人员可以利用基因组关联分析(GWAS)或泛基因组分析(pangenome analysis)来识别影响这些成分积累的关键基因。例如,一项基于*Artemisia annua*(黄花蒿)基因组的研究发现,与青蒿素合成相关的*amorpha-4,11-diene synthase*(ADS)基因拷贝数与青蒿素含量呈正相关,这表明ADS基因的剂量效应可能对青蒿素的合成具有重要影响。类似地,在*Perilla frutescens*(紫苏)的群体研究中,研究人员发现MYB113转录因子的结构变异(如长末端重复序列插入和外显子片段缺失)显著影响了类黄酮的积累模式和叶片颜色表型。
单细胞测序技术的出现为药用植物研究带来了新的突破。通过分析单个细胞的转录组数据,研究人员能够更精确地识别不同细胞类型中代谢物合成路径的差异,并发现与代谢物合成相关的新型基因。例如,在*Catharanthus roseus*(长春花)的单细胞图谱中,研究人员发现不同的叶细胞类型中,萜类吲哚生物碱(TIA)合成路径的模块表现出独特的转录模式,这表明代谢物合成可能在不同细胞中进行区域化调控。此外,通过分离特定的代谢合成细胞(如*Hypericum perforatum*(贯叶连翘)中负责超酚素合成的“超细胞”),研究人员成功鉴定了四种前体转移酶,从而完整解析了该代谢物的合成路径。
### 当前挑战与未来展望
尽管药用植物基因组测序取得了显著进展,但仍面临诸多挑战。首先,药用植物的基因组结构通常较为复杂,包括高杂合度、多倍体化和大基因组等特点,这使得基因组组装和注释变得更加困难。其次,尽管部分药用植物的基因组数据已较为完善,但许多物种仍缺乏系统的种质资源收集和精准的表型评估,这在一定程度上限制了其在群体遗传学和泛基因组研究中的应用。此外,药用植物基因组数据的利用仍面临技术门槛,许多研究者在基因组分析和多组学整合方面缺乏足够的专业知识和计算资源。
未来,随着测序技术的进一步优化,如更长的读长、更高的测序精度以及更高效的基因组组装算法,这些挑战有望得到缓解。同时,人工智能(AI)和机器学习(ML)技术的引入将进一步推动药用植物基因组研究的自动化和智能化。例如,AI可以通过对基因组序列进行分词处理,并结合深度学习模型对基因功能进行预测,从而提高基因组分析的效率和准确性。此外,AI在基因组组装、序列注释、变异检测和代谢路径预测等方面也展现出巨大潜力。
值得注意的是,AI的应用不仅限于基因组层面,还可以扩展到更复杂的生物系统。例如,通过整合基因组数据和表观基因组数据,AI可以揭示基因表达调控的动态变化,并预测特定环境条件下代谢物合成的关键基因。此外,AI还可以用于设计新的基因组序列,以实现对特定代谢物合成路径的精准调控,从而支持更高效的分子育种和代谢工程研究。
总之,药用植物基因组研究的快速发展不仅为理解植物代谢机制提供了新的工具,也为药用植物的保护、育种和药物开发带来了重要机遇。然而,要充分发挥药用植物基因组的潜力,还需要进一步优化测序技术、完善数据库功能、提升研究人员的多组学分析能力,并推动AI在基因组研究中的广泛应用。未来,随着这些技术的不断进步,药用植物基因组研究将进入更加智能化和精准化的阶段,为人类健康和生物多样性保护做出更大贡献。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号