《International Journal of Biological Macromolecules》:Integration of TWAS with single-cell and spatial transcriptomics identifies
TLR1 as a susceptibility gene and therapeutic target in the breast cancer tumor microenvironment
编辑推荐:
乳腺癌是一种发病机制复杂的恶性肿瘤,基因组关联研究(GWAS)已发现多个风险位点但难以定位具体功能基因。本研究通过整合多组织转录组关联分析(TWAS)、单细胞转录组测序和空间转录组测序,首次识别出ADCY3、CASP8、GRHL1、HELQ和TLR1五个易感基因,并揭示其在肿瘤微环境中通过MIF和SPP1信号通路调控成纤维细胞、肥大细胞及M2巨噬细胞互作,同时发现TLR1可能成为药物靶点,如阿霉素和依托泊苷。
Jingmei Zhang | Zhiting Chen
广西壮族自治区人民医院放射肿瘤科,南宁,530000,中国
摘要
乳腺癌是一种常见的恶性肿瘤,其发病机制复杂。尽管全基因组关联研究(GWAS)已经识别出多个风险位点,但它们往往难以确定具体的功能易感基因。为了解决这个问题,我们从GTEx门户收集了全组织eQTL数据,并从乳腺癌协会联盟(BCAC)和FinnGen R10数据库中获取了乳腺癌GWAS的汇总数据,利用转录组范围关联研究(TWAS)来筛选和鉴定易感基因。随后,我们通过空间转录组测序和单细胞RNA测序来研究这些基因在肿瘤微环境(TME)中的潜在机制及其作为治疗靶点的相关性。我们发现了五个易感基因——ADCY3 、CASP8 、GRHL1 、HELQ 和TLR1 ——这些基因在Kras和TNFα等肿瘤相关信号通路中富集。在乳腺癌TME中,这些基因与肌成纤维细胞、肥大细胞和M2巨噬细胞相关,这些细胞可能通过巨噬细胞迁移抑制因子(MIF)和分泌型磷酸蛋白1(SPP1)等生物途径相互作用。值得注意的是,TLR1 可能是一个药物靶点,多柔比星和依托泊苷等化合物被确定为潜在候选药物。总之,ADCY3 、CASP8 、GRHL1 、HELQ 和TLR1 作为乳腺癌的遗传易感基因,在理解肿瘤发展和推进治疗方面具有重要的价值。
引言
作为恶性肿瘤,乳腺癌的发病率已超过肺癌,成为最常见的癌症[1]。目前的研究已经确定了几个与乳腺癌相关的经典通路,如Kras和TNFα。此外,像LMO7这样的新兴因素在肿瘤进展过程中整合了机械和生化信号,突显了乳腺癌发病机制的复杂性[2]。因此,理解乳腺癌的发病机制、识别临床诊断的生物标志物以及寻找潜在的治疗靶点至关重要。
全基因组关联研究(GWAS)是一种基于大样本队列结合全基因组测序技术的方法,用于识别与多种表型相关的遗传变异。这些研究侧重于检测与常见疾病表型相关的常见单核苷酸多态性(SNPs)[3]、[4]。然而,GWAS分析识别的SNP位点通常位于基因组的非编码区域或与多个基因相关的染色体区域(即连锁不平衡区域)。尽管这些位点与疾病相关,但它们并不直接编码蛋白质,这使得识别真正的易感基因变得困难。因此,出现了转录组范围关联研究(TWAS)。TWAS将基因表达数据与GWAS数据结合起来,分析基因表达的遗传调控(表达数量性状位点,eQTLs),从而能够更准确地识别易感基因[5]、[6]。
GWAS已经识别出200多个与乳腺癌显著相关的遗传位点[7]、[8]、[9]。然而,这些位点所解释的遗传变异比例仍然相对较小。尽管转录组范围关联研究(TWAS)已经识别出风险基因,但它们仅代表了已知乳腺癌基因组的一小部分。此外,这些TWAS研究主要关联了单一组织中的顺式调控水平的基因表达,表明还有更多的易感基因有待发现。最近,引入了一种新的多组织转录组范围关联方法,称为统一分子特征测试(UTMOST)。该方法能够分析多个组织中的基因表达调控与疾病表型之间的关联[10]。通过整合转录组范围关联研究中的多组织信息,UTMOST增强了关联检测的能力,并识别出不同组织中的共享表达数量性状位点(eQTL)效应[11]。此外,基因组注释的多标记分析(MAGMA)是一种特别适合基因水平分析的方法[12],它可以整合UTMOST的贝叶斯框架和FUSION的线性混合模型。这三种方法的结合不仅提高了稳健性,还涵盖了三个关键维度:基因单元、功能背景和种群多样性,比任何单一方法都能更全面地反映复杂性状的遗传基础。
本研究假设多组织TWAS分析可以识别出单组织方法遗漏的新基因,而MAGMA分析则整合了基因水平的GWAS信号。基于此,我们结合了这三种分析方法,充分利用不同TWAS方法的协同效应,系统地识别乳腺癌及其亚型的遗传易感基因。首先,通过富集分析系统地探索潜在的关联信号,从而筛选出易感基因的功能通路。随后,通过整合空间转录组学、单细胞转录组学和细胞间通信分析,我们研究了组织表达谱、空间异质性以及遗传易感基因在肿瘤微环境中的机制作用,为这些基因的功能特征提供了新的见解。最后,根据这些发现,筛选出潜在的药物靶点,为临床转化和应用提供理论基础。
数据来源
本研究中用于发现和验证的乳腺癌及其亚型的GWAS汇总统计数据来自乳腺癌协会联盟(BCAC)[13]和FinnGen数据库。数据可从IEU OpenGWAS平台获取(
https://gwas.mrcieu.ac.uk/ ),GWAS ID分别为:ieu-a-1126(乳腺癌)、ieu-a-1127(ER+乳腺癌)、ieu-a-1128(ER-乳腺癌),以及FinnGen官方网站。全组织eQTL数据来源于Genotype-Tissue
TWAS分析识别乳腺癌的候选基因
在发现数据集中,使用UTMOST进行跨组织TWAS分析后,共识别出508个具有显著P值的基因,其中157个基因在FDR校正后仍然显著(FDR ≤ 0.05)(表S1)。在ER-乳腺癌和ER+乳腺癌中,分别有26个和98个基因在FDR校正后仍然显著(表S2和表S3)。在验证集中,UTMOST分别识别出50个、2个和16个与整体乳腺癌、ER-乳腺癌和ER+乳腺癌相关的基因
讨论
尽管之前的研究已经评估了eQTL与乳腺癌风险之间的关联[51],但TWAS被证明更为有效。此外,结合跨组织和单组织TWAS的策略已被用来提高基因表达的预测准确性。因此,在本研究中,我们采用了跨组织和单组织TWAS分析来识别乳腺癌的易感基因,以减少单组织分析带来的假阳性错误
缩写
ADCY3 腺苷酸环化酶3
CASP8 Caspase-8
GRHL1 Grainyhead样转录因子1
HELQ Helicase Q
TLR1 Toll样受体1
SNP 单核苷酸多态性
GWAS 全基因组关联研究
TWAS 转录组范围关联研究
PWAS 蛋白质组范围关联研究
eQTL 表达数量性状位点
pQTL 蛋白质数量性状位点
UTMOST 统一分子特征测试
FUSION 基于功能摘要的插补
MAGMA 基因组注释的多变量分析
GTEx 基因型-组织表达
ARIC
CRediT作者贡献声明
Jingmei Zhang: 撰写 – 审稿与编辑、撰写 – 原稿、可视化、软件、资源、正式分析、概念化。Zhiting Chen: 验证、监督、项目管理、方法学、研究、资金获取、数据管理。
伦理声明
本研究获得了广西医科大学附属肿瘤医院伦理委员会的批准(批准编号:KY20251022),并遵循赫尔辛基宣言及相关国家伦理规定进行。所有参与患者均签署了书面知情同意书。
致谢
我们感谢LC-Bio Technology Co., Ltd.在scFFPE测序和生物信息学分析方面的协助。