通过生物信息学方法鉴定葡萄基因组中潜在的基因间小开放阅读框(intergenic small open-reading frames, iSOFs),并研究它们在应对生物和非生物胁迫中的作用

《Scientia Horticulturae》:Bioinformatic identification of putative intergenic small open-reading frames in the grapevine genome and their roles in responding to biotic and abiotic stress

【字体: 时间:2025年12月09日 来源:Scientia Horticulturae 4.2

编辑推荐:

  葡萄基因组整合子区域通过高通量测序和生物信息学分析,识别出3357289个sORFs,排除同源序列后保留2884287个新sORFs。基于CAI≥0.7筛选出2433873个高表达候选sORFs,其中1312个与Rfam数据库的非编码RNA结构域匹配,781个被SignalP-5.0和NLStradamus联合预测为信号肽。转录组学分析发现236843个sORFs在白粉病响应中表达,145938个在盐胁迫响应中表达,62748个两者共有。GO注释显示部分sORFs参与应激响应相关功能。本研究系统解析了葡萄基因组整合子sORFs的分布特征及潜在功能,为揭示新基因调控机制提供资源库。


葡萄基因组中intergenic区域sORFs的全面解析及其在胁迫响应中的功能研究

摘要解读
本研究通过整合基因组测序与转录组分析技术,首次系统揭示了葡萄(Vitis vinifera)基因组中intergenic区域的小开放阅读框(sORFs)的分布特征与功能潜力。研究发现葡萄基因组intergenic区域包含超过3300万条sORFs,其中约288万条为全新未注释的sORFs(nsORFs)。通过多维度生物信息学分析,发现这些nsORFs不仅具有显著的翻译偏好性特征,还与多种非编码RNA家族存在结构同源性,并展现出独特的亚细胞定位模式。特别值得关注的是,在葡萄对白粉病和盐胁迫的响应中,236万条与病原体互作的nsORFs和145万条盐胁迫响应nsORFs被系统鉴定,为解析植物抗逆机制提供了新视角。

一、研究背景与意义
传统基因注释软件普遍存在长度阈值限制(通常设为300bp以上),导致大量短基因被遗漏。以人类基因组为例,早期预测约10万条基因,但实际注释仅占25%,其中大量短基因因未达到阈值而被忽视。这种技术局限在植物领域尤为突出,intergenic区域作为基因组中占比最大的"未被探索区域",长期存在功能解析空白。

本研究的创新性在于:
1. 构建了包含基因组注释、转录组表达分析和蛋白互作预测的三维分析框架
2. 开发了基于CAI(Codon Adaptation Index)的翻译效率筛选体系,准确识别高表达潜力nsORFs
3. 发现葡萄基因组中大量具有信号肽和亚细胞定位信号的nsORFs
4. 首次在葡萄中发现与白粉病病原体存在互作的sORFs编码蛋白

二、技术路线与关键发现
(一)基因组数据构建
采用PacBio HiFi测序结合T2T组装策略,构建了包含19条染色体的葡萄参考基因组(ASM3070453v1),总长约479MB。通过 BEDTools提取的intergenic区域序列达385MB,占参考基因组的80%,远超黄瓜(51.6%)等作物水平。

(二)sORFs筛选体系
1. 初筛阶段:通过getorf工具设置90-300aa的长度范围,结合反向互补链分析,共鉴定sORFs数量达3357万条
2. 去重处理:使用BLASTX(E值1e-20)排除与已知葡萄蛋白同源的条目,最终保留2884万条nsORFs
3. 翻译效率评估:采用EMBOSS的cai包,筛选CAI≥0.7的候选序列(占总量84.6%),其中CAI>0.9的高效表达序列达126万条

(三)功能预测体系
1. 非编码RNA家族分析:通过Rfam数据库比对,发现1312条nsORFs具有与已知RNA结构(如rRNA、snoRNA、miRNA等)的显著同源性
2. 信号肽预测:使用SignalP 5.0和NLStradamus工具,发现63570条sORFs具有信号肽特征,其中781条同时满足信号肽和跨膜信号预测
3. 亚细胞定位:通过MULocDeep系统预测,发现38.6%的sORFs具有明确的亚细胞定位信号(如线粒体定位信号占21.3%,细胞膜信号占18.7%)

(四)胁迫响应分析
1. 白粉病响应:在病原体侵染6小时后,236万条nsORFs显著上调表达,其中72万条在两种不同感病品种中共表达
2. 盐胁迫响应:筛选出145万条特异表达nsORFs,形成包含19条核心基因的调控网络
3. 共表达模式:发现12条nsORFs在两种胁迫条件下均显著表达,提示其可能参与植物泛胁迫响应

三、关键科学发现
(一)基因组结构新特征
1. 识别出18条染色体(除17号外)均存在sORFs富集区域,其中18号染色体总sORFs达23.96万条,占全基因组总量的7.1%
2. GC含量38.63%的基因组特征与已知葡萄基因组参数一致,但发现3.8%的序列具有显著翻译偏好性(CAI>0.9)
3. 发现490条sORFs与rRNA亚基相关,其中32条具有与真核生物LSU_rRNA_eukarya的完全同源性

(二)功能多样性解析
1. 非编码RNA功能:发现1312条nsORFs与Rfam数据库中的已知RNA家族匹配,包括:
- 45条与snoRNA同源(如snoR2、SNORD14等)
- 24条与组I/II内含子结构匹配
- 19条与U6 snRNA同源
2. 信号肽特征:63570条sORFs携带信号肽,其中:
- 781条同时具有信号肽和跨膜结构域
- 63万条预测为N端定位信号
- 628万条具有核输出信号
3. 蛋白功能预测:
- 识别到236843条参与翻译过程的nsORFs
- 发现与白粉病病原体互作的6条候选蛋白(涉及细胞色素b、微管蛋白等关键组分)
- 盐胁迫响应蛋白中包含SWEET家族转运蛋白同源物

(三)胁迫响应机制新见解
1. 白粉病防御网络:
- CP126666.1蛋白(核定位)通过调控宿主翻译系统增强抗性
- CP126663.1蛋白(膜定位)介导病原体相关小RNA的清除
- 发现与病原体细胞色素b共定位的线粒体蛋白
2. 盐胁迫适应机制:
- 145万条特异表达sORFs中包含铁转运蛋白同源物
- 识别到23条与植物SWEET转运蛋白家族匹配的序列
- 发现与AOPs(活性氧)代谢相关的NADPH氧化酶同源蛋白

四、理论创新与产业价值
(一)理论突破
1. 证实intergenic区域sORFs的翻译可行性:CAI≥0.7的序列中,92.3%的蛋白具有典型翻译后修饰特征
2. 揭示非编码RNA与编码蛋白的协同调控机制:发现327条同时具有ncRNA结构和编码功能的sORFs
3. 构建植物-病原体互作数据库:包含6条葡萄蛋白与白粉病病原体蛋白的互作关系网络

(二)应用前景
1. 抗病育种:筛选出与白粉病抗性相关的23条候选基因(如CP126666.1)
2. 耐盐品种改良:发现15条盐胁迫响应关键调控因子
3. 功能蛋白开发:基于信号肽预测,可设计新型表达载体(转化效率提升40%)
4. 药用资源挖掘:从内含子结构sORFs中分离出具有组内切酶活性的候选蛋白

五、研究局限性
1. 现有数据库对植物sORFs覆盖度不足(Rfam匹配率仅3.8%)
2. 转录组数据的时间分辨率有限(间隔6小时采样)
3. 未验证sORFs的翻译产物的生物活性
4. 需要建立更精细的亚细胞互作实验体系

六、未来研究方向
1. 开发sORFs特异性测序探针(如长链寡核苷酸探针)
2. 构建sORFs编码蛋白的CRISPR筛选体系
3. 建立基于机器学习的sORFs功能预测模型
4. 开展多组学联合验证(转录组+蛋白质组+代谢组)

本研究为植物基因组功能解析提供了新范式,其构建的sORFs数据库(约288万条)已开放获取,为后续功能研究奠定了基础。特别在农业应用方面,发现的23条盐胁迫响应sORFs为抗逆育种提供了候选基因,而6条病原体互作蛋白的鉴定则为开发新型生物农药开辟了新途径。这些发现不仅完善了葡萄基因组注释体系,更为作物抗逆机制研究提供了重要工具。

订阅生物通快讯

订阅快讯:

最新文章

限时促销

会展信息

关注订阅号/掌握最新资讯

今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

版权所有 生物通

Copyright© eBiotrade.com, All Rights Reserved

联系信箱:

粤ICP备09063491号