PNAS:DNA数据集中的“空白”不应该被忽视

【字体: 时间:2022年08月17日 来源:Proceedings of the National Academy of Sciences

编辑推荐:

  一个简单的统计检验表明,与目前的做法相反,在进化生物学中常用的DNA蛋白质和序列比对中的“空白”可以提供有关核苷酸和氨基酸随时间变化的重要信息。

  

一个简单的统计检验表明,与目前的做法相反,在进化生物学中常用的DNA蛋白质和序列比对中的“空白”可以提供有关核苷酸和氨基酸随时间变化的重要信息。这一发现可能与那些研究远亲物种的人特别相关。

研究进化的生物学家通过观察DNA和蛋白质序列如何随时间变化来做到这一点。这些改变可以是序列长度的改变——当特定的核苷酸在特定位置被删除或添加时——或者是替换——在给定的点上,一种核苷酸类型被替换为另一种不同的类型。

“把DNA序列及其进化想象成一个句子,随着时间的推移被不同的人复制,”北卡罗来纳州立大学生物科学和统计学教授、该研究的共同通讯作者杰夫·索恩(Jeff Thorne)说。“随着时间的推移,一个单词中的一个字母会发生变化——这就是替换。省略或添加字母或单词对应的是删除或插入。”

分析人员在观察进化DNA变化时,通常要做的第一步是构建序列比对。这意味着找出所有的序列是如何相互对应的,然后将这些对应的位置对齐到列中进行比较。然而,由于替换、插入和删除,列内的核苷酸类型可能因序列而异,或完全缺失。当一个序列没有相应的核苷酸时,在该序列的比对列中放置一个间隙。

索恩说:“通常,当使用序列比对进行分析时,比对列内的空白被视为缺失数据,无法提供有关替换的信息。”“从历史上看,研究界一直认为缺口位置独立于替代过程。但如果这种假设是错误的呢?”

索恩和他的同事创建了一个简单的统计测试来评估缺口位置是否独立于氨基酸替换过程。他们测试了1390组不同的序列比对,发现在大约三分之二的序列比对中,间隙位置和氨基酸替换之间通常独立的假设被拒绝了。

索恩说:“一种可能性是,缺口位置提供了关于氨基酸替换过程的有用信息。”“如果是这样,进化生物学家应该开发出更好的技术来提取这些信息。”

该研究还表明,通常构建序列比对,然后基于单一最优比对得出进化结论的方法可能存在问题。如果对齐不对怎么办?更糟糕的是,如果校准有偏差怎么办?

例如,如果替换比间隙出现的更频繁,那么研究人员在构建序列比对时倾向于反复选择替换而不是间隙,结果比对中可能包含的间隙太少。虽然在相近物种之间比对时的小误差很可能不会影响结果,但随着时间的推移——尤其是在不同物种之间的比较中——这种偏差可能会产生误差,影响后续的分析。

“有时我们最好的猜测是有偏见的,”韩国极地研究所(Korea Polar research Institute)首席研究科学家、该研究的共同通讯作者Tae-Kun Seo说。“没有简单的解决方案,但希望这项研究能帮助我们注意潜在的隐患。我们需要意识到传统统计方法的问题,并努力解决它们。”

这项研究发表在《美国国家科学院院刊》上,得到了国家科学基金会和韩国极地研究所的支持。杜克大学和堪萨斯大学的研究科学家Ben Redelings也对这项工作做出了贡献。

原文标题:

Correlations between alignment gaps and nucleotide substitution or amino acid replacement

相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号