编辑推荐:
在遗传研究中,家系图谱对探究遗传规律意义重大,但相关模拟软件存在局限。研究人员开展 py_ped_sim 工具研发研究,可模拟家系结构和基因组。结果显示该工具精准有效,为医学、法医和进化遗传学研究提供有力支持。
在生命科学的遗传研究领域,遗传家系图谱一直是探索遗传信息传递奥秘的关键 “地图”。无论是研究人类复杂疾病的遗传机制,追溯物种进化历程,还是在法医通过基因鉴定确定家族关系等方面,家系图谱都发挥着不可替代的作用。然而,就像在复杂的迷宫中却缺少精准的导航一样,当前在模拟不同家系结构以及与之对应的个体基因组方面,可用的软件工具极为匮乏。这一困境严重限制了基于模拟方法对相关遗传研究的评估,就好比航海时没有精确的航海图,船只难以驶向正确的方向。为了突破这一困境,来自美国旧金山州立大学、加利福尼亚大学旧金山分校、俄勒冈大学等多个机构的研究人员展开了深入研究。他们开发出了一款名为 py_ped_sim 的工具,相关研究成果发表在《BMC Bioinformatics》上。这一成果意义非凡,为遗传研究开辟了新的道路,有望让科学家们更深入地理解遗传信息在家族中的传递规律和亲属关系的遗传本质 。
研究人员为开发 py_ped_sim,运用了多种关键技术方法。在数据结构方面,利用 Python 的 networkx 包将家系表示为有向无环图(Directed Acyclic Graph,DAG),这种结构能清晰地展现个体间的遗传关系。同时,该工具集成了常用的群体遗传模拟器 SLiM(version 4.0) ,并借助 bcftools(version 1.8)等工具辅助完成基因组模拟和数据处理工作。
下面来看具体的研究结果:
- 家系结构模拟验证:研究人员使用 py_ped_sim 模拟了 10,000 个跨越五代的家庭,通过对比模拟结果和实际数据,发现模拟的同胞大小分布与预期高度吻合,证明该工具能准确模拟不同世代变化的同胞大小。在对比两个孩子模型和经验同胞大小模型时,发现经验模型下模拟的家庭中有更多表亲关系,体现了 py_ped_sim 在模拟远亲关系上的优势12。
- 误判亲子关系模拟验证:通过在单个家庭中模拟 1,000 次误判亲子关系(Misattributed Paternity,MAP)事件,设置不同的 MAP 概率,结果表明随着概率增加,产生的半亲关系数量也相应增加,与预期数量相近,验证了该功能的准确性3。
- 家系扩展模拟验证:对单个模拟家系进行 1000 次家系扩展(Family Broadening,FB)模拟,对比前后表亲关系数量,发现大多数个体的表亲数量显著增加,说明 FB 功能可以有效扩展家系广度4。
- 遗传关系模拟验证:在四个不同大小的家系中模拟基因组,并估计个体间的亲缘系数。结果显示,95% 的亲子关系亲缘估计值在 0.24 - 0.26 范围内,其他不同遗传关系的平均亲缘估计值也接近预期,且观察值与预期值之间存在强相关性(R2=0.87) ,证明了 py_ped_sim 能在不同遗传关系中模拟出预期的亲缘水平。研究人员还利用重组图谱进行基因组模拟,结果表明基于片段的亲缘关系也能在预期水平上进行模拟56。
- 不同家系结构下的亲缘关系估计:在模拟不同家系结构(包括经验家系、两个孩子模型家系、基于人口普查数据的模拟家系以及带有不同 MAP 概率的模拟家系)的基因组后发现,尽管经验家系数据存在不完整的情况,但总体上所有家系结构中预期和观察到的亲缘关系都具有很强的相关性。修正经验家系中隐式创始人的问题后,相关性进一步提高78。
综合研究结果和讨论部分,py_ped_sim 为复杂家系模拟和基因组模拟提供了开源工具。它的创新性在于能根据不同世代设置同胞大小分布参数,模拟动态家系结构,还能通过 MAP 事件引入半亲关系。同时,通过 SLiM 进行基因组模拟,并提供自动识别创始人及分配世代编号的功能,方便用户从不同群体和人口统计历史角度模拟家系。不过,该工具也存在一些局限性,如在初始化大基因组创始人时计算成本较高,无法针对同代不同父母设置不同同胞率,且模拟半亲关系的场景有限。但总体而言,py_ped_sim 在医学、进化和法医学等领域具有巨大的应用潜力,能够帮助研究人员更深入地研究遗传信息的传递和变异规律,为相关领域的发展提供了有力的支持 。