利用 pQuant 实现安全且可扩展的基因表达定量分析

【字体: 时间:2025年03月11日 来源:Nature Communications 14.7

编辑推荐:

  为解决 RNA-seq 数据计算中隐私泄露问题,研究人员开发 pQuant 算法,其准确性与传统算法相当且高效可扩展。

  在生命科学研究领域,基因表达定量分析是揭示生命奥秘的关键一环。RNA 测序(RNA-seq)技术的出现,让研究人员能够深入探究个人转录组,了解基因组的功能元件、细胞和组织的分子组成,从而揭示疾病和发育的分子机制。然而,这项技术也带来了一个棘手的问题 —— 隐私泄露。RNA-seq 产生的下一代测序(NGS)读取片段包含了患者个人基因组序列的部分信息,在基因表达定量计算过程中,这些私人基因型信息会被暴露。
想象一下,研究人员手中掌握着大量宝贵的 RNA-seq 数据,就像拥有一座装满宝藏的宝库。但由于隐私问题,这些数据被 “锁” 在防火墙后面,无法充分发挥其价值。不同国家和地区的法规差异(如欧盟的《通用数据保护条例》(GDPR)和美国的《健康保险流通与责任法案》(HIPAA)),以及机构政策的限制,使得数据共享变得困难重重。同时,数据量和计算需求的快速增长,让本地服务器不堪重负,云计算成为了新的选择,但这又进一步加剧了隐私风险。

为了攻克这些难题,来自哥伦比亚大学(Columbia University)和纽约基因组中心(New York Genome Center)的研究人员踏上了探索之旅。他们的研究成果发表在《Nature Communications》杂志上,为基因表达定量分析带来了新的曙光。

研究人员开发了一种名为 pQuant 的算法,旨在利用同态加密(Homomorphic Encryption,HE)技术,实现从 RNA-seq 数据中进行隐私保护的基因表达定量分析。同态加密是一种神奇的密码技术,它允许在加密数据上直接进行计算,就像给数据穿上了一层 “隐形铠甲”,确保敏感信息在计算过程中不会被泄露。

在研究过程中,研究人员使用了多种技术方法。首先,他们从 ENCODE 项目获取了 K562 细胞系、胰腺组织样本和食管组织样本的原始 FASTQ 文件,并以人类参考基因组 GRCh38 和 GENCODE 版本 44 的基本基因注释为基础,定义了参考转录组。在算法实现上,采用了 Brakerski/Fan-Vercauteren(BFV)同态加密方案,利用 openFHE 库进行相关计算。

下面来看看 pQuant 算法的具体表现。

  1. pQuant 能准确量化基因表达:研究人员将 pQuant 与两种成熟的、非安全的基因表达定量算法 kallisto 和 STAR 进行了对比。他们使用 K562 细胞系的配对末端 poly-A RNA-Seq 数据集,对基因表达进行量化。结果显示,pQuant 的表达输出与 STAR()和 kallisto()具有很强的相关性,均方根误差(RMSE)分别为 0.41 和 0.54。在差异基因表达分析方面,研究人员使用 pQuant、kallisto 和 STAR 对胰腺组织样本和食管组织样本的基因表达进行量化,再通过 DESeq2 方法进行分析。结果表明,pQuant 计算的倍变化估计值与 STAR()和 kallisto()计算的结果高度相关,RMSE 分别为 0.62 和 0.52。这说明 pQuant 算法在基因表达定量和差异基因表达分析方面,准确性与传统非安全算法相当。
  2. pQuant 高效且可扩展:在性能评估中,研究人员发现 pQuant 完成运行的时间大约在 1.5 到 3 分钟,且不随 RNA-seq 数据中读取数量的增加而改变。每个基因的峰值内存使用稳定在约 477MB。pQuant 编码和加密的读取文件存储需求也较为高效,通常约为 8GB,虽然比典型的 RNA-seq BAM 文件大,但不会随读取数量增加而增大。此外,pQuant 支持并行处理,对包含多达个读取的 RNA-seq 样本进行全量基因表达定量分析,大约 4 小时即可完成。在处理长读长数据时,研究人员模拟不同长度的读取进行测试,发现读取长度对参考索引和服务器端计算的运行时间没有影响。
  3. pQuant 几乎无参数依赖:pQuant 算法运行主要依赖两个参数:k(指定 k-mer 的大小)和 H(衡量 k-mer 的熵)。这两个参数并非特定于某个数据集,而是基于人类参考转录组序列的特征得出,适用于所有人类 RNA-seq 数据集。研究发现,较低的 H 值(如)可以提高算法效率,同时不影响准确性;k 值在 20 左右时,算法能在保证准确性的同时,维持可接受的计算需求。

在研究结论和讨论部分,pQuant 算法为解决 RNA-seq 数据隐私保护问题提供了有效的解决方案。它的准确性与现有非安全算法相当,运行时间和内存需求不受读取数量影响,还支持并行处理,非常适合大规模基因表达研究。对于数据所有者、研究联盟、医院、学术研究机构和政府卫生机构来说,pQuant 是处理 RNA-seq 数据的有力工具,能在保护隐私的前提下,挖掘数据背后的生物学信息。

不过,pQuant 目前也存在一些局限性。例如,为了提高计算效率,中间文件不包含读取水平的信息,虽然随着测序技术的发展,读取质量会不断提高,但这仍可能在一定程度上限制其应用。未来,研究人员计划进一步拓展 pQuant 的功能,包括转录本水平的表达定量、单细胞 RNA-seq 处理和剪接检测等。同时,研究人员认为 pQuant 的 k-mer 修剪方法可能为基于明文伪比对的转录本发现方法的设计提供新思路,有望提高其效率。

总的来说,pQuant 算法的出现,为基因表达定量分析带来了新的突破,在保护数据隐私的同时,推动了生命科学研究的发展,为揭示生命奥秘打开了一扇新的大门。
相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号