编辑推荐:
在基于质谱(MS)的蛋白质组学研究中,缺失值(MVs)影响数据分析。研究人员开展了优化缺失值填补策略的研究,发现 MVs 与肽强度相关,“Mix” 策略在多数据集表现优异,提升了填补准确性与分析可靠性。
在生命科学研究的大舞台上,蛋白质组学就像一位神秘的舞者,通过研究蛋白质的各种特性,为我们揭示细胞活动的奥秘,帮助我们理解生理变化、疾病机制,甚至找到治疗疾病的关键靶点。基于质谱(MS)的蛋白质组学技术,更是为研究人员提供了高分辨率的 “显微镜”,能对生物样本中的肽、蛋白质等进行高通量定量分析。
然而,这个 “显微镜” 却存在一个棘手的问题 —— 缺失值(MVs)。在蛋白质组学数据中,MVs 频繁出现,就像在精美的画卷上出现了许多斑点,严重影响了数据的完整性和后续分析的可靠性。这些缺失值产生的原因多种多样,比如肽的含量可能低于仪器的检测极限,样本处理过程中蛋白质的降解或酶解不完全,还有数据处理时未能准确检测到真实信号等。目前常用的一些统计和机器学习方法,在处理这些缺失值时,往往采取 “一刀切” 的方式,没有考虑到缺失值背后复杂的原因,这就如同给不同病因的病人开同一种药,不仅无法解决问题,还可能引入偏差,让研究结果 “跑偏”。
为了攻克这个难题,来自未知研究机构的研究人员踏上了探索之旅,开展了一项旨在优化基于质谱的蛋白质组学缺失值填补策略的研究。他们深入挖掘数据,发现了一个关键线索:肽的平均强度与缺失率之间存在着强烈的负相关关系,也就是说,高丰度的蛋白质对应的肽缺失值较少,而低强度的肽更容易出现缺失值。基于此,研究人员提出了一种全新的 “Mix” 策略,根据肽的强度和缺失率将数据集划分为不同的区域,为每个区域量身定制最优的缺失值填补方法,以此提升填补的准确性,减少传统方法带来的偏差。
研究人员的这一发现意义重大。“Mix” 策略就像是为蛋白质组学数据修复打造的一把 “精准手术刀”,极大地提高了缺失值填补的准确性,让后续的统计分析和功能研究更加可靠,为深入了解蛋白质的功能和疾病机制提供了坚实的数据基础。该研究成果发表在《Computational and Structural Biotechnology Journal》上,为蛋白质组学领域的发展注入了新的活力。
研究人员为开展此项研究,运用了多种关键技术方法。他们使用了三个具有不同生物学背景、质谱仪器、数据集大小和肽缺失百分比的数据依赖性采集(DDA) LC-MS/MS 数据集。在数据处理阶段,采用 FragPipe 计算平台进行数据搜索,通过设置一系列参数对数据进行筛选和鉴定。在评估缺失值填补策略时,运用了归一化均方根误差(NRMSE)、Spearman 秩相关系数等多种评估指标,并通过随机去除部分数据来模拟缺失值,进而比较不同填补方法的优劣。
下面让我们深入了解一下研究结果:
- 方法开发:研究人员利用 Dataset A 的质量控制样本进行研究,发现肽平均强度与缺失率之间存在显著的负相关(R2 = 0.73,p - 值 < 2.2×10-16)。进一步分析发现,不同强度和缺失率区域的肽谱匹配类型差异较大,这表明不同区域的肽缺失原因可能不同。通过计算 NRMSE 来选择最优填补方法,结果显示随机森林(RF)在大多数区域表现最佳,但在某些高缺失率区域,贝叶斯主成分分析(BPCA)更具优势。将各区域的最优填补数据混合后得到 “Mix” 数据集,其 NRMSE 最低,且与原始数据相关性强,在训练集和测试集上均表现出良好的可靠性和稳健性。
- 策略验证:在 Dataset B 这个基准数据集上,研究人员再次验证了肽平均强度与缺失率之间的负相关关系(R2 = 0.20,p - 值 < 2.2×10-16)。同样,没有一种方法能在所有区域都表现最优,“Mix” 策略依旧脱颖而出,在 NRMSE、相关性、特异性和敏感性等指标上表现出色,其 ROC 曲线下面积(AUC)最高,表明它能很好地保留数据集的生物学特性。
- 实际应用:研究人员将 “Mix” 策略应用于 Dataset C(来自克罗恩病研究的数据集)。结果显示,该数据集同样存在肽平均强度与缺失率的负相关(R2 = 0.41,p - 值 < 2.2×10-16)。在各区域的填补方法测试中,RF 和 “Mix” 策略的 NRMSE 最低,且 “Mix” 策略在显著差异表达肽的再现性方面表现良好,仅次于协同过滤(CF)方法,进一步证明了其在实际研究中的可靠性和适用性。
在研究结论和讨论部分,研究人员强调了缺失值与肽强度之间的紧密联系,以及 “Mix” 策略相较于单一填补方法的优势。“Mix” 策略在多个数据集上都展现出了更高的准确性、再现性和可靠性,为蛋白质组学研究提供了更可靠的数据支持。不过,该研究也存在一定的局限性。例如,所使用的数据集不能完全涵盖蛋白质组学数据的所有变异性,在数据独立采集(DIA)的蛋白质组学数据中,缺失值模式和填补方法的有效性可能不同;“Mix” 策略的计算复杂度较高,对于大规模研究来说存在一定挑战;深度学习方法在小样本数据集上表现欠佳等。但研究人员也指出,通过应用于更多样化的数据集、采用机器学习自动化和并行计算等优化手段,有望进一步提升 “Mix” 策略的性能。总的来说,这项研究为蛋白质组学缺失值的处理提供了新的思路和方法,推动了蛋白质组学研究的发展,让我们在探索生命奥秘的道路上又前进了一步。