标准化微生物组分析流程:解锁复杂犯罪现场体液鉴定新密码

【字体: 时间:2025年05月01日 来源:Applied and Environmental Microbiology 3.9

编辑推荐:

  该研究聚焦法医学领域,针对基于微生物组分析进行体液鉴定缺乏标准化流程的问题,对比 OTUs 和 ASVs,构建异质性训练数据集训练随机森林分类器(RFC),在复杂样本测试中取得良好效果,为微生物组分析用于法医实践提供关键依据。

  

引言


新一代测序技术的进步推动了人类微生物组在多领域的研究,包括法医学。人体不同部位的微生物群落具有特异性,这为犯罪现场生物证据的体液鉴定(BFI)和身份识别(ID)带来新契机。研究发现,细菌群落存在部位特异性,菌株存在个体特异性,利用这一特性分析犯罪现场生物证据,如确定性侵犯案件中阴道液或精液的存在,对案件调查意义重大。

以往研究探索了细菌群落序列数据用于体液鉴定的潜力,通常针对原核生物 16S rRNA 基因特定区域描述微生物群落,该方法成本效益高,适用于法医样本分析。同时,研究还尝试用机器学习算法将测序结果呈现为预测概率。然而,微生物组分析尚未用于常规法医分析,主要存在缺乏标准化实验室和生物信息学工作流程、分析结果在概率框架下呈现存在知识缺口、机器学习输出作为法庭证据需进一步标准化等问题。

本研究首先对比了操作分类单元(OTUs)和扩增子测序变体(ASVs)用于体液鉴定的分辨率,选择 OTUs 并结合多个数据集生成异质性训练数据集,训练随机森林分类器(RFC),最后用模拟法医样本测试该分类器性能。

结果


  1. OTUs 和 ASVs 的聚类模式相似:对比唾液、精液等样本的 OTUs 和 ASVs 聚类模式,使用加权 Unifrac(UF)和 Bray Curtis(BC)距离生成主坐标分析(PCoA)图。结果显示,样本均按身体部位聚类,OTUs 和 ASVs 的聚类模式相似,且 OTU 分析的前两个主坐标轴解释的方差比例略高于 ASV 分析,二者坐标间相关性强,表明它们在区分身体部位上效果相当。
  2. 不同 16S rRNA 基因区域样本聚类相似:采用封闭参考聚类法对不同 16S rRNA 基因区域(V1V3、V3V4、V4V5)的 OTUs 进行聚类分析。结果表明,不同基因区域样本的聚类模式高度相似,基因区域对聚类模式影响不显著,将不同区域数据合并后,体液 / 组织的聚类模式保持一致,说明合并不同 16S rRNA 基因区域数据不影响体液 / 组织的聚类。
  3. 随机森林分类器预测准确性高:整合九项研究的读取数据,构建包含 457 个样本、6455 个 OTUs 的异质性训练数据集,涉及六种体液 / 组织。训练 RFC 并进行 80 - 20 的训练 - 测试分割,经递归特征消除筛选 281 个 OTUs 用于模型训练。测试集结果显示,加权平均 F1 分数达 0.89,但各分类的 F1 分数有差异,部分样本预测概率低或存在多个相似概率的类别。设置概率阈值后,虽正确分类和错误分类样本比例降低,但引入了未分类样本类别,能更好处理低细菌生物量和近端身体部位样本的不确定性。
  4. 单源和混合样本预测效果良好:用扩展分类器对 47 个独立盲法单源样本测试,F1 分数较高,多数样本能正确分类,虽有部分样本因低微生物生物量和近端部位问题未分类,但无错误分类情况。对 104 个实验室生成的混合源样本测试发现,多数样本能可靠识别至少一种混合物成分,尤其是微生物负载高的成分。
  5. 分类器在法医样本检测中表现出色:对 10 名女性的内衣样本测试,分类器能检测出阴道 / 月经液的微生物分类群,还发现精液和手部皮肤的少量特征。对 22 对异性恋夫妇的性共享微生物组(sexome)样本分析,能检测到性活动后男女成分的混合,预测概率可推断性活动时间和性质,如性行为后 4 天内可检测到口腔痕迹,这对法医案件分析具有重要意义。
  6. 信息分类群分析解释预测结果:通过随机森林分类器的特征重要性分数评估信息分类群,选取每个训练类别的前 10 个信息分类群,共 45 个 OTUs。不同体液 / 组织的信息分类群各具特征,如唾液中的韦荣氏菌属(Veillonella)和梭杆菌属(Fusobacterium),手部皮肤的棒状杆菌属(Cutibacterium)等。部分重叠的 OTUs 会影响相近部位体液 / 组织的区分,但特征 OTUs 和相对丰度差异仍可实现总体区分,这也解释了研究中部分误分类的原因。

讨论


在生物信息学方面,ASVs 虽能更精确表征微生物多样性和检测稀有分类群,但存在相对丰度计算误差等问题。本研究表明,OTUs 和 ASVs 在法医体液鉴定分辨率上相当,OTU 聚类可整合不同 16S rRNA 基因区域数据。整合不同区域数据的分析显示,样本聚类主要受身体部位驱动,联合数据训练的分类器能有效识别体液分类信息分类群,且在其他应用中也有益处。

在将微生物组预测作为法庭证据方面,本研究训练的 RFC 分类器 F1 分数与以往研究相当或略高,样本大小、微生物多样性等因素影响各分类的 F1 分数和预测概率。评估误分类发现,精液样本分类困难,原因包括低微生物多样性、生物量和近端部位污染等,部分样本缺乏性活动元数据也影响分类准确性。

F1 分数虽能评估分类器性能,但评估每个样本和类别的预测概率很重要。设定阈值可减少单源样本的误判,但混合源样本无法简单应用该方法,可考虑对相关体液 / 组织的累积概率设置阈值,或采用多类分类器、贝叶斯网络等工具。

内衣和 sexome 样本分析显示,分类器能检测样本特征,推断性活动情况,但内衣微生物组的法医适用性需进一步研究。Sexome 样本研究为法医应用提供新视角,虽目前样本量有限,但未来扩大样本队列研究可充分发挥其在法医案件中的潜力,同时也有助于健康相关研究。

微生物组分析在解决混合源样本和推断性活动方面有优势,但低细菌负载的体液 / 组织分类存在挑战。未来可整合多种标记物,如 mRNA、DNA 甲基化、蛋白质和代谢物标记物进行体液 / 组织鉴定,但每种标记物都有优缺点,需深入研究其在法医相关条件下的应用,还可开发综合工作流程实现多标记物平行分析。

结论


本研究明确了生物信息学和评估报告两个关键方面的重要决策,有助于将微生物组分析整合到法医案件工作中。提出用异质性数据集训练 RFC,并对复杂样本进行系统测试,为机器学习在法医学中的应用和 sexome 研究提供了方向,同时指出微生物组分析用于法医体液鉴定需解决的问题。

材料和方法


  1. 数据集、对照和模拟样本描述:研究整合了九个微生物组数据集,涵盖四项未发表和五项已发表研究,涉及 V1V3、V3V4、V4 和 V4V5 16S rRNA 基因区域,共 788 个样本,来自七种体液 / 组织。
  2. 已发表研究和 ISALA 项目数据:获取多个已发表研究的 V3V4、V4V5 和 V4 区域读取数据,以及 ISALA 项目的阴道 V4 数据,样本 ID 和 SRA 登录号等信息在元数据文件中。
  3. 未发表研究数据生成:苏黎世数据集:苏黎世研究所法医实验室生成四个未发表数据集,针对 16S rRNA 基因的 V1V3、V3V4 和 V4V5 区域,部分数据集采用不同协议生成,包含多种样本类型。
  4. 苏黎世数据集样本采集:2020 - 2023 年招募参与者,按伦理准则获取知情同意。单源样本直接采集或转移到棉签上,制备控制模拟混合物样本,收集非控制模拟样本(内衣和 sexome 样本),并让捐赠者填写问卷,同时设置空白和阴性对照。
  5. 苏黎世数据集 DNA 提取和定量:使用多种 DNA 提取试剂盒,按修改后的协议操作。DNA 定量采用多种方法,根据 qPCR 的 Ct 值确定扩增子 PCR 循环数。
  6. 苏黎世数据集文库制备和测序:扩增 16S rRNA 基因的不同区域,优化引物、PCR 协议和循环条件。对 PCR 产物进行纯化、筛选和双索引,量化、归一化和混合文库后进行测序,在 Illumina MiSeq 平台获得不同长度的配对末端读数。
  7. 所有数据集读取数据处理:用不同方法去除引物,通过 DADA2 管道处理数据,将 ASV 丰度表聚类为 OTUs,去除污染数据,合并 OTU 丰度表,构建系统发育树,进行归一化和多样性分析,在 R 中完成相关操作。
  8. 所有数据集的随机森林分类器机器学习:选取 457 个单源对照样本和 6455 个 OTUs,基于 RFC 进行机器学习预测。训练时采用 80 - 20 分割,经递归特征提取筛选 OTUs,进行五折交叉验证,计算多种评估指标。还用整个数据集训练另一个 RFC,对盲法单源样本和模拟样本进行预测,并进行信息特征分析。

相关新闻
生物通微信公众号
微信
新浪微博
  • 急聘职位
  • 高薪职位

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号