利用傅里叶变换红外光谱(FTIR)技术和机器学习方法识别伪造的身份证明文件

《Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy》:Recognition of counterfeit identity documents using FTIR spectroscopy and machine learning approaches

【字体: 时间:2026年02月10日 来源:Spectrochimica Acta Part A: Molecular and Biomolecular Spectroscopy 4.3

编辑推荐:

  傅里叶变换红外光谱联合机器学习算法用于分子级鉴别巴西身份证明文件真伪,通过PCA和PLS-DA分析135份2003-2023年巴西各州发行的ID,发现化学擦除导致CaCO3和C=O特征峰变化,PLS-DA模型对2018版ID分类准确率达100%。

  
Lara Aparecida Buffoni de Campos Carneiro
巴西圣保罗州技术科学警察局刑事科学研究所,里贝朗普雷图

摘要

文件伪造是法医学中一个持续存在的挑战,需要能够识别超出传统视觉或显微镜检查范围的化学和结构变化的分析方法。本研究提出了一种非破坏性方法,利用傅里叶变换红外(FTIR)光谱结合机器学习算法来区分真实的、伪造的和假冒的巴西身份证件。分析了2003年至2023年间发放的135份文件的光谱,采用主成分分析(PCA)和偏最小二乘判别分析(PLS-DA)。PCA揭示了与真实和伪造材料相关的特征吸收带,尤其是与碳酸钙(CaCO?)和羰基(C=O)团相关,表明存在用羧酸进行的化学擦除。监督下的PLS-DA模型表现出高预测性能,2003年版本的准确率为97.6%,2018年版本的准确率为100%,证明了其在区分真实、伪造和假冒文件方面的稳健性。所提出的方法能够从分子层面识别欺诈性改动,提供伪造者和文件制作者使用的化学策略的分析证据。除了认证之外,这种方法还通过提供识别化学模式和阐明犯罪活动作案手法的框架,促进了法医情报的发展。

引言

文件伪造可以理解为部分或全部篡改公共或私人文件的行为,目的是误导第三方或获取不正当利益[1]。文件欺诈被认为是一种跨领域的犯罪威胁,它支持并促进了多种(如果不是所有)类型的有组织犯罪[2]。文件欺诈主要涉及的犯罪领域包括毒品贩运、洗钱、人口走私、财产犯罪和恐怖主义[3]。
伪造文件市场具有国际性,生产量从数百份到数百万份不等[4]、[5]、[6]、[7]。2003年生效的《联合国打击跨国有组织犯罪公约》旨在加强国际合作,以更有效地预防和打击跨国有组织犯罪。该公约得到147个国家的签署,反映了国际社会将犯罪视为全球性挑战的政治意愿。关于文件的合法性和有效性,公约规定缔约国应验证旅行和身份证件的真实性,作为预防与有组织犯罪活动相关的犯罪的努力的一部分。在这方面,公约还强调了专门培训在识别和检测伪造旅行或身份证件方面的重要性[8]。
对文件的修改可以分为物质性修改和意识形态修改。物质性修改涉及使用物理或化学过程来修改文件本身。相比之下,意识形态修改包括与文件中应合法出现的陈述或信息不符的虚假内容。因此,检测物质性修改已成为法医领域的一个反复出现的主题[9]。
需要澄清一些在伪造文件背景下使用的关键术语。部分篡改以提供误导性信息的真实文件通常被称为伪造文件[7]。而完全伪造的文件——即未经授权复制真实文件并试图复制其布局和安全特征的文件——则被归类为假冒文件[7]。
文件伪造中最相关的修改之一是所谓的化学擦除,它涉及使用溶剂去除打印或手绘在特定表面的字符。这样,真实文件可以被重新使用,同时保持所有纸张的安全特征,如浮雕背景、水印和凹版印刷[9]、[10]。
经过化学擦除的文件通常会保留原始印刷的痕迹,可以观察到残留的墨水形成的字符阴影。此外,化学修改文件的发光特征与真实副本不同[9]。然而,许多伪造文件没有显示字符阴影的痕迹。而且,真实文件本身的发光特征也会因日常使用(如暴露在阳光下、汗水以及一般处理)而发生变化。因此,即使进行显微镜分析或紫外线辐射分析,也可能无法揭示文件被欺诈性化学擦除的确切证据。
在这种情况下,除了纯粹的定性分析外,还需要实施具有更高灵敏度和精确度的分析方法。质谱[11]、液相色谱[12]、薄层色谱[13]和气相色谱与质谱联用[14]等技术已被用于法医文件分析。然而,这些程序通常耗时较长,并且需要破坏性样品制备。在这方面,傅里叶变换红外光谱(FTIR)配合衰减全反射传感器具有特殊的应用价值,因为其测量是非侵入性的、非破坏性的,并且分析速度快[15]。
FTIR分析生成的高维数据由数千个独立变量组成,这些变量用波数(cm?1)表示。因此,仅通过视觉分析光谱可能无法识别出比较光谱之间的相关区别点,而且这一过程通常耗时较长。在这种情况下,可以使用降维技术来过滤掉这些数据中的无关特征。
主成分分析(PCA)是一种多变量统计方法,通过减少预测属性的数量来克服高维性和共线性问题。PCA将输入数据集转换为另一组向量。原始数据的大部分信息内容(或其大部分方差)存储在第一个向量中(这些被称为主成分“分数”)。因此,通过保留代表原始数据总方差最大比例的第一个主成分集,数据可以减少到更少的维度,同时损失的信息最小[16]。
高维光谱数据可能会给机器学习带来问题,因为基于此类数据的预测模型可能会过拟合。也就是说,生成的模型在训练数据上表现良好,但在处理新数据时却无法有效应对,因为它学到了特定于训练集的细节和噪声,而不是普遍模式[16]。可以通过使用降维技术来避免这种情况。在这方面,偏最小二乘判别分析(PLS-DA)等机器学习模型变得尤为重要[17]。PLS-DA将降维和判别分析结合在一个算法中,特别适用于高维数据建模[18]。因此,PLS-DA可以被视为PCA的“监督”版本,实现了降维同时保留了类别标签的完整信息[17]。
在这项工作中,使用FTIR分析了真实的、伪造的和假冒的身份证件(IDs),并使用多变量统计方法PCA和PLS-DA处理了获得的数据。

部分内容片段

样本

分析了来自12个巴西联邦单位(圣保罗、米纳斯吉拉斯、阿拉戈斯、巴伊亚、塞阿拉、巴拉那、南里奥格兰德、马拉尼昂、联邦区、戈亚斯、帕拉、南马托格罗索和里约热内卢)发放的135份身份证件。在具有真实基材的文件中,包含了五种不同的印刷公司:95份来自Valid?,5份来自ABnote?,14份来自Tomas Greg & Sons?,3份来自Casa da Moeda?,以及1份来自TRESS?。
这些样本文件发放于2003年至2023年间,包含两种不同的型号。

显微镜和VSC分析

区分真实文件和经过化学清洗的文件是法医文件分析中的一个关键方面,因为这种修改的痕迹并不总是可以通过常规视觉检查轻易检测出来。使用VSC在90倍放大倍数下观察时,无法清晰地区分真实文件和伪造文件。如图S2(补充材料)所示,经过化学清洗的文件在暴露于

结论

本研究开发了一种高效有效的分子级识别欺诈文件的方法。FTIR光谱分析与基于PCA的数据聚类相结合,揭示了能够清楚区分真实和伪造身份证的具体吸收带。结果表明,FTIR光谱结合机器学习(PLS-DA)是一种用于根据真实性对身份证进行分类的稳健方法。

利益冲突声明

作者声明他们没有已知的可能会影响本文报告工作的财务利益或个人关系。

致谢

本研究没有获得公共部门、商业部门或非营利部门的任何特定资助。作者感谢巴西圣保罗州技术科学警察局里贝朗普雷图法医专家中心的所有员工,以及Aline Thaís Bruni教授的支持。
相关新闻
生物通微信公众号
微信
新浪微博
  • 搜索
  • 国际
  • 国内
  • 人物
  • 产业
  • 热点
  • 科普

知名企业招聘

热点排行

    今日动态 | 人才市场 | 新技术专栏 | 中国科学人 | 云展台 | BioHot | 云讲堂直播 | 会展中心 | 特价专栏 | 技术快讯 | 免费试用

    版权所有 生物通

    Copyright© eBiotrade.com, All Rights Reserved

    联系信箱:

    粤ICP备09063491号