PIT-Net：嵌入可微分扩散约束的物理信息Transformer用于深层组织定量光声断层成像(Quantitative Photoacoustic Tomography, QPAT)

《Photoacoustics》：PIT-Net: Physics-Informed Transformer with Differentiable Diffusion Constraints for Quantitative Photoacoustic Tomography of Deep Tissues

【字体：大中小】 时间：2026年06月12日 来源：Photoacoustics 6.8

编辑推荐：

　　定量光声断层成像(Quantitative Photoacoustic Tomography, QPAT)面临从光强(Fluence, Φ)中解耦光学吸收系数(μa)的病态逆问题。标准深度学习模型往往缺乏物理一致性且难以泛化至活体(in vivo)环境。针对此

定量光声断层成像(Quantitative Photoacoustic Tomography, QPAT)面临从光强(Fluence, Φ)中解耦光学吸收系数(μa)的病态逆问题。标准深度学习模型往往缺乏物理一致性且难以泛化至活体(in vivo)环境。针对此，研究人员提出PIT-Net——一种面向多波长QPAT的物理信息Transformer(Physics-Informed Transformer)框架。PIT-Net集成Swin Transformer骨干网络以提取多尺度跨光谱特征，并嵌入可微分物理传播器(Differentiable Physics Propagator, DPP)。在前向传播过程中，DPP在Robin边界条件下求解稳态光子扩散方程(Steady-state Photon Diffusion Equation)，并结合声学残差反馈回路以促进物理一致性。该模型完全基于合成数据训练，无需微调即可直接迁移至活体目标。其在仿真数据中表现出高定量精度(峰值信噪比PSNR: 45.475 ± 3.599 dB；均方根误差RMSE: (6.0 ± 2.7) × 10?3)，并在物理仿体与活体组织中重建出高分辨率吸收图像。对小鼠肿瘤的纵向监测进一步验证了PIT-Net作为QPAT稳健且具物理可解释性解决方案的能力。

PIT-Net：基于可微分扩散约束的物理信息Transformer用于深层组织定量光声断层成像(QPAT)的研究解读

定量光声断层成像(Quantitative Photoacoustic Tomography, QPAT)旨在从测得的初始光声压力P₀中准确反演生物组织固有的光学吸收系数μ_a(r,λ)。然而，由于光声初始压力P₀=Γ·μ_a·Φ(r,λ)（Γ为Grüneisen参数），其中光强Φ(r,λ)受组织强散射影响呈复杂非均匀衰减，导致μ_a与Φ的解耦成为一个高度非线性且病态(Ill-posed)的逆问题。传统基于迭代的方法计算昂贵且对初值敏感；而纯粹的端到端数据驱动深度学习方法作为"黑箱"模型，忽视控制光传输的物理定律（如辐射传输方程RTE或其P1近似——稳态扩散方程），易产生物理不一致伪影，且在合成数据训练后难以泛化至复杂的活体环境。现有物理信息神经网络(Physics-Informed Neural Networks, PINNs)通常仅将偏微分方程(PDE)残差作为软惩罚项加入损失函数，约束力度不足。为此，复旦大学研究人员Ta Dean等人（发表于《Photoacoustics》）提出PIT-Net (Physics-Informed Transformer Network)，通过将可微分物理求解器深嵌于网络前向传播过程、结合Swin Transformer多光谱特征提取及声学残差反馈，实现高保真、具物理一致性的QPAT反演，且合成数据训练后可直接泛化至活体成像及肿瘤纵向监测。

研究人员采用的主要关键技术方法包括：构建基于GPU加速Monte Carlo eXtreme(MCX)模拟的5500组多波长配对数据集（初始压力P₀、吸收系数μ_a、光强Φ，含圆形/方形/数字小鼠仿体），以及甲基蓝与吲哚青绿(ICG)散射仿体实验数据和10只裸小鼠（5只健康+5只肿瘤移植）活体及21天纵向队列；搭建PIT-Net架构——Swin Transformer V2编码器+特征金字塔网络(Feature Pyramid Network, FPN)+光谱注意力模块(Spectral Attention Module, SAM)双分支（吸收分支预测μ_a，光强分支预测初始Φ_init）解码器；嵌入基于有限差分离散化的可微分物理传播器(Differentiable Physics Propagagator, DPP)在CFL(Courant-Friedrichs-Lewy)条件约束下自适应步长迭代求解带Robin边界条件的稳态扩散方程；设计物理精化模块利用声学测量残差ΔP₀反馈迭代修正μ_a与Φ；采用混合损失函数（吸收/光强MSE损失+物理约束损失< />_a·Φ与实测P₀偏差+L₁范数扩散方程及边界残差>+总变分Total Variation正则化）；最后通过非负最小二乘(Non-negative Least Squares, NNLS)进行多波长光谱解混获取血氧饱和度sO₂。

2.1. Problem Formulation and Physical Basis

研究人员明确QPAT逆问题基于P₀=μ_a·Φ关系，光传输由稳态扩散方程-?·[D(r)?Φ(r)]+μ_a(r)Φ(r)=S(r,λ)描述（D(r)=1/[3(μ_a+μ_s')]为扩散系数，μ_s'为约化散射系数，S为光源项），选用其确定性可微特性而非非可微随机蒙特卡洛法作为物理约束基础。

2.2. Network Architecture

研究人员设计SwinV2-FPN编码器提取多波长输入P₀∈R^C×H×W的多尺度特征；SAM通过平均池化与最大池化双通道描述子经共享多层感知机(MLP)生成波长特异性注意力权重以重标定特征，强化光谱间非线性依赖；解码器双分支分别输出μ_a与Φ_init，扩散系数D与光源S设为每波长可学习的全局向量以简化计算并保持自校准。

2.3. Differentiable Physics-Propagator Module

研究人员在解码器中嵌入DPP，以五点差分卷积核K_L离散拉普拉斯算子?²Φ≈(1/Δx²)(K_L*Φ)，按CFL条件动态计算最大稳定时间步Δt≤0.9·min(Δx²/(2D), 1/μ_a)+ε迭代更新Φ_t+1=ReLU(Φ_t-Δt·R_diff(Φ_t)/‖R_diff(Φ_t)‖_∞)（R_diff为扩散方程残差），并在边界采用幽灵节点外推法严格施加Robin边界条件Φ+2AD·?Φ/?n=Φ_src（A为边界反射系数），确保深层光强预测符合光子通量平衡。

2.4. Physical Refinement Module

研究人员构建基于声学残差的反馈环：计算预测初压p?₀^(t)=μ?_a^(t)·Φ?^(t)与实测p₀^meas之差Δp₀^(t)，拼接当前μ?_a^(t)、Φ?^(t)与Δp₀^(t)输入浅层精化块G_ref得更新量Δμ_a、ΔΦ，经ReLU更新μ?_a^(t+1)=ReLU(μ?_a^(t)+Δμ_a)，以抑制深层区域初始预测误差。

2.5. Comprehensive Hybrid Loss Function

研究人员设定总损失L_total=αL_μa+ω_?L_Φ+βL_phy+γL_TV（α=20, ω_?=10, β=1, γ=1×10^-4），其中L_μa与L_Φ为预测值与真值MSE，L_phy=‖μ?_a·Φ?-p₀^meas‖₂²+λ_pdeL_res（L_res为域内扩散残差与Robin边界残差之L₁积分），L_TV为Φ?各向异性全变分抑制高频伪影。

2.6. Implementation Details

研究人员基于PyTorch用AdamW优化器、初始学习率1×10^-4、余弦退火调度训练200轮，在线数据增强（旋转/缩放/翻转/加噪），梯度裁剪范数0.5保障可微物理梯度稳定。

2.7. Spectral Unmixing

研究人员对重建多波长μ?_a(r)∈R^C依μ?_a(r)=E·c(r)+η（E为摩尔消光系数矩阵，c(r)为K种发色团浓度如氧合血红蛋白HbO₂与脱氧血红蛋白Hb）通过NNLS求解c*(r)=arg min_c≥0‖Ec-μ?_a(r)‖₂²，进而算出血氧饱和度sO₂(r)=c_HbO2(r)/[c_HbO2(r)+c_Hb(r)]。

2.8. Performance Evaluation

研究人员采用PSNR、RMSE评估仿真重建精度，对比组织区域对比度噪声比CNR=(μ_ROI-μ_BG)/σ_BG评估活体图像质量，Monte Carlo采样量化预测不确定性，配对t检验或Wilcoxon秩和检验判定显著性(p<0.05)。

4.1. PIT-Net Evaluation in Simulation datasets

研究人员在1500例独立测试样本（圆形/方形/数字小鼠仿体各500）上与CycleGAN、U-Net、U-Net++、Vision Transformer(ViT)、PI-UNet（软约束PINN基准）、Restormer、Diffusion Transformer(DiT)对比。结果显示PIT-Net在Mouse数据集PSNR达48.738±4.208 dB、RMSE (4.1±2.3)×10^-3，显著优于U-Net(41.341±4.625 dB)、Restormer(42.561±4.384 dB)及PI-UNet(39.674±4.412 dB)(p<0.05)，且结构边界保留最佳，证实深嵌物理约束提升非线性光学反演精度。

4.2. PIT-Net Evaluation in Phantom Datasets

研究人员用甲基蓝(660 nm)与ICG(800 nm)散射仿体验证，PIT-Net重建μ_a图与真值结构吻合，沿剖面线吸收系数强度曲线与理论值高度一致，表明其在类生物组织光学属性下可实现高精度μ_a恢复。

4.3. PIT-Net Evaluation in in vivo Datasets

研究人员对健康小鼠及肿瘤移植小鼠行多波长活体扫描。传统P₀图因光强衰减致深部肾/脊髓/血管对比度低甚至误判，PIT-Net反演μ_a图显著提升血管、肾脏、脊柱CNR(p<0.001 vs P₀)，优于各数据驱动基准；光谱解混后PIT-Net-derived sO₂图边界清晰、数值符合生理范围，而P₀直接解混受深度衰减干扰模糊。21天肿瘤纵向监测显示，P₀基sO₂无显著变化，而μ_a基sO₂自Day1至Day21呈递减趋势（Day1 vs Day4、Day11 vs Day21具统计学差异），符合肿瘤生长伴随微环境缺氧的病理生理，证明PIT-Net可敏感捕捉功能代谢演变。

4.4. Ablation study

研究人员逐次移除物理精化模块、光传输(DPP)模块、物理约束损失L_phy、光谱注意力机制、FPN。Full Model(Mouse数据集PSNR 48.738 dB, RMSE 4.1×10^-3)性能最优；去L_phy后RMSE升至12.343×10^-3，去FPN后Circle数据集PSNR降至26.947 dB最低，证实各物理嵌入组件与多尺度特征提取对定量精度缺一不可；噪声及域偏移测试中PIT-Net亦保持较高PSNR与泛化性。

讨论与结论总结

讨论指出QPAT核心难点为散射介质中光强非线性衰减导致的病态逆问题，传统迭代法慢且敏于初值，纯数据驱动网络缺物理一致性。PIT-Net优势在于：区别于常规PINNs软惩罚，其将稳态扩散方程、CFL自适应步长及Robin边界深嵌前向传播作可微求解器，辅以SAM捕获跨光谱相关、声学残差反馈精化，从架构上强制物理合理光强分布，从而解决黑箱模型物理失配。仅合成数据训练即泛化至活体无需微调，活体中纠正深部器官对比度畸变、灵敏反映肿瘤缺氧演进，较P₀直接分析更具诊断价值。相比需测时优化的迭代物理混合模型（PIDP-qPAT、QOAT-Net等），PIT-Net端到端毫秒级推断适合实时监测。当前局限为DPP中扩散系数D简化为波长相关全局常数（假设散射背景相对均匀），未考虑生物组织空间异质散射及大血管低散射区扩散近似偏差，未来拟发展空间分辨散射图预测缩窄仿真—现实差距。

结论：研究人员提出并验证了一种融合Swin Transformer与嵌入式可微分物理传播器及声学残差反馈的端到端多波长QPAT框架PIT-Net。该模型通过深嵌光子传输物理定律约束逆问题求解，在仿真、仿体及活体组织中均重建出高分辨率定量吸收图像，证实将物理约束与深度学习耦合是为QPAT提供稳健、物理可解释方案的有效途径。

热点排行