用于自动化碳酸盐岩岩相学与沉积环境解释的视觉-语言模型

首页今日动态人才市场新技术专栏中国科学人云展台
BioHot
云讲堂直播会展中心特价专栏技术快讯免费试用

生物通官微
陪你抓住生命科技
跳动的脉搏

生物通首页 > 今日动态 > 正文

《Artificial Intelligence in Geosciences》：Vision-language models for automated carbonate petrography and depositional environment interpretation

【字体：大中小】 时间：2026年06月09日 来源：Artificial Intelligence in Geosciences 4.2

编辑推荐：

　　碳酸盐岩岩相分析提供了沉积环境和成岩演化在微观尺度上的定性和半定量约束。然而，传统的薄片描述和解释是劳动密集型的、耗时的，并且容易受到解释者主观性的影响，限制了研究的可重复性。虽然最近的深度学习方法已应用于碳酸盐岩岩相学，但大多数局限于狭窄的分类任务，缺乏全面

碳酸盐岩岩相分析提供了沉积环境和成岩演化在微观尺度上的定性和半定量约束。然而，传统的薄片描述和解释是劳动密集型的、耗时的，并且容易受到解释者主观性的影响，限制了研究的可重复性。虽然最近的深度学习方法已应用于碳酸盐岩岩相学，但大多数局限于狭窄的分类任务，缺乏全面的地质学家级能力。视觉-语言模型（vision-language models, VLMs）的进步为联合图像理解和文本生成提供了新的机会，但其在碳酸盐岩岩相学中的应用仍然受到在自然图像而非地质纹理上预训练的视觉编码器的限制。在此，研究人员提出了一个用于自动化碳酸盐岩岩相描述和沉积环境解释的视觉-语言框架。该框架通过线性投影模块将EVA视觉编码器与基于Llama2的语言模型集成，以对齐视觉和文本表示。一个精心策划的碳酸盐岩视觉-语言数据集（CarbonateVLD）包含超过57,000张薄片图像，包括来自不同来源的增强图像-文本对，用于训练以增强跨纹理和相的可泛化性。为了将生成的描述转换为标准的微相（microfacies）和相带（facies zone, FZ）解释，研究人员开发了一个两阶段语义推理变换器（transformer），将碳酸盐岩纹理属性嵌入到高维表示空间中。定量评估显示，相对于基线VLM，BERT-Similarity提高了36.7%，SPICE（Semantic Propositional Image Caption Evaluation）得分提高了16.9%。沉积环境解释在与专家地质学家评估对比时达到93.3%的准确率。通过标准化岩相描述和解释，这项研究表明视觉-语言建模可以减少碳酸盐岩岩相学中的主观性，同时实现高效且可重复的大规模碳酸盐岩岩相描述和沉积环境解释。

碳酸盐岩储层约占全球常规油气储量的60%，并在新兴能源转型勘探（如CO₂地质封存和地热能）中具有重要潜力。储层表征通常从微观尺度的岩石薄片岩相分析开始，地质学家通过识别颗粒、基质、胶结物和孔隙类型来重建沉积环境、识别微相（microfacies）并评估储层质量。然而，传统碳酸盐岩岩相学面临两大问题：一是定性分析中术语不一致、纹理识别差异以及碳酸盐岩织物的复杂性导致主观性强和可重复性差；二是定量方法如点计数劳动强度大，且复杂的沉积结构和叠加的成岩特征使得高级解释（如沉积环境和成岩历史）极具挑战性。近年来，高性能计算推动计算机视觉在地球科学中广泛应用，但现有深度学习方法多局限于单一任务（如分类、分割），缺乏整体性的地质学家级能力。大语言模型（LLMs）和视觉-语言模型（VLMs）的兴起提供了新机遇，但通用VLM在专业地质任务中易产生幻觉，而专门针对碳酸盐岩岩相学的VLM尚属空白。为此，研究人员开发了CarbonateGPTv1——一个端到端的自动化碳酸盐岩薄片描述和沉积环境解释框架，旨在通过标准化岩相描述减少主观性，实现高效、可重复的大规模分析。该研究发表在《Artificial Intelligence in Geosciences》。

研究人员主要采用了以下关键技术创新方法：第一，采用EVA-CLIP-g视觉编码器（1B参数，结合掩码图像建模Masked Image Modeling和CLIP对齐预训练）进行高分辨率（448×448像素）薄片图像特征提取，并通过空间令牌拼接将1024个视觉令牌压缩为256个。第二，以Llama2-7b为语言模型，使用低秩自适应（Low-Rank Adaptation, LoRA，秩r=64, alpha=16）冻结大部分参数，仅微调线性投影层和语言模型（更新<1%参数），以对齐视觉与文本嵌入（4096维）。第三，构建了碳酸盐岩视觉-语言数据集（CarbonateVLD），从SEPM Strata、CarbonateWorld Atlas和Flügel教科书等开源来源收集原始图像-属性对，经GPT-4o-mini标准化描述，再通过几何与纹理增强（光度变换、CLAHE、高斯噪声、高斯模糊、随机裁剪）扩展至约5.8万图像-描述对（其中51,185训练，6,687测试）。第四，设计了两阶段语义匹配框架：采用bi-encoder（all-mpnet-base-v2）将描述和预定义微相知识库（26种标准微相SMF与10种相带FZ，基于Flügel镶边碳酸盐岩台地分类）编码为768维向量，进行近似近邻搜索（top-k=5）；再利用cross-encoder（ms-marco-MiniLM-L-6-v2）对候选重排序，通过softmax输出最可能的SMF，并映射至对应FZ。

研究结果部分如下：

5.1 模型性能与基线VLM对比：训练损失稳定下降表明有效收敛。在CarbonateVLD测试集上，CarbonateGPTv1的BERT-Sim得分为0.656，SPICE得分为0.183，显著优于通用模型CogVLM（0.385/0.038）、领域模型ThinGPT（0.362/0.026）和MiniGPT-v2（0.289/0.014）。这证实了领域感知架构和数据驱动设计对捕捉碳酸盐岩岩相特征的重要性。

5.2 岩相属性提取性能：从生成描述中提取关键岩相属性，与参考描述比较。纹理识别精确匹配率最高（67.2%），颗粒类型次之（52.7%精确+22.4%部分匹配），基质分类（51.3%）、化石鉴定（37.6%）、沉积构造（13.7%）依次降低。模型在识别鲕粒、球粒等典型颗粒上表现良好，但精细尺度特征仍具挑战。

5.3 纹理与颗粒识别性能：在特定纹理类型上，颗粒支撑织物（砾屑灰岩75%、颗粒灰岩74.3%、泥粒灰岩73.6%）准确率高；泥支撑织物（泥灰岩47.4%、粒泥灰岩59.2%）中等；稀有类型（浮石33.3%、粘结灰岩49%）较低。颗粒类型中，鲕粒73.3%、球粒71.6%、豆粒69.4%准确率最高；生物碎屑68.6%；而核形石51.9%、内碎屑37.1%、集合体29.7%较低。性能与训练数据频率正相关，表明类别不平衡问题。

5.4 碳酸盐岩岩相学专家评估：两位高级岩相学家对65张薄片的三项标准评分。59%生成描述被评为高质量，32%中等，9%低质量。中等或低质量描述主要来自成岩改造样品和稀有织物类型，与量化结果一致。这支持CarbonateGPTv1作为实际岩相工作辅助工具的潜力。

5.5 误差分析与地质一致性：混淆矩阵显示，形态相似的颗粒（如球粒与生物碎屑、球粒与鲕粒）是主要误分类来源；纹理误分类发生在相似织物（如粒泥灰岩与泥灰岩、泥粒灰岩与颗粒灰岩）。纹理-颗粒共现热图显示，模型预测的共现模式（如颗粒灰岩-鲕粒、泥粒灰岩-生物碎屑）与真实分布高度一致，说明即使个体标签错误，模型也倾向于生成地质上合理的组合（如未出现泥灰岩-鲕粒这样的矛盾对）。失败模式分析中，完整失败仅占7.5%；错误类型中纹理和颗粒均错占26.9%，仅纹理错25.7%，仅颗粒错25.3%，另有14.7%为地质上合理的颗粒替代。这表明误分类系统性可解释，而非随机或地质不一致。

5.6 幻觉分析与特征过度预测：总体幻觉率40.8%（45%的样本包含至少一个幻觉标签）。类级别中，鲕粒幻觉率最低（11.8%，精确率88.2%）；球粒最高（54.8%）；纹理中泥灰岩幻觉率最高（68.1%）。幻觉率与真实描述长度（图像信息量代理）呈反比：短描述（<30词）样本幻觉率37.9%，长描述（90–120词）降至25.4%。模型在视觉信息有限或模糊时倾向于预测训练分布中的高频岩相组合。

5.7 微相（SMF）与相带（FZ）解释性能：从15张薄片的生成描述中，两阶段语义匹配框架实现了93.3%的SMF正确识别率，并基于预定义SMF-FZ关联矩阵以相同准确率映射至相应FZ。这表明语义嵌入成功捕获了定义每种SMF和FZ的诊断性纹理与组成特征。

讨论部分总结了场景图和关键词分布分析：场景图比较显示，生成描述中的实体节点和关系边与真实描述高度相似（代表样本语义重叠89.6%），且关键词位置遵循“织物→颗粒→基质→胶结物→孔隙/成岩特征”的自然顺序，符合岩相描述逻辑；模型置信度与特征频度分布合理，避免了通用VLM的词汇幻觉。跨领域VLM洞察表明，领域微调（如医学影像的Anatomy-VLM、遥感GeoChat）是提升专业任务性能的关键。局限性方面，当前实现存在：数据标准化可能引入词法不一致；训练数据中颗粒支撑织物过采样导致类别不平衡；总体幻觉率40.8%需通过置信度校准和不确定性感知解码解决；冻结视觉编码器构成结构瓶颈；模态差距仍需跨模态对齐技术缩小。未来工作将构建多任务数据集（支持指向性表达、目标识别等），并集成智能体AI工作流实现自主描述、自我批评和外部知识查询。

研究结论翻译：本研究提出了CarbonateGPTv1，一个用于自动化碳酸盐岩薄片图像描述及其沉积环境解释的VLM。该架构集成了EVA视觉编码器与Llama2语言模型，在多模态数据集CarbonateVLD上微调，并包含一个下游推理流水线用于标准微相和相带识别。在薄片描述方面，模型实现了BERT-Sim 0.656和SPICE 0.183，优于其他开源VLM，并在沉积环境解释中达到93.3%准确率。场景图分析表明，生成描述通常比参考描述具有更优的岩相结构。正式误差分析揭示，主要误分类发生在形态相似类别之间，且即使个体标签错误，模型仍保持地质上合理的织物-颗粒关联，表明预测反映沉积逻辑而非表层模式匹配。总体特征过度预测率为40.8%，在视觉信息有限的图像中最为突出，且性能在不同类别间的差异很大程度上可追溯至CarbonateVLD中的不平衡。尽管存在这些局限，CarbonateGPTv1代表了向自动化碳酸盐岩岩相学迈出的重要一步；未来CarbonateGPTv2的工作将聚焦多任务数据集构建、类别不平衡缓解、以及置信度校准与先进跨模态对齐技术的整合，以提升所有碳酸盐岩织物类型的预测可靠性。

联系信箱：

粤ICP备09063491号

热点排行