
-
生物通官微
陪你抓住生命科技
跳动的脉搏
GeoProspect:基于TG-MoLE架构的地质领域大语言模型创新与持续学习优化研究
【字体: 大 中 小 】 时间:2025年07月02日 来源:Neurocomputing 5.5
编辑推荐:
为解决地质领域大语言模型(LLM)存在的专业知识结构差异、领域语料匮乏及持续学习中的灾难性遗忘问题,研究团队开发了首个地质专用模型GeoProspect。通过构建高质量地质语料库,采用Qwen2-7B基座模型进行持续预训练,创新性提出任务驱动的分组混合LoRA专家架构(TG-MoLE),显著提升矿物勘探问答等任务表现。研究成果发表于《Neurocomputing》,为跨学科领域大模型开发提供新范式。
在地球科学领域,专业知识的复杂性和数据的高度特异性长期制约着人工智能技术的应用。尽管通用大语言模型(LLM)在自然语言处理任务中表现卓越,但面对地质学特有的时空关联数据、专业术语体系及跨学科知识结构时,现有模型往往力不从心。更棘手的是,当尝试通过持续学习(Continual Learning)使通用模型适应地质领域时,模型会出现灾难性遗忘(Catastrophic Forgetting)现象——新知识的学习以牺牲原有通用能力为代价。这种困境使得地质学家们不得不思考:能否开发出既精通专业领域又能保持通用智能的专用模型?
国家超级计算郑州中心的研究团队给出了肯定答案。他们开发的GeoProspect模型首次实现了地质领域大语言模型从0到1的突破。研究以Qwen2-7B为基础架构,通过三阶段创新:首先构建包含2.3TB地质文献的专业语料库,解决数据稀缺问题;随后采用持续预训练(Continued Pre-training)注入领域知识;最终提出革命性的任务驱动分组混合LoRA专家架构(Task-driven Grouped Mixture of LoRA Experts, TG-MoLE),通过双层级路由策略实现专家模块的动态协作。
关键技术包括:1)基于低秩适应(LoRA)的参数高效微调;2)TG-MoLE架构中的跨组路由调整机制;3)地质评估基准GeoEval的构建。研究特别从中国地质调查局获取了未公开的矿区勘探报告作为验证数据集。
【Domain-specific LLMs】
通过分析医疗、法律等领域的专用模型发展路径,指出地质学因数据异构性面临更大挑战。
【Methods】
TG-MoLE创新性地将专家分为地质组和通用组,通过任务感知器(Task Perceiver)动态调整路由权重,实验显示其参数利用率比传统MoE高37%。
【Training the GeoProspect】
持续预训练阶段采用课程学习策略,先注入基础地质概念再学习复杂勘探知识,使模型在GeoEval基准上的准确率提升21.8%。
【Evaluation and results】
在矿物成因分析任务中,GeoProspect的F1值达0.89,显著优于直接微调的基线模型。TG-MoLE版本在通用任务MMLU上的性能损失仅为1.2%,远低于传统方法的7.8%。
【Conclusion】
研究不仅填补了地质领域大模型的空白,更通过TG-MoLE架构为跨学科持续学习提供了新思路。动态路由机制可扩展至其他需要平衡专业性与通用性的领域,如航天、材料科学等。
【Limitations and future work】
当前模型对区域方言描述的地质现象处理不足,下一步将融合多模态勘探数据。研究者特别强调,在矿产预测应用中需建立伦理审查机制,防止模型被用于过度开采。
这项发表于《Neurocomputing》的研究标志着地球科学智能化进入新阶段。正如通讯作者Gang Wu在署名声明中所述,该成果"为理解地球密码提供了AI解码器",其方法论意义已超越地质学本身,为所有垂直领域的大模型开发树立了标杆。研究团队公开承诺,将遵循"开发-评估-治理"的闭环原则,确保技术应用符合可持续发展目标。
生物通微信公众号
知名企业招聘