
-
生物通官微
陪你抓住生命科技
跳动的脉搏
基于多阶段微调的专利领域专用DeBERTa模型在SDGs/脱碳技术专利图谱中的创新应用
【字体: 大 中 小 】 时间:2025年06月18日 来源:World Patent Information 2.2
编辑推荐:
本研究针对专利分析中SDGs(可持续发展目标)与脱碳技术分类精度不足的问题,创新性地采用多阶段微调策略优化DeBERTa模型,通过整合FI(文件索引)子类估计任务,显著提升专利技术提取准确率。研究构建的"Japio-Decarbonization Patent Index"成功量化了企业脱碳技术研发强度,揭示了日本企业的持续领先地位与中国企业的快速崛起趋势,为可持续技术趋势预测提供了NLP(自然语言处理)新范式。
在全球加速推进碳中和的背景下,专利文献作为技术创新的"晴雨表",其分析精度直接影响着脱碳技术研发战略的制定。然而,传统BERT模型在SDGs(可持续发展目标)相关专利分类中频频"误伤"——竟将日本弹珠机(pachinko)的节能技术误判为无关专利,这种"宁可错杀"的粗放分析方式,显然无法满足精准量化企业脱碳技术研发强度的需求。更棘手的是,国际专利分类(IPC)体系过于宽泛,而日本特有的文件索引(FI)分类虽精细却未被有效整合到分析模型中。
日本经济产业省(METI)的Yoshiaki Maehara团队在《World Patent Information》发表的研究中,开创性地将DeBERTa模型与多阶段微调策略相结合,构建出专利分析"双保险"系统。研究人员先让模型"通读"海量专利文本掌握通用语义特征,再通过"专项特训"精准识别FI子类标签,最终在SDGs/脱碳技术分类任务上实现准确率突破。更巧妙的是,团队开发的"Japio-Decarbonization Patent Index"指数,如同给企业的技术研发装上"碳雷达",能实时追踪丰田等日企在燃料电池领域的持续领跑,以及宁德时代等中国企业的弯道超车。
关键技术方法包括:1)采用日本专利局Japio提供的日文专利数据;2)基于Huggingface框架实施DeBERTa的多阶段微调,首阶段进行掩码语言建模(MLM),次阶段融入FI分类任务;3)构建包含SDGs目标7(清洁能源)和13(气候行动)的专利评分体系;4)通过对比PatentBERT与PatentDeBERTa的损失曲线验证模型收敛性。
【研究框架概述】
研究团队设计的三步走策略犹如"考取驾照":先通过理论考试(通用语义理解),再完成科目二专项(FI分类),最后路考实战(SDGs/脱碳评分)。这种递进式训练使模型在保持语言理解广度的同时,获得专利领域的"火眼金睛"。
【模型架构与预训练过程】
采用NVIDIA推荐的超参数设置,放弃传统BERT的下一句预测(NSP)任务。损失曲线显示PatentDeBERTa的收敛速度较PatentBERT提升约15%,印证了其改进的注意力机制对长专利文本的处理优势。
【预训练模型性能】
在包含中日企业的专利数据集测试中,整合FI分类的模型将pachinko相关技术的误判率降低82%。尤为关键的是,模型成功识别出弹珠机中涉及电机节能的专利,这些正是被先前研究"误杀"的SDG7相关技术。
【总结与未来展望】
这项研究不仅证实DeBERTa在专利分析中的"后来居上",更开创了FI分类与NLP融合的新范式。通过宏观分析发现,日本企业在氢能存储等领域的专利占比仍超40%,但中国在光伏技术的专利申请量年增长率已达28%,反映出全球脱碳技术竞赛的新格局。
讨论部分特别指出,该模型的"跨界"潜力令人惊喜——在分析丰田的混合动力专利时,自动关联到其与松下合作的电池回收技术,这种技术关联网络的自动构建能力,为创新生态系统的研究提供了新工具。研究者建议未来可扩展至多语言专利分析,并探索生成式AI在专利技术路线预测中的应用。正如论文结论强调的,这套"AI+FI"的分析框架,正在重新定义知识产权管理的智能化标准。
生物通微信公众号
知名企业招聘