
-
生物通官微
陪你抓住生命科技
跳动的脉搏
欧洲专利局编码器模型的预训练与分类应用:基于1024序列长度的RoBERTa模型创新
【字体: 大 中 小 】 时间:2025年06月18日 来源:World Patent Information 2.2
编辑推荐:
【编辑推荐】为解决专利分类中长序列覆盖不足(仅12% claims被完整编码)和领域适配性问题,欧洲专利局团队预训练了序列长度达1024的RoBERTa-base模型,覆盖率达53%。该模型通过专利领域专用分词器(压缩文本5-10%)和分层微调策略,在CPC(Cooperative Patent Classification)细粒度分类中超越通用模型,88%测试文档的Top10预测包含真实标签,为专利审查提供高效AI工具。
专利审查正面临前所未有的挑战:2023年欧洲专利局(EPO)收到近20万份申请,而全球专利文献库已超1.18亿件。传统人工分类依赖专家对技术领域(如CPC分类体系)的深刻理解,但CPC的24万+分类符号(含9474个主组)和多标签特性(平均每专利5.7个标签)使人工分类效率低下。更棘手的是,专利文本具有独特语言特征——90%权利要求书句子在Flesch-Kincaid测试中被评为"极难读懂",且平均长度远超普通英语。现有语言模型如BERT-for-patents仅支持512序列长度,导致88%专利权利要求被截断,严重制约AI辅助分类的实用性。
欧洲专利局数据科学团队Volker D. H?hnke等人在《World Patent Information》发表研究,通过构建专利领域专用核心语言模型(CLM)突破这些限制。研究采用三阶段技术路径:首先基于400万专利文档训练支持1024序列长度的RoBERTa-base架构,参数量仅为"large"模型1/3;其次开发专利优化分词器,使编码效率提升5-10%;最后在CPC分类任务中实施分层微调策略,覆盖从主组到子组的全层级分类。
核心语言模型
通过分析100万+权利要求书发现,将序列长度从512提升至1024可使完整覆盖率从12%跃升至53%。模型采用动态掩码和梯度积累技术,在8×A100 GPU上完成预训练。专利专用分词器将"3D-printing"等复合词编码为单个token,显著提升语义捕获效率。
CPC符号预测
在包含244,380个标签的多标签分类任务中,模型采用分层损失函数和Top-k评估策略。结果显示:在子组级别预测中,88%测试文档的Top10预测包含人工标注标签,性能媲美专利领域"large"模型;主组级别准确率较通用英语模型提升37%。公开的CPC Text Categorizer工具可实现端到端分类预测。
分类向量应用
模型生成的768维语义嵌入([CLS] pooling)在专利相似性检索中展现优势。与TF-IDF相比,嵌入空间中的余弦距离能更好捕捉技术概念关联性,如将不同表述的"区块链协议"专利聚集在0.92相似度阈值内。
讨论指出,专利分类系统固有主观性导致模型性能存在理论上限。但通过定期更新训练数据(应对CPC年度修订)和迁移学习,该CLM可扩展至专利检索、技术趋势分析等场景。研究开创性地证明:在高度专业化领域,定制化"base"尺寸模型通过领域优化可超越通用"large"模型,为资源敏感型机构提供高效AI部署方案。该成果不仅提升EPO审查效率,其1024序列长度设计和分层微调策略更为其他长文本分类任务树立新范式。
生物通微信公众号
知名企业招聘