
-
生物通官微
陪你抓住生命科技
跳动的脉搏
"Hespi:基于计算机视觉和大型语言模型的植物标本标签自动识别与数据提取新方法"
【字体: 大 中 小 】 时间:2025年07月19日 来源:BioScience 8.1
编辑推荐:
研究人员开发了Hespi(Herbarium specimen sheet pipeline)流程,通过整合YOLOv8目标检测、OCR/HTR文本识别和GPT-4o多模态LLM校正技术,实现了植物标本标签关键字段的自动化提取,在MELU测试集上达到92.7%的文本相似度,显著提升了400万份标本的数字化效率。
在全球3800多个植物标本馆保存的4亿多份标本中,蕴藏着珍贵的生物多样性数据。然而传统人工转录方式效率低下,转录率十年未见提升(Vollmar et al. 2010),成为数据转化的主要瓶颈。标本标签的多样性——包含印刷体、打字体和手写体混合文本,以及国际标本馆间标签格式的差异(Tulig et al. 2012),更使得自动化处理面临巨大挑战。
墨尔本大学(The University of Melbourne)的Robert Turnbull团队在《BioScience》发表的研究中,开发了Hespi全自动处理流程。该研究创新性地整合了计算机视觉与自然语言处理技术,通过两级YOLOv8模型分别识别标本页组件和标签字段,结合ResNet-34分类器判断文本类型,采用Tesseract OCR和TrOCR HTR双引擎提取文本,最后通过GPT-4o多模态大语言模型进行校正。测试显示该方法在墨尔本大学标本馆(MELU)印刷标签上达到100%的中位数相似度,手写标签达88.8%的平均相似度。
关键技术包括:(1)基于4821张标注图像训练YOLOv8x1280模型检测11类标本页组件;(2)3642张标签图像训练二级模型识别12个关键字段;(3)ResNet-34分类器区分印刷/手写文本;(4)OCR与HTR双引擎协同工作;(5)WFO和澳大利亚国家物种名录数据库校验;(6)GPT-4o多模态校正。
研究结果:

标签字段识别
1280像素分辨率下的YOLOv8x模型对12个关键字段的整体f1分数达85.9%-95.9%,但种下分类单元字段识别较差(f1=68.1%)。如图4所示,分类学名称字段(科、属、种)识别最佳。
文本分类与识别
ResNet-34模型以97.9%准确率区分印刷/手写标签。OCR与HTR协同工作时,通过Gestalt算法与权威数据库比对,75%的非精确匹配得到自动校正。
大语言模型校正
GPT-4o的零样本学习使MELU-H数据集平均相似度从81.1%提升至88.8%。如图7所示,LLM能有效修正手写体识别错误和格式差异。

该研究建立了首个模块化植物标本数字化流程,其创新性体现在:(1)实现全标本页组件检测与标签字段级识别双重突破;(2)开创性应用多模态LLM进行文本校正;(3)支持用户自定义模型训练。研究者特别指出,当训练样本中增加30个新标注即可显著提升罕见组件识别(Thompson et al. 2023a)。虽然种下分类单元识别(68.1%)和混合语言地理信息提取仍有改进空间,但该方法已为全球标本数字化提供了可扩展的解决方案,其开源特性(Apache 2.0许可)将加速生物多样性数据的解放进程。
生物通微信公众号
知名企业招聘