Descriptron:基于视觉语言模型(VLM)与人工智能的物种自动描述系统及其在生物多样性研究中的应用
【字体:
大
中
小
】
时间:2025年10月02日
来源:Systematic Entomology 4.9
编辑推荐:
本综述介绍了Descriptron这一创新性软件包,它整合了视觉变换器(ViTs)、大型语言模型(LLMs)和卷积神经网络(CNNs),首次利用前沿视觉语言模型(VLM)如GPT-4o实现物种形态特征的自动解码与分类描述。该系统通过图形用户界面(GUI)实现生物图像数据处理,结合形态测量学、几何形态测量学和图像嵌入技术,显著提升物种描述效率,为解决生物多样性丧失背景下的“黑暗分类群(Dark Taxa)”描述难题提供了高效自动化方案。
生物标本馆中待描述物种的数量因机构收藏规模和分类群不同而异,从几十到数千种不等。以节肢动物为例,描述新物种既具有应对生物多样性丧失的紧迫性,又存在技术挑战——从发现到正式描述平均需要21年。尽管已有超过100万个节肢动物物种被描述,但总数可能达到700万种。每年约有7000个新节肢动物物种被描述,按此速度描述剩余物种可能需要480至850年,远超许多物种在生物多样性丧失背景下的存续时间。因此,提高新物种描述速率对于加深地球生物多样性理解、制定更明智保护决策至关重要。
形态特征可通过形态测量学、几何形态测量学以及基于人工智能模型的图像嵌入进行量化,并应用于物种界定分析。过去八年中,大量研究致力于自动化几何形态测量学,同时数百篇论文讨论昆虫图像识别的机器学习方法,部分分类模型已达到接近专家水平的性能。先进的图形用户界面(GUI)用于物种界定或人工智能驱动的形态特征收集显示出潜力,但具有嵌套同源性的细粒度形态特征仍然耗时记录。
解决这一问题的有前景方法是采用基于同源性的计算机语言框架关联形态特征。多个研究团队独立开发了形态学编码框架:一种方法使用编码符号表示形态特征和编码条件修饰符描述特征状态;另一种方法将形态特征与本体论框架关联。尽管高级GUI和人工智能驱动的物种界定工具有望发展,细粒度形态特征的记录仍需要大量劳动。
尽管预测描述所有节肢动物需要数个世纪,但仍存在希望。全球范围内,分类学上被忽视的科(即“黑暗分类群”)中,相同的20个飞行昆虫科包含了全球飞行昆虫多样性的一半。快速并行条形码流程的出现使得能够快速建立初始物种和进化枝假设,并通过更多基因或形态数据进行验证。机器人技术可自动化标本收集,进一步加速新物种的获取。通过专注于这20个被忽视的昆虫进化枝,分类学家可以利用专业模型检测详细形态特征和生物信息学流程加速物种描述。
Descriptron是一个旨在自动化形态特征检测、测量、半地标标记、定量颜色指标和形态特征分割的程序。通过整合这些数据类型,Descriptron还能利用先进视觉语言模型(VLMs)从标注图像生成部分或草案物种描述。本研究测试Descriptron使用通过GPT-4V处理的增强图像准确评估形状、相对比例和颜色特征的能力,并将这些草案描述与专家准备的参考描述进行比较,评估自动化分类学描述的可行性。
木虱(半翅目:胸喙亚目:木虱总科)是小型植食性昆虫,许多是传播细菌的经济害虫。约4000种被描述,还有更多未被描述。本研究使用40个个体标本(包含3个物种对,总计34种,平均每个物种1.17个个体)的Melanastera(裂木虱科)精细调优实例分割模型,测试前翅形态特征。随后使用43种Russelliana(木虱科)作为测试数据集(48个个体,含6个物种对,平均每个物种1.12个个体)。这两个分类群均存在翅膀形态的性别二态性,因此添加少量物种对以捕捉这种变异。
Descriptron基于Python的tkinter构建,通过图形用户界面运行各种计算机视觉和人工智能工具的Python脚本,简化分类学和系统学相关任务。用户可以处理图像以分割颜色、定义半地标、关键点或地标、执行几何形态测量学并格式化输出。脚本在单独线程中运行以保证响应性。数据以结构化格式(JSON、CSV)保存或加载,避免手动数据整理常见错误。
Descriptron提供边界框叠加、关键点标注、分割掩码可视化以及编辑关键点和掩码的功能。支持以COCO JSON格式保存和编辑掩码,实现迭代优化,后续步骤可基于用户先前工作生成更精细模型。有两种主要工作流可用于训练实例分割模型的图像输入。
由于生成实例分割训练数据耗时,Descriptron实施Segment Anything Model 2(SAM2)无提示模式快速分割图像。SAM2使用图形提示利用Meta的分割基础模型,支持点击/框/掩码作为提示,并通过流式内存设计实现实时跟踪。Descriptron保存或丢弃未标记掩码,用户可从下拉菜单标记接受的掩码并导出为COCO JSON文件。COCO JSON是一种人类可读文本格式,使用花括号和方括号存储键值对和列表,组织数据集为图像、标注和类别,通过整型ID链接。每个标注引用image_id和category_id,存储对象标签及几何结构、像素边界框([x, y, width, height])、像素面积,可选分割(多边形)和关键点,确保一致机器可读数据。若自动化实例分割不适用于目标特征,可采用替代方法。
Descriptron还可应用边界框或点提示引导图像区域通过SAM2进行掩码分割。用户可使用画笔、橡皮擦和“关键点到掩码”工具细化生成掩码。Descriptron可训练和预测地标(关键点),关键点可编辑移动以进一步细化训练数据或预测结果。最终标记掩码或关键点写入COCO JSON文件,支持高级下游分析。这些工具用于定义训练数据及细化本研究中实例分割模型的预测。掩码或关键点定义后,COCO JSON文件可用作自定义实例分割模型的训练数据。
由于大型语言模型(LLMs)经常出现幻觉,Descriptron添加来自CNN实例分割的形态数据以引导VLM。还包括使用经典计算机视觉的数值形态测量作为描述部分,引导LLM构建描述。此多步过程包括标注图像形态特征、提取形状和颜色数据,然后使用标注图像提示GPT-4V。本研究特别关注增强图像(特征被勾勒和标注)对提高GPT-4V描述特征准确性的影响。
Descriptron实例分割与模型训练预测工作流及Detectron2
使用Detectron2进行实例分割。Detectron2是广泛使用的基于CNN的计算机视觉库,能够准确、可重复和高度自定义地执行掩码、关键点和骨架的实例分割任务。为将掩码和关键点转换为CNN模型训练格式,使用Descriptron中的文件格式转换工具。Detectron2需要COCO格式标注。简要概述,Descriptron将分割多边形转换为COCO JSON结构数据文件格式,可通过Descriptron的GUI工具或SAM2功能手动编辑。每个分割掩码被分配到形态类别,并获得唯一类别ID和实例ID。
Detectron2高度可配置,提供多种预训练模型并可进一步微调。在Detectron2中,使用Mask R-CNN与ResNet-50-FPN主干网络。主干是特征提取器,将图像转换为多尺度特征图供检测头(RPN/ROI)使用。ResNet-50提供深度卷积特征;FPN(特征金字塔网络)添加带有横向连接的自顶向下路径,使模型同时识别精细细节(小对象)和粗粒度上下文(大对象)。ResNet-50学习丰富特征,FPN在多个分辨率重用它们以更好地跨尺度检测。YAML文件设置超参数(批量大小、学习率、区域提议)。在Detectron2中,YAML文件指定设置而非代码,包括使用哪个主干、类别数量、输入大小/增强、锚大小、学习率、批量大小、训练计划、数据集名称以及权重加载/保存位置。Detectron2在启动时读取此文件以精确构建模型和训练循环。使用在通用数据集上预训练的模型进行迁移学习。还实施自定义数据增强,包括随机旋转和亮度/对比度调整。早停规则(或钩子)在评估平均精度(AP)平台期停止以防止训练过拟合。用户提供的掩码然后作为输入用于微调迁移学习方法,生成用于新类别(跗节、前翅、鞭节等)的微调Detectron2模型。
对于训练数据,使用Melanastera属通过Descriptron标注40个标本的整个前翅及10个翅室。利用Descriptron中的SAM2实现加手动修正完成。然后定义掩码标签并用于构建分割掩码和JSON文件。
使用多达10,000次迭代开发自定义微调Detectron2模型。Descriptron通过COCOEvaluator监控平均精度(AP)、平均召回率和AP50(IoU ≥ 0.5)。若模型收敛,最终权重和模型配置被保存,便于在新数据上轻松重用。然后实施微调模型对43种Russelliana属的48个个体进行推断。
对于推断,加载最佳权重,默认使用0.5置信度阈值(本研究中使用),但用户可通过Descriptron中的对话框轻松设置置信限制。训练元数据中的相同类别标签确保训练和预测间输出一致。用户可将此预测器应用于与训练集共享形态上下文的新图像。本研究使用默认设置。
还应注意到,Descriptron可用于从轮廓提取半地标和/或直接训练和预测单个地标,通过“半地标标记”按钮,用户可选择预测单个地标或半地标。关于轮廓到半地标或单个地标转换的详细解释,请参阅Descriptron GitHub。
实例分割和形态测量与VLMs及GPT-4V微调的集成
Descriptron在图像上叠加类别名称和轮廓。用户可指定颜色、轮廓不透明度和相关形态字段。本研究在单个图像上叠加为翅室开发的所有类别,但叠加轮廓也可一次加载一个。
使用OpenAI Python库,Descriptron将数据发送到微调API。或者,用户可依赖原样GPT-4o。“GPT-4特征化”按钮处理整个图像文件夹,使用关于形态特征的标准化查询。
对于训练数据集,使用40个Melanastera前翅描述构建微调模型,以帮助描述作为测试属的Russelliana前翅。微调还包含一个“种子提示”,包含训练场景。种子提示可自定义并通过“–-preface”命令注入而无需微调,或使用“--seed_prompt”或文本文件“--seed_prompt_file”为微调中每个问题添加种子提示。这通过用户提供的TSV文件(包含问答对)实现,Descriptron将其转换为GPT-4V微调的JSONL文件。图像使用openai python库嵌入base64。通常50-100个精心选择的示例足够。本研究尝试微调GPT-4V,使用40个Melanastera前翅描述应用24个问答集以及标注的Melanastera前翅图像。
GPT-4V模型预测及通过形态视觉问答(VQA)自动物种描述生成
使用标准化分类查询和从标注图像提取的形态数据作为GPT-4V的提示,用于43种Russelliana物种。使用与GPT-4V微调相同的24个问题,并添加“种子提示”。种子提示为个体分类问题设置场景。微调模型用于我们的VQA任务以收集推定形态数据。
来自24个VQA任务的推定描述加上模拟标签数据然后批量处理到GPT-4o中,使用相同种子提示。种子提示包含三个Melanastera前翅描述,如它们在裂木虱科分类物种描述中通常出现的形式。然后要求GPT-4o生成前翅的部分物种描述。通过此方法,Descriptron将关于形态特征的个体答案合并为基于种子提示分类描述的合理描述。作为比较,收集相同物种的专家分类学家生成描述作为参考数据集。
简要概述,Descriptron使用rouge python库计算ROUGE分数比较自动化和专家文本。还传递前翅描述文本和图像的联合嵌入到CLIP;Descriptron然后提取这些联合嵌入并通过使用Pairwise Controlled Manifold Approximation(PaCMAP)和余弦相似性的探索性聚类扁平化它们。
更详细地,为评估自动化和专家描述间词汇选择和句子结构的相似性,使用Python rouge包计算ROUGE指标——包括ROUGE-1、ROUGE-2和ROUGE-L。这些指标量化文本间的n-gram重叠和最长公共子序列。此外,从每个描述提取形容词和名词的共现频率生成词对同线性图谱。然后生成网络图以可视化两组描述间语言特征的重叠。计算这些图上的Jaccard相似指数以比较节点和边缘词汇选择。
对于图像和文本内容的集成评估,使用CLIP为每个物种描述生成联合嵌入。使用预训练语言编码器提取文本嵌入,而从相应视觉编码器获得图像嵌入。两个嵌入连接形成联合表示使用OpenAI的CLIP。计算自动化和专家描述联合嵌入间的余弦相似性以评估整体语义相似性。此外,应用PaCMAP到高维联合嵌入以可视化GPT-4o输出和专家生成描述间的潜在聚类差异。
每个自动化物种描述手动审查错误,错误定义为错误描述或省略的形态特征。对于每个描述,记录错误并根据特征是否有显式图像标注(标注)或未标注分类。尽管翅痣被标注,轮廓覆盖了标签, effectively使其成为未标注类别。然后执行Wilcoxon符号秩检验(使用Python中SciPy库)以统计比较标注和未标注形态特征间的错误计数。
为调查物种描述提示的可重复性,使用基础GPT-4o模型。评估对问题子集响应的 consistency,选择19个词汇标记较短的问题以使比较更经济,因为API按输入标记收费。比较48个标本的这些19个问题的描述,每个温度10个重复:0.01(非常低温度,创造性较低)、0.20(默认温度,再现性和创造性间良好权衡)和0.50(较高温度,更创造性)。即每个温度9120个提示,总计27360个提示,或超过1500万个请求标记发送到GPT-4o API。
对于每个物种和温度,计算重复间的平均成对ROUGE分数(种内一致性)。因为ROUGE有界[0,1]且非正态分布,使用SciPy中非参数重复测量检验:跨温度的Friedman检验评估全局效应(scipy.stats.friedmanchisquare),接着当显著时,温度间成对Wilcoxon符号秩检验(scipy.stats.wilcoxon,双侧,配对)。使用Holm(Holm–Bonferroni)校正控制多重比较。为传达效应大小,报告温度间ROUGE中位数配对差异与bootstrap 95% CI(5000重采样)。分析限于所有比较温度可用结果的物种(配对设计;缺失对丢弃)。每个温度显著性评估于α = 0.05。
生成43个自动化描述,每个Russelliana物种一个。分类学家和GPT-4o生成的物种描述可在Descriptron GitHub页面的Appendix 1文件夹中找到。
通过ROUGE分数比较GPT-4o描述与分类学家描述显示平均ROUGE-1约0.45、ROUGE-2约0.11和ROUGE-L约0.22。词对同线性图谱揭示形容词和名词的部分重叠。ROUGE-n(此处报告为F1)范围从0到1,其中1表示候选文本和参考文本间 identical词汇重叠,0表示无重叠;值越高越好。在本结果中,例如ROUGE-1约0.45反映 moderate单字重叠,ROUGE-2约0.11低双字重叠,ROUGE-L约0.22 modest最长公共子序列匹配,与自动化和专家描述间 noticeablewording和phraseology差异一致。
从同线性图谱,30个最常见词形成名词-形容词对和独特词对,使用Jaccard相似指数进行比较。Jaccard相似性(用于形容词-名词图)也范围从0到1,1表示节点/边完全重叠;我们的节点Jaccard 0.297和边Jaccard 0.096指示有限共享词汇和配对。对于独特词对,Jaccard相似性为0.297和边0.001,显示较弱、非常有限相似性。
同线性图表明物种描述间显著语义差异。就独特名词而言,分类学家使用40个独特名词,41个重叠,GPT-4o使用67个独特名词。分类学家描述中使用的独特形容词为46个,27个共享,GPT-4o使用24个独特形容词。
文本-图像嵌入的余弦相似性平均约0.94,但PaCMAP图指示GPT-4o与分类学家描述的 distinct聚类,建议 semantically不同强调。联合(图像+文本)嵌入间的余弦相似性位于[?1, 1](实际上此处[0, 1]);值越接近1表示关于相关图像的表示越相似。平均约0.94建议专家和自动化描述间强高层对齐,即使表面wording不同。
平均而言,微调GPT-4o模型引入约5.5错误每个物种描述。缺乏显式图像标注的特征更可能被错误描述。标注与未标注特征间出现显著差异(Wilcoxon符号秩检验:统计量=80.0,p值=7.59e?05,效应大小r=0.7567),标注特征 somewhat减少错误。对于Wilcoxon符号秩检验,较小p值指示差异更强证据,效应大小r(0–1) contextualises幅度(~0.1小,~0.3中,≥0.5大)。此处,p=7.59×10?5和r=0.76指示基于我们有限样本大小,标注与未标注特征错误 modest减少。
尽管这些错误,个体描述包含更多细节,因为每个前翅进行了更多测量,而描述其余部分包含相似信息。例如,见图4。
跨温度GPT-4o模型可重复性比较通过重复测量分析显示温度显著影响运行间一致性(Friedman检验:ROUGE-1 p=1.4×10?21;ROUGE-2 p=6.7×10?20;ROUGE-L p=2.1×1016)。成对Wilcoxon检验与Holm校正指示其中“T”等于温度,T=0.20产生更高种内相似性比 both T=0.01(ROUGE-1中位数Δ=0.116 [0.106, 0.125];ROUGE-2 Δ=0.065 [0.058, 0.083];ROUGE-L Δ=0.085 [0.080, 0.105])和T=0.50(ROUGE-1 Δ=0.052 [0.047, 0.058];ROUGE-2 Δ=0.114 [0.095, 0.122];ROUGE-L Δ=0.100 [0.082, 0.112];所有p<0.005 Holm)。T=0.50超过T=0.01在ROUGE-1/2但非ROUGE-L(Δ=0.003 [?0.007, 0.009], p=0.22)。因此我们使用T=0.20(也是GPT-4o默认温度)作为分类描述默认以最大化可重复性。为易于解释,提供每个温度运行和ROUGE分数的Tukey箱线图。
ROUGE分数、同线性图和PaCMAP VLM嵌入聚类均指示通过Descriptron的GPT-4o产生物种描述与分类学家 derived描述 distinctive相比。Descriptron生成描述还包含每个物种错误需要用户修正。这表明尽管物种描述自动化非常 promising,手动监督和后编辑仍然必要以产生准确分类描述。尽管这些问题,大多数描述 largely准确。重要的是,输出质量和修正所需时间间权衡导致显著净收益。在不到半天编辑中,43个物种描述大多数错误可被修正,相比从头编写描述节省大量时间。通过视觉提示包含减少错误率,如与未标注图像生成描述比较 weakly显著改进所示。进一步包含详细特征标注可能更多改进结果,这应在未来工作调查。来自其他旨在优化VLM性能研究证据支持此可能性。
额外微调可能进一步改进结果。未来工作应实验微调示例数量和图像用轮廓和文本标注是否增强VLM对主题理解。优化VLMs for VQA任务是AI领域活跃研究领域,分类学有 valuable贡献于进步。GPT-4o当前是AI前沿模型之一,在数学和科学回忆任务表现良好。然而当回答主要视觉的分类问题时,它经常挣扎并 pushed到其可靠返回准确文本限制。因此我们高度推荐验证其响应,应视为需要大量编辑用于分类目的 first粗草案。未来工作还应优先发展标准化基准分类数据集以帮助评估和比较不同VLMs性能。
提供种子提示也 critically重要。在初始实验中,我们发现无种子提示设置场景,GPT-4o会误解轮廓为实际形态特征并有困难链接标签到颜色编码特征。提示设计是基础模型行为主要方差来源,所以固定种子提示作为实验控制锚定模型对任务解释。在我们设置中,我们定性观察到无种子提示,模型一致对待彩色轮廓为形态特征而非感兴趣区域指示器。也重要提示文本是颜色编码轮廓标签作为感兴趣区域;否则VLM模型可能被文本/叠加误导(“排印攻击”)。简洁种子提示显式陈述叠加含义(例如“轮廓突出ROIs;不描述轮廓颜色/形状”)和模型应基于观察什么约束行为,减少指令漂移和改进跨多次运行一致性。更广泛地,提示应拼写包含和排除和定义关键术语,所以模型先验对齐领域约定和避免快捷提示。尽管我们不在此报告统计,跨物种标准化种子提示确保输出差异反映图像内容而非提示措辞,改进可重复性和可解释性。
微调GPT-4o与文本和图像让你烘焙领域特定指令例如“轮廓标记ROIs;忽略叠加颜色/形状”,所以模型默认到期望行为而无重复长种子提示每次调用。微调VLMs也广泛显示改进可控制性和指令遵守,减少需要多少提示工程或上下文脚手架每次。这也减轻一些提示敏感性(小wording或格式变化 variation),这是当单独依赖提示时不稳定 known来源,使其有用用于跨重运行可重复性。
基于我们经验,我们推荐用户 both微调和注入短种子提示帮助引导VLM到期望形态特征通过轮廓和/或文本标签标注为最佳结果。通过视觉提示和系统提示工程减少错误仍然是计算机科学领域内活跃研究领域。这定位VLMs优化用于分类物种描述调查在相同研究领域;即提示工程非平凡任务并对VLM预测有大影响。即使这些潜在防止VLM错误保障,错误预测仍然常见,测试更统一种子提示和微调协议应进一步调查以优化VLMs用于分类学。
成本是另一个考虑因为Descriptron使用GPT-4o OpenAI API,它是订阅免费但API按输入和输出标记收费。标记 recharge速率相当合理即使使用高分辨率图像作为输入提示部分。当前,截至2025年8月(使用OpenAI定价计算器和GPT-4o费率):低细节512×512图像约70基础+140×1=210图像标记;在5/1M输入标记约0.001。1024×1024(2×2 tiles)约630标记=0.003;2048×2048(4×4)约2310标记=0.012;4096×4096(8×8)约9030标记=0.045仅输入成本;生成文本单独计费在20/1M输出标记。精确计数变化通过“输入保真度/细节”设置可修改,但我们建议使用最详细设置。微调总成本约4.00,和29,623图像文本提示对检查或15,792,373输入标记在最高保真度设置加上相应输出在2025年8月为47.23,使其节俭使用资源用于处理超过29,000图像提示对。
另一个潜在解决方案将绕过VLMs用于一些任务通过使用精炼形状测量提取通过计算机视觉库,例如OpenCV。这些测量可能包括不同特征状态比率和分割掩码和关键点详细分析。Descriptron然后可能适应自动填充特征矩阵,可能传递到闭集分类系统,例如随机森林。从这些决策树,诊断或二分键部分可能编写使用VLM或另一个机器学习方法。类似想法已实施在TaxonGPT,它取手动填充Nexus矩阵,链接物种到特征状态和使用GPT-4生成二分键。这似乎是非常 promising方法。此外,特征可能链接通过本体论图谱,可能进一步加速模型生产效率。未来Descriptron迭代可能带此概念进一步通过自动化特征矩阵和特征本体论填充,从而大大减少错误和显著加速数据收集。
Descriptron自动化实例分割、形态测量学、几何形态测量学、颜色提取和基于LLM文本生成提供强大工作流用于描述新物种。通过量化图像和文本,它启用严格统计比较形态数据和结果分类描述。尽管发展模型提取形态特征有显著前期投资,专注此努力到前20最多样进化枝可能显著推进我们理解“黑暗分类群”。树冠雾化研究建议类似模式隐藏超多样性可能存在在科水平,许多历史上中多样科潜在代表超多样“黑暗分类群”。同样,落叶层群落,即使在温带区域,出现 harbour多样“黑暗分类群”和可能也受益于Descriptron应用。这些例证说明工具如Descriptron潜在效用协助描述节肢动物多样性跨各种生态群落和显著推进其分类知识。
我们希望Descriptron将被分类学家和进化生物学家采用作为描述新物种和收集新形态数据手段。这反过来将加深我们理解地球生物多样性和我们星球生命 intricate复杂性。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号