利用高通量显微镜和机器学习技术实现淀粉颗粒的自动化分类
《Journal of Archaeological Science》:Automated starch granule classification using high-throughput microscopy and machine learning
【字体:
大
中
小
】
时间:2025年11月17日
来源:Journal of Archaeological Science 2.5
编辑推荐:
淀粉分析是考古学中研究人类与植物互动的重要手段,传统方法依赖人工测量和参考图像比对,耗时费力且准确率受限。本文提出结合多光谱显微流式细胞术(MIFC)与机器学习(ML)的新方法:MIFC高效采集大量淀粉颗粒图像,通过图像识别算法(ResNet-18)直接训练分类模型,避免传统人工测量步骤。实验使用15种北美常见植物(如玉米、大豆、野生水稻等)的15,000张MIFC图像训练模型,平均验证准确率达89.5%,部分物种准确率高达100%。该方法显著提升效率,为考古淀粉分析提供快速、经济且精确的工具。
淀粉粒分析在考古学中被广泛用于研究人类与植物之间的互动,包括野生植物作为食物和药物的加工过程,以及栽培植物的驯化和传播。这一分析方法依赖于识别密钥的开发和使用,而目前发表的几乎所有淀粉粒识别方法要么在制作和应用过程中耗时,要么在统计验证其准确性方面存在困难。本文提出了一种新的方法,有效缓解了当前方法在两个主要生产瓶颈上的限制。首先,传统的淀粉粒参考图像采集过程通过多光谱成像流式细胞术(MIFC)得到了加速。MIFC是一种高通量显微镜,能够在短时间内采集数千张图像。其次,传统上需要手动收集单个淀粉粒的测量数据的步骤被省略,取而代之的是直接使用处理后的图像集来训练图像识别(机器学习)算法进行物种识别。该方法的识别准确率与现有方法相当甚至更高。当使用来自北美15种植物的15,000张淀粉粒图像进行验证时,准确率高达100%。这种方法有望为考古材料中回收的淀粉粒提供一种可行、经济且准确的识别手段。
淀粉粒是光合作用产生的高热量产物,通常存在于植物的储存器官中,如种子(谷物、豆类、豆荚等)和地下储存器官(如块茎、鳞茎、根茎等)。与其他植物部分一样,淀粉粒在不同物种之间具有视觉上的可区分性。从陶瓷、研磨石、牙结石、粪化石、沉积物和木乃伊肠道内容物等考古材料中回收淀粉粒,可以帮助研究人员了解古代某些植物的使用情况及其方式。淀粉粒分析的具体应用包括:研究美洲农业的传播、直接证据显示饮食结构、酒精制造、重建古环境以及推断工具的功能。
然而,传统淀粉分析的一个问题是,开发特定物种的识别标准是一个非常耗时的过程,需要对多种植物产生的淀粉集合进行广泛的比较。与花粉和种子不同,植物通常在相同组织中产生多种淀粉形态,这些形态可能并不独特于特定物种。种内变异可能部分归因于淀粉粒在进化压力下不如生殖结构(如花粉和种子)那样趋于一致。此外,研究表明驯化过程可能会影响淀粉形态,这可能导致驯化物种内部的变异性低于野生物种。
由于淀粉的固有复杂性,获得可靠的识别标准变得更加困难,并且高度依赖于用于比较的物种数量和其他因素。因此,目前仅能成功识别的植物种类相对较少。本文提出了一种新的淀粉粒识别方法,结合了多光谱成像流式细胞术(MIFC)和机器学习技术,该方法最初由Dunker等人(2022)提出。该方法旨在利用现代植物的淀粉粒进行训练,最终应用于北美考古材料中回收的淀粉粒分类。因此,目标物种包括一些北美本地植物,以及已知被原住民使用的植物,或者像玉米、豆类和南瓜这样的广泛驯化物种。
在机器学习领域,已有多种方法被应用于考古学,例如利用遥感数据检测遗址、对陶器进行分类以及翻译楔形文字板。在考古植物学中,机器学习技术也被用于分类硅质体、葡萄籽和薄壁组织。考古学家还使用图像识别技术,通过收集和处理常规显微镜下的显微图像,来区分小麦和大麦的硅质体。类似地,使用图像识别和常规显微镜区分两种小麦的淀粉粒也取得了成功。
多光谱成像流式细胞术(MIFC)可能是一种适用于淀粉粒识别算法的替代方法。MIFC的优势在于其能够快速收集大量图像,这对图像识别算法来说至关重要。MIFC收集的图像具有中性且一致的背景,有助于对象检测。此外,一致的背景还使得图像分割这一在常规显微镜下训练神经网络的步骤变得不必要。MIFC能够以40倍和60倍放大倍率在明场和/或暗场下拍摄图像,并且还有另外10个荧光通道可以同时拍摄自荧光粒子和使用免疫荧光染色的粒子的荧光信号。
在本文中,用于分析的图像集是从30种植物中以40倍放大倍率收集的。由于淀粉本身不自然发光,且样本未使用免疫荧光染色,因此未使用荧光通道2至8和10至12。仅使用了单个明场通道(通道1)的图像。在这30种植物中,选择了15种用于分析,因为它们在北美具有使用价值。每个植物样本的颗粒悬浮液体积从4微升到30微升不等。从这些15种植物中,共拍摄了583,296个颗粒(包括杂质和碎片),每种植物样本的颗粒数量从10,000到超过120,000不等。所有单个图像都来源于同一测量过程。为了排除杂质,使用了IDEAS?(v.6.2)软件对收集的图像进行子采样。为了保持类别之间的数据集平衡,每种植物手动选择了1000张个体淀粉粒图像,总计15,000张图像。这些图像包括复合颗粒和半复合颗粒,但不包括聚合体。所有图像从IDEAS?导出为.tif格式,然后进行中心裁剪,并转换为RGB格式。本文中使用的全部15,000张个体淀粉粒图像可在Zenodo上获取(https://doi.org/10.5281/zenodo.17506293)。
为了训练算法,采用了ResNet-18网络,尽管更复杂的网络(如Vision Transformer)可能获得更高的准确率,但ResNet-18因其相对较低的系统要求而被选用。用于训练的Python代码以Jupyter笔记本的形式在Zenodo上发布(https://doi.org/10.5281/zenodo.17506293)。训练过程中使用了ImageNet的预训练权重,以利用迁移学习。训练选项包括交叉熵损失、Adam优化器、初始学习率为1e-4、权重衰减为2e-5,共进行了100个训练周期,其中前5个周期为预热阶段。图像集被随机分为80%用于训练,20%用于验证(每种植物800张训练图像和200张验证图像,总计12,000张训练图像和3,000张验证图像)。为了减少过拟合和捷径训练,训练图像进行了以下增强处理:(1)扩展到224x224像素(ResNet-18所需的尺寸);(2)在图像两侧添加112像素的反射填充;(3)应用随机旋转(±27.5°)和缩放(±20%);(4)将图像裁剪回224x224像素;(5)应用随机垂直/水平翻转(50%概率)、亮度(±12.5%)和对比度(±12.5%)增强。这些增强处理的效果通过图像展示,以说明尽管增强处理看起来较为激进,但训练后的图像仍然可以清晰地识别为淀粉粒(见图1)。值得注意的是,图1中未包含标尺,因为标尺可能因增强处理而被翻转、旋转或裁剪,从而可能对分类任务造成不必要的挑战。
验证准确率(VA)值,即正确预测的实例比例(从0到100%),对每种植物分别计算。为了确定VA,算法首先被给予一组训练图像(每种植物800张或总计12,000张),然后对另一组验证图像(每种植物200张或总计3,000张)进行分类。不同类别的VA差异通过混淆矩阵进行可视化。所生成的数据随后与四种其他发表的淀粉粒识别方法(多变量统计、几何形态测量、随机森林和监督模式识别)报告的混淆矩阵进行了比较。然而,在比较报告的准确率时,需要考虑的是,每种方法使用的训练和测试图像分割比例不同,其中Torrence等人(2004)并未对图像进行训练和测试集的划分(见表3)。因此,Wilson等人(2010)和Arráiz等人(2016)使用更不保守的训练到测试比例可能提高了其整体准确率,而Torrence等人(2004)使用独立测试图像可能降低了其准确率。此外,Wilson等人(2010)和Arráiz等人(2016)的方法都使用了自动边缘检测(AED),而淀粉的光学特性已被证明会干扰AED(Coster和Field, 2018)。因此,如果他们没有使用AED,其准确率可能有所提高。
本文的方法与四种其他研究方法进行了比较,包括多变量统计(Torrence等人,2004)、几何形态测量(Coster和Field, 2015)、随机森林测试(Arráiz等人,2016)和监督模式识别(Wilson等人,2010)(见表2和表3)。尽管这些方法在统计方法和图像处理上存在显著差异,但通过包括来自多种植物的淀粉粒(8至29种)并使用混淆矩阵展示每种植物的识别准确率,可以进行方法之间的比较。然而,比较报告的准确率时需要考虑的是,每种方法使用的训练和测试图像分割比例不同,其中Torrence等人(2004)并未对图像进行训练和测试集的划分。因此,Wilson等人(2010)和Arráiz等人(2016)使用更不保守的训练到测试比例可能提高了其整体准确率,而Torrence等人(2004)使用独立测试图像可能降低了其准确率。此外,Wilson等人(2010)和Arráiz等人(2016)的方法都使用了自动边缘检测(AED),而淀粉的光学特性已被证明会干扰AED(Coster和Field, 2018)。因此,如果他们没有使用AED,其准确率可能有所提高。
本文的方法在整体平均准确率上超过了其他四项研究(见表2)。除了本文描述的方法外,唯一报告高度可识别(>90% VA)物种的方法是使用UTHSCSA Imagetool手动收集测量数据(Torrence等人,2004)或使用平板电脑绘制图像(Coster和Field, 2015)。MIFC结合图像识别方法避免了手动测量或绘制颗粒的步骤。Coster和Field(2015)报告的可识别物种包括nardoo(Marsilae drummondii A. Braun)和mulga(Acacia aneura F. Muell ex Benth),而Torrence等人(2004)报告的可识别物种包括香蕉(Musa sp.)、Horsfieldia(Horsfieldia laevigata (Blume) Warb.)、小薯蓣(Dioscorea esculenta (Lour) Burkill)、紫薯蓣(D. alata L.)、棕榈树(Metroxylon sagu Rottb.)和姜(Zingiber officinale Roscoe)。Coster和Field(2015)分析了8种物种,而Torrence等人(2004)分析了29种,这意味着在这两项研究中,大约20-25%的物种被高度识别。相比之下,本文的方法包含了8种(53.3%)高度可识别的物种(见图2)。由于Coster和Field(2015)或Torrence等人(2004)分析的物种未在本文中进行分析,因此无法评估这些方法在识别相同物种时的表现。
有研究表明,增加分类方案中的目标物种数量可能会降低整体识别准确率(Mercader等人,2018)。然而,也有研究表明,增加神经网络(如ResNet-18)的训练图像数量和数据集复杂度应能提高整体准确率(Djolonga等人,2021)。根据表2的结果,增加目标物种似乎并未对识别分数产生负面影响。具有最少物种数量的方法(Wilson等人,2010)具有最低的平均准确率,而具有最多物种数量的方法(Torrence等人,2004)表现相对较好。这可能意味着方法学差异对准确率的影响较大。两个准确率最低的方法(Wilson等人,2010的45.6%和Arráiz等人,2016的52%)都使用了自动边缘检测(AED)来收集淀粉粒的测量数据。淀粉的光学特性已被证明会干扰AED(Coster和Field, 2018)。尽管这些方法分析了9到20种物种,但它们的平均准确率都接近50%。如果忽略使用AED的方法(Wilson等人,2010和Arráiz等人,2016),则可以看出,每种物种分析的颗粒数量越多,分类准确率越高。Torrence等人(2004)分析了29种物种的1998个颗粒(约68.9个/物种),Coster和Field(2015)分析了8种物种的1032个颗粒(约129个/物种),而本研究分析了每种物种的1000个颗粒(见表2)。这一观察结果与我们的McNemar检验结果一致,并且与Coster和Field(2015)和Djolonga等人(2021)的建议相符。
本文提出的方法结合了多光谱成像流式细胞术(MIFC)和机器学习技术,为淀粉粒的快速准确识别提供了新的可能性。MIFC能够快速采集图像,而图像识别不需要手动测量颗粒。本研究使用MIFC采集的15,000张淀粉粒图像训练了一个图像识别算法进行物种识别。该算法的总体验证准确率(VA)达到了89.5%,这一成绩超过了其他发表的淀粉粒识别方法的整体准确率。未来,该方法可以应用于富含淀粉的考古材料,并将成为后续研究的主题。此外,未来的研究方向还包括使用免疫荧光染色来进一步提高该方法的准确性。免疫荧光染色还可能通过隔离基于荧光信号的图像来加速现代参考材料和考古材料的图像采集。
生物通微信公众号
生物通新浪微博
今日动态 |
人才市场 |
新技术专栏 |
中国科学人 |
云展台 |
BioHot |
云讲堂直播 |
会展中心 |
特价专栏 |
技术快讯 |
免费试用
版权所有 生物通
Copyright© eBiotrade.com, All Rights Reserved
联系信箱:
粤ICP备09063491号