
-
生物通官微
陪你抓住生命科技
跳动的脉搏
全球水稻多类别分割数据集RiceSEG:推动精准农业与表型组学发展的关键突破
【字体: 大 中 小 】 时间:2025年09月07日 来源:Plant Phenomics 6.4
编辑推荐:
为解决水稻表型分析中多器官精准分割的难题,南京农业大学联合国际团队构建了首个全球性水稻多类别语义分割数据集RiceSEG。该研究采集5国6000余种基因型的高分辨率图像,标注6类关键目标(背景/绿色植被/衰老植被/穗/杂草/浮萍),并建立基于CNN和Transformer的基准模型。数据集显著提升了生殖期复杂冠层结构的识别精度,为智慧育种和精准农业提供了重要数据支撑。
在全球粮食安全面临气候变化的严峻挑战下,水稻作为养活世界半数人口的主粮作物,其表型精准分析成为育种和栽培研究的关键瓶颈。传统人工测量方法效率低下,而现有计算机视觉技术受限于两大难题:一是水稻器官结构精细(如薄叶片、细茎秆),二是冠层内复杂的光照条件导致相互遮荫和水面反光干扰。更棘手的是,当前公开的水稻图像数据集多为单一类别分割,缺乏同时涵盖多器官、多生长阶段及杂草的标注数据,严重制约了深度学习模型在农业场景的应用。
针对这一空白,由南京农业大学领衔的国际团队在《Plant Phenomics》发表了全球首个水稻多类别语义分割数据集RiceSEG。研究人员历时12年,联合中国、日本等5国12个机构,收集了涵盖6000余种基因型的5万张高分辨率田间图像,从中精选3078张样本进行像素级六分类标注。创新性地采用超像素标注工具提升效率,并通过三重交叉验证确保标注一致性。
关键技术方法包括:1)跨纬度多中心采样策略,覆盖中国东北至南部主要稻区;2)基于JavaScript的超像素标注系统实现精细分割;3)设置512×512像素的统一裁剪标准;4)采用FCN、DeepLabV3+等6种前沿模型建立基准性能。
研究结果方面:
数据集多样性分析
通过UMAP降维可视化显示,中国数据集因覆盖最广的基因型-环境组合呈现最大分布范围,其他国家数据则填补了特定生态区的空白。
像素级基准测试
Transformer模型(如Mask2Former)整体优于CNN,mIoU达74.69。但衰老植被识别仍是难点(最佳IoU仅52.98),反映出底部叶片在阴影下的标注歧义。
图像尺度验证
在估算叶面积指数等表型参数时,Mask2Former对绿色植被和穗的像素比例预测R2>0.9,但杂草识别RMSE达15.7%,凸显复杂背景下小目标检测的挑战。
讨论部分指出,RiceSEG的革命性价值体现在三方面:首次实现从营养生长到生殖期的全周期器官动态追踪;通过纳入杂草类别助力田间机器人开发;多国数据确保模型泛化能力。值得注意的是,日本等国的样本量虽与中国接近,但基因型多样性不足可能引入地域偏差。未来可通过合成数据(synthetic data)技术增强少数类别的表征。
该研究建立的开放共享平台(global-rice.com)标志着植物表型组学向开源协作迈出关键一步。正如通讯作者Shouyang Liu强调,只有打破数据孤岛,才能加速AI模型在应对粮食安全挑战中的实际部署。这项工作不仅为水稻表型分析设立了新标准,其方法论更可扩展至小麦、玉米等主粮作物,为智慧农业提供普适性解决方案。
生物通微信公众号
知名企业招聘