在医学领域,样本获取与收集的挑战常使多类模型面临训练集不平衡问题,尤其在疾病亚型鉴别中。本研究针对血清拉曼光谱数据的疾病亚型分类,提出一种解决多类不平衡的新方法。通过按噪声水平对样本分组并采用分层增量学习,平衡训练数据并减轻增强引入的噪声,提升模型区分相似疾病亚型的准确性。研究收集两种肝炎亚型及对照组的不平衡血清拉曼光谱数据,对比卷积神经网络(CNN)和随机森林(RF)模型在原始数据与增强数据(与模型训练数据一致)上的表现。结果表明,该方法在样本不平衡下可有效对相似疾病亚型分类,尤其适用于样本量有限的情况,在肝炎数据上准确率和 F1 分数均超 95%。但其更广泛的适用性和潜力需进一步研究验证。所有代码可在https://github.com/RuiGao-1223/GHIL获取。