编辑推荐:
针对未标记混合信息表的序贯三分决策问题,研究人员提出序贯三支决策(S3WD)新模型,构建基于正 / 负区域的二分类器。实验验证算法有效性,显示其在二分类任务中的优势,丰富了 S3WD 理论,具应用潜力。
在数据挖掘与机器学习领域,处理不确定性问题始终是核心挑战之一。传统的二分类方法常因信息不完整或模糊性导致决策偏差,而三支决策(3WD)理论通过将决策空间划分为正、负、边界三个区域,为解决这类问题提供了新思路。序贯三支决策(S3WD)作为 3WD 的延伸,旨在通过多阶段动态调整边界区域,逐步细化决策,但其现有模型大多依赖决策理论粗糙集(DTRS),且主要应用于标记数据的概念分析,在未标记数据的预测分类中存在理论空白。如何构建纯 S3WD 模型,实现对未标记数据的序贯三分决策,成为拓展 3WD 理论应用边界的关键问题。
为填补这一研究空白,国内研究人员开展了题为 “Sequential three-way decision with adaptive thresholds and its applications in two binary classifiers” 的研究,相关成果发表在《Expert Systems with Applications》。该研究提出一种全新的 S3WD 模型,突破传统 DTRS 框架,基于固定信息粒度下的多级动态聚类结构,实现对未标记数据的序贯三分决策,并构建了基于正区域和负区域的二分类器(S3WC-P 和 S3WC-N),为二分类任务提供了更灵活的解决方案。
研究主要采用以下关键技术方法:
- 粗糙集理论(RS):用于标记训练集的概念分析,生成正区域(POSY(X))、负区域(NEGY(X))和边界区域(BNDY(X))。
- 动态聚类与概率计算:引入 “参考元组” 和 “相关度” 构建动态聚类空间,通过定义三个概率函数计算对象在各阶段三分区域的概率,实现自适应阈值选择。
- 序贯决策机制:通过多级聚类结构逐步缩减边界区域,结合粗糙集的属性约简结果,对未标记测试集进行序贯分类。
研究结果
1. 序贯三支决策模型(S3WD)的构建
研究提出 S3WD 的形式化定义,其核心在于通过多级动态聚类实现固定属性集下的序贯三分决策。与传统 DTRS 模型不同,该模型无需依赖属性集递增的粒度细化,而是通过 “参考元组” 生成动态聚类空间,利用概率函数精确计算对象属于正、负、边界区域的概率(Pi(x)、Ni(x)、Bi(x)),并通过整体评估指标确定各阶段阈值对(αi, βi),实现对未标记数据的序贯划分。
2. 二分类器 S3WC-P 和 S3WC-N 的设计
- S3WC-P(基于正区域的序贯三支分类器):通过粗糙集对标记训练集进行概念分析,生成正区域参考元组,利用 S3WD 对未标记测试集进行序贯决策,最终输出二分类结果(X 或 ?X)。
- S3WC-N(基于负区域的序贯三支分类器):以负区域为参考元组,采用类似机制实现对反概念(?X)的序贯分类。
3. 实验验证与性能分析
在 UCI 机器学习数据集上的实验表明,S3WC-P 和 S3WC-N 在二分类任务中表现出优于传统算法的分类精度。参数敏感性分析显示,动态聚类的层级数与分类准确率呈正相关,但过度增加层级会导致计算成本上升。对比实验进一步证明,基于动态聚类和概率评估的 S3WD 模型在处理混合信息表时具有更强的鲁棒性。
研究结论与意义
该研究构建了首个基于固定属性集的纯 S3WD 模型,突破了传统 DTRS 框架对属性粒度递增的依赖,为未标记数据的序贯决策提供了新范式。通过将粗糙集的概念分析与 S3WD 的动态决策相结合,所设计的 S3WC-P 和 S3WC-N 分类器实现了标记数据与未标记数据的有效衔接,拓展了三支决策理论在机器学习中的应用场景。实验结果不仅验证了算法的有效性,还揭示了动态聚类结构与分类性能的内在联系,为后续多分类任务和复杂数据环境下的决策问题提供了理论基础和方法借鉴。该研究成果对数据挖掘、模式识别等领域具有重要参考价值,有望推动三支决策理论在医疗诊断、金融风控等不确定性问题中的实际应用。