基于简化核的成本敏感广义学习系统在故障诊断中的应用
基于简化核的代价敏感广泛学习系统(SKCSBLS)应对不平衡故障诊断的研究报告
研究背景及意义
进入工业4.0时代,智能制造日益依赖于工业大数据分析,通过提取机器运行数据中的关键信息,可以提升设备健康管理的有效性,从而实现企业生产的安全性和高效性。然而,在实际工业应用中,不平衡数据给智能制造领域的故障诊断带来了严峻挑战。多数情况下,设备运行数据中正常状态的数据占压倒性多数,而故障数据往往稀少。这种类别分布不均衡可能导致模型的预测准确性下降,并使得小类别(故障类别)难以被有效识别。
目前,深度学习方法(如卷积神经网络和递归神经网络)被广泛应用于故障检测。但这些模型需要大量的训练数据,如果数据量有限,则易出现过拟合问题;此外,这些方法的计算复杂度较高,训练耗时较长。因此,科研人员开始关注结构较为简单、模型训练高效的广泛学习系统(Broad Learning System, BLS)。
BLS具有单层网络结构,其特征节点和增强节点采用线性计算,具备数据一致性及增量训练的能力。然而,由于其对数据分布较为敏感,在处理不平衡数据时表现较差。针对上述问题,本文提出了一种新型方法,名为基于简化核的代价敏感广泛学习系统(Simplified Kernel-based Cost-Sensitive Broad Learning System, SKCSBLS),以更高效、更鲁棒的方式解决不平衡分类问题,特别是在工业故障诊断中的应用。
论文来源及作者信息
本文以 “Simplified Kernel-based Cost-Sensitive Broad Learning System for Imbalanced Fault Diagnosis” 为题,发表于 *IEEE Transactions on Artificial Intelligence*(2024年12月,第5卷,第12期)。论文由来自华南理工大学和华侨大学的研究团队完成。主要作者包括:Kaixiang Yang(杨凯翔,IEEE会员)、Wuxing Chen(陈武兴)、Yifan Shi(史一凡,IEEE会员)、Zhiwen Yu(余志文,IEEE高级会员)及 C. L. Philip Chen(陈常乐,IEEE终身院士)。该研究得到了中国国家自然科学基金、福建省自然科学基金、以及泉州市高层次人才项目等多项基金的资助。
研究概要及技术流程
方法及研究设计
本文核心贡献在于提出了一个融合代价敏感机制与简化核映射的广泛学习系统(SKCSBLS)。其主要模块分为以下几个步骤:
代价敏感广泛学习系统(CSBLS)的构建
- 基于传统BLS模型,为不同类别设置了代价敏感参数,使其在训练过程中更加关注小类别样本。
- 代价敏感机制通过引入对类别误分类的不同惩罚系数(如C+和C-),优先降低小类别样本的误分类率。
核映射方法的引入
- 为了解决不平衡数据中噪声点和类别重叠问题,CSBLS进一步融入核映射模块,将原始特征映射到一个更高维的核空间,提高了分类鲁棒性。
- 核函数选用了高斯核函数(Gaussian Kernel),其参数通过网格搜索优化。
简化核技术的应用
- 为提高计算效率,该研究提出了一种创新的简化核映射方法,减少了核函数计算过程中的维度及时间复杂度。
- 通过随机抽样,将数据从原始核矩阵中提取为更小的子集,大幅降低了计算成本。
简化优化流程
- 利用核矩阵伪逆的快速优化方法获取输出权重矩阵,进一步提升模型在大规模数据集上的适应性。
实验设计
研究使用了多种数据集进行验证,包括19个来自UCI和KEEL库的典型不平衡数据集,以及两个真实工业场景的数据集(CWRU轴承数据与IMS数据)。每个数据集的不平衡率(Imbalance Rate, IR)从2.48到36.67不等。研究中对比了多种不平衡学习算法,如Weighted Extreme Learning Machine (WELM)、Weighted Broad Learning System (WBLS)、Cost-Sensitive Extreme Learning Machine (CS-ELM)、AMSCO等。
采用的主要评价指标包括G-Mean(几何平均数)和AUC(受试者工作特征曲线下的面积),并引入五折交叉验证以评估模型的稳健性。
研究结果及分析
实验结果
对比性能
SKCSBLS在19个数据集中有14个数据集的分类性能优于现有模型。特别是在高不平衡数据集上(如Page Blocks和Ecoli),取得了G-Mean 0.93以上的优异表现。处理速度
在CWRU与IMS数据集上的测试中,SKCSBLS的运行时间总体低于大多数对比方法,仅次于WELM和WBLS。其优秀性能来源于简化核矩阵在伪逆计算中的快速收敛特性。工业应用分析
在轴承故障诊断应用中,SKCSBLS在两个真实数据集(CWRU和IMS)上展现了稳定的高准确性指标:G-Mean达0.987和0.852,AUC指标分别达到0.985和0.85,远超其余方法,同时在异常数据(如噪声数据)处理上表现良好。
关键亮点
创新性方法
提出的两个核心机制——代价敏感参数引入与简化核映射,在增强模型对小类样本敏感度与优化计算效率上取得了显著成果。工业价值
该方法不仅提供了故障诊断的新思路,还为智能制造中复杂场景的问题解决提供了实践指导,显示了在异常检测与工业监控领域的巨大潜力。
研究意义及展望
本文为解决不平衡数据问题提供了一套高效鲁棒的学习框架,通过代价敏感策略与核映射的结合实现了对小类别样本的精准捕捉。SKCSBLS不仅适用于工业故障检测领域,还有望推广到医疗诊断、文本分类等其他对数据分布敏感的领域。
未来工作可能包括: 1. 更深入的参数自动化优化研究; 2. 拓展多类不平衡学习场景的适用性; 3. 结合更多实际工业数据集验证其稳定性与可扩展性。