水平联邦学习的成本高效特征选择

水平联邦学习中高效特征选择的新方法研究


近年来,随着联邦学习(Federated Learning, FL)逐渐成为一种保护数据隐私的分布式机器学习方法,如何在不同用户(即客户端)之间共享信息以训练高效的全局模型,吸引了广泛的关注。在水平联邦学习(Horizontal Federated Learning, HFL)中,所有客户端共享相同的特征空间,但各自的数据样本不同。然而,数据特征的冗余和维度灾难问题严重影响了模型的性能和训练效率。为此,特征选择(Feature Selection, FS)作为机器学习中的一种重要预处理技术,在去除冗余特征和增强模型性能方面具有突出的作用。本研究针对HFL场景下的特征选择问题提出了新方法,以解决这一领域的关键挑战。

论文来源

本论文题为 “Cost-Efficient Feature Selection for Horizontal Federated Learning”,作者包括 Sourasekhar Banerjee、Devvjiit Bhuyan、Erik Elmroth 和 Monowar Bhuyan,依托于 Umeå University 计算科学系与 Tezpur University 电子与通信工程系的合作研究。论文发表在 IEEE Transactions on Artificial Intelligence 杂志2024年第12期,并受 Knut 和 Alice Wallenberg 基金支持。

研究背景

传统的特征选择方法多基于集中式计算,但在联邦学习场景中,数据分布受到隐私要求的限制,客户端不共享其本地数据,同时各客户端特征子集可能存在显著差异。这导致以下核心问题: 1. 特征重要性本地评估的结果可能存在统计偏差,影响全局模型更新的稳定性。 2. 客户端选择的特征子集可能缺乏一致性,导致难以进行统一的模型训练。 3. 数据特征的冗余与维度灾难,使训练时间增长,模型性能下降。现有方法在处理非独立同分布(Non-IID)数据时,尤其在特征选择与全局模型训练的结合方面尚存不足。

针对上述问题,该论文提出了一种名为 Fed-MOFS 的新方法(基于多目标优化的联邦特征选择方法),以有效解决 HFL 中的特征冗余与选取一致性问题,同时比较另一种基于评分函数的传统方法 Fed-FIS 的性能。

研究方法与流程

Fed-MOFS:多目标优化特征选择

Fed-MOFS 在本地特征选择时利用了互信息(Mutual Information, MI)和特征聚类技术,采用 Pareto 优化(多目标优化)策略进行全局特征排名,从而实现特征集的无偏选择。

研究流程:

  1. 本地特征选择(Local FS)

    • 在每个客户端,基于 MI 度量计算每个特征对分类目标的重要性(Fcmi),并评估特征间的冗余性(Affmi),分别形成单维向量。
    • 使用 K-Means 聚类方法对特征重要性(高 Fcmi)和低冗余性(低 Affmi)特征进行聚类优化,得到本地特征子集。
  2. 全局特征选择(Global FS)

    • 客户端将本地选取特征集的特征得分发送至服务器。
    • 服务器采用 Fed-MOFS 策略,基于多目标优化原则(最大化 Fcmi,最小化 Affmi 值),生成特征 Pareto 前沿(Pareto Fronts)并根据 Domination 排列特征排名。
  3. 模型训练与验证

    • 根据排序选取全局特征,客户端使用 Federated Averaging (FedAvg) 或 Federated Forest 算法联合构建全局模型。
    • 检测特征选择是否影响模型收敛性,并评估在不同数据分布(IID 和 Non-IID)及客户端参与率条件下的模型性能。

Fed-FIS 比较方法

作者提出了另一基线方法 Fed-FIS,其通过评分函数综合重要性与冗余性(Score = Fcmi - λAffmi)对特征进行全局排序。虽然算法简单易于实现,但缺乏针对多目标权衡的优化能力。

研究结果与分析

性能表现

通过使用多个数据集(如 NSL-KDD99、ISOLET、IoT 等)验证: - Fed-MOFS 在 712 分类数据集中优于其他方法,包括传统方法(如 ANOVA、RFE)和现有联邦特征选择方法(如 FSHFL、Fed-MRMR)。尤其在非独立同分布(Non-IID)条件下,Fed-MOFS 展现了更高的准确率(例如 IoT 数据集:准确率为91%,高于 Fed-FIS 和 Fed-MRMR)。 - 回归任务中,Fed-MOFS 和 Fed-FIS 表现优于 Fed-MRMR。在 Boston Housing 数据集中,Fed-MOFS 的均方误差(RMSE)低于9.0,模型达到最高稳定性。

稳定性和效率分析

  • 在稳定性方面,Fed-MOFS 和 Fed-FIS 的确可以减少超过50%的特征空间,同时保持模型性能稳定。
  • 在效率方面,Fed-MOFS 和 Fed-FIS 至少比 FSHFL 快2倍。例如,在 ACC 和 IoT 数据集上,Fed-MOFS 与 Fed-FIS 相较 FSHFL 分别快 26s 和 14s。

非独立同分布和扩展性实验

研究表明在客户端的非独立同分布(γ)因子和参与比例(δ)变化下,Fed-MOFS 通过优化显著减少由数据异质性导致的差异。实验发现,50%的客户端参与率已经足够生成泛化性良好的全局模型。

模型收敛性

进一步研究显示,无论是全特征空间还是选取后的特征子集,Fed-MOFS 和 Fed-FIS 均不影响全局模型的收敛性,表现出鲁棒性。

研究意义与展望

Fed-MOFS 和 Fed-FIS 的提出为水平联邦学习中的特征选择提供了高效且可扩展的解决方案,在异质数据分布以及部分客户端参与条件下依然表现卓越。这一研究为跨领域应用(如金融欺诈检测、智能家居异常检测等)提供了新的方法论支持。

未来,作者计划扩展该算法至多模态数据环境,进一步开发支持异常检测与传感数据分布特点的特征选择方法。