admin管理员组

文章数量:1619183

文章目录

  • Lazily Aggregated Quantized Gradient Innovation for Communication-Efficient Federated Learning论文阅读
    • 总述
    • 概览
      • 动机
    • 背景知识
    • 问题
    • 系统设计
      • 算法流程
    • SLAQ(Stochastic LAQ)
    • TWO-LAQ
    • 实验

Lazily Aggregated Quantized Gradient Innovation for Communication-Efficient Federated Learning论文阅读

总述

年份/期刊:PAMI/2022
简单总结:
传输的参数主体变为梯度更新部分,通过量化和选择性上传来减少通信成本

概览

动机

  • FL系统中,客户端数量多、模型复杂的情况下,通信成本巨大,需要优化

背景知识

  1. 量化
    当前计算机通常使用32或64位来量化浮点数,但是在分布式的背景下,已经提出了一种1位二进制量化方案,同时还有一些多位量化方法
  2. 稀疏化
    梯度稀疏化是指将梯度中的一些小于某个阈值的值设为0,从而减少梯度中的非零元素数量。
    压缩梯度差异(Compressed Gradient Difference)是指只传输梯度的创新部分,即当前梯度与上一次传输的梯度之间的差异,从而减少通信量。
    原子稀疏化(Atomic Sparsification)是指将模型中的参数分解为原子(如字典中的单词),从而减少参数数量

问题

  1. 为什么将梯度更新部分作为传输的参数

系统设计

算法流程

  1. 服务器端广播学习参数向量(learning parameter vector)
    学习参数向量是指机器学习模型中需要学习的参数的向量表示,它是模型在训练过程中需要不断更新的参数
  2. 客户端计算局部梯度量化差异
  3. 客户端随机抽样
  4. 差异比较大的客户端上传数据

选择性上传规则:

  1. 当差异超过一定阈值才进行上传,否则认定为冗余梯度,直接跳过
  2. 没上传的,服务器端重复使用上一个梯度
  3. 如果一个客户端经过t轮都没上传,则强制性上传

SLAQ(Stochastic LAQ)

在原来的基础上,随机化两个地方:

  1. 给计算的梯度差异添加随机扰动
    原因:弥补客户端随机抽样带来的方差
  2. 计算梯度时采用随机梯度下降,随机抽5个样本

TWO-LAQ


双端在传输前都进行量化,进一步降低了通信效率,服务器端需要存储量化后的模型参数和聚合后的模型参数

实验

数据集:MINIST
Baseline:GD,QGD,LAG
Client节点数:10,IID
实验的问题:

  1. 不像联邦学习,10个节点,
  2. number of communication
  3. 模型实验不多,最多的就是CNN模型+CI

本文标签: 论文QuantizedGradientLazilyAggregated