admin管理员组

文章数量:1612099

{% note info %}

论文线上阅读

{% endnote %}

Questions

heuristic fundamental
数据少,指的是样本少;
数据的质量低,我觉得并不是数据不可信,而是数据的特征空间小,包含的信息少,建模后并不能得到有效的结论。
早期有一种观点是直接在这种数据少且质量低的情况下训练模型,并致力于提高该模型的精确度。我觉得这不可行,至少使用机器学习的方法不能做到。机器学习研究的是统计问题,归根到底是数学方法,它并不关心数据特征的具体含义,而敏感于数据的分布。我们借助机器学习,最终得到的是期望/可能性,是关于概率的。因此自然是样本越多越好,精确度就越高了。
数据的持有者结成联盟共同训练模型,是另一种观点。我觉得联邦学习走在正确的路上。
1. 如何清洗数据?
理想的方法是直接将所有参与方的数据聚集在一起,不顾虑法律、技术和成本的约束。
而即使这样,因为不同机构所持有的数据或多或少都是异构的,在聚集时就必须将数据对齐,这也意味着非交集数据的损失。
既然如此,为何不先完成对齐,再将数据聚合呢?并且加密需聚合的数据。这一方面,于最终训练效果而言,并没有太大影响;另一方面,又满足了公众对数据隐私的诉求。
2. 什么是数据中毒(data poisoning)?
水平联邦学习增大了样本空间,能够提高模型的精确度;
垂直联邦学期拓宽了特征空间,使得分析结果能够涵盖更多领域,产生1+1>2的效果
联邦迁移学习到底是什么?
联邦学习中,参与者越多越好吗?

Abstract

{% hideToggle 词汇 %}

词汇 解释 词汇 解释
strengthening n. 加强 propose vt. 提出,建议
beyond prep. 晚于,迟于 secure federated learning 安全联邦学习
federated transfer learing 联邦迁移学习 mechanism n. 机制,原理
compromise vt. 泄漏,使陷入危险,妥协 CCS abbr. Council of Communication Societies 通信学会理事会
methodology n. 方法论 phrase n. 短语
GDPR General Data Protection Regulation 通用数据保护协议

{% endhideToggle %}

目前AI领域面临着两个重要的挑战:

  • 在大部分行业中,数据以孤岛的形式存在
  • 加强数据隐私和安全

安全联邦学习(secure federated learning)中包含的三个方面:

  • 水平联邦学习(horizontal federated learning)
  • 垂直联邦学习(vertical federated learning)
  • 联邦迁移学习(federated transfer learning)

论文介绍了联邦学习框架中的一些定义、架构和应用,并全面调查了联邦学习方面已有的工作。此外,论文中还提出了如何在不同的组织之间基于联邦机制来构建数据网络,作为一个解决方案使得能在不泄漏用户隐私的情况下分享知识(knowledge)。

Introduction

{% hideToggle 词汇 %}

词汇 解释 词汇 解释
Go n. 围棋 defeat vt. 击败
cutting-edge adj. 最新的,先进的 medical care 医疗护理
walks of life 各行各业 inevitable adj. 不可避免的
availability n. 可获得性 permission n. 许可
hard copy 复印件 grant vt. 授予
commercial adj. 商业的,营利的 citation n. 引用
fuse vt. 融合 if not impossible 如果有可能的话
recommendation n. 推荐 complicated administrative procedure 复杂的管理程序
integration n. 集成 resistance n. 阻力,反抗
institution n. 公共机构 issue n. 问题
cause great concern 引起巨大的影响 data breach 数据外泄
protest n. 抗议,反抗 enforce vt. 实施
protect vt. 保护,防卫 plain adj. 简单的
stiff fine 硬性罚款,严厉处罚 violate vt. 违反
bill n. 法案 act n. 法令
enact vt. 颁布 Cyber Security Law 网络安全法
General Principles of Civil Law 民法通则 tamper vi. 做手脚,破坏
tamper with 篡改 conduct vt. 实施,进行
obligation n. 义务,责任 pose vt. 造成,形成
dilemma n. 困境,进退两难 data fragmentation 数据碎片
to be more specific 具体而言,准确来说 be responsible for 对…负责
promote vt. 促进 complaint adj. 服从的,顺从的

{% endhideToggle %}

由于市场资金的注入和大数据的支持,AI自2016年便迎来了空前的繁荣。

在大部分领域,数据有限或者数据的质量低,这使得AI技术的实现超乎想象的困难。一种可能的方法就是将不同机构的数据运输到同一个地方融合在一起。但是由于行业竞争、隐私安全和复杂管理程序方面的原因,即使是同一公司内不同部门之间的数据集成也会遇到很大的阻力。

facebook 的隐私外泄引起了广泛的抗议,世界各国开始加强数据安全和隐私方面的法律法规。这也给如今在AI领域普遍使用的数据事务程序带来了新的挑战。

GDPR:

  • 禁止自主的建模和决定
  • 解释模型的决定
  • 授予用户遗忘数据的能力,允许用户删除或者撤销其个人数据
  • 在设计层上就考虑数据隐私
  • 使用清晰简单的语言说明数据使用的用户许可授权

AI 领域中传统的数据处理(data processing)模型涉及了一些简单的数据事务(data transactions)模型,其中一方收集和传输数据到负责清洗并融合数据的另一方,最终一个第三方会得到集成好的数据并构建其他方也可以使用的模型。构建好的模型通常也是最终的产品,作为一项服务销售。传统的处理程序面对着来自新法规的挑战,而用户也可能因不清楚模型在未来的使用从而触犯法律。因此,我们处在这样一个困境中:数据处于一种孤岛的形式,而我们在很多情境中被禁止去收集、融合来自不同地点的数据用以AI处理。

为了促进联邦学习的发展,论文作者希望能将AI发展的焦点从提高模型的表现切换到探索符合数据隐私安全法的数据集成方法上,前者是当前大部分AI领域都在做的事情。

An Overview of Federated Learning

{% hideToggle 词汇 %}

词汇 解释 词汇 解释
effort n. 努力 personalizable adj. 个性化的
optimization n. 最佳化 massive adj. 大量的
partition vt. 分割,区分 decentralized adj. 分散管理的
preliminary adj. 初步的,开始的 foundation n. 基金会
multiagent theory 可替换主体理论 data mining 数据挖掘
workflow n. 工作流程 consolidate vt. 联合,巩固
respective adj. 各自的,分别的 conventional adj. 常见的,惯例的
guarantee n. 保证 identify vt. 鉴别,识别
simulation n. 模拟,仿真 proof n. 验证
complete adj. 完全的,彻底的 desirable adj. 可取的,令人向往的
partial adj. 局部的 disclosure adj. 披露
semi-honest adj. 半诚实的 verification n. 核查,验证
reveal vt. 显示,泄漏 collude vi. 勾结,串通
well-defined adj. 定义明确的,界限清楚的 desire vt. 要求
line of work 行业 anonymity n. 匿名性,匿名者
diversification n. 多样化,分化 obscure vt. 使…模糊不清,隐藏
restore vt. 恢复,重建 approach to 约等于,通往…的方法
transmit vt. 传输,传播 homomorphic encryption 同态加密
adopt vt. 采用,采纳 additively adv. 附加地,叠加地
polynomial approximation 多项式逼近 intermediate adj. 中间的,过渡的
constrain vt. 驱使
n. 约束
scale n. 规模
poisoning n. 中毒 loophole n. 漏洞
variant n. 变体,转变 constant fraction 恒比
blockchain n. 区块链 facilitate vt. 促进,帮助
leverage vt. 利用 scalability n. 可拓展性
robustness n. 健壮性 categorize vt. 分类
identical adj. 完全相同的 regional adj. 地区的,局部的
scheme n. 计划,方案,模式 intersection n. 交集
address vt. 设法解决 straggler n. 掉队者
partition vt. 分割,区分 compression n. 压缩
bandwidth n. 带宽 preserving n. 保护,保存
regression n. 回归 linear adj. 线性的
entity n. 实体 applicable adj. 可应用的,合适的
commerce n. 贸易,商务 revenue n. 收益
expenditure n. 支出,花费 retain vt. 保持,记住
corrupted adj. 毁坏的 geographical adj. 地理的
restriction n. 限制 portion n. 部分
exceeding vt. 超越 decrypt vt. 解码
converge vi. 聚集,收敛 subject adj. 容易遭受…的
Generative Adervasarial Network GAN 生成对抗性网络 entity n. 实体
alignment n. 对齐 lossless adj. 无损的
gather vt. 收集 scale vi. 改变大小
parallel adj. 平行的 randomness n. 随机性
secrecy n. 机密性 inability n. 无能力
terminate vt. 使结束 oblivious adj. 遗忘的
overall adj. 全部的 commercialize vt. 商业化
incentive n. 激励,动机 manifest vt. 表明,证明
permanent adj. 永久的,永恒的 better off 达到某数量的,富裕的,渐入佳境
consensus n. 一致

{% endhideToggle %}

联邦学习中最优化问题的几个重要因素:

  • 在大量分布地间进行交流的成本
  • 数据分布的不平衡
  • 设备的可靠性

Definition of Federated Learning

假定有 N N N 个数据拥有者 { F 1 , ⋯   , F N } \{ \mathcal{F}_1,\cdots,\mathcal{F}_N \} { F1,,FN} 希望通过联合他们各自的数据 { D 1 , ⋯   , D N } \{ \mathcal{D}_1,\cdots,\mathcal{D}_N \} { D1,,DN} 来训练一个机器学习的模型。一种常见的方法就是把数据放在一起,即有 D = D 1 ∪ ⋯ D N \mathcal{D}=\mathcal{D}_1\cup\cdots\mathcal{D}_N D=D1

本文标签: 机器概念