admin管理员组

文章数量:1630203

Active Learning Literature Survey - Burr Settles(2009)

Settles’ Survey,主动学习领域最经典的survey,主要介绍survey中采样策略部分。

通常在C-U和U-S上有比较多的工作

查询函数Q:不确定性准则(uncertainty)差异性准则(diversity)

1)不确定性准则对于不确定性,我们可以借助信息熵的概念来进行理解。我们知道信息熵是衡量信息量的概念,也是衡量不确定性的概念。信息熵越大,就代表不确定性越大,包含的信息量也就越丰富。
不确定性策略就是要想方设法地找出不确定性高的样本,因为这些样本所包含的丰富信息量,对我们训练模型来说就是有用的。

2)差异性准则(diversity)
查询函数每次迭代中,查询一个或者一批样本。我们希望所查询的样本提供的信息是全面的,各个样本提供的信息不重复不冗余,即样本之间具有一定的差异性(概率分布尽量全面)。
在每轮迭代抽取单个信息量最大的样本加入训练集的情况下,每一轮迭代中模型都被重新训练,以新获得的知识去参与对样本不确定性的评估可以有效地避免数据冗余。但是如果每次迭代查询一批样本,那么就应该想办法来保证样本的差异性,避免数据冗余。

Uncertainty Sampling

对于二分类任务,以下三种方法是等价的。

Entropy

最简单最广泛使用的可能就是不确定性采样了,比如二分类问题,就取后验概率在0.5附近的样本点,非常的straightforward。

更普遍的不确定性采样策略是用***entropy***作为不确定性的度量:
x E N T ∗ = argmax ⁡ x − ∑ i P ( y i ∣ x ; θ ) log ⁡ P ( y i ∣ x ; θ ) x_{E N T}^{*}=\underset{x}{\operatorname{argmax}}-\sum_{i} P\left(y_{i} \mid x ; \theta\right) \log P\left(y_{i} \mid x ; \theta\right) xENT=xargmaxiP(yix;θ)logP(yix;θ)
其中 y i y_i yi覆盖了所有可能的标签。熵表示了encode一个分布所需要的信息量。在二分类问题中,熵最大等价于选择后验概率靠近0.5的。

Least confident

还可以用***least confident***,即“置信度最大的预测概率最低”。:
x L C ∗ = argmin ⁡ x P ( y ∗ ∣ x ; θ ) , x_{L C}^{*}=\underset{x}{\operatorname{argmin}} P\left(y^{*} \mid x ; \theta\right), xLC=xargminP(yx;θ)

y ∗ = argmax ⁡ y P ( y ∣ x ; θ ) y^{*}=\operatorname{argmax}_{y} P(y \mid x ; \theta) y=argmaxyP(yx;θ)

举个例子就是 ( 0.9 , 0.1 ) (0.9, 0.1) (0.9,0.1) ( 0.51 , 0.49 ) (0.51, 0.49) (0.51,0.49),后者应该采样。

Margin

边缘采样是指选择那些极易被判定为两类的样本数据,或者说这些数据被判定为两类的概率相差不大。边缘采样就是选择模型预测最大和第二大的概率差值最小的样本:
x M ∗ = argmin ⁡ x ( P θ ( y ^ 1 ∣ x ) − P θ ( y ^ 2 ∣ x ) ) x_{M}^{*}=\operatorname{argmin}_{x}\left(P_{\theta}\left(\hat{y}_{1} \mid x\right)-P_{\theta}\left(\hat{y}_{2} \mid x\right)\right) xM=argminx(Pθ(y^1x)Pθ(y^2x))

不确定性采样采样策略也可以用在非概率模型。比如修改决策树和KNN模型,产生一个概率输出;SVM模型查询距离线性决策边界最近的点。

Query-By-Committee

委员会投票需要维护一个委员会 C = { θ ( 1 ) , … , θ ( C ) } \mathcal{C}=\left\{\theta^{(1)}, \ldots, \theta^{(C)}\right\} C={ θ(1),,θ(C)} C C C个模型,这些模型都是通过数据集 L \mathcal{L} L训练得到的。所以最有信息的查询是他们预测最不一致的数据点。

QBC的根本假设在于借助多个委员会模型不断搜索(具体就是对输入空间的争议区域进行查询),可以更加精准的约束出version space:

因此实现一个QBC选择算法必须有两个条件:

  • 能够构建出一系列委员会模型,来表示version space中的不同区域;
  • 能够度量不同委员会模型之间的不一致性。

如果不需要考虑每个模型的检测效果,其实可以考虑类似不确定性采样中的 least confident 和 margin sampling 方法。可以选择某一个分类器难以区分的样本数据,也可以选择其中两三个分类器难以区分的数据。但是如果要考虑所有模型的分类效果的时候,则还是需要熵(Entropy)或者 KL 散度等指标。因此,QBC 通常也包括两种方法:

  1. 投票熵(Vote Entropy):选择这些模型都无法区分的样本数据;
  2. 平均KL散度(Average Kullback-Leibler Divergence):选择KL散度较大的样本数据。
Vote Entropy

对于这种多模型 { θ ( 1 ) , … , θ ( C ) } \left\{\theta^{(1)}, \ldots, \theta^{(C)}\right\} { θ(1),,θ(C)}的场景而言,可以用熵来衡量样本数据被这些分类器区分的难易程度,如果这些分类器都把样本数据划分到某一类,则容易区分;如果分类器把样本数据划分到多类,则表示难以区分,需要重点关注:
x V E ∗ = argmax ⁡ x − ∑ i V ( y i ) C log ⁡ V ( y i ) C x_{V E}^{*}=\underset{x}{\operatorname{argmax}}-\sum_{i} \frac{V\left(y_{i}\right)}{C} \log \frac{V\left(y_{i}\rig

本文标签: 主动经典ActiveLearningBurr