数据线性不可分训练数据集中有一些特异点,除了这些特异点,剩下大部分的样本组成的集合是线性可分的;
这些特异点不能满足函数间隔大于等于1的约束条件;
引入松弛变量- 对每个样本点(x_i,y_i)引入一个松弛变量 𝝃_i≥0,其约束条件变为
yi(w⋅xi+b)≥1−ξi
- 对每个松弛变量 𝝃_i 需支付一个代价 𝝃_i,则目标函数变为
21∣∣w∣∣2+Ci=1∑Nξi其中C为惩罚函数,C越大对误分类的惩罚越大
软间隔最大化问题(原始问题)
w,b,ξmin21∣∣w∣∣2+Ci=1∑Nξi s.t. yi(w⋅xi+b)≥1−ξi(∀i=1,2,…N)ξi≥0(∀i=1,2,…N)- 是一个凸二次规划问题,因而关于(w,b,𝝃)的解存在;
软间隔最大化问题(对偶算法)
引入拉格朗日函数L(w,b,ξ,α,μ)=21∥w∥22+Ci=1∑mξi−i=1∑mαi[yi(wTxi+b)−1+ξi]−i=1∑mμiξi其中拉格朗日乘子 𝛼_i≥0, 𝜇_i≥0
原始问题等价于极小极大问题w,b,ξminαi≥0,μi≥0maxL(w,b,α,ξ,μ) 对偶问题为极大极小问题αi≥0,μi≥0maxw,b,ξminL(w,b,α,ξ,μ)- 先求目标函数对w,b,𝝃的极小
∂w∂L=0⇒w=i=1∑Nαiyixi∂b∂L=0⇒i=1∑Nαiyi=0∂ξ∂L=0⇒C−αi−μi=0w,b,ξminL(w,b,α,ξ,μ)=−21i=1∑Nj=1∑Nαiαjyiyjxi⋅xj+i=1∑Nαi对比硬间隔最大化,仅仅多了C-𝛼_i-𝜇_i=0的约束。
- 再求目标函数对𝛼,𝜇的极大
αmin s.t 21i=1∑Nj=1∑Nαiαjyiyjxi⋅xj−i=1∑Nαii=1∑Nαiyi=00≤αi≤C(∀i=1,2,…n)通过SMO算法得到最优解𝛼*。
对比硬间隔最大化,仅仅多了0≤𝛼_i≤C的约束。
原始问题和对偶问题解的关系——KKT条件根据KKT条件有
⎩⎨⎧w∗=∑i=1Nαi∗yixiαi∗+μi∗=Cαi∗(yi(w∗⋅xi+b∗)−1+ξi∗)=0μi∗ξi∗=0yi(w∗⋅xi+b∗)−1+ξi∗≥0αi∗≥0,μi∗≥0,ξi∗≥0(∀i=1,2,…n)若存在分量0≤𝛼*_j≤C,对此j有
b∗=yj−w∗⋅xj=yj−i=1∑Nαi∗yi(xi⋅xj)由于对j的选择不唯一,故b*的解也不唯一。
支持向量和间隔边界
支持向量满足
yi(w⋅xi+b)=1−ξi正则化的合页损失
线性支持向量机的另一种解释是,极小化目标函数
合页损失w,bmin[1−yi(w∙x+b)]++正则项λ∥w∥22第一项是经验损失,称为合页损失;第二项是正则项
合页损失:如果点被正确分类,且函数间隔大于1,合页损失是0,否则损失是1-y_i(w·x+b);
0-1损失:如果正确分类,损失是0,误分类损失1;
感知机损失:正确分类,损失是0,误分类损失是-y_i(w·x+b)。
w,bmin[−yi(w∙x+b)]+