在讲逻辑斯蒂回归之前先复习下感知机的一些知识:
(资料图片)
感知机的公式:f(x) = sign(w·x + b) 输出+1或-1
那么问题来了,1.只输出-1和+1是不是太生硬了?这样的判别方式真的有效吗?
2.超平面左侧0.001距离的点和超平面右侧0.001距离的点真的有天壤之别吗?
同时感知机的缺陷不容忽视:感知机通过梯度下降更新参数,但在sign函数中,x=0是间断点,不可微
怎么解决极小距离带来的+1和-1的天壤之别?2.怎么让最终的预测式子连续可微呢?
逻辑斯蒂回归可以解决以上问题
逻辑斯蒂回归
逻辑斯蒂回归的定义
P(Y = 1|x) = 取值范围:(0~1)
P(Y = 0|x) = 取值范围:(0~1)
用图表表示为
若将P(Y=1|x)记作A,P(Y=0|x)记作B,则 A/A+B + B/A+B = 1
逻辑斯蒂回归是连续可微的
参数估计
逻辑斯蒂回归模型学习时,对于给定的训练数据集 T = {(,),(,)...,(,)} , 其中,,{0,1},可以应用极大似然估计法估计模型参数,从而得到逻辑斯蒂回归模型。
设: P(Y = 1 | x) = (x),P(Y = 0|x) = 1 - (x)
似然函数为
对数似然函数为
上图的对数似然函数看似简单的三个步骤,其用到了很多知识,下面进行详细步骤说明,如些图
再次说明下,机器学习有关对数的小知识点:和熵有关的默认,简写成log;和商没有关系的默认,简写成log或ln
似然函数对w的求导
总结
1.逻辑斯蒂以输出概率的形式解决了极小距离带来的+1和-1的天壤之别。同时概率也可以作为模型输出的置信程度
2.逻辑斯蒂使得最终的模型函数连续可微。训练目标与预测目标达成了一致
3.逻辑斯蒂采用了极大似然估计来估计参数
最大熵
什么是最大熵?
在我们猜测概率时,不确定的部分我们认为是等可能的,就好像骰子一样,我们知道有6个面,因此认为每个面的概率是1/6,也就是等可能
换句话说,趋向于均匀分布,最大熵使用的就是这么一个朴素的道理:
凡是我们知道的,就把它考虑进去,凡是不知道的,通通均匀分布
终极目标是求概率 P(Y | X)
熵:H(P) = -
将终极目标代入熵:H(P) = -
做些改变,调整熵:
H(P) = H(y | x) = -
注:1.H(P) = H(y | x)为条件熵
2.~代表从训练集中统计出来的
下面看下训练集中的统计概率:
(X=x) =
特征函数及特征函数f(x,y)关于经验分布(x,y)的期望值
特征函数f(x,y)关于模型P(Y|X)与经验分布(x)的期望值:
最大熵模型
拉格朗日乘子法:
总结
1.最大熵强调不提任何建设,以熵最大为目标
2.将终极目标代入熵的公式后,将其最大化
3.在训练集中寻找现有的约束,计算期望,将其作为约束。使用拉格朗日乘子法得到P(y|x),之后使用优化算法得到P(y|x)中的参数w
参考视频链接:https://www.bilibili.com/video/BV1i4411G7Xv?p=6&vd_source=7621d9b6568d814ad80158fea1c47dcc
#头条创作挑战赛#