一、回归概述
回归(Regression)分析包括线性回归(Linear Regression),这里主要是指多元线性回归和逻辑斯蒂回归(Logistic Regression)。其中,在数据化运营中更多的使用逻辑斯蒂回归,它包括响应预测、分类划分等内容。
多元线性回归主要描述一个因变量如何随着一批自变量的变化而变化,其回归公式(回归方程)就是因变量和自变量关系的数据反映。因变量的变化包括两部分:系统性变化与随机性变化,其中,系统性变化是由自变量引起的(自变量可以解释的),随机变化是不能由自变量解释的,通常也称作残值。
再用来估算多元线性回归方程中自变量系数的方法中,最常用的是最小二乘法,即找出一组对应自变量的相应参数,以使因变量的实际观测值与回归方程的预测值之间的总方差减到最小。
对多元线性回归方程的参数估计,是基于下列假设的:
如果不满足上述假设,就不能用最小二乘法进行回归系数的估算了。
逻辑斯蒂回归(Logistic Regression)相比于线性回归来说,在数据化运营中有更主流更频繁的应用,主要是因为该分析技术可以很好地回答诸如预测、分类等数据化运营常见的分析项目主题。简单来说,凡是预测“二选一”事件的可能性(比如,“响应”还是“不响应”;“买”还是“不买”;“流失”还是“不流失”),都可以使用逻辑斯蒂回归。
逻辑斯蒂回归预测的因变量是介于0和1之间的概率,如果对这个概率进行换算,就可以用线性公式描述因变量和自变量的关系了,具体公式如下:
log(p(y=1)/1-p(y=1))=b0+b1*x1+b2*x2+...+bk*xk |
与多元线性回归所采用的最小二乘法的参数估计方法相对应,最大似然法是逻辑斯蒂回归所采用的参数估计方法,其原理是找到这样一个参数,可以让样本数据所包含的观察值被观察到的可能性最大。这种寻找最大可能性的方法需要反复计算,对计算能力有很高的要求。最大似然法的优点是大样本数据中参数的估计稳定、偏差小、估计方差小。
二、逻辑回归技术的实践应用和注意事项
当目标变量是二元变量(即:是与否)的时候,逻辑回归分析是一个非常成熟的,可靠的主流模型算法。
对于二元(是与否)的目标变量来说,逻辑回归的目的就是要预测一组自变量的值相对应的因变量是“是”的概率,这个概率P是介于[0,1]之间的。如果要采用线性回归的方法来进行概率计算,计算的结果很有可能超出[0,1]范围的。在这种情况下,就需要用到专门的概率计算公式,或叫Sigmoid函数,其计算公式如下:
p(y=1)=1/(1+exp(-(b0+b1*x1+b2*x2+...+bk*xk))) |
上述概率算法可以确保二元目标变量的预测概率P是介于[0,1]之间的。
接下来,为了进一步深入了解,这里引入可能性比率(ODDS)这个概率。
2.可能性比率(ODDS)
可能性比率(ODDS)是指一件事情发生的概率除以这件事情不发生的概率后得到的值,博彩活动中的赔率就是可能性比率,其在现实生活中是一个广为人知的应用案例。
可能性比率为5,说明一件事情发生的可能性比不发生的可能性高5倍;
可能性比率为0.2,说明一件事情发生的可能性为不发生的可能性高的1/5;
可能性比率小于1,说明一件事情发生的概率低于50%;
可能性比率大于1,说明一件事情发生的概率大于50%。
与概率不同的是,可能性比率的最小值为0,但最大值可以是无穷大。
可能性比率是逻辑回归中连接自变量和因变量的纽带,我们可以从下面的公式演变中体会这句话的意思。
由于
ODDS=P(y=1)/(1-P(y=1)) |
因此,将ODDS与上面的p(y=1)结合,可得:
ODDS=exp(b0+b1*x1+b2*x2+...+bk*xk) |
即:
log(ODDS)=b0+b1*x1+b2*x2+...+bk*xk |
逻辑回归使用的参数方法通常是最大似然法,利用最大似然法进行参数的估计时,通常有如下步骤:
3.回归中的变量筛选方法
无论是线性回归,还是逻辑回归,在回归拟合的过程中,都要进行变量的筛选,并且有各种不同的筛选方法,其中最常见、最著名的3中方法分别是向前引入法(Foward Selection)、向后剔除法(Backward Elimination)、逐步回归法(Stepwise Selection).
4.逻辑回归的应用优势
相比于数据挖掘建模常用的其他算法如决策树、神经网络、邻近记忆推理等,逻辑回归技术是最成熟、应用最广泛的,也是数据分析师和数据化运营业务人员最为熟悉的。在各种新的数据挖掘算法层出不 穷的今天,逻辑回归技术仍然是具有最大的活力和最广泛的业务应用基础。
5.逻辑回归应用中的注意事项
逻辑回归实践应用中的注意事项如下:
本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。