是针对变量为分类变量二进行回歸分析的一种统计方法属于概率行非线性回归。
在线性回归中因变量是连续变量,那么线性回归能根据因变量和自变量之间存在的线性关系来构建回归方程
但是,一旦因变量是分类变量那么因变量与自变量之间就不存在这种线性关系了。这个时候就要通过某种转換来解决这个问题了,这个变换陈伟对数变换
对数变换的目的就是将非线性问题转换为线性问题这样就能够使用线性回归相关理论和方法来解决非线性回归的问题
1.1分类变量(二分类,多分类)
二分类:俩个分类状态例如用户石佛普购买商品,用户是否流失(银边领只有倆个值:1和0;对应是和否或者发生或没发生
多分类:就具有多个类别的状态,例如客户的价值分类可分为高价客户中价客户,低价客戶
在模型预测中不是直接就能得到分类至1和0,而是可以发生的可能行大小来衡量换句话说就是得到一个介于0和1之间的概率值p来进行预測因变量出现某个状态的可能性
1.2因变量和概率p之间的关系
自变量和因变量呈非线性关系
预测结果是介于0和1 之间的概率值
营销活动--用户参与營销活动相应预测以及相应潜在影响因素识别
消费品行业--用户购买改了和预测以及购买潜在影响因素识别
金融行业--用户的信用度预测以及信用潜在影响因素识别
电信行业--用户流失概率预测以及流失潜在影响因素识别
人力资源--员工流失概率预测一i及流失潜在影响因素识别
优点,将非线性转换成线性回归问题
缺点:回归系数解释不直观需要先做转换才能解释
如果只是研究自变量对因变量的影响程度,就可以对洎变量回归系数进行大小比较不必转换
3案例分析(研究商户是否与本公司续约合作的隐形因素及印象程度,以及预测其他区域商户是否續约为商务部门的后续工作计划提供依据)
注册时间,营业收入成本移至协变量中
个案处理摘要和因变量编码
部分可以忽略,因为这個模型拟合的模型只有常数项不含任何自变量
对角线上的3 和6 分别表示未续约,和续约的正确值右下角的75%是正确百分比
说明通过logistic 回归分析能够有75%的准确性来判断续约的状态
与线性回归分析中的t检验不同的是,logistic回归系数的检验统计量的为瓦尔德(wald)
用来判断一个变量是否应該包含在模型中判断依据是考察是否应该包含在模型中,判断依据是考察第六列的显著性格(p值)是否小于临界值
1.在原数据即中输入相應的新增自变量值对应的银边浪留空,在操作logistic: 保存中勾选预测值下方额概率复选框--运行--预测值
2.将模型导出在采用平分享到的功能导入模型导入后即可查看建模方法,因变量自变量等,模型相关的信息--评分项到--对新数据集进行预测评分制计算
实用程序--评分导向--浏览--进荇预览以查找评分模型--选择--返回--下一步--评分导向--下一步--勾选预测值--完成