当前位置:蜗牛素材网>综合资讯>图文>正文

多元logistic回归如何分析结果?Logistics回归分析,之二元逻辑回归

人气:390 ℃/2024-01-27 14:01:39

序曲

咏菊

【唐】白居易

一夜新霜著瓦轻,芭蕉新折败荷倾。

耐寒唯有东篱菊,金粟初开晓更清。

【译文】

一夜过后,初降的寒霜轻轻地附在瓦上,使得芭蕉折断,荷叶倾倒。

耐寒的只有东边篱笆旁的菊花,它花蕊初开,让早晨多了一份清香。

【赏析】

初降的霜轻轻的附着在瓦上,芭蕉和荷花无法耐住严寒,或折断,或歪斜,惟有那东边篱笆附近的菊花,在寒冷中傲然而立,金粟般的花蕊初开让清晨更多了一丝清香。

夜里寒霜袭来,本来就残破的芭蕉和和残荷看起来更加不堪。只有篱笆边的菊花,金黄色的花朵在清晨的阳光下看起来更加艳丽。用霜降之时,芭蕉的新折和荷叶的残败来反衬东篱菊的清绝耐寒。此诗赞赏菊花凌寒的品格。

整诗是借咏菊之耐寒傲冷逸清香亮霜景,自况言志的。

二元逻辑回归分析

二元逻辑回归是指因变量为二分类变量的回归分析。在建回归模型时,目标概率的取值在0~1之间,但回归方程的因变量取值却落在实数集中,这是不能接受的。因此,可以先将目标概率做Logit变化,取值区间就变成了整个实数集,再做回归分析即可。

  1. 优势比(odds)

把出现某种结果的概率与不出现的概率之比称为比值(Odds),即Odds=P/(1-P),两个比值之比也为比值比,也称为优势比(Odds Ratio,OR),优势比是反映两个二项分类变量之间关系的指标。

具体研究如下表所示,研究某项因素的暴露是否对某种疾病的发生有影响,总的暴露优势为:

病例的暴露优势为:

对照的暴露优势为:

病例与对照的暴露优势比为:

如果a/b/c/d分别为30,20,50,50,则优势比OR = (30*50)/(50*20) = 1.5,即病例暴露优势是对照的1.5倍。

  1. 逻辑回归系数的意义

依据公式,逻辑回归方程可定义为:

类似于线性回归系数的解释,在逻辑回归方程中,回归系数bj表示其他自变量固定不变的情况下,某一自变量Xj改变一个单位logit(p)或对数优势的平均该变量

但在实际工作中,逻辑回归不是直接解释回归系数bj,而是解释优势比优势比被用来作为效应大小的指标,度量某自变量对因变量优势影响程度的大小。某一自变量Xj对应的优势比为:ORj=exp(bj)

优势比的含义是:在其他自变量固定不变的情况下,某一自变量Xj改变一个单位,因变量对应的优势比评价改变exp(bj)各单位。

之前也谈到过,自变量可以是无序或有序多项分类变量、二项分类变量、连续变量。上面提到的优势比是连续变量的优势比含义。对于无序多分类变量,需要进行哑变量化(后续会进行讲解)。如果有k个分类,则需产生k-1个哑变量,每一个哑变量的优势比是相对于参考分类,因变量优势的平均改变量。

如果进行发病或死亡的危险因素研究,那么

  • 当bj>0,即bj为正数时,ORj=exp(bj) 大于1,说明该因素是危险因素
  • 当bj<0,即bj为负数时,ORj=exp(bj) 小于1,说明该因素是保护因素
  • 当bj=0,即ORj=exp(bj) =1,说明该因素与因变量无关
  1. 标准化回归系数

由于不同的变量其相应的度量衡单位可能不同,不能采用偏回归系数的绝对值大小来比较各个自变量的相对作用大小,为此需要引入标准化逻辑回归系数

注意:标准化逻辑回归系数只是一个相对大小值,主要通过它的绝对值大小来比较不同自变量对模型的贡献大小,而不用于构建回归模型,构建回归模型需要采用一般的回归系数。

标准化回归系数估计可采用以下公式:

其中:bj是一般的回归系数,即偏回归系数;Sj为第j自变量的标准差。

在SPSS中没有提供计算选项,需要通过 转换-计算变量 来进行计算。

  1. 哑变量定义

哑变量(DummyVariable),也叫虚拟变量, 引入哑变量的目的是,将不能够定量处理的变量量化,在回归分析中引入哑变量的目的是,可以考察定性因素对因变量的影响

哑变量是人为虚设的变量,通常取值为0或1,来反映某个变量的不同属性。对于有n个分类属性的自变量,通常需要选取1个分类作为参照,因此可以产生n-1个哑变量

如职业、性别对收入的影响,战争、自然灾害对GDP的影响,季节对某些产品(如冷饮)销售的影响等等。这种“量化”通常是通过引入“哑变量”来完成的。根据这些因素的属性类型,构造只取“0”或“1”的人工变量,通常称为哑变量(dummyvariables),记为D。

举一个例子,假设变量“职业”的取值分别为:工人、农民、学生、企业职员、其他,5种选项,我们可以增加4个哑变量来代替“职业”这个变量,分别为D1(1=工人/0=非工人)、D2(1=农民/0=非农民)、D3(1=学生/0=非学生)、D4(1=企业职员/0=非企业职员),最后一个选项“其他”的信息已经包含在这4个变量中了,所以不需要再增加一个D5(1=其他/0=非其他)了。这个过程就是引入哑变量的过程。

SPSS实现二元逻辑回归分析

示例:医生研究了出生低体重婴儿的影响因素,因变量为是否出生低体重儿(变量名为Low,1-是,0-否),希望筛选出出生低体重儿的影响因素,考虑因素:产妇妊娠前体重、产妇年龄、产妇在妊娠期间是否吸烟、种族等。

  1. 打开 分析—回归—二元Logistic

2.参数选择与说明

(1)主页面

  • 因变量:从变量列表中选择一个二分类变量作为因变量,可以是数值型变量或短字符型变量。
  • 协变量:从变量列表中选择自变量,可以选入单个变量,还可以选入变量之间的交互项,方法是在变量类别同时选中多个变量后,单击 >a*b>按钮,这些选中变量的所有交互作用就被选中。
  • 方法:本例选择 向前步进法(似然比)

--输入 Enter:强迫进入法,所选自变量全面放在模型中,默认选项

--Forward-Conditinal:向前逐步法(条件似然比),变量引入的依据是统计量的显著性水平;剔除的依据是条件参数估计所得的似然比统计量的概率值

--Forward-LR:向前逐步法(似然比),变量引入的依据是统计量的显著性水平;剔除的依据是最大偏似然估计所得的似然比统计量的概率值

--Forward-Wald:向前逐步法(瓦尔德),变量引入的依据是统计量的显著性水平;剔除的依据是 Wald统计量的概率值

--Backward-Conditinal:向后逐步法(条件似然比),变量剔除的依据是条件参数估计所得的似然比统计量的概率值

--Backward-LR:向后逐步法(似然比),剔除的依据是最大偏似然估计所得的似然比统计量的概率值

--Backward-Wald:向后逐步法(瓦尔德),剔除的依据是 Wald统计量的概率值

  • 选择变量:选择一个变量,根据该变量的值,通过右侧的规则按钮,建立选择条件

(2)分类 页面

  • 设置分类变量哑变量;若自变量为多分类变量,由于多分类自变量与因变量之间一般不存在线性关系,需要用哑变量分析,系统自动产生k-1个哑变量
  • 更改对比:选择分类变量的各水平的对照方式
  • Indicator指示符:指示是否属于某一个分类,参考分类在对比矩阵中整行为0
  • Simple 简单比较:预测变量的灭个分类都与参考分类进行比较
  • Difference 差分比较:除第一类外,预测变量的每个分类都与其前所有分类的平均效应进行比较
  • Helmert比较:除最后一类外,预测变量的每个分类都与后面所有分类的平均效应进行比较
  • Repeated重复比较:除第一类外,预测变量的每个分类都同其前的所有类别进行比较
  • Polynominal多项式比较:假设各类别的间距相等,适用于数值型变量
  • Deviation差别比较:预测变量的每个分类都同总体效应比较
  • 参考类别:选择Deviation、simple、indicator方法,需指定 1 个参考类别
  • 默认是最后一个为参考类别
  • 第一个:选择第一个作为参考类别

(3) 保存 页面

  • 预测值:保存模型的预测值
  • 预测值-概率:事件发生的预测概率
  • 预测值-组成员:预测分类,根据预测概率得到的每个样本的预测分类
  • 影响:设置保存对单个观测记录进行预测时的影响力指标
  • 库克距离:表示把一个个案从计算回归系数的样本中去除时所引起的残差变化的大小,距离越大,表明该个案对回归系数的影响也越大
  • 杠杆值:衡量的那个观测 对回归效果的影响程度,取值在0-n/n-1之间,取0时表示当前记录对模型的拟合无影响
  • DfBeta:剔除一个个案后回归系数的改变
  • 残差:
  • Unstandardized 非标准化残差:观察值与模型预测值之差
  • Logit 逻辑残差:残差除以“预测概率×(1-预测概率)”
  • Studentized 学生化残差:用残差除以关于残差标准差的估计值,取决于当前个案自变量的取值与自变量均值之间的距离
  • Standardized 标准差残差:均值为0,标准差为1
  • Deviance 变异残差:基于模型变异的残差

(4)选项 页面

  • 统计与图:输出统计量和图形
  • 分类图:因变量的预测值与观测值的分类直方图
  • 霍莫斯-莱梅肖拟合优度:比传统逻辑回归分析的拟合优度更稳定,特别是对含有连续型协变量模型和小样本的研究
  • 个案残差列表:包括非标准化残差、预测概率、观测量的实际与预测分组水平
  • 估算值的相关性:输出参数估计值的相关系数矩阵
  • 迭代历史记录:输出每一步迭代的相关系数和对数似然比
  • Exp(B)的置信区间:输入框指定1-99的数值
  • 显示:
  • 每个步骤:表示在每一步迭代过程输出相关表格、统计量和图形
  • 最后一个步骤:表示只输出与最终方差有关的表格、统计量和图形
  • 分类分界值
  • 指定对观察量进行预测分类的临界值
  • 预测值大于指定值的观测值被归于一类,其余观测量归于量一类
  1. 结果输出与解释

(1) 基本描述

  • 下图给出样本数、缺失样本数、哑变量编码以及因变量编码

(2)Step0:自变量没有选入,只有常数的情况

  • 依据P值可看出下一步选入哪个变量
  • 瓦尔德=25.327,p=0.000<0.05,显著性差异
  • 从分类表上看,选择样本的逻辑回归模型对正常体重的预测准确率为100%,但对低出生体重预测准去率为0%,由此模型不可靠。

(3)模型摘要

  • 在步骤三中的模型的p=0.000,基于该模块建立的模型非常显著
  • 在步骤三中的R2为0.088,模型拟合效果较差

(4)分类表

  • 从步骤1到步骤3,总体正确率百分比逐渐升高,在步骤3中正确率为71.4%

(5)方程中的系数

  • 患有高血压的孕妇所出生的低体重婴儿是无高血压孕妇的5.986倍
  • 体重的exp=0.985,在其他因素不变的情况下,体重增加1kg,出生低体重婴儿的优势比为0.985,表明体重增加出生低体重婴儿有减少趋势
  • 早产次数exp=2.071,表明早产增加1次,出生低体重婴儿的比例增加2.071倍

4.语法

******************** 二元逻辑回归 ******************.LOGISTIC REGRESSION VARIABLES low/METHOD=FSTEP(LR) age lwt race smoke ptl ht ui ftv/CONTRAST (race)=Indicator(1)/SAVE=PRED PGROUP RESID/CLASSPLOT/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5).

搜索更多有关“多元logistic回归如何分析结果?Logistics回归分析,之二元逻辑回归”的信息 [百度搜索] [SoGou搜索] [头条搜索] [360搜索]
本网站部分内容、图文来自于网络,如有侵犯您的合法权益,请及时与我们联系,我们将第一时间安排核实及删除!
CopyRight © 2008-2024 蜗牛素材网 All Rights Reserved. 手机版