经典Logistic回归:原理、计算步骤以及应用

多重线性回归模型要求因变量是连续型的正态分布变量,且自变量与因变量呈线性关系**。当因变量是分类变量,且自变量与因变量不呈线性关系时**,就不能确足多重线性回归模型的适用条件。此时,处理该类资料常用Logistic回归模型。Logistic回归分析属于非线性回归,它是研究因变量为二项分类或多项分类结果与某些影响因素之间关系的一种多重回归分析方法。

在疾病的病因学研究中,经常需要分析疾病的发生与各危险因素之间的定量关系。比如,研究食管癌的发生与吸烟、饮酒、不良饮食习惯等危险因素的关系。如果采用多重线性回归分析,由于因变量y为二分类变量(通常取值0或1),不满足正态分布和方差齐等应用条件,若强行使用线性回归分析,其预测值可能会大于1或小于,而无法解释。在流行病学研究中,虽然可以用Mantel-Haenszel分层分析方法分析多个因素的混杂作用,但这种经典方法有其局限性,随着混杂因素的增加,分层越来越细,致使每层内的数据越来越少,使相对危险度的估计产生困难。Logistic回归模型较好地解决了上述问题,已经成为医学研究,特别是流行病学病因研究中最常用的分析方法之一。

概述 logistic 回归预测模型,三步骤 视频链接

首先制备数据,然后三步走

1.模型构建 2.模型评价 3.模型验证

模型构建的问题:

a.变量帅选问题,这么多变量,到底谁的影响大呢,应该选择哪些变量呢 # ### ##########方法一 常规 先单后多 ###############方法二 非常规 协变量晒选() ###############方法三 其他方法

为什么需要模型评价呢 模型验证 可以外部验证 也可内部验证 总结

下面正式进入第一步 变量的筛选:先单后多

data 数据详解 首先要了解自己的变量类型 并且做好分类

因变量:

分组, 1 表示PE(发生肺动脉栓塞) 0 表示control(未发生肺动脉栓塞)

把所有的变量处理成因子

处理之后的data如下图

利用函数 了解一下自己的数据

确定变量类型是否正确 str() 函数

数据准备好了, 那么接下来进行模型构建 ###方法一:先单后多

这里已经制备了

x1 把连续自变量都放在叫做x1的向量内

x2 把分类自变量都放在叫做x2的向量内

这里先做 t检验 卡方检验 秩序检验 对每个自变量都进行一次显著性分析 获得那些具有显著性的因素(即挑选出符合p小于0.05的单因素),然后用于之后的多因素分析

factorVars 指定所有的分类变量

strate 指定需要分析的组别:这里 分组 代表 是否发生肺动脉高压

addverall参数表示 是否显示 overall组

结果解读:主要看test列的p值 是否小于0.05

补充:

在进行上述的各种显著性检验之后,发现所有因素都会 显著性影响是否发生肺动脉高压,那么现在我们对这些因素进行 逐个的单因素logistic回归分析

连续变量

首先进行 年龄的单因素logistic回归分析 以及结果解读

结果解读

bmi指数 单因素 logistic 回归分析

结果解读

分类变量

术前下肢静脉彩超 单变量 logistic 回归分析

结果解读

EKG 分类变量 单因素分析 结果解读

以上结果表明 这些因素都与是否发生肺动脉 显著相关 那么都纳入接下来的多因素回归分析

多因素回归分析

使用函数glm()

多因素回归分析 结果解读 这样就可排除一些在单因素分析时 的一些因素,结果发现之后4个因素有显著性差异

小结一下 总结:

多因素logistic回归 最终发现了四个因素 显著性影响是否发生肺动脉高压

那么这种简单粗暴的 多因素逻辑回归有没有可能漏掉了一些 协变量呢

下面进入 非常规 多因素logistic 回归 非常规 先单后多

首先自建函数:判断一个协变量是否应该纳入多因素分析 1 首先进行糖抗原的单因素回归,求得回归系数coef 2 然后对糖抗原和其他任意协变量进行回归分析, 求得回归系数coef2 3 判断coef2与coef的变化是否超过10%,如果超过10%,则把该协变量取出 然后运行代码 结果显示:得到年龄和 术前下肢静脉彩超 两个因素可以作为 糖抗原ca513的协变量 利用找到的协变量 进行logistic多因素分析

glm()函数

结果解读

推荐文章

评论可见,请评论后查看内容,谢谢!!!
 您阅读本篇文章共花了: