5 个W元素 助你跨过 Logistic 回归分析的阶梯

2016-09-09 17:34 来源:科研论文时间 作者:孙程
字体大小
- | +

编者按:文章很长,科研君分了两篇,这篇作者对Logistic 回归分析涉及到的知识点进行梳理,最后附上实例演练,由浅入深。

Logistic 回归又称「Logistic 回归分析」,是一种「概率型非线性回归」,主要用于危险因素分析以及预后评估等方面,是目前流行病学和医学中最常用的分析方法之一,近年来已逐渐成为发表高质量 SCI 论文必不可少的重要内容。本文拟通过以下几个问题来逐步解析这个看似高大上的「利器」,让每一位读者能掌握并应用于自己的论文写作之中: 

为什么要进行 Logistic 回归?

logistic 回归本质上是一种用于研究二分类(或多分类)结局(y,因变量)与有关影响因素(x,自变量)之间关系的多因素分析方法(计算β1,β2…,βi,回归系数)。此类研究由于因变量是分类变量,不能满足正态分布要求,不能使用传统「线性回归分析」,而 Logistic 回归模型则非常巧妙地解决了这一设计缺陷,可以有效地从各可疑因素中寻找危险因素,通过建立 Logistic 模型计算得回归系数,并得知其效能大小。

QQ截图20160907213005.jpg

QQ截图20160907213117.jpg

Logistic 回归的基本原理是什么?

分类型因变量由于严重违背了「线性回归分析」对数据的假设条件,因而必须将问题转换一个角度,不直接分析 y 与 x 的关系,而是分析 y 取某个值的概率 P 与 x 的关系。此时我们需要寻找一个连续函数,当 x 变化时对应的函数值 P 不超出 [0,1] 范围。数学上这样的函数是存在且不唯一的,Logistic 回归模型就是满足这种要求的函数之一。

根据研究目的采集一组数据,利用公式和软件拟合 Logistic 回归模型后,即可估计在其它自变量固定不变的情况下,每个自变量对因变量取某个值的概率的数值影响大小。

QQ截图20160907213459.jpg

Logistic 回归作用有哪些?

1. 分析危险因素

通过对各可疑危险因素进行 Logistic 回归分析,得到相关危险因素及其回归系数βi,此时即可方便地评估该因素在不同水平下的 OR 值或 RR 值(发病率小时两者相近)。

2. 校正非处理因素

如果影响某种药物或干预措施效果的非处理因素在试验组与对照组间分布不均衡,此时可利用 Logistic 回归分析得到校正后的药物或干预措施评价结果。

3. 分析药物剂量反应

部分药物剂量-反应试验中,同种动物间的耐受量可能有很大不同,阳性反应的概率呈「正偏态」,此时可利用 Logistic 模型求出任一剂量反应的阳性率。

4. 推断预后

作为一种概率型模型,在给定的条件下可根据 Logistic 回归结果计算预测某件事情或某个结局出现的概率。

5. 判别分析

根据疾病和临床检查资料建立 Logistic 回归模型后,可根据新患者的检查结果求得其罹患该疾病概率的大小,尤其是在资料类型不能满足 Fisher 判别和 Bayes 判别的条件时, Logistic 回归最具优势。

Logistic 回归分类与选择

Logistic 回归的类型有多种,需要根据因变量数目、研究设计类型以及研究对象资料的收集情况来综合选择,具体如下图所示。
QQ截图20160907213840.jpg

其中非条件 Logistic 模型相对于条件 Logistic 模型,既可以进行因素筛选也可以用于混杂因素的控制。多分类无序变量不能直接进行 Logistic 回归,一般采用设置「哑变量」的方法来进行分析。

进行 Logistic 回归的前提

本篇主要介绍临床最常见的二分类因变量 Logistic 回归,其对研究资料的要求如下表:

满足以上条件后,我们首先需要确定因变量分类及其赋值,如二分类因变量:「死亡」(y = 0)与「生存」(y = 1);「患病」(y = 1)与「未患」(y = 0)。多分类变量:(有序)「无效」(y = 0)、「好转」(y = 1)、「显效」(y = 2)、「痊愈」(y = 3);护理等级分级「特级」(y = 1)、「一级」(y = 2)、「二级」(y = 3)、「三级」(y = 4);(无序)肝炎分型「甲」(y = 1)、「乙」(y = 2)、「丙」(y = 3)、「丁」(y = 4)、「戊」(y = 5)。

随后分别回顾分析并统计研究组与对照组各可疑危险因素,即「自变量(x)」的暴露情况:暴露病例数、非暴露病例数,并对各自变量进行赋值。

Logistic 回归数据模型

假设 P 表示暴露因素 X 时个体发病的概率,则发病的概率 P 与未发病的概率(1-P)之比为称为优势(odds), odds 的对数值称为 logit P,此时进行 Logistic 回归模型的建立:

无标题.gif

2.gif

其中α的意义:在不接触任何潜在危险(或保护)因素的条件下,个体发病与不发病概率之比的自然对数值。βi 的意义:在其它所有自变量固定的情况下的优势比,即某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值。若存在因素间交互作用, Logistic 回归系数的解释变得更为复杂,应特别小心。 

编辑: 任悠悠

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。