危险因素评分预测模型是怎么倒腾出来的?

2016-09-06 10:58 来源:科研论文时间 作者:谷鸿秋
字体大小
- | +

本文授权转载自微信号公众号「统技思维」(ID:StatsThinking)。

医学研究里,我们经常会碰到各种危险因素评分预测模型,比如 5 年冠心病预测模型,10 年中风预测模型等等。这些模型通常借助几个简单易测的问题进行打分,从而可以较为方便,准确的预测未来几年某类患者患某病的概率。对于这种评估工具,我们姑且称之为危险因素评分预测模型。

风险评分模型可以预测未来?

危险因素评分预测模型是什么?举例来说,在询问患者的年龄、性别、种族、总胆固醇、高密度脂蛋白胆固醇、血压、高血压、糖尿病史以及吸烟等情况,基于此打分后,就可以得出一个未来 10 年患心脏病的概率是多少。依据一些疾病等危险因素来建立预测模型,可以用来预测未来走势。

网上有各研究开发的预测工具,从方法到形式不一。尽管形式多,花样俏,数据的来源和依据如何呢?

数据基于统计模型

严谨的危险因素评分预测模型,都是基于大型队列研究开发出来的。比如,最负盛名的「Framingham  Heart Study」,就开发了各种疾病的评分预测模型,而且相应的文章都发表在经同行评议的学术期刊上。

模型看起来「深不可测」,结构却并非想象中的复杂。这些模型背后的方法是基于常见的统计模型。

对于事件的预测,我们知道,常见的无非就是 Logistic 模型,如果再考虑事件的时间的话,那也就是 Cox 回归模型。这些危险因素评分预测模型,其实也就是基于这些模型开发出来的。

Capture5.JPG

图示:Framingham Heart Study的评分预测模型总揽

小模型大学问

这么高大上,我们自己也弄一个行不行?当然可以。不过,我们先看看别人是怎么开发评分预测模型的吧。我们就以业界标杆研究「Framingham  Heart Study」为例来进行说明吧。

以性别,年龄,收缩压,现在是否吸烟(Sex,Age,SBP,current smoker)做 Logistic 回归来预测 5 年后的冠心病( CHD )风险。

1. 进行多因素 logistic 回归估算各危险因素的系数。这个不用多言吧,SAS 的 Proc logistic,不会 SAS 的点点 SPSS 也可以。「Framingham  Heart Study」给出的例子的结果如下:

屏幕快照 2016-09-06 上午10.28.25.png

图示:logistic回归估算系数

2. 连续变量切割分组,以组中值作为参考值,分类变量如果是多分类无序,设置哑变量,编码 0,1 化。例如,Age 就是 9 岁为一组切割,对于 30-39 岁的,就以组中值 34.5 为此组的参考值。

屏幕快照 2016-09-06 上午10.27.57.png屏幕快照 2016-09-06 上午10.27.33.png

图示:连续变量切割分组,以组中值作为参考值

然后我们需要确定所有危险因素的基础风险参考值。所谓基础风险参考值,是指如果病人的某个危险因素取值为此值,则危险打分为 0,越高于此值,打分越高,风险越高。本例中,我们以 30-39 岁,女性,SBP120-129,非吸烟状态做为基础风险状态。

屏幕快照 2016-09-06 上午10.27.06.png

图示:基础风险参考值

3. 计算每一危险因素的分类距离基础风险的距离 D。通常以某一回归系数为单位乘以组间距来衡量。例如,本例中,年龄是以 30-39 岁组为基础风险的,所以距离基础风险 10 个单位的 40-49 岁组的距离是:D=10*age的回归系数=10*0.0575=0.5750,后面的以此类似。对于二分类变量,基础风险为 0,距离即是回归系数。

屏幕快照 2016-09-06 上午10.26.39.png

图示:计算风险距离

4. 我们设定打 1 分的单位距离 B。本例假定5岁的距离 B= 5*0.0575=0.2875 为一个单位,得 1 分。

5. 给每一危险因素的分类打分,得分 Point=D/B。例如,40-49 岁组据基础风险组30-39岁组的距离 D 是 0.5750,则得分Point=D/B=0.5750/0.2875=2,故此类风险得分为 2,其余类似。

屏幕快照 2016-09-06 上午10.26.08.png屏幕快照 2016-09-06 上午10.25.41.png

图示:计算每类得分

6. 制作总得分与概率的对照表。总得分可以直接把得分相加得到。概率 P 可以依据公式计算。需要留意的是 BiXi 的总和计算时,不仅需要B*Point Total,还需要加上常数项以及各类基础风险参考值*系数。

屏幕快照 2016-09-06 上午10.25.18.png

图示:logistic概率计算公式

屏幕快照 2016-09-06 上午10.24.45.png图示:BiXi 和的计算

基于此,本例得分从 -1 到 19 分的风险就可以计算出来了,从而得到如下的打分对应表。

屏幕快照 2016-09-06 上午10.23.01.png

图示:风险评分表

屏幕快照 2016-09-06 上午10.23.32.png

图示:风险得分与风险对照表

至此,一个风险评分模型已经大功告成了。

看看得分系统算出来的概率和 logistic 回归算出的概率的差异如何?

例:一个 55 岁,非吸烟男性,SBP135 的患者,风险评分 10,5 年内得 CHD 的概率是 0.0338,与老老实实 logistic 回归算出的概率 0.0280 只差一个百分点。

屏幕快照 2016-09-06 上午10.23.57.png

图示:比较风险评分模型与 logistic 实际结果   

那么问题来了

风险评分模型的初衷是把不方便计算的复杂模型(logistic,COX)的结果转换成临床易用的评分,用评分对照概率做出预测。然而,随着时代的进步,网络工具,尤其是手机 App 的普及,即使再复杂的模型,也能方便的立马计算出概率,在这种情况下,还继续推行风险评分模型的意义何在?

编辑: 任悠悠

版权声明

本网站所有注明“来源:丁香园”的文字、图片和音视频资料,版权均属于丁香园所有,非经授权,任何媒体、网站或个人不得转载,授权转载时须注明“来源:丁香园”。本网所有转载文章系出于传递更多信息之目的,且明确注明来源和作者,不希望被转载的媒体或个人可与我们联系,我们将立即进行删除处理。同时转载内容不代表本站立场。