危险因素评分预测模型是怎么倒腾出来的？

2016-09-06 10:58 来源：科研论文时间作者：谷鸿秋

字体大小

- | +

本文授权转载自微信号公众号「统技思维」（ID:StatsThinking)。

医学研究里，我们经常会碰到各种危险因素评分预测模型，比如 5 年冠心病预测模型，10 年中风预测模型等等。这些模型通常借助几个简单易测的问题进行打分，从而可以较为方便，准确的预测未来几年某类患者患某病的概率。对于这种评估工具，我们姑且称之为危险因素评分预测模型。

风险评分模型可以预测未来？

危险因素评分预测模型是什么？举例来说，在询问患者的年龄、性别、种族、总胆固醇、高密度脂蛋白胆固醇、血压、高血压、糖尿病史以及吸烟等情况，基于此打分后，就可以得出一个未来 10 年患心脏病的概率是多少。依据一些疾病等危险因素来建立预测模型，可以用来预测未来走势。

网上有各研究开发的预测工具，从方法到形式不一。尽管形式多，花样俏，数据的来源和依据如何呢？

数据基于统计模型

严谨的危险因素评分预测模型，都是基于大型队列研究开发出来的。比如，最负盛名的「Framingham Heart Study」，就开发了各种疾病的评分预测模型，而且相应的文章都发表在经同行评议的学术期刊上。

模型看起来「深不可测」，结构却并非想象中的复杂。这些模型背后的方法是基于常见的统计模型。

对于事件的预测，我们知道，常见的无非就是 Logistic 模型，如果再考虑事件的时间的话，那也就是 Cox 回归模型。这些危险因素评分预测模型，其实也就是基于这些模型开发出来的。

图示：Framingham Heart Study的评分预测模型总揽

小模型大学问

这么高大上，我们自己也弄一个行不行？当然可以。不过，我们先看看别人是怎么开发评分预测模型的吧。我们就以业界标杆研究「Framingham Heart Study」为例来进行说明吧。

以性别，年龄，收缩压，现在是否吸烟（Sex，Age，SBP，current smoker）做 Logistic 回归来预测 5 年后的冠心病( CHD )风险。

1. 进行多因素 logistic 回归估算各危险因素的系数。这个不用多言吧，SAS 的 Proc logistic，不会 SAS 的点点 SPSS 也可以。「Framingham Heart Study」给出的例子的结果如下：

屏幕快照 2016-09-06 上午10.28.25.png

图示：logistic回归估算系数

2. 连续变量切割分组，以组中值作为参考值，分类变量如果是多分类无序，设置哑变量，编码 0，1 化。例如，Age 就是 9 岁为一组切割，对于 30-39 岁的，就以组中值 34.5 为此组的参考值。

屏幕快照 2016-09-06 上午10.27.57.png 屏幕快照 2016-09-06 上午10.27.33.png

图示：连续变量切割分组，以组中值作为参考值

然后我们需要确定所有危险因素的基础风险参考值。所谓基础风险参考值，是指如果病人的某个危险因素取值为此值，则危险打分为 0，越高于此值，打分越高，风险越高。本例中，我们以 30-39 岁，女性，SBP120-129，非吸烟状态做为基础风险状态。

屏幕快照 2016-09-06 上午10.27.06.png

图示：基础风险参考值

3. 计算每一危险因素的分类距离基础风险的距离 D。通常以某一回归系数为单位乘以组间距来衡量。例如，本例中，年龄是以 30-39 岁组为基础风险的，所以距离基础风险 10 个单位的 40-49 岁组的距离是：D=10*age的回归系数=10*0.0575=0.5750，后面的以此类似。对于二分类变量，基础风险为 0，距离即是回归系数。

屏幕快照 2016-09-06 上午10.26.39.png

图示：计算风险距离

4. 我们设定打 1 分的单位距离 B。本例假定5岁的距离 B= 5*0.0575=0.2875 为一个单位，得 1 分。

5. 给每一危险因素的分类打分，得分 Point=D/B。例如，40-49 岁组据基础风险组30-39岁组的距离 D 是 0.5750，则得分Point=D/B=0.5750/0.2875=2，故此类风险得分为 2，其余类似。

屏幕快照 2016-09-06 上午10.26.08.png 屏幕快照 2016-09-06 上午10.25.41.png

图示：计算每类得分

6. 制作总得分与概率的对照表。总得分可以直接把得分相加得到。概率 P 可以依据公式计算。需要留意的是 BiXi 的总和计算时，不仅需要B*Point Total，还需要加上常数项以及各类基础风险参考值*系数。

屏幕快照 2016-09-06 上午10.25.18.png

图示：logistic概率计算公式

屏幕快照 2016-09-06 上午10.24.45.png 图示：BiXi 和的计算

基于此，本例得分从 -1 到 19 分的风险就可以计算出来了，从而得到如下的打分对应表。

屏幕快照 2016-09-06 上午10.23.01.png

图示：风险评分表

屏幕快照 2016-09-06 上午10.23.32.png

图示：风险得分与风险对照表

至此，一个风险评分模型已经大功告成了。

看看得分系统算出来的概率和 logistic 回归算出的概率的差异如何？

例：一个 55 岁，非吸烟男性，SBP135 的患者，风险评分 10，5 年内得 CHD 的概率是 0.0338，与老老实实 logistic 回归算出的概率 0.0280 只差一个百分点。

屏幕快照 2016-09-06 上午10.23.57.png

图示：比较风险评分模型与 logistic 实际结果

那么问题来了

风险评分模型的初衷是把不方便计算的复杂模型（logistic，COX）的结果转换成临床易用的评分，用评分对照概率做出预测。然而，随着时代的进步，网络工具，尤其是手机 App 的普及，即使再复杂的模型，也能方便的立马计算出概率，在这种情况下，还继续推行风险评分模型的意义何在？

编辑：任悠悠

版权声明

本网站所有注明“来源：丁香园”的文字、图片和音视频资料，版权均属于丁香园所有，非经授权，任何媒体、网站或个人不得转载，授权转载时须注明“来源：丁香园”。本网所有转载文章系出于传递更多信息之目的，且明确注明来源和作者，不希望被转载的媒体或个人可与我们联系，我们将立即进行删除处理。同时转载内容不代表本站立场。

近期热门文章

os: 卫健委强调：医院要过「紧日子」

os: 2 年疯长 52 斤，这个「怪胎」快胀破肚子，医生痛心：怎么才来？

os: 护肤品总不见效？建议试试护肤新思路

os

os

os

os

os

关注频道微博

快速获悉最新信息

App下载

下载医学时间

每天10分钟成学霸
X
关注我们

手机扫一扫

关注丁香园微信号

胸外	肾内	风湿免疫	感染
呼吸	消化	内分泌	论文基金
药品汇	健康互联	丁香六度	会议
医疗器械	检验	妇产	儿科
泌尿	麻醉	影像	普外
整形	眼科	神外	医院汇
精神	皮肤	口腔	重症
耳鼻喉	康复	丁香公开课	超声
血液

危险因素评分预测模型是怎么倒腾出来的？

版权声明

丁香园旗下网站

关于丁香园

官方链接