半个多世纪以来,4个代表试验真实性的指标被广泛应用:灵敏度、特异度、阳性预测值和阴性预测值。虽然在临床上很有用(比临床预感更有说服力),但基于特定假设的这些术语经常被认为是不切实际的(如所有的人群被二分为有病和健康)。事实上,对流行病学家的某种定义就是一个透过2x2格表观察整个世界的人。那些被测试者并不能简单且完美地适用这些名称:他们可能有病、早期患病、可能健康或其他一些不同的情况。适用于多种试验结果(不是只有二分类结果)的似然比likelihood ratios) ,有助于临床医生完善对特定患者疾病可能性的判断。
为了简单说明,现假设已完成测试的人群被分配到一个格与格之间相互排斥的四格表中(图1)。灵敏度有时被称为检出率,是一个试验能发现疾病的能力。所有有病的人群在左列。
因此,灵敏度是指被试验正确识别的患病人群(a) 除以所有患病的人群(a+c)。特异度显示的是试验识别无病状态的能力。然而这个百分比的计算更应小心处理。许多假设(不正确)将其与灵敏度相似地写成b/(b+d)。然而,特异度的分子是单元格d(真阴性),除以所有的正常人群(b+d)。
虽然公共卫生政策制定者对灵敏度和特异度很感兴趣,但临床医生很少应用。换言之,无论是灵敏度还是特异度(人群测试)都是回顾性的(需要一定时间收集试验结果)。然而,临床医生不得不对受试者的结果进行解释。因此,他们需要知道的是试验的预测值(个体测试、前瞻性)。评价预测值,需要旋转90度 观察图1:预测值在水平(行)而不是垂直(列)上起作用。上面一行是试验结果阳性的人群,但只有单元a 是患病的,所以,阳性预测值是a/(a+b)。阳性结果的比数(OAPR) 是指真阳性与假阳性的比,或a/b。OAPR 的倡导者认为这些比数与概率(预测值)相比能更好地描述试验的有效性。图1 下面一行,在阴性结果的人群中,仅有单元格d 是无病的,所以,阴性预测值是d/(c+d)。
如果读者理解了上述的这些定义,并能回想起2x2格表,那么他们就能迅速明白什么时候需要这些公式。我们可以这样去记忆,疾病出现在表格的顶部,因为这是我们首先要关注的,并默认试验在表格的左侧。
在过去的几年里,研究者试图简化这四个试验真实性的指标,将它们浓缩进一个独立的名词。然而,没有人能充分地描述灵敏度(sensitivity) 和特异度(specificity) 之间的重要权衡。
一个例子是诊断的准确度(diagnostic accuracy) ,即正确结果的比值,被正确定义疾病状态的总人数除以所有参加试验的总人数,或(a+d)/(a+b+c+d)。单元格b和c在系统中是干扰项。另一个早期尝试是尤登指数YOUDEN,它简单地将阳性预测值加阴性预测值减1,指数范围从O(掷币决定,没有预测价值) 到1(阳性试验和阴性试验的预测值都完美)。
另外,如果需要检验器械灵敏度和特异度来衡量诊断的效能,需要使用一定比例的阳性样本,见图2
图2
图2中右边的衣原体感染的患病率仅为3%. 现在同样完美的试验其阳性预测值仅是0.5 。很明显当在低患病率的情况下应用时,即使是非常完美的试验同样出现很差的阳性预测值。相反,阴性预测值则是真实的。