经过验证的心理健康筛查量表——HADS、PHQ-9 和 GAD-7 究竟测量什么

经过验证的筛查量表，是一份背后有已发表研究的简短问卷，该研究表明，它平均而言能以已知的错误率，把患有某种状况的人与未患该状况的人区分开。这比多数 App 营销所作的宣称要窄得多，也比这些问卷的标题所暗示的窄得多。“广泛性焦虑障碍 7 条目量表”并不能诊断广泛性焦虑障碍。每一份都是一种筛查工具，带有已发表的敏感度、特异度，以及它被检验过的人群。

在临床使用、研究和 App 中出现最多的三份筛查量表是 HADS、PHQ-9 和 GAD-7。Colors 在其测试板块中收录了标准 HADS，划界与 1983 年的原始论文相同。

什么是经过验证的筛查量表

当研究者把一份问卷对照临床参照标准（通常是受训临床医生进行的结构化诊断访谈）进行检验，并报告两者一致的频率时，这份问卷就成了“经过验证”的。两个数字承担了大部分工作。敏感度，是筛查量表正确标记出的、患该状况者所占的比例。特异度，是它正确放过的、未患该状况者所占的比例。在任何给定划界下，两者之间总存在取舍。

这里的几份筛查量表都发表在主流临床期刊上：HADS 发表于《Acta Psychiatrica Scandinavica》，¹ PHQ-9 发表于《Journal of General Internal Medicine》，³ GAD-7 发表于《Archives of Internal Medicine》。⁴ 验证论文是公开的，划界有文献记载，且存在数十年的后续研究。这正是它们与网上那条长尾的、未经验证的小测验之间的区别。

HADS：它如何运作、测量什么

医院焦虑抑郁量表由 Zigmond 与 Snaith 于 1983 年设计，用于在非精神科的住院门诊患者中筛查焦虑和抑郁。¹ 他们要解决的临床问题是：躯体疾病及其治疗会产生躯体症状（睡眠差、精力低、体重变化），而这些与当时多数抑郁问卷上的抑郁条目高度重叠。一名普通内科患者可能仅仅因为身体不适，就在抑郁筛查量表上得高分。

HADS 略去了躯体条目。它有 14 个问题（七个测焦虑，七个测抑郁），每个评 0 到 3 分，每个分量表的范围为 0–21。原始论文为每个分量表提出三个区间：0–7 正常，8–10 边缘，11 及以上为临床。这些划界至今仍是标准使用的那一套。

Bjelland 及同事 2002 年发表于《Journal of Psychosomatic Research》的综述，汇集了此前二十年间使用过 HADS 的 747 项研究。² 在这批工作中，焦虑和抑郁两个分量表在标准划界下，对照临床访谈各显示出约 0.80 的敏感度和特异度。两个分量表都与其他焦虑和抑郁测量工具相关性良好，且双因子结构（焦虑对抑郁）在不同人群中得到重现。这是一份可用的工具：并不完美，但特性已被充分描述。

PHQ-9 和 GAD-7

患者健康问卷 9 条目抑郁模块，直接由 DSM-IV 重性抑郁的标准构建而成。九个条目各对应九条诊断标准之一，就过去两周评 0（完全没有）到 3（几乎每天）分。总分 0–27。Kroenke、Spitzer 与 Williams 2001 年的验证研究，报告了标准的严重程度区间（0–4 极轻，5–9 轻度，10–14 中度，15–19 中重度，20–27 重度），以及推荐的进一步评估划界 10。³

Mitchell 及同事 2016 年的荟萃分析，汇集了 40 项把 PHQ-9 对照临床访谈的基层医疗研究。⁵ 在划界 10 处，敏感度约为 0.80，特异度约为 0.85：与 HADS 大体相近，只是在不同人群、用了一套不同的题目。PHQ-9 还包含一个关于自杀念头的末项，这也是临床医生常常比起不含此项的筛查量表更偏好它的原因之一。

GAD-7 由 Spitzer、Kroenke、Williams 与 Löwe 于 2006 年发表在《Archives of Internal Medicine》，作为一份并行的焦虑工具。⁴ 七个条目，同样的 0–3 量表，总分 0–21，区间为 0–4 极轻，5–9 轻度，10–14 中度，15–21 重度。原始验证研究报告，在划界 10 处、对照广泛性焦虑障碍的结构化访谈，敏感度为 0.89，特异度为 0.82，而该问卷在标记惊恐、社交焦虑和创伤后应激障碍方面也表现尚可。换句话说，它能比识别 GAD 本身更可靠地识别出某种焦虑的东西。

筛查量表适合做什么、不适合做什么

筛查量表适合作为一场对话的开端。一个高于划界的分数，是把这个问题带给全科医生或治疗师的结构化理由，附带一个数字，以一种临床医生立刻就能识别的形式呈现。它也适合作为追踪器：以相同节奏、跨数周或数月测得的分数，能显示出情况是在好转、恶化还是持平。

筛查量表不适合用作自我诊断。这些名字招致这种误读；验证论文则明确不支持它。诊断需要临床医生采集病史、排除躯体原因，并评估随时间推移的模式。0.80 的特异度数字本身就暗示了这一点：未患该状况的人中，仍约有五分之一会得分高于划界，所以一次阳性筛查是与人交谈的理由，而非一纸判决。

筛查量表在急性危机中同样不适用。PHQ-9 第 9 项询问自伤念头，但问卷不能替代即时的帮助。如果对该项的回答不是“完全没有”，正确的下一步是与一个人交谈，而不是重做测试。

趋势胜过单一分数

在一个糟糕的下午做的单次 PHQ-9 分数，大多是噪声。这些问题问的是过去两周，但完成问卷这一行为本身，会被完成那一刻的心情、被回忆偏差、被那天早上刚发生的事所塑造。几次测量之间的趋势，所携带的信息远多于任何单一结果。

多数实践基于测量的照护的 CBT 治疗师，在积极治疗期间每两到四周做一次 PHQ-9 和 GAD-7，并用其轨迹、而非绝对分数，来判断工作是否在推进。同样的逻辑适用于自助式追踪。一个稳定在边缘区间已达六个月的分数，与一个在六周里持续攀升的边缘区间分数，是不同的信息，而其中只有一个是警报。

Colors 如何使用 HADS

Colors 在测试板块中收录了标准 HADS 问卷，其正常／边缘／临床区间与 Zigmond 与 Snaith 的原始划界相符。¹ 其意图与这份问卷被设计出来时的意图相同：一种结构化的方式，用来定期自查，尤其是在感觉有些不对、却不清楚那是情境性的还是持续性的时候。

Colors 里的单次 HADS 结果不是诊断。它是一份信息：如果分数落在边缘或临床区间，你可以把它带给全科医生或治疗师；如果你想看模式是否稳定，可以在两到四周后重做。关于把自我监测作为某种结构化干预一部分的更广泛论证，以及它的证据究竟落在何处，见心情追踪研究综述。

常见问题

什么是经过验证的心理健康筛查量表？

经过验证的筛查量表，是一份有已发表研究表明它能在特定人群中相当好地检出某种状况的简短问卷。医院焦虑抑郁量表（HADS）由 Zigmond 与 Snaith 于 1983 年发表；PHQ-9 由 Kroenke 及同事于 2001 年发表；GAD-7 由 Spitzer 及同事于 2006 年发表。每一份都曾对照临床参照标准进行检验，每一份都有已知的敏感度和特异度。筛查量表不是诊断——它是一种结构化的方式，用来标记某件事是否值得做更仔细的临床查看。

HADS 分数高意味着什么？

Zigmond 与 Snaith 1983 年的原始划界，把每个分量表分为 0–7（正常）、8–10（边缘）和 11 及以上（临床）。Bjelland 2002 年对 747 项研究的综述发现，在标准划界下，焦虑和抑郁两个分量表的敏感度和特异度均在 0.80 左右。落在边缘或临床区间的分数，意味着这些症状值得做一次临床交谈，而不是确认了某个诊断。

PHQ-9 和 GAD-7 比 HADS 更好吗？

它们测量的东西有重叠，但略有不同。HADS 是为非精神科的住院门诊患者设计的，并刻意略去了与躯体疾病重叠的躯体症状条目。PHQ-9 直接对应 DSM 的抑郁标准。GAD-7 是为基层医疗中的广泛性焦虑设计的。没有哪一份是普遍更好的——每一份都有它被验证的那个人群。Mitchell 2016 年对 40 项基层医疗研究的荟萃分析发现，在标准划界 10 处，PHQ-9 的敏感度约为 0.80，特异度约为 0.85。

筛查量表能给我下诊断吗？

不能。这些名字会误导人——GAD-7 是“广泛性焦虑障碍 7 条目量表”，听起来像是诊断工具，但 Spitzer 2006 年的原始论文明确指出，它是一种筛查与严重程度测量工具，而非诊断检验。高分意味着考虑做一次临床评估。诊断来自临床医生的访谈、病史，以及排除其他原因。

我应该多久重做一次筛查量表？

多数基于测量的 CBT 照护，在积极治疗期间每 2–4 周做一次 PHQ-9 和 GAD-7，以追踪变化。对于治疗之外的自我监测，类似的间隔是合理的。每天重做只会增加噪声而少有信号，因为这些问题问的是过去两周。单一分数本身很少能说明什么；有信息量的是几次测量之间的趋势。

这不是医疗建议

本文仅供信息和教育用途。它不构成医疗建议,也不能替代持证心理健康专业人员的咨询。如果你正处于危机之中,请立即联系你所在国家或地区的紧急服务。

危机求助热线: 中国大陆 — 北京心理危机研究与干预中心 010-82951332 · 国际 — Find a Helpline

最后审阅:2026年5月。

参考文献

Zigmond, A. S., & Snaith, R. P. (1983). The Hospital Anxiety and Depression Scale. Acta Psychiatrica Scandinavica, 67(6), 361–370. doi:10.1111/j.1600-0447.1983.tb09716.x
Bjelland, I., Dahl, A. A., Haug, T. T., & Neckelmann, D. (2002). The validity of the Hospital Anxiety and Depression Scale: An updated literature review. Journal of Psychosomatic Research, 52(2), 69–77. doi:10.1016/S0022-3999(01)00296-3
Kroenke, K., Spitzer, R. L., & Williams, J. B. (2001). The PHQ-9: Validity of a brief depression severity measure. Journal of General Internal Medicine, 16(9), 606–613. doi:10.1046/j.1525-1497.2001.016009606.x
Spitzer, R. L., Kroenke, K., Williams, J. B., & Löwe, B. (2006). A brief measure for assessing generalized anxiety disorder: the GAD-7. Archives of Internal Medicine, 166(10), 1092–1097. doi:10.1001/archinte.166.10.1092
Mitchell, A. J., Yadegarfar, M., Gill, J., & Stubbs, B. (2016). Case finding and screening clinical utility of the Patient Health Questionnaire (PHQ-9 and PHQ-2) for depression in primary care: a diagnostic meta-analysis of 40 studies. BJPsych Open, 2(2), 127–138. doi:10.1192/bjpo.bp.115.001685