Validierte Fragebögen zur psychischen Gesundheit – was HADS, PHQ-9 und GAD-7 wirklich messen

Ein validierter Fragebogen ist ein kurzer Fragebogen mit einer veröffentlichten Studie dahinter, die zeigt, dass er im Durchschnitt Menschen mit einem gegebenen Zustand von Menschen ohne ihn mit einer bekannten Fehlerrate unterscheiden kann. Das ist eine engere Aussage, als die meiste App-Werbung macht, und eine viel engere Aussage, als die Titel der Fragebögen vermuten lassen. Die „Generalized Anxiety Disorder 7-item scale“ diagnostiziert keine generalisierte Angststörung. Jeder ist ein Screening-Instrument mit veröffentlichter Sensitivität, Spezifität und einer Population, in der er geprüft wurde.

Die drei Fragebögen, die in der klinischen Praxis, Forschung und in Apps am häufigsten auftauchen, sind HADS, PHQ-9 und GAD-7. Colors enthält den Standard-HADS in seinem Tests-Bereich, mit denselben Grenzwerten wie die Originalarbeit von 1983.

Was ein validierter Fragebogen ist

Ein Fragebogen wird „validiert“, wenn Forschende ihn gegen einen klinischen Referenzstandard prüfen (üblicherweise ein strukturiertes diagnostisches Gespräch durch eine geschulte Klinikerin) und berichten, wie oft die beiden übereinstimmen. Zwei Zahlen leisten den Großteil der Arbeit. Die Sensitivität ist der Anteil der Menschen mit dem Zustand, die der Fragebogen korrekt signalisiert. Die Spezifität ist der Anteil der Menschen ohne den Zustand, die er korrekt in Ruhe lässt. Bei jedem gegebenen Grenzwert besteht zwischen ihnen stets ein Zielkonflikt.

Die Fragebögen hier wurden in etablierten klinischen Fachzeitschriften veröffentlicht: HADS in Acta Psychiatrica Scandinavica,¹ PHQ-9 im Journal of General Internal Medicine,³ GAD-7 in Archives of Internal Medicine.⁴ Die Validierungsarbeiten sind öffentlich, die Grenzwerte sind dokumentiert, und es gibt jahrzehntelange Folgestudien. Das ist es, was sie von der langen Reihe unvalidierter Online-Quizze unterscheidet.

HADS: wie es funktioniert und was es misst

Die Hospital Anxiety and Depression Scale wurde 1983 von Zigmond und Snaith entworfen, um Angst und Depression bei nicht-psychiatrischen Krankenhausambulanzen zu erfassen.¹ Das klinische Problem, das sie lösten: Körperliche Krankheit und ihre Behandlungen erzeugen somatische Symptome (schlechter Schlaf, wenig Energie, Gewichtsveränderung), die sich auf den meisten Depressionsfragebögen der Zeit stark mit Depression überschneiden. Ein allgemeinmedizinischer Patient konnte allein deshalb hoch auf einem Depressionsfragebogen abschneiden, weil er körperlich krank war.

HADS lässt die somatischen Items weg. Es hat 14 Fragen (sieben für Angst, sieben für Depression), jede mit 0 bis 3 bewertet, was pro Subskala einen Bereich von 0–21 ergibt. Die Originalarbeit schlug drei Bänder pro Subskala vor: 0–7 normal, 8–10 grenzwertig, 11 oder darüber klinisch. Diese Grenzwerte sind noch immer die im Standardgebrauch.

Bjelland und Kollegen trugen in ihrer Übersicht von 2002 im Journal of Psychosomatic Research 747 Studien zusammen, die HADS in den vorangegangenen zwei Jahrzehnten verwendet hatten.² Über diesen Forschungskörper hinweg zeigten die Angst- und die Depressions-Subskala jeweils eine Sensitivität und Spezifität von rund 0,80 gegenüber dem klinischen Gespräch bei den Standardgrenzwerten. Beide Subskalen korrelierten gut mit anderen Angst- und Depressionsmaßen, und die Zwei-Faktoren-Struktur (Angst vs. Depression) replizierte sich über Populationen hinweg. Das ist ein brauchbares Instrument: nicht perfekt, aber gut charakterisiert.

PHQ-9 und GAD-7

Das Patient Health Questionnaire 9-Item-Depressionsmodul ist direkt aus den DSM-IV-Kriterien für die schwere Depression gebaut. Jedes der neun Items bildet eines der neun diagnostischen Kriterien ab, bewertet von 0 (überhaupt nicht) bis 3 (beinahe jeden Tag) über die letzten zwei Wochen. Gesamtwert 0–27. Die Validierungsstudie von Kroenke, Spitzer und Williams 2001 berichtete Standard-Schwerebänder (0–4 minimal, 5–9 leicht, 10–14 mittel, 15–19 mittelschwer, 20–27 schwer) und einen empfohlenen Grenzwert von 10 für weitere Abklärung.³

Mitchell und Kollegen fassten in ihrer Meta-Analyse von 2016 40 Primärversorgungsstudien des PHQ-9 gegen das klinische Gespräch zusammen.⁵ Beim Grenzwert von 10 lag die Sensitivität um 0,80 und die Spezifität um 0,85: weitgehend ähnlich zu HADS, in einer anderen Population, mit einem anderen Fragensatz. Der PHQ-9 enthält außerdem ein letztes Item zu Suizidgedanken, was einer der Gründe ist, warum Kliniker ihn oft einem Fragebogen vorziehen, der das nicht tut.

GAD-7 wurde 2006 von Spitzer, Kroenke, Williams und Löwe in Archives of Internal Medicine als paralleles Angstinstrument veröffentlicht.⁴ Sieben Items, dieselbe 0–3-Skala, gesamt 0–21, mit Bändern von 0–4 minimal, 5–9 leicht, 10–14 mittel, 15–21 schwer. Die ursprüngliche Validierungsstudie berichtete bei einem Grenzwert von 10 eine Sensitivität von 0,89 und eine Spezifität von 0,82 gegenüber einem strukturierten Gespräch zur generalisierten Angststörung, und der Fragebogen schnitt auch als Signal für Panik, soziale Angst und PTBS recht gut ab. Mit anderen Worten: Er erfasst etwas Ängstliches verlässlicher als gezielt die GAD.

Wofür Fragebögen gut sind und wofür nicht

Ein Fragebogen ist als Anfang eines Gesprächs nützlich. Ein Wert über dem Grenzwert ist ein strukturierter Anlass, die Frage zu einem Hausarzt oder einer Therapeutin zu tragen, mit einer Zahl versehen, in einer Form, die die Klinikerin sofort wiedererkennt. Er ist auch als Tracker nützlich: Werte, im gleichen Takt über Wochen oder Monate gemessen, zeigen, ob die Dinge besser, schlechter oder gleich bleiben.

Ein Fragebogen ist nicht als Selbstdiagnose nützlich. Die Namen laden zu dieser Fehllesung ein; die Validierungsarbeiten stützen sie ausdrücklich nicht. Eine Diagnose erfordert eine Klinikerin, die eine Anamnese erhebt, medizinische Ursachen ausschließt und das Muster über die Zeit beurteilt. Schon die Spezifitätszahl von 0,80 deutet so viel an: Etwa einer von fünf Menschen ohne den Zustand wird dennoch über dem Grenzwert abschneiden, ein positiver Screen ist also ein Anlass, mit jemandem zu sprechen, kein Urteil.

Ein Fragebogen ist auch in einer akuten Krise nicht nützlich. Item 9 des PHQ-9 fragt nach Gedanken an Selbstverletzung, aber ein Fragebogen ist kein Ersatz für sofortige Hilfe. Wenn die Antwort auf dieses Item irgendetwas anderes als „überhaupt nicht“ ist, ist der richtige nächste Schritt, mit einem Menschen zu sprechen, nicht, den Test erneut zu machen.

Das Muster schlägt den Einzelwert

Ein einzelner PHQ-9-Wert, an einem schlechten Nachmittag erhoben, ist überwiegend Rauschen. Die Fragen beziehen sich auf die letzten zwei Wochen, aber der Akt des Ausfüllens ist geprägt von der Stimmung im Moment des Ausfüllens, von Erinnerungsverzerrung, von dem, was an diesem Morgen gerade passiert ist. Der Verlauf über mehrere Erhebungen trägt weit mehr Information als jedes einzelne Ergebnis.

Die meisten KVT-Therapeutinnen, die messbasierte Versorgung praktizieren, erheben PHQ-9 und GAD-7 alle zwei bis vier Wochen während der aktiven Behandlung und nutzen den Verlauf, nicht den absoluten Wert, um zu entscheiden, ob die Arbeit in Bewegung ist. Dieselbe Logik gilt für selbst durchgeführtes Tracking. Ein Wert im grenzwertigen Bereich, der seit sechs Monaten stabil ist, ist eine andere Information als ein Wert im grenzwertigen Bereich, der seit sechs Wochen steigt, und nur einer von beiden ist ein Alarm.

Wie Colors HADS nutzt

Colors enthält den Standard-HADS-Fragebogen im Tests-Bereich, mit den Bändern Normal / Grenzwertig / Klinisch entsprechend Zigmond und Snaiths ursprünglichen Grenzwerten.¹ Die Absicht ist dieselbe, für die der Fragebogen entworfen wurde: eine strukturierte Möglichkeit, sich regelmäßig zu vergewissern, besonders wenn sich etwas falsch anfühlt, aber nicht klar ist, ob es situativ oder anhaltend ist.

Ein einzelnes HADS-Ergebnis in Colors ist keine Diagnose. Es ist Information, die du zu einem Hausarzt oder einer Therapeutin mitnehmen kannst, wenn der Wert im grenzwertigen oder klinischen Bereich liegt, oder in zwei bis vier Wochen wiederholen kannst, wenn du sehen willst, ob das Muster stabil ist. Das umfassendere Argument für Selbstbeobachtung als Teil einer strukturierten Intervention, und wo die Evidenz dafür tatsächlich liegt, steht in der Übersicht zur Stimmungstracking-Forschung.

Häufige Fragen

Was ist ein validierter Fragebogen zur psychischen Gesundheit?

Ein validierter Fragebogen ist ein kurzer Fragebogen mit einer veröffentlichten Studie, die zeigt, dass er einen Zustand in einer definierten Population einigermaßen gut erkennt. Die Hospital Anxiety and Depression Scale (HADS) wurde 1983 von Zigmond und Snaith veröffentlicht; der PHQ-9 2001 von Kroenke und Kollegen; der GAD-7 2006 von Spitzer und Kollegen. Jeder wurde gegen einen klinischen Referenzstandard geprüft, und jeder hat eine bekannte Sensitivität und Spezifität. Ein Fragebogen ist keine Diagnose – er ist eine strukturierte Möglichkeit, zu signalisieren, ob etwas einen genaueren klinischen Blick verdient.

Was bedeutet ein hoher HADS-Wert?

Zigmond und Snaiths ursprüngliche Grenzwerte von 1983 teilen jede Subskala in 0–7 (normal), 8–10 (grenzwertig) und 11+ (klinisch). Bjellands Übersicht von 2002 über 747 Studien fand für die Angst- und die Depressions-Subskala bei den Standardgrenzwerten eine Sensitivität und Spezifität um 0,80. Ein Wert im grenzwertigen oder klinischen Bereich bedeutet, dass die Symptome ein klinisches Gespräch wert sind, nicht dass eine Diagnose bestätigt ist.

Sind PHQ-9 und GAD-7 besser als HADS?

Sie messen überlappende, aber leicht unterschiedliche Dinge. HADS wurde für nicht-psychiatrische Krankenhausambulanzen entworfen und lässt bewusst somatische Items weg, die sich mit körperlicher Krankheit überschneiden. PHQ-9 bildet die DSM-Depressionskriterien direkt ab. GAD-7 wurde für generalisierte Angst in der Primärversorgung entworfen. Keiner ist universell besser – jeder hat die Population, in der er validiert wurde. Mitchells Meta-Analyse von 2016 über 40 Primärversorgungsstudien fand beim Standardgrenzwert von 10 eine PHQ-9-Sensitivität um 0,80 und eine Spezifität um 0,85.

Kann ein Fragebogen mich diagnostizieren?

Nein. Die Namen sind irreführend – der GAD-7 ist die „Generalized Anxiety Disorder 7-item scale“, was diagnostisch klingt, aber die ursprüngliche Arbeit von Spitzer 2006 ist ausdrücklich darin, dass es ein Screening- und Schweremaß ist, kein diagnostischer Test. Ein hoher Wert bedeutet: eine klinische Abklärung erwägen. Ein klinisches Gespräch, die Anamnese und der Ausschluss anderer Ursachen sind das, was eine Diagnose hervorbringt.

Wie oft sollte ich einen Fragebogen erneut ausfüllen?

Die meiste messbasierte KVT-Versorgung nutzt PHQ-9 und GAD-7 alle 2–4 Wochen während der aktiven Behandlung, um Veränderung zu verfolgen. Für die Selbstbeobachtung außerhalb der Therapie ist ein ähnliches Intervall sinnvoll. Tägliches erneutes Ausfüllen fügt Rauschen ohne viel Signal hinzu, da die Fragen sich auf die letzten zwei Wochen beziehen. Ein einzelner Wert ist für sich genommen selten aussagekräftig; der Verlauf über mehrere Erhebungen ist es.

Kein medizinischer Rat

Dieser Artikel dient ausschließlich Informations- und Bildungszwecken. Er stellt keinen medizinischen Rat dar und ersetzt nicht die Beratung durch eine zugelassene Fachkraft für psychische Gesundheit. Wenn Sie sich in einer Krise befinden, wenden Sie sich bitte umgehend an den Notdienst in Ihrem Land.

Krisen-Hotlines: Deutschland — TelefonSeelsorge 0800 111 0 111 · Österreich — Telefonseelsorge 142 · International — Befrienders Worldwide

Zuletzt überprüft: Mai 2026.

Quellen

Zigmond, A. S., & Snaith, R. P. (1983). The Hospital Anxiety and Depression Scale. Acta Psychiatrica Scandinavica, 67(6), 361–370. doi:10.1111/j.1600-0447.1983.tb09716.x
Bjelland, I., Dahl, A. A., Haug, T. T., & Neckelmann, D. (2002). The validity of the Hospital Anxiety and Depression Scale: An updated literature review. Journal of Psychosomatic Research, 52(2), 69–77. doi:10.1016/S0022-3999(01)00296-3
Kroenke, K., Spitzer, R. L., & Williams, J. B. (2001). The PHQ-9: Validity of a brief depression severity measure. Journal of General Internal Medicine, 16(9), 606–613. doi:10.1046/j.1525-1497.2001.016009606.x
Spitzer, R. L., Kroenke, K., Williams, J. B., & Löwe, B. (2006). A brief measure for assessing generalized anxiety disorder: the GAD-7. Archives of Internal Medicine, 166(10), 1092–1097. doi:10.1001/archinte.166.10.1092
Mitchell, A. J., Yadegarfar, M., Gill, J., & Stubbs, B. (2016). Case finding and screening clinical utility of the Patient Health Questionnaire (PHQ-9 and PHQ-2) for depression in primary care: a diagnostic meta-analysis of 40 studies. BJPsych Open, 2(2), 127–138. doi:10.1192/bjpo.bp.115.001685