Usability KPIs richtig berechnen, benchmarken und interpretieren

Durch fehlende oder falsch interpretierte Kennzahlen sind schon die besten Tests untergegangen.

Portrait von Jan Auer

Jan Auer

Senior UX Writer

Inhaltsverzeichnis

Dieser Artikel erklärt jede zentrale Usability-Kennzahl verständlich, zeigt was sie misst und gibt Ihnen eine SUS-Interpretationstabelle an die Hand, die Sie direkt im Reporting verwenden können.

Das Wichtigste in Kürze

Bevor wir in die einzelnen Kennzahlen einsteigen, hier die Kernpunkte, die Sie aus diesem Artikel mitnehmen sollten.

  • SUS misst wahrgenommene Usability auf einer Skala von 0 bis 100, aber nicht als Prozentwert. Der vielzitierte Branchendurchschnitt von 68 stammt aus einer Meta-Analyse von über 500 SUS-Studien von Jeff Sauro und entspricht dem 50. Perzentil.
  • Task Success Rate, Time on Task und Error Rate messen tatsächliches Verhalten. Der SUS ergänzt diese harten Metriken, ersetzt sie aber nicht.
  • Eine Einzelmetrik reicht nie. Kombinieren Sie qualitative und quantitative Daten und planen Sie für einen belastbaren SUS mindestens 15, besser 20 bis 30 Antworten ein.
  • Legen Sie Ihre KPIs vorab fest und priorisieren Sie sie im Testbericht. Sonst bleibt der Datenberg liegen, ohne dass eine Entscheidung daraus folgt.

Warum Usability messbar sein muss

Messbare KPIs verwandeln „die UX fühlt sich besser an“ in eine Aussage, die Sie gegenüber Geschäftsführung, Investoren und anderen Teams verteidigen können. Eine Zahl mit Benchmark schlägt jeden Bauchgefühl-Eindruck, wenn es um Budget und Priorisierung geht.

Der Unterschied liegt zwischen subjektivem Eindruck und belegbarer Erkenntnis.

„Drei Nutzer wirkten verwirrt“ ist ein subjektiver Eindruck, der in der Diskussion sofort zerredet wird.

„Die Task Success Rate beim Checkout lag bei 55 Prozent, der SUS bei 61. Das ist beides unter Benchmark“ ist eine belegbare Erkenntnis, auf der man Entscheidungen trifft.

Der Artikel hält zwei Messdimensionen sauber auseinander, weil sie unterschiedliche Fragen beantworten:

  • Wahrgenommene Usability: Wie leicht fühlt sich das Produkt an? Erhoben über SUS und SEQ.
  • Tatsächliche Performance: Was schaffen Nutzer wirklich? Erhoben über Task Success Rate, Time on Task und Error Rate.

Eine Sache vorweg zur Abgrenzung: Hier geht es um die operative Test-Ebene, also um KPIs aus konkreten Usability-Tests. Der Business-Case – was schlechte UX kostet und welchen ROI gutes UX-Design bringt – ist ein eigenes Thema, das wir in unserem Beitrag zum UX-ROI behandeln.

System Usability Scale (SUS): Berechnung, Benchmark und Interpretation

Der SUS ist ein standardisierter 10-Item-Fragebogen, der die wahrgenommene Usability eines Produkts als Skalenwert von 0 bis 100 ausgibt – keinen Prozentwert. Genau diese Verwechslung ist der häufigste Fehler im Reporting, und wir räumen ihn gleich aus.

Der weithin zitierte Branchendurchschnitt von 68 kommt aus einer Meta-Analyse von über 500 SUS-Studien von Jeff Sauro und markiert das 50. Perzentil: die Hälfte aller Produkte liegt darüber, die Hälfte darunter. Ein SUS-Wert über 68 gilt als überdurchschnittlich, alles darunter als unterdurchschnittlich.

Der wichtigste Punkt zur Einordnung: 68 heißt nicht „68 Prozent zufrieden“. Auch wenn ein SUS-Wert von 0 bis 100 reichen kann, ist er kein Prozentwert. Ein Wert von 70 von 100 wirkt wie 70 Prozent und klingt damit ganz ordentlich, obwohl er tatsächlich nur knapp über dem Durchschnitt von 68 (nach Sauros Methode etwa beim 55. Perzentil) liegt und damit eher durchschnittlich als überdurchschnittlich ist. Die saubere Lesart lautet also: „etwas besser nutzbar als die Hälfte der getesteten Produkte“, nicht „70 Prozent der Nutzer sind zufrieden“.

Damit Ihr Wert überhaupt mit dem Benchmark vergleichbar ist, müssen Sie die etablierte Fragebogen-Variante unverändert verwenden. Eine im deutschsprachigen Raum gängige Übersetzung der 10 Items lautet:

  1. Ich denke, dass ich dieses System gerne regelmäßig nutzen würde.
  2. Ich fand das System unnötig komplex.
  3. Ich fand das System einfach zu nutzen.
  4. Ich denke, ich würde die Unterstützung einer fachkundigen Person benötigen, um das System nutzen zu können.
  5. Ich fand, die verschiedenen Funktionen des Systems waren gut integriert.
  6. Ich denke, das System enthielt zu viele Inkonsistenzen.
  7. Ich kann mir vorstellen, dass die meisten Menschen sehr schnell lernen, mit dem System umzugehen.
  8. Ich fand das System sehr umständlich zu nutzen.
  9. Ich fühlte mich bei der Nutzung des Systems sehr sicher.
  10. Ich musste viele Dinge lernen, bevor ich mit dem System arbeiten konnte.

Verändern Sie den Wortlaut nicht und lassen Sie keine Items weg. Sobald Sie die Skala umformulieren, verlieren Sie die Vergleichbarkeit mit dem 68er-Benchmark.

Zur Stichprobe: Fünf Antworten liefern eine Zahl, aber kaum Konfidenz. Für einen belastbaren SUS sollten Sie mindestens 15, besser 20 bis 30 Antworten sammeln. Wie viele Teilnehmer Sie je nach Testziel insgesamt brauchen, behandeln wir separat im Beitrag zur Teilnehmerzahl.

So berechnen Sie den SUS-Score

Die Berechnung folgt einem festen Schema, das der gemischten Tonalität des Fragebogens Rechnung trägt – ungerade Items sind positiv, gerade Items negativ formuliert. Testpersonen antworten auf einer Skala von 1 (ich stimmer überhaupt nicht zu) bis 5 (ich stimme absolut zu). Für die ungeraden Items ziehen Sie 1 von der Antwort ab, für die geraden Items ziehen Sie die Antwort von 5 ab; jeder Item-Wert liegt damit zwischen 0 und 4, und die Summe multiplizieren Sie mit 2,5, was einen SUS-Wert von 0 bis 100 ergibt.

Ein durchgerechnetes Mini-Beispiel für eine einzelne Person (Antworten auf der 5er-Skala):

  • Item 1 (positiv): Antwort 4 → 4 − 1 = 3
  • Item 2 (negativ): Antwort 2 → 5 − 2 = 3
  • Item 3 (positiv): Antwort 5 → 5 − 1 = 4
  • Item 4 (negativ): Antwort 2 → 5 − 2 = 3
  • Item 5 (positiv): Antwort 4 → 4 − 1 = 3
  • Item 6 (negativ): Antwort 2 → 5 − 2 = 3
  • Item 7 (positiv): Antwort 5 → 5 − 1 = 4
  • Item 8 (negativ): Antwort 1 → 5 − 1 = 4
  • Item 9 (positiv): Antwort 4 → 4 − 1 = 3
  • Item 10 (negativ): Antwort 2 → 5 − 2 = 3

Summe der Item-Werte: 33. Multipliziert mit 2,5 ergibt das einen SUS von 82,5 für diese Person. Den Gesamt-SUS Ihrer Studie bilden Sie, indem Sie die Einzelwerte aller Teilnehmer mitteln.

Bei kleinen Stichproben sollten Sie das Konfidenzintervall mitdenken und Differenzen nicht überinterpretieren. Beim Vergleich von Werten sind Unterschiede von 5 Punkten oder weniger (besonders bei kleinen Samples) womöglich nicht bedeutsam; eine Veränderung von 72 auf 75 ist nicht zwingend eine echte Verbesserung, sondern kann Stichprobenvariation sein, während ein Sprung von 72 auf 82 wahrscheinlich real ist. Eine Angabe wie „SUS: 79,8 (95-%-KI: 76,2 bis 83,4)“ signalisiert Stakeholdern, dass der wahre Wert mit hoher Wahrscheinlichkeit zwischen 76 und 83 liegt.

SUS-Interpretationstabelle

Diese Tabelle beantwortet die Frage „Was ist ein guter SUS-Score?“ und eignet sich als Referenz im Ergebnisbericht: Tragen Sie Ihren ermittelten Wert ein, ordnen Sie ihn der Zeile zu und kommunizieren Sie Einordnung plus Perzentil statt einer nackten Zahl.

SUS-Interpretationstabelle: SUS-Score, Einordnung, Schulnote und Perzentil im Überblick

Die Perzentil-Spalte ist als Orientierung zu lesen, nicht als exakte Umrechnung. Ein paar gut belegte Ankerpunkte helfen beim Einordnen: Ein roher SUS-Wert von 74 entspricht einem Perzentilrang von 70 – das Produkt ist nutzbarer als 70 Prozent aller getesteten Produkte und lässt sich als 2- interpretieren. Für eine 1 müssen Sie über 80,3 kommen (die obersten rund 10 Prozent der Werte), während ein Wert beim Mittel von 68 eine 3 ist und alles unter 51 eine 6 bedeutet (die untersten rund 15 Prozent). Auf der Adjektiv-Skala von Bangor et al. gelten Werte über 85 als „Excellent“, „Good“ liegt knapp über dem Schnitt bei 71 und „OK“ bei rund 51.

Wichtig zu wissen: Es kursieren mehrere Grading- und Adjektiv-Skalen nebeneinander. Gängige Frameworks sind Adjektiv-Bewertungen (Poor, OK, Good, Excellent), die akademische US-Notenskala von A bis F (bzw. 1 bis 6 in Deutschland), eine Akzeptabilitäts-Skala (Not Acceptable, Marginal, Acceptable) sowie Perzentilränge gegen frühere Studien. Die Tabelle oben ist eine pragmatische Synthese für den Reporting-Alltag. Entscheidend ist, dass Sie sich auf eine Skala festlegen und sie konsistent verwenden.

Task Success Rate, Time on Task und Error Rate

Diese drei Kennzahlen messen, was Nutzer tatsächlich tun, nicht nur, wie sie sich fühlen. Sie sind die harte Ergänzung zum SUS und in vielen Stakeholder-Diskussionen das schlagkräftigste Argument.

Die Task Success Rate ist der Anteil der Nutzer, die eine Aufgabe erfolgreich abschließen, und damit die wichtigste „harte“ Metrik. Schaffen 11 von 15 Teilnehmern, ein Produkt in den Warenkorb zu legen und zur Kasse zu gehen, liegt die Erfolgsquote bei rund 73 Prozent. Damit diese Zahl belastbar ist, müssen die Erfolgskriterien vorab definiert sein: was genau zählt als „erfolgreich“? Diese Kriterien legen Sie beim Aufgabendesign fest, bevor der erste Test läuft.

Time on Task misst die Effizienz: Wie lange brauchen Nutzer bis zum Abschluss? Wenn das Anlegen eines neuen Berichts im Schnitt 4 Minuten 30 Sekunden dauert und nach dem Redesign nur noch 2 Minuten 10, ist das ein konkretes, kommunizierbares Effizienzplus.

Error Rate erfasst die Häufigkeit oder Quote von Fehlern pro Aufgabe – etwa falsch ausgefüllte Formularfelder, abgebrochene Schritte oder das Klicken auf das falsche Element. Eine hohe Fehlerquote bei niedriger Time on Task ist ein typisches Warnsignal: Nutzer sind schnell, aber auf dem falschen Weg.

Die folgende Tabelle beantwortet die Kernfrage „Welche Usability-Kennzahl sagt was aus?“ und macht die Arbeitsteilung zwischen den Metriken sichtbar.

Vergleich der Usability-Kennzahlen: Task Success Rate, Time on Task, Error Rate, SUS und SEQ

Der Grundsatz dahinter: Der SUS ergänzt diese Task-Performance-Metriken, ersetzt sie aber nie. Post-Test-Fragebögen wie der SUS messen die wahrgenommene Usability eines ganzen Systems, während Post-Task-Skalen auf problematische Teile eines Designs hindeuten. Erst die Kombination aus qualitativen und quantitativen Daten ergibt ein vollständiges Bild.

SEQ und weitere subjektive Maße

Die Single Ease Question (SEQ) erfasst direkt nach einer Aufgabe, wie schwierig sie empfunden wurde – schnell, granular und aufgabenbezogen. Die SEQ bittet Nutzer, die Schwierigkeit der gerade abgeschlossenen Aktivität auf einer 7-Punkte-Skala von „sehr leicht“ bis „sehr schwierig“ zu bewerten.

Der Vorteil gegenüber dem SUS liegt in der Auflösung. Der SUS bewertet das Gesamtsystem, die SEQ deutet dagegen auf einzelne problematische Aufgabenflüsse hin. Wenn der SUS okay aussieht, aber eine bestimmte Aufgabe konstant schwach bewertet wird, wissen Sie sofort, wo Sie graben müssen.

Als Orientierung für die Einordnung gibt es einen soliden Benchmark: Jeff Sauro hat Benchmarks für SEQ-Antworten veröffentlicht und schätzt den Durchschnitt auf der 7-Punkte-Skala auf rund 5,3 bis 5,5. Aufgaben, die deutlich darunter liegen, sollten Sie genauer unter die Lupe nehmen.

Weitere subjektive Maße wie Zufriedenheits-Ratings oder NPS können das Bild abrunden, sollten aber nicht zur Datensammlung um ihrer selbst willen ausufern. Wichtiger ist die Disziplin, subjektive Maße immer zusammen mit Verhaltensdaten zu lesen. Manche Nutzer bewerten alles mit 6 oder 7, und rund 14 Prozent stufen eine Aufgabe als „sehr leicht“ ein, selbst nachdem sie beim Abschluss gescheitert sind. Ein hoher SEQ-Wert bei niedriger Task Success Rate ist also kein Widerspruch, sondern ein Hinweis, dass Sie genauer hinschauen müssen.

Qualitative Insights quantifizieren

Qualitative Beobachtungen werden reporting- und priorisierungsfähig, sobald Sie sie zählbar machen – über Häufigkeit, Schweregrad und den Anteil betroffener Nutzer. Damit verlieren Sie den Reichtum der Beobachtung nicht, gewinnen aber die Vergleichbarkeit, die Stakeholder brauchen.

So gehen Sie konkret vor:

  • Problemhäufigkeit – Wie viele Nutzer sind über dasselbe Problem gestolpert?
  • Schweregrad – Auf einer einfachen Skala (z. B. kosmetisch, störend, blockierend): Wie stark hindert das Problem am Ziel?
  • Anteil betroffener Nutzer – Welcher Prozentsatz der Teilnehmer war betroffen?
  • Wiederholungsrate über Sessions – Tritt das Problem konsistent auf oder war es ein Einzelfall?

Ein Beispiel: Aus „mehrere Nutzer stolperten beim Checkout“ wird „6 von 15 Teilnehmern (40 Prozent) übersahen das Rabattcode-Feld, Schweregrad störend, in jeder zweiten Session reproduziert“. Die erste Formulierung lädt zur Diskussion ein, die zweite landet ganz oben auf der Priorisierungsliste.

So werden qualitative Findings für Stakeholder genauso belastbar wie Ihre quantitativen KPIs – und lassen sich im selben Bericht gegeneinander abwägen.

KPIs im Testbericht verankern

Ein roher Datendump ist keine Entscheidungsgrundlage. Der Wert entsteht erst, wenn die KPIs priorisiert sind und mit konkreten Maßnahmen verknüpft werden – sonst liegt der Datenberg im Confluence-Ordner und niemand handelt.

Ein guter Ergebnisbericht ist nach Impact strukturiert, nicht nach Reihenfolge der Aufgaben. Er sollte:

  • die wichtigsten KPIs nach Wirkung sortieren (was kostet am meisten Conversion, Zeit oder Vertrauen?),
  • jeden Befund mit einer konkreten Empfehlung verbinden,
  • eine Verantwortlichkeit und einen groben Aufwand zuordnen, damit aus der Erkenntnis eine Aufgabe wird.

Genau an dieser Stelle wird Messung zur Entscheidung. Wenn Sie einen Test brauchen, der nicht nur Zahlen sammelt, sondern in einem priorisierten, verteidigungsfähigen Bericht endet, ist ein Usability Test mit messbarem Ergebnisbericht der logische nächste Schritt – die KPIs aus diesem Artikel sind dabei genau das, was darin ausgewiesen wird.

Für die Tiefe in den angrenzenden Themen helfen Ihnen diese Ressourcen weiter: die Erfolgskriterien, die später zu KPIs werden, definieren Sie beim Aufgabendesign; die passenden Analyse-Tools behandeln wir im Tools-Beitrag; den Business-Case rund um den UX-ROI finden Sie separat; und den Gesamtüberblick liefert unser Usability-Testing-Guide.

Was Sie als Nächstes tun sollten

Legen Sie vor Ihrem nächsten Test fest, welche KPIs Sie erheben – mindestens SUS plus Task Success Rate – und planen Sie genug Teilnehmer ein, damit die Zahlen belastbar sind. Diese eine Entscheidung im Vorfeld entscheidet darüber, ob Ihr Bericht im Meeting standhält oder zerredet wird.

Wenn Sie einen verteidigungsfähigen Ergebnisbericht mit priorisierten KPIs brauchen, fordern Sie eine kostenlose Erstberatung bei brightside Studio an. Wir helfen Ihnen, die richtigen Kennzahlen für Ihr Produkt festzulegen und sie so aufzubereiten, dass sie Priorisierungsentscheidungen tragen.

FAQ: Usability KPIs richtig berechnen und interpretieren

Wie misst man Usability?

Usability messen Sie über eine Kombination aus subjektiven und verhaltensbasierten Kennzahlen. Subjektive Maße wie der SUS und die SEQ erfassen, wie leicht sich ein Produkt anfühlt; Verhaltensdaten wie Task Success Rate, Time on Task und Error Rate zeigen, was Nutzer tatsächlich schaffen. Erst die Kombination beider Dimensionen ergibt ein vollständiges, belastbares Bild.

Was ist ein guter SUS-Score?

Ein SUS-Wert über 68 gilt als überdurchschnittlich, alles darunter als unterdurchschnittlich. Liegt Ihr Wert über 80, gehören Sie zu den besten 10 bis 15 Prozent. Werte ab etwa 85 gelten als exzellent. Die genaue Einordnung mit Schulnote und Perzentil finden Sie in der SUS-Interpretationstabelle oben.

Was bedeutet ein SUS von 68?

Ein SUS von 68 ist ein Skalenwert am 50. Perzentil – die Hälfte aller getesteten Produkte liegt darüber, die Hälfte darunter. Ein SUS-Wert von 68 bedeutet nicht, dass 68 Prozent der Nutzer das Produkt für usabel hielten oder zu 68 Prozent zufrieden sind. Es ist kein Prozentwert, sondern schlicht der Durchschnitt, an dem Sie sich orientieren.

Welche UX-KPIs gibt es?

Die zentralen Usability-KPIs sind der System Usability Scale (SUS) für die wahrgenommene Gesamt-Usability, die Single Ease Question (SEQ) für die empfundene Schwierigkeit einzelner Aufgaben sowie drei Verhaltensmetriken: Task Success Rate (Erfolgsquote), Time on Task (Effizienz) und Error Rate (Fehlerquote). Subjektive und verhaltensbasierte Kennzahlen ergänzen sich – keine ersetzt die andere.

Wie viele Teilnehmer brauche ich für einen belastbaren SUS?

Für einen belastbaren SUS sollten Sie mindestens 15, besser 20 bis 30 Antworten sammeln. Fünf Antworten liefern zwar eine Zahl, aber wenig Konfidenz – bei kleinen Stichproben sollten Sie immer das Konfidenzintervall mitführen. Wie viele Teilnehmer Sie je nach Testziel insgesamt brauchen, behandeln wir im Beitrag zur Teilnehmerzahl im Detail.

Ersetzt der SUS andere Metriken?

Nein. Der SUS ergänzt die Task-Performance-Metriken, ersetzt sie aber nicht. Er misst die wahrgenommene Usability eines ganzen Systems, während Post-Task-Maße auf problematische Teile eines Designs hindeuten. Lesen Sie subjektive und verhaltensbasierte Kennzahlen daher immer zusammen, um Fehlinterpretationen zu vermeiden.

Fallstudie

Globale Bildung mit dem Design für DAAD's My GUIDE Plattform

Wie wir eine intuitive Plattform geschaffen haben, die internationalen Studenten hilft, sich in deutschen Studiengängen zurechtzufinden.

Mehr lesen

Blogbeiträge

Mehr lesen über UX & Barrierefreiheit

UX Audit vs. Usability Test: Welche Methode löst welches Problem?

Reichen 5 Nutzer? Wie viele Testpersonen ein Usability-Test braucht

Usability Testing Methoden [+ Entscheidungsmatrix nach Budget]

UX Audit vs. Usability Test: Welche Methode löst welches Problem?

Usability KPIs richtig berechnen, benchmarken und interpretieren

Reichen 5 Nutzer? Wie viele Testpersonen ein Usability-Test braucht

Mehr Beiträge sehen