
Inhaltsverzeichnis
Die berühmte 5-Nutzer-Regel trifft im Durchschnitt zu, ist aber kein Garantiewert, und genau dieser Unterschied entscheidet darüber, ob Ihre Ergebnisse belastbar sind.
Die Kurzantwort: So viele Testpersonen brauchen Sie
Für qualitative Tests, die Usability-Probleme aufdecken sollen, reichen meist 5 Testpersonen pro Nutzergruppe und Durchlauf. Wollen Sie dagegen Messwerte wie Erfolgsraten oder Bearbeitungszeiten statistisch belegen, brauchen Sie als Richtwert eher 20 oder sogar mehr User. Die entscheidende Weiche ist also Ihr Testziel: Probleme finden oder Zahlen beweisen. Und in fast allen Fällen gilt, dass mehrere kleine Tests nacheinander mehr erreichen als ein großer Test.
Key Takeaways
- Das Testziel bestimmt die Zahl. Qualitative Tests (Probleme finden) kommen mit kleinen Stichproben aus, quantitative Tests (Messwerte belegen) brauchen deutlich mehr.
- 5 Nutzer finden im Schnitt rund 85 % der Probleme. Der Wert gilt unter der Annahme, dass ein Problem im Schnitt rund 31 % der Nutzer auffällt. 31 % ist dabei ein Durchschnitt, kein Schwellenwert. Seltene Probleme bleiben meist unentdeckt.
- Der Durchschnitt verschweigt die Streuung. Die Faulkner-Studie zeigt, dass einzelne 5er-Tests zwischen 55 % und 99 % der Probleme fanden.
- 5 gilt pro homogener Nutzergruppe. Bei klar getrennten Segmenten brauchen Sie pro Gruppe eigene Testpersonen, die Gesamtzahl steigt entsprechend.
- Iteration schlägt eine perfekte Einmal-Zahl. Zweimal 5 testen mit einem Fix dazwischen bringt mehr Erkenntnis als einmal 10.
- Die schlechteste Option ist, gar nicht zu testen. Schon ein einziger echter Nutzer liefert mehr als jede interne Diskussion.
Die 5-Nutzer-Regel: Was Nielsen wirklich gesagt hat
Die 5-Nutzer-Regel ist ein mathematisches Modell von Thomas K. Landauer und Jakob Nielsen aus dem Jahr 1993. Bekannt machte es Nielsen schließlich im Jahr 2000 mit seinem Artikel „Why You Only Need to Test with 5 Users“, in dem er argumentierte, dass fünf Testpersonen rund 85 % der Usability-Probleme aufdecken.
Hinter der Zahl steht die Formel N(1 − (1 − L)n).
Dabei ist N die Gesamtzahl der Usability-Probleme im Design und n die Anzahl der Testpersonen. L ist der Anteil der Usability-Probleme, der beim Test mit einem einzelnen Nutzer entdeckt wird, und der typische Wert von L liegt bei 31 %, gemittelt über eine große Zahl untersuchter Projekte. Setzen Sie L = 31 % und n = 5 in die Formel ein, ergibt sich ein Erwartungswert von rund 85 % gefundener Probleme.
Der meistübersehene Punkt steckt in genau diesem L-Wert. Die 85 % sind ein Erwartungswert über alle Probleme hinweg und dieser Erwartungswert gilt nur unter der Annahme, dass ein Problem im Schnitt von rund 31 % der Nutzer bemerkt wird. Genau diesen Zusatz lassen die meisten weg oder verstehen ihn nicht. Denn 31 % ist ein Durchschnitt, kein Schwellenwert: Manche Probleme fallen fast jedem auf, andere nur wenigen. Häufige Probleme entdecken Sie mit fünf Nutzern fast sicher, seltene wiederum mit hoher Wahrscheinlichkeit gar nicht. Je seltener ein Problem ist, desto eher entgeht es Ihnen.
Dahinter steckt das Prinzip des abnehmenden Grenznutzens. Sobald Sie Daten von einem einzigen Testnutzer sammeln, schießen Ihre Erkenntnisse nach oben, und Sie haben bereits fast ein Drittel von allem gelernt, was es über die Usability des Designs zu wissen gibt; der Unterschied zwischen null und auch nur ein wenig Daten ist erstaunlich. Mit jedem weiteren Tester überlappen sich die Beobachtungen aber stärker, weil mehrere Personen über dieselben Stolperstellen fallen.
Wichtig ist, was die Regel nicht behauptet. Sie sagt nichts darüber aus, wie viel Prozent Ihrer echten Nutzer ein bestimmtes Problem treffen werden. Das ist eine qualitative Methode zum Finden von Problemen, keine statistische Methode zum Messen von Häufigkeiten. Wer die 5-Nutzer-Regel für Erfolgsraten oder Benchmarks heranzieht, missbraucht sie.
Wo die Formel bricht: Die Faulkner-Studie
Der Durchschnitt erzählt nur die halbe Geschichte. Laura Faulkner lieferte 2003 mit ihrer Studie „Beyond the five-user assumption“ in den Behavior Research Methods den empirischen Gegentest. In dieser Studie wurde mit insgesamt 60 Nutzern getestet und zufällige Sets von 5 oder mehr aus der Gesamtgruppe gezogen, um die Risiken bei der Nutzung von nur 5 Teilnehmern und die Vorteile von mehr aufzuzeigen; manche der zufällig ausgewählten 5er-Sets fanden 99 % der Probleme, andere Sets nur 55 %, und bei 10 Nutzern stieg die niedrigste von einem Set entdeckte Problemquote auf 80 %, bei 20 Nutzern auf 95 %.
Die Streuung ist das eigentliche Ergebnis. So verlässlich sind 5, 10 oder 20 Testpersonen im schlechtesten Fall:

Die Werte stammen aus Faulkner (2003); einige Sekundärquellen nennen für 10 Nutzer eine leicht abweichende Untergrenze. Die Botschaft der Tabelle bleibt dieselbe.
Im Durchschnitt (!)bestätigt Faulkner also Nielsen. Wie von der Nielsen-Formel vorhergesagt, lag der Durchschnitt der gefundenen Usability-Probleme bei 85 % in 100 Tests mit fünf Nutzern. Allerdings schwankte dieser Prozentsatz erheblich über das gesamte Spektrum, denn mit "Pech" findet ein einzelner 5er-Test eben nur gut die Hälfte der Probleme. Größere Stichproben senken diese Varianz und machen Ihre Ergebnisse vor Stakeholdern verteidigbar.
Faulkner steht mit ihrer Kritik nicht allein. Schon zuvor hatten Spool und Schroeder sowie Perfetti und Landesman Fälle dokumentiert, in denen fünf Nutzer besonders bei komplexen Websites mit vielen verschiedenen Aufgaben deutlich unter der 85-Prozent-Marke blieben. Über die 100 simulierten Tests hinweg reichte der Anteil der bei fünf Teilnehmern gefundenen Usability-Probleme von nahezu 100 % bis hinunter zu nur 55 %; wie schon jeder gute Statistik-Erstsemester vorhersagen könnte, gibt es bei kleinen Stichproben eine große Variation der Ergebnisse zwischen den Durchläufen.
Qualitativ oder quantitativ: Das entscheidet die Stichprobe
Bevor Sie über eine Zahl streiten, klären Sie die Frage dahinter: Wollen Sie Probleme finden oder Zahlen belegen? Diese Weiche bestimmt die Stichprobe mehr als jede Faustregel.
Bei qualitativen Tests geht es darum, Probleme aufzudecken und das Warum zu verstehen. Hier sind kleine, iterative Stichproben sinnvoll – in der Praxis oft 5 bis 8 pro Nutzergruppe. Sie beobachten, wo Menschen hängen bleiben, hören ihre Begründungen und leiten Verbesserungen ab. Aehr Tester bringen ab einem gewissen Punkt vor allem Wiederholungen derselben Erkenntnisse.
Bei quantitativen Tests wollen Sie Messwerte wie Erfolgsraten, Bearbeitungszeiten oder Zufriedenheitsscores statistisch absichern. Dafür brauchen Sie deutlich größere Stichproben, als Richtwert 20 oder mehr pro Bedingung. Eine Erfolgsrate aus fünf Personen hat ein riesiges Konfidenzintervall und hält keiner kritischen Nachfrage stand.
Es gibt noch einen Faktor, der die nötige Zahl nach oben treibt: die Qualität Ihrer Oberfläche. Je besser Ihr Interface bereits ist, desto seltener stolpern Nutzer, der L-Wert sinkt, und Sie brauchen mehr Tester für dieselbe Abdeckung. Wenn L bei 20 % liegt, brauchen Sie 9 Nutzer, um 85 % der Probleme zu finden, und wenn L bei 10 % liegt, brauchen Sie 18 Nutzer – je besser Ihre Oberfläche nutzbar ist, desto mehr Nutzer müssen Sie einbeziehen, um 85 % der Usability-Probleme zu identifizieren.
Für die konkrete Stichprobengröße bei Standard-Fragebögen wie dem SUS und für valide Messungen lohnt ein Blick in unseren Beitrag zum UX-ROI und der Wirkung guter Usability. Die Tiefe zu den einzelnen Methoden selbst behandeln wir im Methoden-Artikel des Hubs.
Mehrere Zielgruppen richtig abdecken
Die 5-Nutzer-Regel gilt pro homogener Nutzergruppe, nicht für das gesamte Produkt. Genau diesen Teil hat Nielsen mitgeschrieben, und genau dieser Teil wird ständig überlesen. Wenn Ihr Produkt stark unterschiedliche Nutzergruppen hat, dann müssen Sie für jede dieser Nutzergruppen eigene Testpersonen hinzuziehen.
Unterschiedliche Nutzergruppen liegen vor, sobald sich Ihre Nutzer in zentralen Punkten unterscheiden:
- Erfahrungsniveau: Anfänger und Profis stoßen auf völlig verschiedene Hürden.
- Rolle im System: Ein B2B-Administrator nutzt eine Plattform anders als ein Endanwender.
- Nutzungskontext: Wer am Schreibtisch arbeitet, hat andere Bedürfnisse als jemand mobil unterwegs.
Die Praxisregel ist einfach: Planen Sie für jedes klar getrennte Segment eigene Testpersonen ein. Wir sehen das häufig bei Produkten mit mehrseitigen Nutzerstrukturen, denn ein Marktplatz oder eine FinTech-Plattform bedient oft Käufer, Verkäufer und Betreiber gleichzeitig, und jede dieser Rollen braucht ihre eigenen fünf Tester, weil ihre Aufgaben und Erwartungen schlicht andere sind.
Dasselbe gilt für Endgeräte und Anwendungsfälle. Eine Stichprobe von fünf versteht sich pro Gerät und pro Kernaufgabe. Wer Desktop und Mobile in einen Topf wirft, mischt zwei Tests zu einem unscharfen Ergebnis.
Praxisempfehlung nach Testziel
Statt einer Pauschalzahl hier die Entscheidungshilfe. Diese Tabelle beantwortet die Frage, wie viele Testpersonen Sie für Ihr konkretes Testziel brauchen:

Diese Werte sind eher Richtwerte als Gesetze. Der konkrete Kontext in Form von Produktkomplexität, Designqualität und Zielgruppenanzahl kann sie nach oben oder unten verschieben.
Eines bleibt über allen Zahlen wahr: Die schlechteste Option ist nicht, mit zu wenigen zu testen, sondern gar nicht zu testen. Weil die Probandenzahl einer der zentralen Kostentreiber ist, lohnt sich vor der Budgetfreigabe ein Blick auf die konkreten Kostenfaktoren eines Usability-Tests.
Warum 2x 5 besser ist 1x 10
Der größte Hebel liegt in der Wiederholung, nicht in einer perfekten Einmal-Zahl. Wenn Sie das Budget für 15 Tester haben, stecken Sie es nicht in eine einzige große Studie, sondern lieber in drei kleine.
Der Grund ist das Ziel der Übung. Sie wollen mehrere Tests durchführen, weil das eigentliche Ziel von Usability-Engineering darin besteht, das Design zu verbessern und nicht nur seine Schwächen zu dokumentieren; nachdem die erste Studie mit fünf Teilnehmern 85 % der Usability-Probleme gefunden hat, wollen Sie diese Probleme in einem Redesign beheben, und nach dem neuen Design müssen Sie erneut testen.
Das zweite Testen ist kein Luxus. Auch wenn das Redesign die im ersten Test gefundenen Probleme „beheben“ soll, ist die Wahrheit, dass Sie nur glauben, das neue Design überwinde die Probleme. Aber da niemand die perfekte Oberfläche entwerfen kann, gibt es keine Garantie, dass das neue Design die Probleme tatsächlich behebt. Jedes Redesign kann neue Stolperstellen einführen, und genau die fängt nur eine zweite Runde ab.
In der Praxis steht und fällt jede Runde mit den richtigen Menschen vor dem Bildschirm. Fünf zufällige Personen sind kein Test – es müssen fünf echte Vertreter Ihrer Zielgruppe sein. Wenn Sie das nicht selbst stemmen wollen, helfen wir Ihnen, die passenden Testpersonen zu rekrutieren und Usability Tests mit echten Personen durchzuführen. Welche Methode zu welcher Frage passt und wie der gesamte Testprozess aufgebaut ist, vertiefen wir in unserem Leitfaden zum Usability Testing; eine schnellere, expertenbasierte Alternative finden Sie im Beitrag zur heuristischen Evaluation.
Was Sie als Nächstes tun sollten
Starten Sie mit 5 Testpersonen pro Nutzergruppe für einen qualitativen Test und planen Sie von Anfang an mindestens zwei Runden mit einem Fix dazwischen ein. Auf 20 oder mehr wechseln Sie nur dann, wenn Sie belastbare Zahlen zu beispielsweise Erfolgsraten brauchen.
Der konkrete erste Schritt: Definieren Sie Ihr Testziel, bevor Sie über die Zahl nachdenken. Geht es darum, Probleme zu finden, oder darum, Messwerte zu belegen? Aus dieser Antwort leiten Sie die Stichprobe direkt aus der Tabelle oben ab.
Wenn Sie die richtigen Testpersonen nicht selbst rekrutieren oder die Sessions nicht selbst moderieren möchten, sprechen Sie mit uns. In einem unverbindlichen Erstgespräch gehen wir Ihr Testziel und die passende Stichprobe gemeinsam durch.
FAQ zur Testpersonen-Anzahl in Usability Tests
Reichen 5 Testpersonen für einen Usability-Test?
Für qualitative Tests pro Zielgruppe ja, denn fünf Nutzer finden im Durchschnitt rund 85 % der Usability-Probleme. Wichtig ist die Streuung: Einzelne 5er-Tests können auch nur gut die Hälfte der Probleme aufdecken. Deshalb sollten Sie iterieren und mindestens zwei Runden mit einem Fix dazwischen einplanen, statt sich auf einen einzigen Durchlauf zu verlassen.
Was ist die 5-Nutzer-Regel?
Die 5-Nutzer-Regel ist ein mathematisches Modell von Nielsen und Landauer aus dem Jahr 1993, später bekannt gemacht durch Nielsens Artikel von 2000. Sie besagt, dass fünf Nutzer im Schnitt etwa 85 % der Usability-Probleme finden. Dieser Wert gilt allerdings unter der Annahme, dass ein Problem im Schnitt von rund 31 % der Nutzer bemerkt wird – 31 % ist ein Durchschnitt, kein Schwellenwert. Seltene Probleme werden mit fünf Nutzern meist übersehen.
Wie viele Testpersonen brauche ich für einen quantitativen Test?
Deutlich mehr als für einen qualitativen Test – als Richtwert 20 oder mehr pro Bedingung, um statistisch belastbare Aussagen zu treffen. Erfolgsraten, Bearbeitungszeiten oder Zufriedenheitsscores aus nur fünf Personen haben ein zu großes Konfidenzintervall. Für die genaue Stichprobengröße bei standardisierten Fragebögen wie dem SUS lohnt ein Blick in die Materialien zu valider Usability-Messung.
Was zeigt die Faulkner-Studie?
Laura Faulkner testete 2003 insgesamt 60 Nutzer und zog daraus zufällige Stichproben. Manche 5er-Sets fanden 99 % der Probleme, andere nur 55 %. Bei 10 Nutzern lag die niedrigste Quote bei 80 %, bei 20 Nutzern bei 95 %. Die Studie bestätigt Nielsens Durchschnitt, zeigt aber die hohe Varianz kleiner Stichproben.
Wie viele Testpersonen bei mehreren Zielgruppen?
Planen Sie pro klar getrennter Nutzergruppe eigene Tester ein, denn die 5-Nutzer-Regel gilt nur für vergleichbare Nutzer, die ein Produkt ähnlich verwenden. Bei stark unterschiedlichen Rollen, Erfahrungsniveaus oder Nutzungskontexten steigt die Gesamtzahl entsprechend. Ein Produkt mit drei getrennten Zielgruppen braucht also eher 15 als 5 Testpersonen.
Ist ein großer Test besser als mehrere kleine?
Nein. Mehrere kleine, iterative Tests mit einem Fix dazwischen liefern mehr Wert als ein einmaliger großer Test. Sie verbessern das Design Runde für Runde und prüfen gleichzeitig, ob Ihre Korrekturen wirklich funktionieren – und ob das Redesign neue Probleme eingeführt hat. Statt einmal 10 zu testen, testen Sie lieber zweimal 5.


