Mann-Whitney-U-Test / Wilcoxon-Rangsummentest

Der Mann-Whitney-U-Test oder Wilcoxon-Rangsummentest untersucht, ob die Messgrößen zweier unabhängiger Datensätze sich im Mittel signifikant unterscheiden oder innerhalb statistischer Schwankungen als gleich anzusehen sind. Hierzu bestimmt er Mediane und Ränge der beiden Gruppen. Er ist ein nicht-parametrischer, statistischer Test zum Vergleich zweier unabhängiger Stichproben mit ordinalen oder nicht normalverteilten Daten. Er wird hauptsächlich zur Überprüfung von Verbesserungsmaßnahmen verwendet, bei denen eine Quantifizierung der Messgröße nicht direkt möglich ist. Die korrekte Anwendung des Tests minimiert Unsicherheiten in der Datenanalyse und vermeidet potenzielle Fehlinterpretationen. Dies steigert die Qualität der Entscheidung insbesondere bei Verbesserungsmaßnahmen.

Methode Mann-Whitney-U-Test /  Wilcoxon-Rangsummentest
Download PDFDownload PDF

Mann-Whitney-U-Test / Wilcoxon-Rangsummentest

Der Mann-Whitney-U-Test oder Wilcoxon-Rangsummentest untersucht, ob die Messgrößen zweier unabhängiger Datensätze sich im Mittel signifikant unterscheiden oder innerhalb statistischer Schwankungen als gleich anzusehen sind. Hierzu bestimmt er Mediane und Ränge der beiden Gruppen. Er ist ein nicht-parametrischer, statistischer Test zum Vergleich zweier unabhängiger Stichproben mit ordinalen oder nicht normalverteilten Daten. Er wird hauptsächlich zur Überprüfung von Verbesserungsmaßnahmen verwendet, bei denen eine Quantifizierung der Messgröße nicht direkt möglich ist. Die korrekte Anwendung des Tests minimiert Unsicherheiten in der Datenanalyse und vermeidet potenzielle Fehlinterpretationen. Dies steigert die Qualität der Entscheidung insbesondere bei Verbesserungsmaßnahmen.

Methode Mann-Whitney-U-Test /  Wilcoxon-Rangsummentest

Einsatzmöglichkeiten

Der Mann-Whitney-U-Test (auch als Wilcoxon-Rangsummentest bekannt) ist eine effektive Methode für den Vergleich von zwei unabhängigen Stichproben, insbesondere wenn diese geringen Umfang haben oder auf ordinalen oder kategorialen Daten basieren. Er ist ideal geeignet für Daten, die nicht normalverteilt sind, wodurch herkömmliche parametrische Tests wie der t-Test oder die ANOVA (Analysis of Variance) möglicherweise nicht geeignet sind. Der Mann-Whitney-U-Test ermöglicht eine zuverlässige Analyse von Unterschieden zwischen zwei unabhängigen Gruppen, selbst in Situationen, in denen die Datenverteilung nicht den Voraussetzungen für parametrische Tests entspricht.

Beispiele für mögliche Einsätze sind:

  • Erfolgscontrolling: Überwachung von z.B. Organisationsentwicklungsprojekten durch Vergleich von Zufriedenheitsbefragungen in regelmäßigen zeitlichen Abständen
  • Beurteilung von Marketingmaßnahmen: Vergleich der Effektivität von zwei verschiedenen Marketingstrategien anhand von Kundenbewertungen oder -reaktionen
  • Evaluierung von Workshops: Vergleich der Bewertungen oder Feedbacks von Teilnehmenden zweier unterschiedlicher Workshops
  • Bewertung von Bildungsprogrammen: Vergleich der Leistung oder Zufriedenheit von Schüler:innen, die an unterschiedlichen Bildungsprogrammen oder Kursen teilgenommen haben

 

Ergebnisse

  • Zu überprüfende Hypothesen
  • Rangsummen und Mediane der untersuchten Gruppen als Vergleichsgrößen
  • Wahrscheinlichkeit eines signifikanten Unterschieds zwischen den beiden untersuchten Gruppen in Form des Z-Werts
  • Analyse und Interpretation dieser statistischen Kennzahlen

Vorteile

Der Test liefert zuverlässige Ergebnisse auch bei Stichprobengrößen, die für andere Tests wie den t-Test zu gering sind.
Die Daten brauchen nicht normalverteilt zu sein.
Die Daten können auch ordinal oder nicht-quantitativ sein, z.B. Zufriedenheitsbewertungen oder Produktkategorien.
Der Wilcoxon-Rangsummentest ist vergleichsweise einfach und schnell anzuwenden.
Im Vergleich zu parametrischen Tests ist der Mann-Withney-U-Test weniger anfällig für Verzerrungen durch Ausreißer in den Daten.

Durchführung: Schritt für Schritt

Vorab einige fachliche Hinweise, um Missverständnisse zu vermeiden und den geeigneten Test für eine gegebene Datensituation auszuwählen:

  • Die Definition "unabhängige Stichproben" drückt aus, dass die Beobachtungen der einen Gruppe in keiner Weise mit den Beobachtungen in der anderen Gruppe verbunden sind. Daraus folgt, dass die Eigenschaften einer Beobachtung in einer Gruppe keinen Einfluss auf die Beobachtungen in der anderen Gruppe haben dürfen.
  • "Ordinale Daten" sind eine Art von kategorischen Daten, bei denen die Kategorien eine natürliche Reihenfolge aufweisen, aber der genaue Abstand zwischen den Kategorien nicht notwendigerweise quantifizierbar oder gleich groß ist. Ein typisches Beispiel für ordinale Daten ist die Bewertung von Geschmackseindrücken.
  • "Wilcoxon-Rangsummentest" und "Mann-Whitney-U-Test" werden meist gleichgesetzt oder synonym verwendet, da sie aus statistischer Sicht identisch sind und beide für den Vergleich unabhängiger Stichproben verwendet werden. Die beiden Tests ermitteln die statistischen Werte in etwas unterschiedlichen Schritten. Hier wird der Rechenweg des Wilcoxon-Rangsummentests beschrieben.
  • Ein weiterer verwandter Test, der Wilcoxon-Signed-Rank-Test, wird hingegen für die Untersuchung von abhängigen oder gepaarten Stichproben eingesetzt.

Schritt 1: Definieren Sie die Prüfaufgabe!

Wenn die Aufgabenstellung nicht bereits vorliegt, ist es wichtig, die spezifische Prüfaufgabe klar abgegrenzt zu beschreiben. Zusammen mit der Definition der Hypothesen (s.u.) liefert die Prüfaufgabe die Basis für die abschließende Interpretation der Testergebnisse. Dies kann aufgrund einer Anfrage von einer anderen Fachabteilung oder als Teil einer gezielten Analyse erfolgen.

Der Wilcoxon-Rangsummentest bzw. der Mann-Whitney-U-Test ist dann eine geeignete Methode, wenn es zur Prüfaufgabe gehört, zwei unabhängige Datensätze auf Gleichheit oder Unterschiedlichkeit zu untersuchen.

Beispiel: Kundenakzeptanz eines neuen Produktlayouts

Die Abteilungen für Produktentwicklung und Design können sich nicht auf ein neues Layout für ein Produkt einigen. Für eine Werbemaßnahme sollen zwei Gruppen von je fünf bis zehn Schlüsselkund:innen zum neuen Produktlayout im Vergleich zum alten Layout befragt werden, um eine nachvollziehbare Entscheidung zur internen Kontroverse über das Design abzuleiten.

Aufgabengebiete