Als Daten-Jitter (engl. für ‚Fluktuation‘ oder ‚Schwankung‘) bezeichnet man das Auseinanderziehen Prozess von mehrere Datenpunkten, die sehr nah beieinander liegen.
Wenn man viele Datenpunkten nebeneinander hat, kann es ziemlich schwierig sein, um alle Punkte sinnvoll zu visualisieren. Weitere Probleme mit überlappenden Datenpunkten sind das sorgfältige Interpretieren der Dichte und das Auswählen einzelner Punkte (z.B. bestimmte Kunden). Um solche Problem zu vermeiden, kann man seine Daten „jittern“ oder auseinanderziehen.
Im folgenden Beispiel verwende ich den beliebten Superstore-Datasatz von Tableau, damit Sie mitmachen können. Stellen Sie sich vor, Sie möchten die Gewinnverteilung nach Kategorie und Kunde von einer bestimmten Stadt visualisieren. Dafür muss man Kategorie auf Spalte und Gewinn auf Zeile ziehen, und auch die gewünschte Stadt durch ein Filter auswählen. Um die Kategorie eleganter darzustellen, kann man „strg“+Kategorie auf Farbe ziehen. Tableau wird automatisch ein Balkendiagramm mit der Summe von der Kennzahl (Gewinn) erstellen, die so aussieht:
Da wir die einzelnen Punkte (Kunde) und die Verteilung anzeigen möchten, können wir die Option „Aggregierte Kennzahlen“ unter Analyse deaktivieren:
Jetzt können wir das Kundenname-Feld auf Details ziehen und sehen wir unsere Kunde als einzelne Punkten:
Wie oben in der Kategorie „Büromaterial“ zu sehen, haben wir viele überlappende Punkte. Wir werden dies vermeiden, indem wir ein Jitter-Feld erstellen. Wir werden dieses neue Feld “Jitter” nennen und wir brauchen nur die „random“- Funktion. Diese Funktion teilt ein randomisierten Wert zwischen 0 und 1 zu. Wir werden diese Funktion benutzen, um unsere Daten auseinander zu ziehen.
Als nächsten und letzten Schritt, ziehen wir unser Jitter-Feld auf Spalten (neben Kategorie), und da dieser Wert keine weitere Bedeutung hat, können wir die Kopfzeilen entfernen:
Jetzt sind unsere überlappende Punkte auseinandergezogen und viel einfacher zu sehen und auszuwählen:
Wenn wir einen Schritt weitermachen möchten, können wir ein Box-Plot unter “Show Me” erstellen, um die Verteilung (Median, Ausreißer, usw.) darzustellen:
In nur ein paar Schritten haben wir eine Jittert-Visualisierung erstellt, die einfacher zu interpretieren ist.
Danke fürs Lesen!