** SPOILER: Statistik Wiederholung **
Die Window Funktionen bei Tableau bieten verschiedene Möglichkeiten. Von der Pearson Korrelation bis zum gleitenden Durchschnitt oder dem Median. Wir haben mit Tableau die Möglichkeit, eine Glättung der Daten durchzuführen und somit unregelmäßige Schwankungen durch lokale Approximationen zu beseitigen.
Doch bevor wir uns weiter mit der eigentlichen Funktion in Tableau beschäftigen, möchte ich nochmals die Grundlagen besprechen. Die meisten Daten, die man mit Liniengraphen beschreibt, liegen in zeitlicher Abfolge vor. In der Statistik nennt man dies Zeitreihe. Die Algebra ist unten einzusehen, ich denke Ihr könnt mir folgen, wenn ich Euch nun fragen würde, wie man übermorgen schreiben würde.
yt = mt + st + zt
Trend Saison Zufall
t = heute
t – 1 = gestern
t +1 = morgen
Dementsprechend wird eine Abfolge von Ereignissen als yt mit t = 1,2,…,T beschrieben. Wichtig hierbei: Wir stellen uns bei Zeitreihen die Frage, inwieweit hat das, was gestern, vorgestern oder vorvorgestern passiert ist, einen Einfluss auf heute hat. Und um den Faden noch weiter zu spannen: Wie beeinflusst dies die Zukunft?
Wir ihr seht, kann man spannende Fragen mit diesen Analysen beantworten und Tableau bietet eine Reihe von Werkzeugen davon an. Wer allerdings tiefergehende Predictives durchführen möchte, sollte sich an Alteryx oder RStudio versuchen. Der Einstieg in die Statistik und Machine Learning kann auch durch Josh Starmer erleichtert werden, ich bin ein großer Fan!
Komponenten einer Zeitreihe
Die Komponenten einer Zeitreihe yt werden genau wie in anderen mathematischen Modellen in systematisch und unsystematische Komponenten unterteilt.
Quelle: http://www.von-der-lippe.org/dokumente/buch/BUCH11.pdf
Unsystematische Komponenten sind, genau wie der Name es vermuten lässt, die sogenannten Ausreißer und unvorhergesehene Abweichungen von der Norm. Zusätzlich dazu gehört zu den unsystematischen Komponenten natürlich der Zufall!
Systematische Komponenten werden weiter in monotone und zyklische Unterkategorien eingeteilt.
yt = mt + st + zt
Trend Saison Zufall
a) Trend
Ein Trend kann beschrieben werden als eine langfristige Niveauänderung des Mittelwertes, z.B. bei der Entwicklung von Geld, Wachstum oder Aktien. Er wird mit mt= yt beschrieben. Er nimmt meistens eine monoton steigende/fallende Funktion an, oder mit einem Polynom geringen Grades.
b) Konjunktur
Eine Konjunktur beschreibt Schwankungen im Auslastungsgrad des Produktionspotentials. Produktpotential kann sich hierbei auf viele verschiedene Variablen beziehen. Alle Schwankungen werden als Konjunkturzyklus bezeichnet. In der Wirtschaft spricht man von vier Konjunkturphasen: Depression, Aufschwung, Boom und Abschwung.
c) Saison
Eine Saison ist eine jahreszeitlich bedingte (z.B. Klima, Auftragslage) Veränderung des Mittelwertes. Dies kann auch aufgrund von institutionellen Einflüsse der Fall sein (z.B. Feiertage, Ferien, Geschäftsjahresbeginn oder Steuerliche Richtlinien). In der Mathematik bezeichnet man dies als eine weitgehend regelmäßige Schwingung mit einer Periode, die variabel sein kann.
Doch wozu wiederholen wir das?
Tableau greift bei seiner WINDOW_AVG Funktion auf genau diese Gedanken zurück. Denn wir möchten nun die t-1, t-2, t-3 Zeitpunkte dazu nutzen, um die Schwankungen der Zeitreihe zu glätten. Ziel ist es, die Informationen von Tagen, Wochen oder Monaten von davor bzw. danach zu nutzen, um eine akkuratere Aussage über die Bewegung der Zeitreihe zu treffen zu können.
Gerade in den Wintermonaten kann die Auftragslage schlecht sein, wenn nun nur die letzten 3 Monate des Salesberichtes betrachtet werden, kann der generelle Wert beispielsweise falsch eingeschätzt werden.
Wie sieht eine Window Average Funktion aus? Im untenstehenden GIF kann man erkennen, dass es über eine Quick Table Calculation sehr einfach zu erreichen ist. Natürlich gibt es wieder mehrere Möglichkeiten, zum Ziel zu kommen. Einerseits über eine schnelle Tabellenberechnung oder ein berechnetes Feld. Die Formel ist weiter unten einzusehen.
- Sales wird hierbei auf Zeilen gezogen
- Schnelle Tabellenberechnung > Gleitender Durchschnitt
- Tabellenberechnung bearbeiten (hierbei den Zeitraum einstellen, der Euch interessiert)
Wie ihr oben sehen könnt, wird die Zeitreihe immer „glätter“ je mehr Zeitpunkte zum berechnen des Mittelwertes verwendet werden. Diese Berechnung kann auch manuell durchgeführt werden, in dem ein berechnetes Feld neu erstellt wird.
WINDOW_AVG( SUM( [Sales] ), -6, 6)
Hierbei berechnen wir den gleitenden Durchschnitt von den letzten 6 Monaten und den vorangegangen 6 Monaten vom Juni 2012.
Ein letztes GIF für das Jahr 2019 wird Euch zeigen, wie diese aussieht. Zusätzlich dazu bin ich auch noch kurz auf die „Default Table Calculation“ gegangen, um Euch zu zeigen, dass man hierbei noch weitere Einstellungen durchführen kann.
Doch zum ‚Partitioning‘ und ‚Adressing‘ field, genauso wie zu weiteren WINODOW Funktionen kommen wir im neuen Jahr.
Vielen Dank für die tolle und lehrreiche Zeit bei The Information Lab. Ich wünsche Euch allen gesegnete Festtage und einen guten Rutsch in 2020.