Wie ich letzte Woche erwähnt habe, habe ich den Datensatz, den ich analysiert habe, erst in Alteryx vorbereitet.
Es ist natürlich wunderschön, dass mehr und mehr Organisationen (z.B. staatliche und nichtstaatliche Organisationen) ihre Daten veröffentlichen, aber das Datenformat nicht immer sofort analysierbar ist. Das heißt, erst muss der Datensatz vorbereitet (oder “prep’d”) werden, um ihn danach analysieren zu können. Dies gilt nicht nur für öffentlich verfügbare Daten, sondern auch für Geschäftsdaten, die notorisch unordentlich sind.
Data Prep, wie es auch genannt wird, ist normalerweise nicht der aufregendste Schritt im Datenanalyseprozess, aber zum Glück gibt es Tools wie Alteryx, welche die Arbeit erleichtern. Letzte Woche habe ich erwähnt, dass ich erst einen Datensatz in Alteryx vorbereitet hatte. Heute möchte ich weiter darstellen, was ich genau gemacht habe (keine Angst, dies ist ein einfaches pädagogisches Beispiel).
Ich begann mit einem Liniendiagramm von Fox News, das ich in Tableau reproduzieren und verbessern wollte (s. mein Blogbeitrag von letzter Woche). Als nächstes suchte ich mir die Rohdaten aus der offiziellen Quelle (United States Bureau of Labor Statistics). Die Daten sahen in einer Excel-Datei so aus:
Wie wir sehen können, sind die Daten bis zum Monat dieses Schreibens vollständig. Nichtsdestotrotz werden die Monate als einzelne Spalten dargestellt, und wir ziehen es vor, eine einzelne Spalte für Monate und eine andere für die Arbeitslosenquote zu erstellen. Mit anderen Worten, wir würden es vorziehen, eine Spalte pro Feld (z.B. Monat oder Arbeitslosenquote) zu kreieren, anstatt die gleichen Feld über mehrere Spalten zu verteilen (z.B. Monat über Jan, Feb, usw.). Diese Format ist auch als “Tidy Data” bekannt.
Zunächst sehen wir, wie wir dies in Alteryx tun würden. Dafür ziehen wir die Datei einfach in einen neuen Workflow. Im linken Fenster sehen wir eine Vorschau der Daten. Da diese gut aussehen, können wir einfach auf “Run” klicken und unsere Datei einlesen. In unserem Workflow sehen wir jetzt ein grünes Buchsymbol.
Wir werden jetzt das “Transpose Tool” verwenden, um Spalten in Zeilen umzuwandeln. In diesem Schritt müssen wir unsere “Key”- und “Data”-Spalten identifizieren. Die “Key”-Spalte (oben links im Screenshot unten) möchten wir als Spalte behalten (Jahr), und die Data Spalte (unten links im Screenshot unten) enthält die Daten, die wir zum Zeilen umwandeln möchten (Monate).
Wie wir oben sehen können, hat Alteryx unsere Spalten in Zeilen umgewandelt. Jetzt haben wir jedoch “Name” und “Value” als Spalten, die wir noch mit dem “Select”-Tool umbenennen. Das Select Tool kann außerdem dazu benutzt werden, Felder umzubenennen, auszuwählen, oder den Datentyp zu ändern.
Oben habe ich “Name” und “Value” in “Month” bzw. “Rate” umbenannt. Als letzten Schritt können wir das “Output Data”-Tool benutzen, um die Datei in ein für Tableau geeignetes Format zu speichern. Man kann die Datei als unterschiedliches Format in Alteryx speichern, aber am besten sollte man es als Excel-Format für Tableau (.xlsx) speichern. Der gesamte Workflow und die entsprechende Datei sehen jetzt so aus:
Nun können wir die Excel-Datei in Tableau einlesen und sehen unten genau das Datenformat, welches wir haben möchten: unsere Zeit-Variablen (Year und Month) werden als Dimensionen erkannt und die Arbeitslosenquote als Kennzahlen identifiziert.
Nächste Woche werde ich die gleichen Schritte in Tableau Prep erklären sowie die Vor- und Nachteile von Alteryx und Tableau Prep beleuchten.