Am zweiten Tag der Data School Dashbaord Week standen prädiktive Analysen im Vordergrund. Das Thema war El Niño und die dazugehörigen Daten waren in einer Tabelle auf der Website der National Centers for Environmental Information zu finden.
El Niño und La Niña sind die entgegengesetzte Phasen eines Zyklus von fluktuierenden Temperaturen im äquatorialen Pazifik. Diese Abweichungen von den normalen Oberflächentemperaturen beeinflussen nicht nur sehr stark die natürlichen Prozesse im Ozean wie die Bewegung von Fischschwärmen, sondern haben auch große Auswirkungen auf das globale Wetter und Klima.
Der Southern Oscillation Index beschreibt Fluktuationen im Luftdruck zwischen dem westlichen und dem östlichen tropischen Pazifik und ist ein guter Indikator für El Niño- und La Niña-Episoden. Diesen galt es zu analysieren.
Die Daten sind auf der Webseite als JSON, CSV und XML verfügbar. Wir haben die XML verwendet und die Daten mithilfe von Alteryx daraus extrahiert.
Zuerst habe ich die XML-Datei heruntergeladen und diese mit einem XML Parse Tool in Alteryx in Felder unterteilt. Anschließend habe ich das Datum in ein Datumsformat konvertiert. Jetzt waren die Daten bereit für meine prädiktive Analyse.
Um Prognosen basierend auf Datumsfeldern zu erstellen, nutzt man in Alteryx die Zeitreihen-Tools. Best Practice ist es, sowohl das ARIMA- als auch das ETS-Modell anzuwenden und zu testen, welches Modell die Daten besser voraussagt.
Lernen Sie mehr über die Anwendung von ARIMA- und ETS-Modellen in Alteryx in unserem Artikel zur Prognose der Bitcoin-Entwicklung:
Zuerst habe ich alle Daten ab 2017 herausgefiltert, um diese später für die Validierung der Modelle zu verwenden. Dann habe ich beide Modelle mit einer monatlichen Zielfeldhäufigkeit hinzugefügt, um Prognosemodelle für meine Daten zu erstellen. Ich habe beide Outputs vereinigt und anschließend mit dem ZR-Vergleich-Tool überprüft, welches der beiden Modelle meine vorher gefilterten Daten besser prognostizieren kann.
Mit einem Durchsuchen-Tool am Interactive-Connector des ZR-Vergleich-Tools können die Ergebnisse des Vergleichs abgerufen und visuell verglichen werden. Darauf aufbauend kann man auch weitere Feinjustierungen an den Modellen vornehmen und diese (und damit die Prognosen) wenn möglich weiter verbessern. In diesem Fall konnte das ETS-Modell die saisonalen El Niño-Daten besser voraussagen.
Um aus dem Prognose Modell dann Prognosewerte zu generieren, habe ich das ZR-Prognose-Tool verwendet.
Zunächst wendet man das ETS-Modell ein weiteres Mal auf den gesamten Datensatz an, um dann mit dem ZR-Prognose-Tool Prognosewerte zu erstellen. Dabei kann der Zeitraum ausgewählt werden, für den die Prognose erstellt werden soll. Mit Durchsuchen-Tools am Interactive- und Report-Connector kann man exakte Informationen zur Genauigkeit der Prognose sowie den Sicherheitsintervallen anzeigen lassen. Am Output-Connector kann man auf die erstellten Prognosedaten zugreifen.
Ich habe meine Erkenntnisse aus der Prognose genutzt, um dieses Dashboard in Tableau zu erstellen: