Erster Eindruck bei der Arbeit
Ich bin in meinem Zimmer und schreibe ein Paar Gedanken zum Rückblick auf meine erste Woche bei The Data School. Viel ist bei mir los aber überall habe ich ein insgesamt gutes Gefühl und eine gute Vorbereitung für die kommenden Herausforderungen. Seit dem ersten Tag habe ich eine Menge Software zur Unterstützung und Management Software kennengelernt, die sehr hilfsbereit in Zukunft sein wird. Außerdem bin sehr froh, dass meine nette Kollegen und Kolleginnen uns immer zur Verfügung stehen, falls wir Hilfe brauchen. Wenn man Lust für etwas neues hat, bekommt man Zugriff auf zahlreiche Lernquellen, bzw. ich finde unsere Lunch & Learn Sessions super gut. Mich interessieren besonders die Themen Webscraping und Datenwarehouse, und natürlich unsere Produkte wie Celonis und AWS. Was könnte besser sein, wenn man seine Angelegenheiten lernen darf.
Woche 1 Presentation
Aufgabe: Meine erste Präsentation für Woche 1 hat viele Gefühle hinterlassen. Die Aufgabe ist zwar komplex, aber es gibt viel Raum für Kreativität weil wir keine konkrete Anweisung, wie man weiter gehen soll sondern man einen frei ausgewählten Datensatz mit Tableau Prep bereinigt.
Input: Einen Datensatz über Netflix habe ich auf Kaggle gefunden, der aus ungefähr 14000 Zeile und 9 Spalten besteht unter 5 unterschiedlichen Tabs.
Problem 1: Zuerst sind verschiedenen Datentype in einer Spalten gemischt, daher nutze ich die „Entfernen“ Funktion, um den ungewünschten Teil zu entfernen. Der gleiche Technik gilt für besondere Zeichnen.
Problem 2: Außerdem für die Fehlerdaten, die absichtlich nicht von Benutzer eingetragen wurden, habe ich mich entschieden, dass ich sie einfach mit dem Wert „null“ ersetzt werde. Man sollte eine Zeile nicht löschen, nur weil sie falsche Daten aus einer Spalte enthält, da möglicherweise sinnvolle Daten aus anderen Spalten abgeleitet werden. Nachdem sich die ungewünschte Daten entfernen lassen, korrigiere ich die Spalten mit dem richtigen Datatypen. Anschließend bekomme ich einen sauberen Datensatz.
Problem 3:Das dritte Problem liegt an Duplikation von mehreren Werte innerhalb der Show-ID Spalte unter verschiedenen Tabs. Denn ich finde da noch keine vernünftige Funktion, die sich „Unique“ Werte ergibt, habe ich gegoogelt, um eine Lösung zu finden. Mit Hilfe der Funktion Max, Min. Ich möchte nur die erste ID Zeile behalten. Dazu würde Ich eine aggregierte Schrittgruppierung nach Show-ID und die MIN der „listed-in“ abgerufen. Den Schritt wiederholte ich für alle Tabellen.
Weitere Prozesse: Nachdem ich alle eindeutigen Werte hatte, fing ich an mit der oben-genannte Funktion: Verknüpfungen zu bearbeiten. „netflix_title“ Tabelle benenne ich als linke Tabelle, und „netflix_title_category“ als rechte Tabelle. Mein Ziel ist, sich die Kategorie für alle Titel anzuzeigen, das heißt linke Verknüpfung hier benötigt ist. Schritt für Schritt verknüpfe ich alle Tabellen miteinander. Als nächstes kriegt man eine gesamte bereinigte Tabelle wie man in dem folgenden Bild sieht. Zum Schluss führe ich mit Hilfe von Aggregieren basierte Analyse der Datensatz durch. Man darf nicht vergessen, die Ergebnisse als Output abzuspeichern.
Ich freue mich auf die zweite Woche, da man cool Visualisierungen auf Tableau lernt.