• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Mein erstes Projekt @ Data School – Netflix_titles

Erster Eindruck bei der Arbeit

Ich bin in meinem Zimmer und schreibe ein Paar Gedanken zum Rückblick auf meine erste Woche bei The Data School. Viel ist bei mir los aber überall habe ich ein insgesamt gutes Gefühl und eine gute Vorbereitung für die kommenden Herausforderungen. Seitdem ersten Tag habe ich eine Menge Software zur Unterstützung und Management kennengelernt, die sehr hilfsbereit in Zukunft sein wird. Außerdem bin sehr froh, dass meine nette Kollegen und Kolleginnen uns immer zur Verfügung stehen, falls wir Hilfe brauchen. Wenn man Lust für etwas neues hat, bekommt man Zugriff auf zahlreiche Lernquellen, bzw. ich finde Lunch & Learn Sessions super gut. Mich interessieren besonders die Themen Webscraping und Datenwarehouse, und natürlich unsere Produkte wie Celonis und AWS. Was könnte besser sein, wenn man seine Angelegenheiten lernen darf.

Woche 1 Projekt

Aufgabe: Meine erste Präsentation für Woche 1 hat viele Gefühle hinterlassen. Die Aufgabe ist zwar komplex, aber es gibt viel Raum für Kreativität weil wir keine konkrete Anweisung, wie man weiter gehen soll sondern man einen frei ausgewählten Datensatz mit Tableau Prep bereinigt.

Input: Einen Datensatz über Netflix habe ich auf Kaggle gefunden, der aus ungefähr 14000 Zeile und 9 Spalten besteht unter 5 unterschiedlichen Tabs.

Netflix_titles

image-8.

Das Ziel ist, Informationen von verschiedenen Tabs zusammengefasst auf eine Tabelle (englisch: FACT Table) zusammen zu bringen. Mir fällt eine Technik ein: Verknüpfungen, dadurch können die verschiedenen Tabs eine gemeinsame Spalte haben, die Show-ID.

Problem 1: Zuerst sind verschiedenen Datentype in einer Spalten gemischt, daher nutze ich die „Entfernen“ Funktion, um den ungewünschten Teil zu entfernen. Der gleiche Technik gilt für besondere Zeichnen.

Problem 2: Außerdem für die Fehlerdaten, die absichtlich nicht von Benutzer eingetragen wurden, habe ich mich entschieden, dass ich sie einfach mit dem Wert „null“ ersetzt werde. Man sollte eine Zeile nicht löschen, nur weil sie falsche Daten aus einer Spalte enthält, da möglicherweise sinnvolle Daten aus anderen Spalten abgeleitet werden. Nachdem sich die ungewünschte Daten entfernen lassen, korrigiere ich die Spalten mit dem richtigen Datatypen. Anschließend bekomme ich einen sauberen Datensatz.

Problem 3:Das dritte Problem liegt an Duplikation von mehreren Werte innerhalb der Show-ID Spalte unter verschiedenen Tabs. Denn ich finde da noch keine vernünftige Funktion, die sich „Unique“ Werte ergibt, habe ich gegoogelt, um eine Lösung zu finden. Mit Hilfe der Funktion Max, Min. Ich möchte nur die erste ID Zeile behalten. Dazu würde Ich eine aggregierte Schrittgruppierung nach Show-ID und die MIN der „listed-in“ abgerufen. Den Schritt wiederholte ich für alle Tabellen.

Weitere Prozesse: Nachdem ich alle eindeutigen Werte hatte, fing ich an mit der oben-genannte Funktion: Verknüpfungen zu bearbeiten. „netflix_title“ Tabelle benenne ich als linke Tabelle, und „netflix_title_category“ als rechte Tabelle. Mein Ziel ist, sich die Kategorie für alle Titel anzuzeigen, das heißt linke Verknüpfung hier benötigt ist.  Schritt für Schritt verknüpfe ich alle Tabellen miteinander. Als nächstes kriegt man eine gesamte bereinigte Tabelle wie man in dem folgenden Bild sieht. Zum Schluss führe ich mit Hilfe von Aggregieren basierte Analyse der Datensatz durch. Man darf nicht vergessen, die Ergebnisse als Output abzuspeichern.

Ich freue mich auf die zweite Woche, da man cool Visualisierungen auf Tableau lernt.

Verfahren in Tableau Prep

image-9.

 

 

ZUR DATA SCHOOL