• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

VizWeek Tag 3: Spiegel Online

Am dritten Tag war das Ziel, Daten von Spiegel Online zu analysieren. Es handelte sich dabei um alle Nachrichten, die ab dem 01. Dezember 2019 veröffentlicht wurden bis zum 19. April 2020. Uns lag dabei der gesamte HTML-Code jeder Nachricht vor.

Die größte Herausforderung bestand bei diesem Datensatz für mich darin, die benötigten Daten aus dem HTML-Code herauszuziehen. Ich habe mich dazu entschieden, die Nachrichtentitel, die Nachrichten-Keywords, die Nachrichten-Kategorie und das Datum der Veröffentlichung zu extrahieren.

Sehr schnell wurde, bei den ersten Visualisierungen in Tableau, deutlich, dass Corona natürlich einen großen Stellenwert in den Daten hat. Außerdem ist mir aufgefallen, dass am 16. April ein Ausreißer zu sehen ist. Ungewöhnlich war außerdem, dass es sich dabei um einen Donnerstag handelt, wobei normalerweise die meisten Nachrichten am Freitag veröffentlicht werden.

content image

Ich wollte im Laufe des Tages herausfinden, was am 16. April 2020 passiert ist und welchen Stellenwert Corona-Nachrichten in diesem Zuge haben. Um ein Gefühl für die Corona-Nachrichten zu bekommen, habe mir die zeitliche Entwicklung der Corona-Nachrichten und der Nicht-Corona-Nachrichten angeschaut (im unteren Bild ist Corona in orange gekennzeichnet). Wir sehen einen starken Anstieg der Nachrichten ab Anfang März. Außerdem gab es am 16. April so viele Corona Nachrichten wie noch nie zuvor.

content image

Anschließend wollte ich mir anschauen, in welchen Kategorien am 16. April berichtet wurde, um möglicherweise anhand dessen etwas ableiten zu können. Dabei wird deutlich, dass Corona in fast allen Kategorien eine starke Bedeutung hat.

content image

Um etwas mehr ins Detail zu gehen, wollte ich mir anschauen, welche Keywords am 16. April verwendet wurden und ob diese in Verbindung mit Corona genannt wurden. Nicht überraschend ist, dass Corona auf Platz 1 der Keywords steht. Sehr interessant ist allerdings, wie oft die nachfolgenden Top-Keywords in Verbindung mit Corona genannt werden.

content image

Hier bietet sich ebenfalls noch eine weitere Darstellungsform an, um eine Verbindung zwischen Wörtern zu schaffen – die Wordcloud. Corona als Begriff habe ich hier nicht mehr berücksichtigt, da ich wissen wollte, welche Wörter mit Corona in Verbindung gebracht werden.

content image

Am Ende hat mich diese Darstellungsform zu meinem Ergebnis des Tages gebracht. Als ich über die Begriffe mit der Maus fuhr, stellte ich fest, dass es einige Keywords gab, die den gleichen Nachrichtentitel, aber zwei unterschiedliche Record-ID’s hatten. Dies lässt darauf schließen, dass die Daten vom 16. April doppelt vorhanden waren.

content image

An diesem Tag ist für mich das größte Learning, dass es unerlässlich ist, sich die Daten genau anzuschauen, um die Datenqualität beurteilen und am Ende die richtigen Schlüsse ziehen zu können.