Am dritten Tag war das Ziel, Daten von Spiegel Online zu analysieren. Es handelte sich dabei um alle Nachrichten, die ab dem 01. Dezember 2019 veröffentlicht wurden bis zum 19. April 2020. Uns lag dabei der gesamte HTML-Code jeder Nachricht vor.
Die größte Herausforderung bestand bei diesem Datensatz für mich darin, die benötigten Daten aus dem HTML-Code herauszuziehen. Ich habe mich dazu entschieden, die Nachrichtentitel, die Nachrichten-Keywords, die Nachrichten-Kategorie und das Datum der Veröffentlichung zu extrahieren.
Sehr schnell wurde, bei den ersten Visualisierungen in Tableau, deutlich, dass Corona natürlich einen großen Stellenwert in den Daten hat. Außerdem ist mir aufgefallen, dass am 16. April ein Ausreißer zu sehen ist. Ungewöhnlich war außerdem, dass es sich dabei um einen Donnerstag handelt, wobei normalerweise die meisten Nachrichten am Freitag veröffentlicht werden.
Ich wollte im Laufe des Tages herausfinden, was am 16. April 2020 passiert ist und welchen Stellenwert Corona-Nachrichten in diesem Zuge haben. Um ein Gefühl für die Corona-Nachrichten zu bekommen, habe mir die zeitliche Entwicklung der Corona-Nachrichten und der Nicht-Corona-Nachrichten angeschaut (im unteren Bild ist Corona in orange gekennzeichnet). Wir sehen einen starken Anstieg der Nachrichten ab Anfang März. Außerdem gab es am 16. April so viele Corona Nachrichten wie noch nie zuvor.
Anschließend wollte ich mir anschauen, in welchen Kategorien am 16. April berichtet wurde, um möglicherweise anhand dessen etwas ableiten zu können. Dabei wird deutlich, dass Corona in fast allen Kategorien eine starke Bedeutung hat.
Um etwas mehr ins Detail zu gehen, wollte ich mir anschauen, welche Keywords am 16. April verwendet wurden und ob diese in Verbindung mit Corona genannt wurden. Nicht überraschend ist, dass Corona auf Platz 1 der Keywords steht. Sehr interessant ist allerdings, wie oft die nachfolgenden Top-Keywords in Verbindung mit Corona genannt werden.
Hier bietet sich ebenfalls noch eine weitere Darstellungsform an, um eine Verbindung zwischen Wörtern zu schaffen – die Wordcloud. Corona als Begriff habe ich hier nicht mehr berücksichtigt, da ich wissen wollte, welche Wörter mit Corona in Verbindung gebracht werden.
Am Ende hat mich diese Darstellungsform zu meinem Ergebnis des Tages gebracht. Als ich über die Begriffe mit der Maus fuhr, stellte ich fest, dass es einige Keywords gab, die den gleichen Nachrichtentitel, aber zwei unterschiedliche Record-ID’s hatten. Dies lässt darauf schließen, dass die Daten vom 16. April doppelt vorhanden waren.
An diesem Tag ist für mich das größte Learning, dass es unerlässlich ist, sich die Daten genau anzuschauen, um die Datenqualität beurteilen und am Ende die richtigen Schlüsse ziehen zu können.