• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Analyzing Headlines over time

Dies ist ein Blog zu einem Webinar, das hier abgerufen werden kann. Dazu gibt es eine Arbeitsmappe auf Tableau Public, die hier angesehen und heruntergeladen werden kann. 

Die Covid-19 Pandemie war und ist für die meisten Menschen ein einschneidender Zustand. Ich merkte sehr früh, dass nicht nur die Maßnahmen meinen Alltag beeinflussten, sondern auch die Berichte und Diskussionen dazu.  

Üblicherweise lese ich mehrmals pro Tag Nachrichten in diversen Online-Zeitungen, darunter Spiegel Online. Es fiel mir auf, dass es immer und immer mehr Berichte über das neue Coronavirus gab, während über andere Themen kaum noch geschrieben wurde. Selbst wenn ein Thema diskutiert wurde, war immer irgendein teilweise auch konstruierter Bezug zu Corona vorhanden. Da Nachrichten meine Wahrnehmung der Ereignisse auf der Welt stark beeinflussen, war ich nach einer kurzen Zeit überwältigt und genervt von dem starken Fokus auf dieses eine Thema.  

Das führte mich dazu, diese Wahrnehmung anhand von Daten zu überprüfen. Daher entschied ich mich, die auf Spiegel Online veröffentlichten Nachrichten daraufhin zu überprüfen, ob sie von „Corona“ handeln oder nicht und wie der Anteil an allen Artikeln sich entwickelte.  

Mithilfe von Alteryx konnte ich einfach alle Nachrichten eines Tages aus dem Nachrichtenarchiv herunterladen: https://www.spiegel.de/nachrichtenarchiv/.

Liste von Artikeln

Aus den heruntergeladenen Daten kann man einfach den Link des tatsächlichen Artikels herausziehen. Dieser wiederum kann dann ebenfalls heruntergeladen werden.  

Download aller Artikel

Diesen Vorgang durchlief ich für alle Tage bis zurück zum 01.12.2019, um einen möglichst kompletten Zeitraum analysieren zu können. Am Ende stand ein Datensatz mit allen ca. 15.000 veröffentlichten Nachrichten-Artikeln (ausschließlich bento und Manager-Magazin) vom 01.12.2019 bis 19.04.2020.  

Das ermöglichte es mir, ebenfalls in Alteryx diese Texte auszuwerten und daraufhin zu überprüfen, ob verschiedene Begriffe, die ich mit Covid-19 verband, in den Titeln und / oder Artikeln vorkamen. Damit wurde eine Kategorisierung möglich.  

Diese kategorisierten Artikel konnte ich dann in Tableau visualisieren und mit den berichteten Neuinfektionen und Todesfällen in Beziehung setzen. Meine Hypothese dabei war, dass eine steigende Zahl von Infektionen & Toten das Interesse verstärkt und damit den Anteil der Artikel über Corona erhöht.  

Die Auswertungen waren für mich sehr spannend. So kam heraus, dass fast 80% der Artikel am Ende des beobachteten Zeitraums in irgendeiner Art und Weise Keywords zum Thema Corona enthielten!

Anteil Corona Artikel

Außerdem scheint das Interesse deutlich größer zu sein, wenn Fälle in der unmittelbaren Nähe stattfinden. Frühe Fälle in China hatten weniger Einfluss auf den Anstieg der Artikel als die Ausbreitung in Italien oder Spanien. Meine Hypothese konnte also nicht verworfen werden, dafür konnte ich aber weitere spannende Insights generieren.  

Analyse der Corona-Artikel

Schlussendlich sollte nicht vergessen werden, die Qualität der Daten und das Vorgehen allgemein anzusprechen. Grundsätzlich ist sogenanntes „Web-Scraping“ mindestens eine Grauzone. Da der Spiegel aber eine Historie mit solchen Auswertungen hat, ging ich einmal großzügig von einer Duldung aus. Bezüglich der Datenqualität muss gesagt werden, dass die Artikel unterschiedliche Textstrukturen in den Websites aufweisen und daher nicht sichergestellt werden kann, dass überall nur die korrekten Textinformationen ausgelesen wurden. Auch die Auswahl der überprüften Keywords war willkürlich und nur von meinem Verständnis geleitet. Für mich war aber der übergreifende Trend wichtig, wofür die Daten meines Erachtens gut genug waren.  

Hier geht es zur Arbeitsmappe