• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Dashboard Week Day 3 [Tagesschau Web-Scrapen]

Am Mittwochmorgen der Dashboard-Woche hatten wir eine unkomplizierte Aufgabe: Den Beschreibungstext aus den Tagesschau-Archiven zu scrapen und eine interessante Visualisierung daraus zu erstellen. Diese Aufgabe war jedoch nicht so einfach, wie sie einem erscheint. Die erste offensichtliche Hürde bestand darin, die erforderlichen Daten zu erheben. Dies beinhaltete die Erstellung eines Alteryx-Workflows, der den erforderlichen Text scrapen würde.

Seit dem Frühjahr 2013  die Tagesschau zu jedem Video einen kleinen Beschreibungstext hochgeladen. Er sieht so aus und enthält die Schlagzeilen des Tages:

image.

Der HTML-Text sieht jedoch so aus und enthält über 1000 Zeilen pro Tag:

image.

Das Erhebung der Daten dauerte den ganzen Morgen und das Schreiben des perfekten RegEx-Ausdrucks, um genau das zu extrahieren, was ich wollte, dauerte ebenfalls einen Teil des Nachmittags.

Wenn Du den Unterschied zwischen diesen beiden regulären Ausdrücken schnell erkennen und verstehen kannst:

20:00 Uhr<\/p>\s<h4\sclass=“headline“><a\shref=“/multimedia/sendung/ts-?\d{3,}.html“>tagesschau</a></h4>\s<p class=“teasertext „><a href=“/multimedia/sendung/ts-?\d{3,}.html“>(.*?)</a></p>

20:00 Uhr<\/p>\s<h4\sclass=“headline“><a\shref=“/multimedia/sendung/ts-\d{3,}.html“>tagesschau</a></h4>\s<p class=“teasertext „><a href=“/multimedia/sendung/ts-\d{3,}.html“>(.*?)</a></p>

Bitte kontaktiere mich und wir bleiben in Kontakt 😉. Ein einfaches Fragezeichen an der richtigen Stelle kann einen großen Unterschied machen.

Nachdem ich die benötigten Daten in einem Tableau-freundlichen Format gebracht hatte, kam als Nächstes die Frage, die ich beantworten wollte. Ich habe kürzlich gelesen, dass 2019 ein Game Changer für den Klimawandel war, und ich dachte, es wäre eine gute Idee, zu prüfen, ob es Beweise dafür in den Schlagzeilen der Tagesschau gibt.

Nachdem ich über die vielen Möglichkeiten nachgedacht hatte, diese Daten zu visualisieren, entschied ich, dass der effektivste Weg darin besteht, alle Erwähnungen klimabezogener Schlagzeilen zu gruppieren und sie in einem Liniendiagramm mit einigen zusätzlichen Informationen anzuzeigen. Am Ende habe ich eine leistungsfähige Infografik erstellt. Wenn ich mehr Zeit gehabt hätte, hätte ich in Betracht gezogen, Beispiele für die spezifischen Schlagzeilen (oder alle) auf benutzerfreundliche Weise bereitzustellen.

Ich bin froh, dass ich eine eher statische, erklärende Visualisierung erstellen konnte, die tatsächlich einige Menschen dazu bewegen wird, für mehr Klimaschutz zu handeln. Es kann hier eingesehen werden.

image.