• pexels-markus-spiske-2004161.
        • Software Solutions

          Wir helfen Ihnen bei der Auswahl 
          der richtigen Lösungen, um die 
          Kraft Ihrer Daten freizusetzen.
        • Tableau
        • Das weltweit leistungsstärkste Tool zur Datenvisualisierung und -analyse.

        • Alteryx
        • Die führende Plattform in der
          dynamischen Welt der Analytic
          Process Automation.

        • Snowflake
        • Für Cloud-basierte Data-Warehouse-Lösungen der nächsten Stufe.

        • Process Mining aus Deutschland. Verschaffen Sie sich ein objektives und datengetriebenes Bild Ihrer internen Prozesse. Ganz im Sinne der optimierten  Wertschöpfung.

        • Amazon Web Services (AWS)
        • Führend bei Cloud-First-Datenlösungen.

  • Use Cases
  • The Data School
        • WIBI 2024_Vortragsraum
        • UP TO DATA

          Bleiben Sie auf dem Laufenden mit den neuesten Entwicklungen und Ereignissen aus der Welt der Daten – von aktuellen News bis hin zu spannenden Data Events.

        • Data News
        • Informieren Sie sich über neue Nachrichten, Trends und Einblicke aus der Welt der Daten – alles Wichtige kompakt in unseren Daten News. Melden Sie sich direkt bei unserem Newsletter an und bekommen alles Wissenswerte einmal im Monat zugeschickt.

        • Newsletter
        • Jeden Monat senden wir Ihnen eine Email mit den neuesten Informationen zu einer zeitgemäßen Analysekultur, Visual Analytics, Seminaren, Events und Tipps & Tricks.

        • Data Events
        • Entdecken Sie bei uns komprimiert spannende Data Events und erfahren Sie alles über kommende Branchen-Events, Konferenzen und Webinare rund um das Thema Daten mit Tableau und Alteryx.

        • Sommerfest 2024 - The Information Lab
        • Über Uns

          Lernen Sie The Information Lab kennen, unser Team, unsere Kunden und erfahren Sie, wie auch Sie ein Teil davon werden können.

          Mehr erfahren

        • Centre of Excellence
        • Geteiltes Wissen ist Macht – vernetzen Sie sich mit unserer wachsenden Zahl von Beratern und Kunden in ganz Europa. Zusammenarbeit ist der beste Weg zu lernen.

        • Kunden
        • Wir unterstützen seit 2014 namhafte Unternehmen in der DACH-Region und im deutschen Mittelstand.

        • Internationales Setup
        • The Information Lab ist an 8 europäischen Standorten mit über 600 Consultants aktiv. Unsere Data School gibt es bereits in London, Sydney und Hamburg.

        • FAQ
        • Häufig gestellte Fragen über uns, unsere Produkte u.v.m.

        • Team
        • Lernen Sie die Menschen hinter The Information Lab kennen.

        • Karriere
        • Join our team! Wir wachsen stetig und suchen insbesondere im Consulting und unserer Data School stets tolle Kollegen und Kolleginnen.

Banner background image - news

Web Scraping mit Alteryx

Du würdest gerne eine Website „scrapen”, aber wie? Mit Alteryx kann man mit ein paar Tools in kurzer Zeit eine Website scrapen. Ich werde euch heute zeigen, wie man das schafft. Als Beispiel werden wir die Bücher-Website http://books.toscrape.com/ benutzen. Diese Website ist ein Buchhändler und wir werden die Produktinformationen (Buchtitel, Preis und Bewertung) scrapen.

Unabhängig davon, auf welcher Website wir uns gerade befinden, befindet sich HTML-Code (Hypertext Markup Language) im Hintergrund. Dieser Code enthält die Daten, die wir scrapen möchten. Um diesen Code und entsprechenden Daten zu sehen, kann man einfach auf die Website rechtsklicken und „Seitenquelltext anzeigen” auswählen.

Change tooltip text v.3.

Man muss keinen HTML-Code schreiben können, um zu verstehen, dass die Produktinformation, die wir scrapen möchten, einem bestimmten Muster folgt. Zum Beispiel befindet sich die Bewertung von Büchern in dem Format „<p class=“star-rating Three“>”. In ein paar Schritten werden wir die entsprechenden Muster benutzen, um die Produktinformation „herauszuziehen”, zuerst aber müssen wir die Daten downloaden. Dafür benutzen wir das graue „Download”-Tool, an das wir ein grünes „Text Input”-Tool heften, um uns mit der Website-URL zu verbinden. Unser Workflow sollte so aussehen:

stage 0 - sankey tooltip.

Wenn wir jetzt unseren Workflow durchlaufen lassen werden wir die gesamte Website in einer Spalte speichern.

Step 2 sankey tooltips.

Unser nächster Schritt besteht darin, diese große Zelle in kleinere „handlichere” Zellen aufzuteilen. Hierfür benutzen wir ein grünes „RegEx”-Tool (d.h. regular expression = regulärer Ausdruck), um eine Zelle pro Buch zu generieren. Man kann mehr über regulärer Ausdruck hier erfahren.

ezgif.com-video-to-gif(6).

Oben sehen wir, wie dieses Tool verwendet wird. Unter „Columns to parse” selektieren wir die Spalte („DownloadData”), welche wir in Zeilen umwandeln möchten. Unter „Regular expression” formulieren wir das bestimmte Muster, das die Produktinformationen pro Buch enthält. 

Im obigen Beispiel („<article(.*?)</article>”) extrahieren wir alles innerhalb der Klammern, von  „<article bis zu </article>”. In das Output Feld spezifizieren wir, dass wir die Daten in sogenannten Tokens (wie einzelne Stücke) übersetzen möchten (ein Token pro Buch), und dass wir die Daten in Zeilen („Split to rows”) splitten möchten. Jetzt haben wir eine Zeile pro Buch, allerdings liegen die Daten (z.B. Titel und Preis), die wir extrahieren möchten, immer noch in einzelne Zellen vor. Dafür benötigen wir ein weiteres „RegEx”-Tool, um die Daten von jeder einzelnen Zelle zu extrahieren.

Unten sehen wir die Details für das zweite „RegEx”-Tool:

new 1.

Wie im letzten Schritt extrahieren wir die gewünschten Daten aus der „DownloadData”-Spalte und wir benutzen einen „regulärer Ausdruck”, um Titel, Preis und Bewertung zu extrahieren. Dieses Mal möchten wir jedoch unsere Daten in Spalten umwandeln und verwenden daher die „Parse”-Methode. Unter „Output columns” können wir die Spalten sinnvoll umbenennen.

Und voilà, jetzt haben wir die gewünschten Daten in einzelnen Spalten:

cal1.

Danach können wir ein „Output Data”-Tool verwenden, um die Daten zu exportieren und in Tableau zu visualisieren. Man kann auch weitere Tools verwenden, um die Eigenschaften zu ändern. Zum Beispiel könnte man ein „Formula”-Tool verwenden, um den Preis von Pfund zu Euro zu konvertieren, oder um die Bewertung in „integer”, also ganze Zahlen umzuwandeln.