Kundensegmentierung, Betrugserkennung, Lifetime Value Prediction – an farbenfrohen Anwendungsfällen für Machine Learning Algorithmen im Business Intelligence (BI) Umfeld mangelt es nicht. Doch von der vagen Idee bis zum produktiven System, das voll integriert belastbare und entscheidungsrelevante Vorhersagen liefert, ist es ein weiter Weg. Nicht selten endet dieser Weg in einer Sackgasse. Also lieber die Finger davonlassen?
So einfach ist es nicht. Denn Machine Learning, Künstliche Intelligenz und Predictive Analytics sind nicht mehr Kür, sondern Pflicht in der BI. Der logische nächste Schritt nach klassischem Reporting und fortgeschrittener Self-Service Analytics ist die KI-gestützte Modellierung. Nur so können Sie das gesamte Potenzial Ihrer Daten heben, verborgene Muster erkennen und Entscheidungen so schnell, so präzise und so vorausschauend treffen, wie es der Markt erfordert. Die erfolgreiche Integration von Machine Learning Technologien ist zum kritischen Wettbewerbsfaktor geworden.
Was aber unterscheidet erfolgreiche Machine Learning (ML) Projekte von solchen, die auf dem POC-Friedhof landen? Als erste Orientierungshilfe auf dieser Reise sind hier unsere Top 3 der häufig vernachlässigten Erfolgsfaktoren.
Nummer 1: Keine klare Fragestellung
Ob mit oder ohne KI – das Ziel der Business Intelligence ist es, datengetriebene Entscheidungsgrundlagen zu liefern. So muss auch der Einsatz von Algorithmen und statistischen Modellen am Ende in konkrete Entscheidungen münden. Explorative Datenanalyse hat ihren Platz, aber messbare Erfolge liefert ein ML-Ansatz nur dann, wenn die Vorhersagen des Modells an reale Businessprobleme und harte KPIs anknüpfen. Mit anderen Worten: Die KI muss nicht nur Daten, sondern vielmehr das Geschäft selbst modellieren. Kleinteiligere Kundensegmente, schnellere Märkte und Datenflüsse, oder der stetig steigende Effizienzdruck von innen wie von außen bieten dabei eine breite Angriffsfläche für intelligente Algorithmen. Aber konkrete Problemstellungen für das eigene Business fallen nicht einfach vom Himmel. Und zur Wahrheit gehört auch: Nicht jede berechtigte Frage an die Daten lässt sich mit einem Machine Learning Algorithmus beantworten.
Wo liegen konkrete Potenziale? Wie stehen wir aktuell da und was wollen wir erreichen? Welche operativen Stellschrauben haben wir dafür? Welche Kennzahlen sind für die Erfolgsmessung geeignet? Wo sind Zusammenhänge zwischen aktuellen Daten und zukünftigen Entwicklungen zu vermuten? Welche Datenquellen enthalten die relevanten Informationen? Sind die Datenquellen zugänglich? Welche weiteren, vielleicht externen Datenquellen benötigen wir? Soll es über das erste Experimentieren mit Self-Service-Tools hinausgehen, müssen diese und ähnliche Fragen beantwortet werden. Das gelingt nur im kreativen Austausch aller Beteiligten: Fachbereich, Analysten, IT und Data Science Experten – ob intern oder eingekauft – müssen am selben Tisch sitzen und ein gemeinsames Verständnis von Ist und Soll, vom Umfang und den Herausforderungen des Projekts erarbeiten. Erfolgskriterien und Milestones müssen definiert, die richtigen Werkzeuge gewählt und eine solide Roadmap vereinbart werden. Der Blick von außen ist dabei nicht selten der entscheidende Treiber dieses kreativen Prozesses.
Ist also ein lohnendes Business-Ziel identifiziert und die Fragestellung an die Daten formuliert (und sind diese Daten auch beschafft), dann stecken wir sämtliche Daten plus Fragestellung ins Machine Learning System hinein, und herauskommt die Antwort. Richtig? Falsch.
Nummer 2: Kein Fokus auf Datenqualität
Natürlich ist Machine Learning immer ein iterativer Prozess aus Training und Test, bei dem zunächst verschiedene Algorithmen ausprobiert und verfeinert werden, um das konkrete Problem möglichst präzise und gleichzeitig robust abbilden zu können. Viel wichtiger ist hier aber der Schritt davor! Getreu der Regel garbage in, garbage out kann nämlich auch der intelligenteste Algorithmus keine Muster erkennen, wo keine Muster vorhanden oder diese von Datenqualitätsproblemen überlagert sind.
Zur gründlichen Vorverarbeitung der Daten gehört nicht nur die Bereinigung von vereinzelten fehlenden Werten oder das Anpassen von Datentypen – die meisten ML-Tools machen das automatisch – sondern auch die Behandlung von Ausreißern, ungewöhnlich verteilten Werten, schlicht falschen Werten, unterschiedlichen Schreibweisen für denselben Wert, mehreren Feldern mit identischem Informationsgehalt und vielem mehr. Zeitgemäße ETL- und Data-Preparation-Tools ermöglichen es zwar, solche manuellen Vorverarbeitungsschritte vollständig zu automatisieren. Erstmalig erarbeitet werden müssen diese Schritte aber von einem denkenden Menschen. Hier müssen Domänenwissen und analytisches Verständnis zusammenkommen, um die Spreu vom Weizen zu trennen und eine Datengrundlage zu schaffen, der die Stakeholder vertrauen. Denn auch das ist eine Facette des Prinzips garbage in, garbage out: Wenn die Anwender Zweifel an der Validität der Eingangsdaten haben, dann ist das das Todesurteil für die daraus abgeleiteten Vorhersagen.
An die klassische Aufbereitung und Validierung der Daten schließt sich das Feature Engineering an. Dabei geht es darum, aus der Masse der verfügbaren (bereinigten) Daten solche Merkmale abzuleiten, die sich sowohl formell als auch inhaltlich als Prädiktoren und Zielvariablen für ein statistisches Modell eignen. Anders gesagt: Welche Eigenschaften meiner Daten könnten verborgene Zusammenhänge enthalten und mir helfen, die Business-Frage zu beantworten? In Ausnahmefällen ist die Struktur der Daten so trivial, dass die möglichen Features auf der Hand liegen. Dann stellt sich allerdings die Frage, ob hier ein Machine Learning Ansatz überhaupt einen Mehrwert gegenüber klassischer visueller Analyse verspricht. In der Realität stellt der Prozess des Feature Engineering eine der komplexesten Herausforderungen im Rahmen eines Machine Learning Projekts dar. Moderne Tools unterstützen auch hier durch die programmatische Suche nach geeigneten Transformationen und Kombinationen der Daten. Doch im Grenzbereich dessen, was in den Daten selbst und was nur in den Köpfen ihrer Nutzer steckt, sind Algorithmen lediglich Hilfsmittel, keine autonomen Problemlöser. Geeignete Tools und die Data Literacy ihrer Anwender können hier im Zusammenspiel das Maximum aus den Daten holen und einen entscheidenden Beitrag zum Erfolg des Projekts leisten.
Mit einer klaren Fragestellung und einer zielgerichteten Datengrundlage können Sie also die zwei wichtigsten Voraussetzungen für einen erfolgreichen Proof of Concept abhaken. (Die Kleinigkeiten der Auswahl der richtigen Tools und der eigentlichen Modellentwicklung nehmen wir hier als gegeben an.) Aber was kommt danach? Denn das Gold, auf das Sie jetzt gestoßen sind, will erst noch geschürft werden.
Nummer 3: Kein Produktiv-Plan
Wie integrieren Sie das fertige Modell in die tägliche Arbeit der Entscheidungsträger? Woher wissen Sie, ob es genutzt wird und ob die Vorhersagen auch in sechs Monaten noch belastbar sind? Wie skalieren Sie von der Sandbox auf den laufenden Betrieb mit Live-Daten und Governance-Anforderungen? Wie machen Sie die erworbenen Fähigkeiten und Erkenntnisse über die Grenzen des POC hinaus nutzbar, um die jetzt nötigen Investitionen zukünftig zu rechtfertigen? Die letzte Meile ist die schwierigste, und allzu oft kommen KI-Projekte genau hier zum Stillstand.
Zunächst muss dem iterativen Charakter von Machine Learning Projekten Rechnung getragen werden. Das Modell bildet die reale Welt ab, und die verändert sich fortlaufend – nicht nur im Fall einer globalen Viruspandemie. Machine Learning Modelle müssen also stetig auf ihre Performance hin überwacht, neu trainiert und ggf. in ihren Hyperparametern angepasst werden. Was unter den Begriffen ModelOps oder MLOps behandelt wird, heißt, knapp gesagt: Entwicklung, Testing, Deployment, Monitoring und Performance-Evaluierung von Machine Learning Modellen müssen systematische Prozesse sein, die Transparenz und Stabilität sicherstellen sowie Versionierung und Rollbacks erlauben.
Eine weitere Herausforderung beim Übergang vom POC zum Produktivbetrieb ist die Auswahl des Toolstacks. Aus der Fülle von Produkten und Open-Source-Technologien eine konsistente und leistungsfähige Umgebung zu komponieren, ist ein Projekt für sich. Welcher Cloud-Dienst ist der richtige? Oder geht es doch on-premise? Was kann AutoML leisten, und was will ich externen Experten überlassen? Vieles ergibt sich immerhin aus Faktoren wie dem konkreten Rechen- und Speicherbedarf, den geplanten Trainings- und Vorhersagezyklen, speziellen Anforderungen an Governance und Sicherheit sowie der bereits vorhandenen Infrastruktur. Gut überlegt will die Auswahl hier dennoch sein.
Zu guter Letzt ist auch die praktische Einbettung der Vorhersagen in die vorhandene Reporting-Umgebung erfolgskritisch. Können die Entscheider im richtigen Moment auf die richtigen Zahlen zugreifen? Sind sie in der Lage, die Vorhersagen des Modells zu interpretieren und in Ihre Entscheidungsfindung einzubeziehen? Vor dem Algorithmus ist nach dem Algorithmus: Am Ende muss die BI Menschen befähigen, besser, schneller und informierter zu entscheiden. Wenn das gelingt, dann können mithilfe von Machine Learning deutliche Mehrwerte geschaffen werden.
Fazit: Erst lernt der Mensch, dann die Maschine
Machine Learning kann enorme Potenziale heben. In der Business Intelligence ist es der logische nächste Schritt. Auf zahlreiche Aspekte eines erfolgreichen ML-Projekts, wie die Auswahl und Entwicklung konkreter Modelle oder die Definition von Projekt-Rollen, sind wir hier nicht eingegangen. Aber ein solider Start, der alle Beteiligten abholt, die kritische Analyse und gründliche Aufbereitung der Daten sowie ein umfassendes Produktivkonzept sind die wichtigsten Voraussetzungen, um das Ziel im Blick zu behalten und häufige Fallstricke zu meiden. Externe Expertise kann dabei helfen, von Anfang an die richtigen Fragen zu stellen und Unternehmen nachhaltig zu befähigen.
Sie haben eine Idee für ein Machine Learning Projekt, wissen aber nicht, wie Sie diese konkret umsetzen können? Dann kommen Sie gerne auf uns zu! Hier geht es zur kostenfreien virtuellen Beratungs-Session. Unsere Webinar Aufzeichnung zum Thema Machine Learning finden Sie hier.
[button URL=“ [button URL=“https://forms.microsoft.com/Pages/ResponsePage.aspx?id=kBKJgOOduEuxo4qoRO3pY0hP_QF9G-NHqZoLayrnGMBUNkdUNkFLTDJIVjRGODFYNVlTTUFLTVREOSQlQCN0PWcu“]Zur Beratung[/button]
[button URL=“ [button URL=“https://register.gotowebinar.com/recording/7180434763954241795″]Zum Webinar[/button]