Datenqualität schlägt Algorithmus: Warum saubere Daten wichtiger sind als der beste KI-Ansatz

Warum der Algorithmus selten das eigentliche Problem ist

In Gesprächen über gescheiterte oder enttäuschende KI-Projekte fällt ein Satz mit bemerkenswerter Regelmäßigkeit: „Wir müssen das Modell verbessern." Meistens ist das die falsche Diagnose. Die eigentliche Ursache liegt tiefer und ist weit unspektakulärer – sie liegt in der Qualität der Daten, die in dieses Modell fließen.

Das Prinzip Garbage in, garbage out (GIGO) ist seit den 1960er-Jahren bekannt. In der Praxis wird es trotzdem systematisch unterschätzt, weil schlechte Daten auf den ersten Blick oft gar nicht schlecht aussehen. Eine Tabelle mit 50.000 Zeilen wirkt vollständig. Dass 30 % der Einträge im entscheidenden Datumsfeld fehlerhaft formatiert sind, fällt erst auf, wenn das Modell sonderbare Muster produziert.

Typische Datenprobleme im Mittelstand

Mittelständische Unternehmen arbeiten häufig mit gewachsenen IT-Landschaften: ein ERP-System, das seit Jahren im Einsatz ist, daneben Insellösungen der einzelnen Abteilungen, ergänzt durch Excel-Tabellen, die irgendwann zur zentralen Wahrheit wurden. Aus dieser Ausgangslage entstehen vorhersehbare Datenprobleme:

Doppelte und widersprüchliche Datensätze: Derselbe Kunde erscheint im CRM unter drei leicht unterschiedlichen Schreibweisen, im ERP unter einer Kundennummer, im Versandsystem unter einer anderen.
Stille Nullen und Leerzeichen: Fehlende Werte werden nicht als NULL gespeichert, sondern als „0", als Leerzeichen oder als Platzhaltertext wie „k. A.". Für ein Modell sind das valide Werte – mit falschen Implikationen.
Inkonsistente Kategorien: Eine Produktgruppe heißt in der Einkaufsabteilung anders als im Vertrieb. Wenn beide Quellen zusammengeführt werden, entstehen Phantomkategorien.
Historische Brüche: Ein Prozesswechsel vor zwei Jahren wurde in den Stammdaten nicht dokumentiert. Zeitreihen vor und nach dem Wechsel sind nicht mehr direkt vergleichbar.
Fehlende Metadaten: Es ist nicht dokumentiert, was ein Feld bedeutet, in welcher Einheit es gemessen wird oder wer es befüllt. Dieses Wissen steckt im Kopf einzelner Mitarbeitender.

Keines dieser Probleme ist auf den ersten Blick dramatisch. In der Kombination machen sie ein KI-Projekt jedoch erheblich teurer und fehleranfälliger, als es sein müsste.

Der Quick-Check vor jedem Projekt

Bevor ein Modell trainiert, ein Dashboard aufgebaut oder eine Automatisierung konfiguriert wird, empfiehlt sich ein strukturierter Datencheck. Drei Dimensionen sind besonders aussagekräftig:

1. Vollständigkeit

Wie viele Einträge in Pflichtfeldern sind tatsächlich befüllt – und wie viele nur scheinbar? Eine einfache Abfrage zeigt den Anteil echter NULL-Werte, aber auch versteckte Leerzeichen oder Standardwerte, die nie überschrieben wurden.

Faustregel: Fällt die Befüllungsrate in einem für das Projekt zentralen Feld unter 80 %, ist Klärungsbedarf angezeigt, bevor die Modellierung beginnt.

2. Konsistenz

Meinen zwei Systeme dasselbe, wenn sie dieselbe Bezeichnung verwenden? Ein einfacher Cross-Check über gemeinsame Schlüsselfelder – z. B. Artikelnummern, Kostenstellen, Kundencodes – deckt auf, wie sauber die Integration tatsächlich ist.

Praxistipp: Schon eine kurze Runde mit den Datenverantwortlichen aus den betroffenen Abteilungen bringt mehr Klarheit als jede automatisierte Prüfung allein.

3. Plausibilität

Gibt es Werte, die technisch gültig, aber fachlich unsinnig sind? Negative Lagerbestände, Lieferdaten vor dem Bestelldatum oder Temperaturen weit außerhalb des physikalisch Möglichen sind klassische Beispiele. Eine Verteilungsanalyse (Histogramm, Boxplot) macht Ausreißer sichtbar, die in einer Tabelle unsichtbar bleiben.

Was dieser Check bringt

Drei bis fünf Arbeitsstunden für einen strukturierten Datencheck klingen nach Overhead. In der Projektrechnung sieht das anders aus: Datenprobleme, die nach dem Start eines Projekts entdeckt werden, kosten erfahrungsgemäß ein Vielfaches mehr – an Zeit, an Kosten und an Vertrauen in das Ergebnis.

Noch wichtiger ist der strategische Effekt: Wer die Datenqualität einmal systematisch bewertet, lernt das eigene Datenkapital neu kennen. Oft entstehen dabei Erkenntnisse, die weit über das aktuelle Projekt hinaus wertvoll sind.

Fazit

Ein besserer Algorithmus löst kein Datenproblem. Aber saubere Daten machen selbst aus einem einfachen Modell ein zuverlässiges Werkzeug. Der erste und wichtigste Schritt in jedem Daten- oder KI-Vorhaben ist deshalb immer derselbe: Daten verstehen, bevor man sie nutzt.

← Alle Beiträge