Wie du einen guten KI-Berater erkennst, bevor du beauftragst

Das Problem: drei Jahre nach ChatGPT verkauft jeder KI

Wenn du heute einen KI-Berater oder Interim AI-Manager suchst, ist der Markt unübersichtlich. Drei Jahre nach ChatGPT haben sich Tausende Anbieter neu positioniert. Frühere Online-Marketing-Berater nennen sich AI-Strategen. Frühere Webagenturen verkaufen GenAI-Workshops. Software-Häuser haben einen Punkt „KI" auf ihre Leistungsseite gepackt, an dem dieselben Leute arbeiten, die letztes Jahr noch WordPress eingeführt haben. Klassische Unternehmensberatungen haben Senior-Stellen geschaffen, die sechs Monate alt sind, und schicken jetzt motivierte Manager rein, die KI „auf dem Schirm haben".

Manche dieser Anbieter sind tatsächlich gut. Viele sind frisch im Thema. Auf den ersten Blick sehen sie ähnlich aus. Saubere Website, richtige Buzzwords, vorzeigbare Referenzen aus den letzten zwölf Monaten. Der Unterschied wird erst im Verlauf des Projekts sichtbar, und an dem Punkt ist das Geld weg. Sechsstellig, manchmal mehr, mit einem Rückbau, der dich anderthalb Jahre kostet.

Du musst die Unterscheidung also vor dem Vertrag treffen, nicht danach. Hier sind die Werkzeuge.

Vier Test-Fragen, die den Unterschied sichtbar machen

Die Fragen sind so gewählt, dass sie nicht mit Tutorial-Wissen beantwortbar sind. Sie verlangen Reflexion, Lerngeschichte und ein Gefühl für reale Projekt-Realität. Stell sie im ersten Gespräch, bevor das Angebot kommt.

Frage 1: Welche drei Risiken siehst du heute schon, wenn dieses Werkzeug in zwei Jahren produktiv läuft?

Das ist die wichtigste Frage. Sie zwingt den Anbieter zu Voraussicht, zu Erfahrung mit dem, was schief geht, und zu Konkretheit.

Der jüngere Anbieter nennt eins, vielleicht zwei. Oft sind sie generisch: „Datenschutz" oder „Akzeptanz im Team". Manchmal versucht er auszuweichen mit „das hängt vom Detail ab".

Der erfahrene Anbieter nennt drei konkrete Risiken, sofort. Zum Beispiel: „Erstens, dass der LLM-Anbieter euch in zwei Jahren mit einer Preiserhöhung überrascht, gegen die wir uns mit Multi-Provider-Setup absichern können. Zweitens, dass eure Daten-Qualität für RAG nicht reicht und wir vorher einen Datenputz brauchen. Drittens, dass eure Power-User nach sechs Monaten frustriert sind, wenn das Werkzeug nicht skaliert, was uns zwingt, von Anfang an mit Lasttests zu arbeiten." Drei Risiken, drei Strategien, dreißig Sekunden.

Genau dieser Unterschied wird im achtzehnten Monat zu Geld.

Frage 2: Welche Stack-Entscheidung würdest du heute anders treffen als vor zwei Jahren?

Die Frage testet, ob der Anbieter sich selbst reflektiert oder mit einem fixen Bauchgefühl arbeitet, das er nie hinterfragt.

Der jüngere Anbieter sagt oft „ich nutze LangChain für alles" oder „wir setzen immer auf OpenAI", ohne zu merken, dass die Antwort genau das Problem ist. Wer nichts anders macht als vor zwei Jahren, hat in den zwei Jahren auch nichts dazugelernt. Im KI-Bereich, in dem sich die Tool-Landschaft alle drei Monate verschiebt, ist das eine deutliche Aussage.

Der erfahrene Anbieter erzählt einen konkreten Wandel: „Bis 2024 habe ich LangChain produktiv eingesetzt. Inzwischen baue ich Tool Use direkt gegen die Anthropic-API, weil die Abstraktion in LangChain bei mittelständischen Projekten mehr Schmerz als Nutzen produziert. Ausnahme: Prototypen, da nehme ich es noch." Das ist eine konkrete Antwort mit Begründung und einer Ausnahme. Das geht nur, wenn jemand mit beiden Wegen gearbeitet hat.

Frage 3: Wer übernimmt das, wenn du in zwölf Monaten nicht mehr im Projekt bist?

Diese Frage erkennt sofort, ob du es mit einem Bauer-und-Verschwinde-Anbieter zu tun hast oder mit jemandem, der von Anfang an Übergabe denkt.

Der jüngere Anbieter wird verwirrt, manchmal sogar leicht aggressiv. „Warum sollte ich gehen? Wir wollen doch lange zusammenarbeiten." Oder die Antwort lautet „macht euer IT-Team", ohne dass jemals besprochen wurde, ob das realistisch ist und wer im Team das eigentlich können soll.

Der erfahrene Anbieter hat ein Modell sofort parat. „Wir bauen während des Projekts einen Power-User in deinem Team auf, der die Werkzeuge ab Monat sechs schrittweise übernimmt. Ich bin ab Monat zehn nur noch im Mentoring, ab Monat zwölf raus. Wenn euer Mitarbeiter dann eigenständig weiterführt und ihr mich nur für die nächste größere Iteration zurückholt, ist mein Job gemacht." Übergabe ist von Tag eins mit eingeplant, nicht ein Nachgedanke am Ende.

Frage 4: Erzähl mir von einem Projekt, das nicht funktioniert hat. Was war der Grund?

Die kniffligste Frage. Sie verlangt vom Anbieter, eigene Fehler zu benennen, und zeigt sofort, ob er aus seiner Praxis gelernt hat oder ob er nur die Highlights erzählt.

Der jüngere Anbieter weicht aus oder behauptet, er habe nie ein gescheitertes Projekt gehabt. Beides sind rote Flaggen. Wer in drei Jahren KI noch nie ein Projekt hatte, das nicht so lief wie geplant, hat entweder keine echten Projekte oder keine Selbstreflexion.

Der erfahrene Anbieter erzählt offen, ohne lange Vorrede. „2024 habe ich für einen Klienten ein RAG-System mit zu kleinteiligem Chunking gebaut, weil ich das damals aus einem populären Tutorial übernommen hatte. Nach sechs Monaten haben wir gemerkt, dass die Trefferqualität nicht reicht, und mussten auf Embeddings auf Dokumentebene umsteigen. Drei Monate Rückbau, eine wertvolle Lektion, die ich seither nicht wiederholt habe." Konkretes Projekt, konkrete Diagnose, konkrete Konsequenz.

Was diese vier Fragen erkennen lassen

Zusammen unterscheiden die vier Fragen vier Achsen, die im KI-Bereich entscheidend sind.

Risiko-Denken. Wer in zwei Jahren operieren will, muss heute schon Voraussicht zeigen, nicht nur Optimismus.

Lernfähigkeit. Wer sich selbst reflektiert, kommt bei dir nicht mit dem Stack von gestern an. Und kann nicht mit der Tool-Landschaft von übermorgen umgehen.

Übergabe-Denken. Wer am ersten Tag schon weiß, wie er rausgeht, baut keine Abhängigkeit, sondern Kompetenz in deinem Team.

Lernkultur. Wer eigene Fehler benennen kann, hat in den Anti-Patterns mehr gelernt als hundert Tutorials zeigen.

Wenn ein Anbieter auf allen vier Achsen liefert, hast du jemanden mit echter Erfahrung gefunden. Wenn er auf zwei oder mehr Achsen schwächelt, weißt du, was du noch nicht hast, und kannst überlegen, ob es für dein konkretes Projekt reicht.

Wann der jüngere Anbieter trotzdem die richtige Wahl ist

Damit kein Missverständnis entsteht: nicht jedes KI-Vorhaben braucht zwei Jahrzehnte Software-Erfahrung. Für klar umrissene Werkzeuge gibt es gute, jüngere Anbieter, die schneller und günstiger liefern als ein Senior. Eine einfache Mail-Kategorisierung, ein kleiner Bot fürs interne Wiki, eine Workflow-Automatisierung mit zwei API-Calls. Da nimmst du den günstigeren Anbieter, der mit ChatGPT-Plugins und n8n flink baut, und das ist eine kluge Entscheidung.

Die vier Test-Fragen sind dann immer noch sinnvoll, du gewichtest sie nur anders. Selbst beim einfachen Projekt willst du jemanden, der einen Plan B hat und seine Fehler kennt. Aber drei Risiken in zwei Jahren? Übergabe-Modell? Das ist bei einem zweiwöchigen Projekt zweitrangig.

Erfahrung zahlt sich vor allem da aus, wo es teuer wird, wenn es schief geht und du es nicht sofort merkst. Mehrjährige Plattformen. Regulierte Branchen. Mitarbeiter-Veränderung im großen Maßstab. Stack-Entscheidungen mit Lock-in-Risiko. Da sind die vier Fragen Pflicht.

Was du im Gespräch noch beobachten solltest

Neben den Antworten zählt das Drumherum. Vier Signale, die in den ersten dreißig Minuten sichtbar werden.

Nimmt der Anbieter dich ernst oder verkauft er? Du merkst das schnell. Wer dir nach drei Sätzen ein Paket nennt, ohne Fragen zu deinem Kontext zu stellen, verkauft ein Produkt, kein Projekt.

Erklärt er Optionen oder einen einzigen richtigen Weg? Im KI-Bereich gibt es selten den einen Weg. Wer immer das gleiche Tool nennt, hat entweder nur eins im Werkzeugkasten oder will dich in seine Komfortzone ziehen.

Kann er fünf Minuten lang erklären, was er gerade in einem Satz gesagt hat? Wenn ja, hat er das Konzept verstanden. Wenn nein, hat er einen Satz aus einer Konferenz aufgeschnappt.

Hat er auch „weiß ich nicht" oder „kommt drauf an" im Repertoire? Wer auf jede Frage eine schnelle Antwort hat, verkauft Sicherheit, nicht Kompetenz. Echte Erfahrung weiß, wo die Grenzen sind, und das spricht sie aus.

Fazit

Die Anbieter-Auswahl ist die wichtigste Entscheidung in jedem KI-Projekt. Wichtiger als das Budget, wichtiger als die Tool-Wahl, wichtiger als das Timing. Wer am Anfang falsch wählt, zahlt im achtzehnten Monat, oft mit dem Rückbau eines ganzen Setups und dem Verlust des Teams, das die Veränderung mitgetragen hat.

Die vier Test-Fragen kosten dich keine zwanzig Minuten im Erstgespräch. Sie ersparen dir potenziell anderthalb Jahre. Stell sie. Wer sie alle sauber beantworten kann, hat sich verdient, dass du sein Angebot ernst nimmst. Wer ausweicht oder generisch antwortet, hat dir gerade beantwortet, was du wissen musstest.

Wenn ich der Anbieter bin, mit dem du diesen Test machst, sag mir vorher, dass du die Fragen genau in dieser Reihenfolge stellen wirst. Es ändert nichts an meinen Antworten, aber es zeigt, dass du den Markt schon ernst nimmst. Und genau das ist die Basis für jedes ehrliche Gespräch, das danach kommt.