KI, die handelt
Die KI hört auf, nur zu antworten, und fängt an zu handeln: Sie bucht, schreibt, ändert Code. Das ist der spannendste Schritt bisher, und er gelingt, wenn die KI den Faden behält.
Ein Jahr lang war die KI ein guter Gesprächspartner. Du fragtest, sie antwortete, du entschiedest. Jetzt übernimmt sie ganze Abläufe: Sie plant, ruft Werkzeuge auf, führt Schritt für Schritt aus. Aus dem Assistenten wird ein Akteur.
Das verändert den Einsatz. Solange die KI nur Vorschläge macht, fällt ein Fehler sofort auf. Sobald sie selbst handelt, läuft ein Fehler einfach weiter, in den nächsten Schritt und den übernächsten.
01
Vom Antworten zum Tun
Ein Agent ist eine KI, die selbst handelt. Sie zerlegt eine Aufgabe in Schritte, wählt Werkzeuge, prüft Zwischenergebnisse und macht weiter, bis das Ziel erreicht ist. Das klingt nach dem nächsten logischen Schritt, und das ist es auch.
Die Fähigkeiten sind beeindruckend. Ein Agent kann recherchieren, Code schreiben, ihn testen, einen Termin buchen, eine Mail verschicken. In der Demo wirkt das wie Magie.
Ein Agent macht aus einer Antwort eine Kette von Handlungen.
Und genau in dieser Kette liegt die Herausforderung.
02
Die Mathematik der Kette
Jeder einzelne Schritt einer KI ist ziemlich gut, aber selten perfekt. Und kleine Fehler multiplizieren sich, sobald Schritte aufeinander aufbauen. Das ist simple Wahrscheinlichkeit, mit unangenehmer Wirkung.
Bei zwanzig Schritten und 95% pro Schritt landet man noch bei rund einem Drittel. Mehr Schritte bei besserer Einzelgenauigkeit können also zu schlechteren Ergebnissen führen. Ein früher Fehler vergiftet alles, was danach kommt.
Die Verlässlichkeit eines Agenten entscheidet sich zwischen den Schritten.
03
Was wirklich kaputtgeht
Woran liegt es? Die Modelle selbst sind stark. Das Problem sitzt dazwischen, im Lauf der Schritte.
Container starten neu und löschen den Verlauf. Der Stand aus Schritt drei ist in Schritt zwölf verschwunden. Fachleute nennen das «State Amnesia»: Der Agent vergisst, woran er gerade war. Eine Halluzination aus einem frühen Schritt wird ungeprüft weitergereicht und kippt am Ende das Ergebnis.
Eine Untersuchung von METR zeigt die Grenze von der anderen Seite: Bei Aufgaben, die einen Menschen wenige Minuten kosten, sind Spitzenmodelle nahezu perfekt. Bei Aufgaben über mehrere Stunden fällt die Erfolgsquote steil ab. Je länger der Weg, desto mehr zählt, dass der Agent den Faden hält.
04
Den Faden halten
Wenn Verlässlichkeit zwischen den Schritten entsteht, dann liegt der Hebel dort: Der Agent braucht über jeden Schritt hinweg den richtigen Stand. Was zählt, muss erhalten bleiben, und zu jedem Schritt muss genau das Passende vorliegen.
Genau hier setzt unsere Arbeit bei Thinkery an. Wir sind überzeugt, dass die Verlässlichkeit von Agenten nicht im Modell entsteht, sondern in der Schicht dazwischen, dort, wo der rote Faden über alle Schritte hinweg erhalten bleibt.
Ein Agent ist nur so gut wie das, woran er sich zwischen zwei Schritten noch erinnert.
05
Wohin das führt
Handelnde KI wird bleiben. Die Frage ist, ob wir ihr Abläufe anvertrauen können, die länger dauern als ein paar Minuten. Das entscheidet sich an der Verlässlichkeit zwischen den Schritten.
Je solider dieser Unterbau ist, desto mehr echte Arbeit kann ein Mensch wirklich abgeben, ohne am Ende jeden Schritt nachzukontrollieren. Dann wird aus einem beeindruckenden Demo ein Werkzeug, auf das man sich verlässt.
Vertrauen in handelnde KI wächst mit der Verlässlichkeit über viele Schritte.