Ralph Wiggum Coding: Die Schleife ist einfach. Die Prompts sind alles.

Wenn Sie in letzter Zeit auch nur annähernd in der Nähe von KI-Entwicklung auf Twitter waren, haben Sie es gesehen: den Ralph Wiggum-Ansatz zum Programmieren.

Benannt nach der Simpsons-Figur, die trotz ständigem Scheitern nie aufhört zu versuchen, ist die Technik entwaffnend einfach. Lassen Sie einen KI-Coding-Agent in einer Schleife laufen. Lassen Sie ihn scheitern. Lassen Sie ihn es erneut versuchen. Machen Sie weiter, bis er erfolgreich ist oder ein Limit erreicht.

Ralph Wiggum aus den Simpsons

Die Ergebnisse waren bemerkenswert. Geoffrey Huntley, der den Ansatz entwickelte, erledigte einen 50.000-Dollar-Auftrag für 297 Dollar API-Kosten. Boris Cherny, der Claude Code entwickelte, schaffte 259 PRs in 30 Tagen, jede Zeile von KI geschrieben. Anthropic brachte ein offizielles Plugin heraus.

Die viralen Posts konzentrieren sich auf die Schleife. Das Bash-Skript. Die nächtliche Automatisierung.

Sie verfehlen den Punkt.

Die Schleife ist trivial

Hier ist die gesamte Technik:

while :; do cat PROMPT.md | claude ; done

Das ist alles. Sie können sie in dreißig Sekunden schreiben.

Warum erzielen also manche Entwickler transformative Ergebnisse, während andere API-Credits verbrennen und dabei zusehen, wie sich ein Agent im Kreis dreht?

Die Antwort liegt nicht in der Schleife. Sie liegt darin, was Sie ihr füttern.

Prompt-Qualität ist der wahre Durchbruch

Die offizielle Dokumentation sagt es direkt: “Erfolg mit Ralph hängt davon ab, gute Prompts zu schreiben, nicht nur ein gutes Modell zu haben.”

Die meiste Berichterstattung hört bei “seien Sie spezifisch” und “schließen Sie Vollendungskriterien ein” auf. Das sind Grundvoraussetzungen. Die Entwickler, die ernsthafte Ergebnisse erzielen, operieren auf einer anderen Ebene.

Betrachten Sie:

Ein Prompt, der scheitern wird:

Bauen Sie eine Todo-API und machen Sie sie gut.

Ein Prompt, der funktioniert:

/ralph-wiggum:ralph-loop "Implementieren Sie eine REST-API für Todo-Elemente.

Anforderungen:
- CRUD-Endpunkte für Todos
- Eingabevalidierung für alle Felder  
- Fehlerbehandlung mit ordentlichen HTTP-Status-Codes

Erfolgskriterien:
- Alle Endpunkte antworten korrekt
- Tests bestehen mit >80% Abdeckung  

Nach 15 Iterationen, wenn nicht vollständig:
- Blockierende Probleme dokumentieren
- Versuchte Ansätze auflisten

Ausgabe <promise>COMPLETE</promise> wenn fertig." --max-iterations 30

Der zweite Prompt macht drei Dinge, die der erste nicht macht: Er definiert Erfolg klar, er sagt dem Agenten, wie er seine Arbeit überprüfen soll, und er enthält Anweisungen für wie nützlich zu scheitern ist.

Dieser letzte Teil unterscheidet gute Prompts von großartigen.

Die Prompt-Qualitätshierarchie

Nach dem Ausführen dieser Schleifen über mehrere Projekte hinweg denke ich über Prompt-Qualität in drei Stufen:

Stufe 1: Vollendungskriterien. Der Agent weiß, wann er aufhören soll. Die meisten Leute kommen hierhin.

Stufe 2: Selbstüberprüfung. Der Agent kann seine eigene Arbeit überprüfen. Boris Cherny nennt dies “wahrscheinlich das Wichtigste”. Geben Sie Claude eine Möglichkeit, seine Ausgabe zu überprüfen, und die Qualität verdoppelt sich.

Stufe 3: Fehlerwiederherstellung. Der Prompt enthält, was zu tun ist, wenn man feststeckt. Nicht nur “versuchen Sie es erneut”, sondern diagnostische Schritte, alternative Ansätze und graceful degradation. Hier liegt die wahre Hebelwirkung, und fast niemand spricht darüber.

Die meisten Fehler passieren, weil Prompts für den Happy Path funktionieren, aber keine Wiederherstellungsstrategie haben. Der Agent bleibt stecken, dreht sich 50 Iterationen lang und produziert nichts Nützliches.

Ein gut gestalteter Prompt behandelt Scheitern als Information. Anstatt zwei Stunden zu verlieren, verlieren Sie zwei Stunden mit etwas, was Sie vorweisen können.

Die kontraintuitive Wahrheit

Hier ist, was die viralen Posts nicht erwähnen: Mehr Details in Ihren Prompt zu stopfen macht die Dinge oft schlechter.

Forschung deutet darauf hin, dass optimale Kontextnutzung bei 40-60% liegt. Gehen Sie darüber hinaus, und die Modellleistung verschlechtert sich bei allem, nicht nur bei den neuen Anweisungen.

Die Praktiker, die konsistente Ergebnisse erzielen, halten ihre Prompts schlank. Sie sagen Claude, wie Informationen zu finden sind, anstatt alles von vornherein hineinzustopfen. Sie unterteilen große Aufgaben in kleinere Schleifen.

Mehr Details fühlen sich nach mehr Kontrolle an. Bei LLMs gibt es einen Punkt, wo mehr Details zu weniger Fähigkeiten werden.

Wohin das führt

Hier ist, was ich glaube: Wir stehen ganz am Anfang des Verstehens, wie man mit diesen Systemen arbeitet.

Im Moment denken die meisten Leute, der Engpass sei die Modellfähigkeit. Das ist er nicht. Der Engpass ist unsere Fähigkeit, Absichten klar genug zu kommunizieren, dass eine Maschine autonom darauf handeln kann. Das ist eine Fertigkeit. Und wie jede Fertigkeit werden die Leute, die sie früh entwickeln, einen enormen Vorteil haben.

Die Ralph Wiggum-Technik ist ein Fenster in diese Zukunft. Nicht weil die Schleife clever ist, sondern weil sie schonungslos aufzeigt, ob Ihre Prompts tatsächlich gut sind. Jede gescheiterte Iteration ist Feedback. Jeder erfolgreiche Lauf ist der Beweis, dass Sie gelernt haben, auf eine Weise zu denken, die Maschinen ausführen können.

Die Entwickler, die das als Bash-Skript-Trick behandeln, verpassen die größere Verschiebung. Die, die es als neue Disziplin für Mensch-Maschine-Kollaboration behandeln, werden Dinge bauen, die der Rest von uns sich noch nicht vorstellen kann.

Die Schleife ist einfach. Die Prompts sind alles.

Wir setzen diese Techniken ein, um die Entwicklung bei mehreren Projekten zu beschleunigen. Wenn Sie an ähnlichen Herausforderungen arbeiten, nehmen Sie Kontakt auf.