Zurück zu FallstudienKI Engineering

shouldi - KI-Entscheidungssimulator

Wie wir LLMs, Monte-Carlo-Simulationen und domänenspezifische Skills kombiniert haben, um einen Entscheidungssimulator zu bauen.

Jeden Tag verbringen Menschen etwa 30 Minuten damit, darüber nachzudenken, welches Outfit sie tragen sollen. Aber wenn es um "Soll ich nach Berlin ziehen?", "Soll ich meinen Job kündigen?" oder "Soll ich ein Haus kaufen?" geht, verlassen sie sich auf ihr Bauchgefühl. Diese Lücke hat uns gestört — nicht weil Bauchgefühl schlecht ist, sondern weil wir jetzt Werkzeuge haben, die es besser können.

1K+
Nutzer
<5s
Analysezeit
1.000
Monte-Carlo-Sims
8
Domänen-Berater

Was shouldi tatsächlich macht

Man gibt eine Frage ein. Zum Beispiel: "Soll ich in eine neue Stadt ziehen?" Das System gibt keine Ja-oder-Nein-Antwort. Stattdessen erkennt es die Domäne der Entscheidung (Karriere, Finanzen, Gesundheit, Beziehungen, Immobilien…), generiert eine maßgeschneiderte Umfrage mit situationsspezifischen Fragen und verarbeitet die Antworten durch ein probabilistisches Ergebnismodell.

Es erstellt drei Szenarien: Best Case, Likely Case, Worst Case — jeweils mit Konfidenzintervallen. Dann führt es 1.000 Monte-Carlo-Simulationen durch, um eine vollständige Wahrscheinlichkeitsverteilung zu erzeugen, und liefert einen zusammengesetzten Entscheidungsscore, einen 90%-Konfidenzbereich und Risiko-/Chancen-Prozentsätze. All das geschieht in unter 5 Sekunden.

Das Ergebnis ist nicht "Du solltest X tun." Es ist eine Karte möglicher Zukünfte mit Zahlen.

Die Architektur

Die wichtigste architektonische Entscheidung war: Das LLM ist nicht die Simulations-Engine. Es ist eine Komponente in einer Pipeline.

Das Gemini-LLM generiert Umfragefragen, Ergebnisszenarien, Konfidenzniveaus und numerische Simulationsparameter (Wahrscheinlichkeit, Auswirkung, Volatilität). Es läuft serverseitig über Server Actions.

Ein Skills-System erkennt die Entscheidungsdomäne und injiziert spezialisierten Kontext, Bewertungskriterien und Risikorahmen in den Prompt. Die Monte-Carlo-Engine nimmt die numerischen Parameter des LLM und führt 1.000 gewichtete Zufallssimulationen mit Gaußschem Rauschen durch. Die Visualisierungsschicht übernimmt Histogramm-Rendering, Konfidenzdiagramme und zusammengesetzte Bewertung.

Das LLM generiert die Parameter. Die Mathematik passiert separat. Das bedeutet: Die Simulation ist reproduzierbar und überprüfbar, man kann sehen warum das Modell denkt was es denkt, und die Verteilung ist keine Halluzination — sie wird aus strukturierten Eingaben berechnet.

Das Skills-System: Modulare Domänen-Berater

Wenn man fragt "Soll ich in Immobilien investieren?", leitet das System die Frage nicht einfach an ein generisches LLM weiter. Es erkennt zuerst die Domäne (in diesem Fall Immobilien) mittels eines schlüsselwortbasierten Bewertungssystems (kein API-Aufruf). Dann lädt es ein spezialisiertes Skill-Modul, das eine Domänen-Persona, domänenspezifische Bewertungskriterien, Risikorahmen und Benchmarks injiziert.

Es gibt derzeit 8 spezialisierte Berater: Finanzen, Karriere, Gesundheit, Beziehungen, Bildung, Immobilien, Lifestyle und Business. Das System ist modular — einen neuen Berater hinzuzufügen bedeutet eine Datei zu erstellen und zu registrieren. Der Prompt-Builder verwebt automatisch den Domänenkontext in die Gemini-Anfrage.

Interessant ist, dass verschiedene Berater dieselbe Entscheidung unterschiedlich bewerten. Ein Karriereberater und ein Finanzberater evaluieren "Soll ich nochmal studieren?" durch völlig verschiedene Linsen. Diese Spannung ist die Quelle der nützlichsten Erkenntnisse.

Monte Carlo: Warum Verteilungen besser sind als einzelne Antworten

Dies war das Feature, das das Produktgefühl verändert hat. Vor Monte Carlo war die Ausgabe: "Likely Case: moderate Konfidenz, 60–70%." Nützlich, aber abstrakt. Nach Monte Carlo ist die Ausgabe ein Histogramm. Man kann die Streuung von 1.000 möglichen Ergebnissen sehen. Man sieht, dass die Entscheidung ein 23% Risiko eines schlechten Ergebnisses und eine 41% Chance auf ein starkes hat. Der 90%-Konfidenzbereich liegt bei 34–78.

Für jede der 1.000 Iterationen wählt die Engine ein Ergebnis mittels gewichteter Zufallsstichprobe aus, nimmt den Auswirkungswert dieses Ergebnisses, fügt Gaußsches Rauschen skaliert nach Volatilität hinzu (Box-Muller-Transformation), begrenzt auf 0–100 und zeichnet das Ergebnis auf. Dann berechnet sie den zusammengesetzten Score (Mittelwert), p5/p95 und erstellt ein 20-Bin-Histogramm.

Die gesamte Simulation läuft clientseitig in unter 5 Millisekunden. Null API-Aufrufe. Das LLM liefert die Parameter; die Mathematik ist von dort an deterministisch.

Was wir beim Bauen gelernt haben

Menschen kämpfen nicht mit einem Mangel an Optionen — sie kämpfen mit Unsicherheit zwischen Optionen. Niemand fragt shouldi: "Was soll ich mit meinem Leben machen?" Sie fragen: "Soll ich Job A oder Job B nehmen?" Die Optionen sind klar. Die Unsicherheit dazwischen ist das, was lähmt.

LLMs sind überraschend gut darin, strukturierte Simulationsparameter zu generieren. Mit expliziten Prompt-Anweisungen und einem klaren Schema liefert Gemini zuverlässig Wahrscheinlichkeits-, Auswirkungs- und Volatilitätswerte im JSON-Format.

Der "Likely Case" ist der Ort, wo der gesamte Wert liegt. Best Case und Worst Case sind leicht vorstellbar. Die realistische Mitte — was wahrscheinlich passieren wird, mit konkreten Kompromissen und Zeitrahmen — ist das, was Menschen tatsächlich brauchen und selbst nicht generieren können.

Kleine Änderungen der Annahmen erzeugen völlig unterschiedliche Verteilungen. Eine einzelne Umfrageantwort von "etwas vorbereitet" zu "sehr gut vorbereitet" zu ändern, kann den zusammengesetzten Score um 15 Punkte verschieben und den Konfidenzbereich dramatisch verengen. Nutzern diese Sensitivität zu zeigen ist wirkungsvoller als jede einzelne Empfehlung.

Was als Nächstes kommt

shouldi.io ist live und entwickelt sich aktiv weiter. Bereiche, die erkundet werden: Vergleichsmodus (dieselbe Entscheidung mit verschiedenen Annahmen nebeneinander durchspielen), historische Kalibrierung (wie gut stimmten die Vorhersagen des Modells mit tatsächlichen Ergebnissen überein?), weitere Berater-Spezialisierungen (Recht, Immigration, Elternschaft) und kollaborative Entscheidungen (ein Szenario mit einem Partner teilen und sehen, wie verschiedene Eingaben das Ergebnis verändern).

Verwendete Technologien

Next.js 16React 19TypeScriptGoogle Gemini AIFirebase AuthCloud FirestoreMonte-Carlo-SimulationTailwind CSSshadcn/uinext-intl

Wichtige Ergebnisse

1K+ Nutzer<5s Analysezeit1.000 Monte-Carlo-Simulationen