OPUS47_CHAT_ANALYSIS_AND_PATCHES

Opus 4.7 Chat-Analyse + umgesetzte Korrekturen

Datum: 2026-04-26
Modus: Twin-/Handoff-only. Keine laufenden Prozesse gestoppt, kein Live-Mount.

Kurzfazit

Der Chatverlauf zeigt die richtige Master-Vision: TokenBroker muss sich wie ein lebendes Routing-System verhalten. Neue Modelle, Free-Tiers, Benchmarks und Open-Source-Erfindungen werden entdeckt, in einer eigenen Matrix getestet, zuerst im Twin/Shadow geprüft, dann langsam per Canary ausgerollt und bei Problemen automatisch zurückgedreht.

Erols letzte Korrektur ist als harte Architekturregel übernommen: öffentliche Benchmarks, GitHub-Erfindungen und Provider-Demos werden bei uns kopiert/adaptiert oder intern nachgebaut, aber nicht als fremde bezahlte Dienste gekauft. Paid Runtime braucht explizites Erol-GO plus Cost-Cap.

Die Opus-Specs waren in der Richtung stark, aber an vier Stellen zu weich: - "Free" wurde teilweise mit "billig" verwechselt. - Öffentliche Benchmarks wurden noch zu direkt als Promotion-Signal gedacht. - Antigravity wurde zu schnell als reanimierbare Lane behandelt, obwohl der Chat-Audit gezeigt hat: alter Loop hatte kaum echte Yondem-Produktion. - Host-Identität Mac1/Mac2 wurde aus Erinnerung statt aus frischen Messdaten abgeleitet.

Ich habe diese Punkte direkt in den Specs umgesetzt.

Umgesetzte Änderungen

GG Self-Evolving Autopilot

Datei: /opt/yondem/handoff/codex-inbox/codex55_GG_self_evolving_autopilot.md

Neu ergänzt: - GG0 — Reality + Safety Invariants: Host-Registry, Automation-Provenance-Audit, Model-Fact-Schema, Promotion-State-Machine. - Modellfakten brauchen jetzt source_url, observed_at, ttl_hours, confidence, cost_class, routable. - Keine Auto-Promotion bei candidate, unknown cost, abgelaufenen Quellen oder fehlendem Smoke. - Canary wurde gehärtet: erst Shadow 0%, dann 1%, dann 10/25/50/75/100 über 24h. - Rollback betrifft nur neue Claims, nicht in-flight Tasks. - Ungültige Routing-Tabelle lässt den letzten guten Zustand aktiv. - GG6 — Public-Invention Watchers + Own Benchmark Harness: GitHub Models, GitHub-Releases, OpenBench, LMArena, HuggingFace, arXiv/OpenReview als Intake-Quellen.

EE Multi-Provider Awakening

Datei: /opt/yondem/handoff/codex-inbox/codex55_EE_multiprovider_awakening.md

Neu ergänzt: - EE0 — Provider-Rollenmatrix nach Benchmark/Cost-Signal. - Groq ist jetzt metered_with_free_allowance, nicht pauschal zero-cost. - DeepSeek API ist cheap_metered; DeepSeek Browser kann zero-cost werden, wenn Login/Smoke stabil. - Gemma 4 ist als Universal-Free-Layer priorisiert, primär über Google AI Studio/Gemini API Free-Tier, nicht nur Groq. - Llama 4 Scout via Groq ist schnell, aber Preview und metered: Vision/UI-Canary, kein Volume-Default. - GitHub/OpenBench/vLLM/SGLang/LMCache als Candidate-Quellen, nicht direkt routbar. - No-buy/build-in-house-Regel: GitHub/Public/Provider-Demos sind Radar und Bauplan; paid Vendor Runtime bleibt disabled bis Erol sie explizit freigibt.

FF Strategy Consensus

Datei: /opt/yondem/handoff/codex-inbox/codex55_FF_strategy_consensus.md

Neu ergänzt: - Mac1/Mac2 wird nicht mehr hart angenommen. Host kommt aus host_identity_registry.json. - Antigravity ist jetzt experimentell, nicht kritischer FF3-Pfad. - Vor Antigravity-Reanimation braucht es automation_provenance_audit.py und 10/10 Roundtrip-Smokes. - FF3 nutzt standardmäßig DeepSeek-Browser + Gemini + Sonnet/Groq/Gemma/ChatGPT; Antigravity erst nach Provenance-Gate. - Merger-Fallback ergänzt groq-gemma, wenn Free-Allowance ok ist.

Benchmark-/Quellen-Erweiterung

Ich habe externe Signale geprüft und in die Matrix übersetzt:

Neue harte Systemregeln

  1. Public benchmark starts curiosity, not routing.
  2. Yondem-eigene A/B- und Shadow-Resultate schlagen externe Leaderboards.
  3. Free bedeutet nur free, wenn Cost-Class + Allowance + Billing-Snapshot es bestätigen.
  4. Neue Modelle starten als candidate, werden sourced, dann smoke_passed, dann shadow_eval, dann canary_1pct.
  5. Canary darf keine laufenden Tasks töten. Nur neue Claims wechseln Lane.
  6. Antigravity wird nicht wieder Teil des kritischen Pfads, bevor echte Roundtrip-Artefakte bewiesen sind.
  7. Hostnamen/IPs werden vor Aktionen frisch gemessen.
  8. Copy/adapt, do not buy: OSS/Benchmarks/Patterns dürfen license-clean übernommen und intern angepasst werden; neue paid Services nie automatisch.
  9. Devise-first: Wenn etwas am Markt nur paid existiert, zuerst selber bauen, OSS self-hosten oder über vorhandene Free-Lanes ersetzen.

Empfehlung an Opus 4.7

Bitte GG als Master-Welle priorisieren, aber in dieser Reihenfolge:

  1. GG0 + GG4: Fakten-, Host-, Cost- und Lane-Metriken zuerst.
  2. GG1 + GG6: Watcher und Public-Invention-Intake an Benchmark-JSON anschließen.
  3. EE0: Provider-Rollenmatrix und Cost-Class-Registry als Grundlage.
  4. GG3: Shadow/Canary/Rollback-State-Machine.
  5. GG2: Matrix-Router erst danach produktionsnah testen.
  6. FF3: Consensus-Lane erst nutzen, wenn mindestens drei echte, gemessene Lanes stabil sind.
  7. Kaufentscheidungen bleiben außerhalb der Autonomie: Autopilot darf nur paid_vendor_candidate melden, nicht selbst einkaufen oder dauerhaft paid routen.

Damit bleibt die ursprüngliche TokenBroker-Idee erhalten: kostenlose und neue Marktangebote schnell einsammeln, aber erst nach eigener Messung, kleinem Canary und sauberem Rollback skalieren.

Quellen