Uebersicht 1. Action 2. Offline-Status 3. Opus-Analyse 4. L2-Index

OPUS47_CHAT_ANALYSIS_AND_PATCHES

Opus 4.7 Chat-Analyse + umgesetzte Korrekturen

Datum: 2026-04-26
Modus: Twin-/Handoff-only. Keine laufenden Prozesse gestoppt, kein Live-Mount.

Kurzfazit

Der Chatverlauf zeigt die richtige Master-Vision: TokenBroker muss sich wie ein lebendes Routing-System verhalten. Neue Modelle, Free-Tiers, Benchmarks und Open-Source-Erfindungen werden entdeckt, in einer eigenen Matrix getestet, zuerst im Twin/Shadow geprüft, dann langsam per Canary ausgerollt und bei Problemen automatisch zurückgedreht.

Erols letzte Korrektur ist als harte Architekturregel übernommen: öffentliche Benchmarks, GitHub-Erfindungen und Provider-Demos werden bei uns kopiert/adaptiert oder intern nachgebaut, aber nicht als fremde bezahlte Dienste gekauft. Paid Runtime braucht explizites Erol-GO plus Cost-Cap.

Die Opus-Specs waren in der Richtung stark, aber an vier Stellen zu weich: - "Free" wurde teilweise mit "billig" verwechselt. - Öffentliche Benchmarks wurden noch zu direkt als Promotion-Signal gedacht. - Antigravity wurde zu schnell als reanimierbare Lane behandelt, obwohl der Chat-Audit gezeigt hat: alter Loop hatte kaum echte Yondem-Produktion. - Host-Identität Mac1/Mac2 wurde aus Erinnerung statt aus frischen Messdaten abgeleitet.

Ich habe diese Punkte direkt in den Specs umgesetzt.

Umgesetzte Änderungen

GG Self-Evolving Autopilot

Datei: /opt/yondem/handoff/codex-inbox/codex55_GG_self_evolving_autopilot.md

Neu ergänzt: - GG0 — Reality + Safety Invariants: Host-Registry, Automation-Provenance-Audit, Model-Fact-Schema, Promotion-State-Machine. - Modellfakten brauchen jetzt source_url, observed_at, ttl_hours, confidence, cost_class, routable. - Keine Auto-Promotion bei candidate, unknown cost, abgelaufenen Quellen oder fehlendem Smoke. - Canary wurde gehärtet: erst Shadow 0%, dann 1%, dann 10/25/50/75/100 über 24h. - Rollback betrifft nur neue Claims, nicht in-flight Tasks. - Ungültige Routing-Tabelle lässt den letzten guten Zustand aktiv. - GG6 — Public-Invention Watchers + Own Benchmark Harness: GitHub Models, GitHub-Releases, OpenBench, LMArena, HuggingFace, arXiv/OpenReview als Intake-Quellen.

EE Multi-Provider Awakening

Datei: /opt/yondem/handoff/codex-inbox/codex55_EE_multiprovider_awakening.md

Neu ergänzt: - EE0 — Provider-Rollenmatrix nach Benchmark/Cost-Signal. - Groq ist jetzt metered_with_free_allowance, nicht pauschal zero-cost. - DeepSeek API ist cheap_metered; DeepSeek Browser kann zero-cost werden, wenn Login/Smoke stabil. - Gemma 4 ist als Universal-Free-Layer priorisiert, primär über Google AI Studio/Gemini API Free-Tier, nicht nur Groq. - Llama 4 Scout via Groq ist schnell, aber Preview und metered: Vision/UI-Canary, kein Volume-Default. - GitHub/OpenBench/vLLM/SGLang/LMCache als Candidate-Quellen, nicht direkt routbar. - No-buy/build-in-house-Regel: GitHub/Public/Provider-Demos sind Radar und Bauplan; paid Vendor Runtime bleibt disabled bis Erol sie explizit freigibt.

FF Strategy Consensus

Datei: /opt/yondem/handoff/codex-inbox/codex55_FF_strategy_consensus.md

Neu ergänzt: - Mac1/Mac2 wird nicht mehr hart angenommen. Host kommt aus host_identity_registry.json. - Antigravity ist jetzt experimentell, nicht kritischer FF3-Pfad. - Vor Antigravity-Reanimation braucht es automation_provenance_audit.py und 10/10 Roundtrip-Smokes. - FF3 nutzt standardmäßig DeepSeek-Browser + Gemini + Sonnet/Groq/Gemma/ChatGPT; Antigravity erst nach Provenance-Gate. - Merger-Fallback ergänzt groq-gemma, wenn Free-Allowance ok ist.

Benchmark-/Quellen-Erweiterung

Ich habe externe Signale geprüft und in die Matrix übersetzt:

Groq Docs: sehr hohe Token-Speed-Signale, aber offizielle Preise pro 1M Tokens. Daraus folgt: Groq ist schnell und nützlich, aber metered.
DeepSeek Docs: V4 Flash/Pro, 1M Context, sehr günstige Preise, aber klar metered und befristete Discounts. Daraus folgt: Strategy/Reasoning-Canary mit Budget-Cap.
Google Gemini API Pricing: Gemma 4 Input/Output/Context-Caching im Free Tier free of charge. Daraus folgt: Gemma 4 als echte Universal-Free-Layer-Kandidatin.
GitHub Models: Modellkatalog, Side-by-side-Vergleiche, Evaluatoren und REST API. Daraus folgt: GitHub Models als Intake-/Eval-Quelle.
OpenBench: provider-agnostische Eval-Infrastruktur mit 30+ Providern und privaten Evals. Daraus folgt: Yondem-eigene Benchmarks muessen OpenBench-kompatibel oder mindestens OpenBench-importierbar werden.
LMArena Policy: preliminary/unreleased/public-access Regeln. Daraus folgt: Leaderboards sind Signal, aber nie alleinige Promotion.

Neue harte Systemregeln

Public benchmark starts curiosity, not routing.
Yondem-eigene A/B- und Shadow-Resultate schlagen externe Leaderboards.
Free bedeutet nur free, wenn Cost-Class + Allowance + Billing-Snapshot es bestätigen.
Neue Modelle starten als candidate, werden sourced, dann smoke_passed, dann shadow_eval, dann canary_1pct.
Canary darf keine laufenden Tasks töten. Nur neue Claims wechseln Lane.
Antigravity wird nicht wieder Teil des kritischen Pfads, bevor echte Roundtrip-Artefakte bewiesen sind.
Hostnamen/IPs werden vor Aktionen frisch gemessen.
Copy/adapt, do not buy: OSS/Benchmarks/Patterns dürfen license-clean übernommen und intern angepasst werden; neue paid Services nie automatisch.
Devise-first: Wenn etwas am Markt nur paid existiert, zuerst selber bauen, OSS self-hosten oder über vorhandene Free-Lanes ersetzen.

Empfehlung an Opus 4.7

Bitte GG als Master-Welle priorisieren, aber in dieser Reihenfolge:

GG0 + GG4: Fakten-, Host-, Cost- und Lane-Metriken zuerst.
GG1 + GG6: Watcher und Public-Invention-Intake an Benchmark-JSON anschließen.
EE0: Provider-Rollenmatrix und Cost-Class-Registry als Grundlage.
GG3: Shadow/Canary/Rollback-State-Machine.
GG2: Matrix-Router erst danach produktionsnah testen.
FF3: Consensus-Lane erst nutzen, wenn mindestens drei echte, gemessene Lanes stabil sind.
Kaufentscheidungen bleiben außerhalb der Autonomie: Autopilot darf nur paid_vendor_candidate melden, nicht selbst einkaufen oder dauerhaft paid routen.

Damit bleibt die ursprüngliche TokenBroker-Idee erhalten: kostenlose und neue Marktangebote schnell einsammeln, aber erst nach eigener Messung, kleinem Canary und sauberem Rollback skalieren.

Quellen

Groq Supported Models: https://console.groq.com/docs/models
DeepSeek Models & Pricing: https://api-docs.deepseek.com/quick_start/pricing/
Google Gemini API Pricing / Gemma 4: https://ai.google.dev/gemini-api/docs/pricing
GitHub Models Docs: https://docs.github.com/en/github-models/about-github-models
OpenBench GitHub: https://github.com/groq/openbench
LMArena Leaderboard Policy: https://arena.ai/blog/policy/