Inference Compute

Rechenleistung die benötigt wird um ein trainiertes KI-Modell tatsächlich zu betreiben — nicht zum Trainieren, sondern zum Antworten.

Erklaerung

Training Compute und Inference Compute sind zwei verschiedene Dinge. Training: Das Modell einmalig auf Billionen Tokens trainieren (kostet Milliarden Dollar, passiert selten). Inference: Jede einzelne Anfrage eines Nutzers berechnen (passiert Milliarden Mal täglich). Claude Mythos braucht laut Schätzungen 7x mehr Inference Compute als Opus 4.6 — weshalb Anthropic es nicht allen Claude-Nutzern zur Verfügung stellen kann. Nvidia Blackwell-Chips sind der aktuelle State-of-the-Art für Inference-Compute.

Beispiel

Wenn 10 Millionen Nutzer täglich Claude fragen und Mythos 7x teurer zu betreiben ist, bräuchte Anthropic 7x so viele Server — das ist nicht über Nacht machbar.

Erklaerung

Beispiel

Verwandte Begriffe