Pretraining

Das initiale Training eines KI-Modells auf riesigen Textmengen — kostet Monate und Milliarden Dollar, passiert vor der Produktivsetzung.

Erklaerung

Pretraining ist Phase 1 der KI-Modell-Entwicklung: Das Modell lernt aus Billionen von Token (Texten, Code, Büchern, Websites) die grundlegende Struktur von Sprache und Wissen. Dauert Monate, kostet Hunderte Millionen bis Milliarden Dollar an Compute. Nach dem Pretraining folgt Fine-Tuning (auf spezifische Aufgaben) und RLHF (Reinforcement Learning from Human Feedback — macht das Modell hilfreicher und sicherer). Claude Mythos zeigt dass Pretraining-Skalierung noch nicht ausgereizt ist — trotz Gerüchten über "Walls" in der Skalierung.

Beispiel

GPT-4 wurde auf ~13 Billionen Token trainiert. Das Pretraining dauerte Monate auf tausenden A100-GPUs. Danach folgte Fine-Tuning für ChatGPT.

Erklaerung

Beispiel

Verwandte Begriffe