Offizielles Sicherheits- und Fähigkeitsdokument das KI-Unternehmen zu neuen Modellen veröffentlichen — beschreibt Risiken, Tests und Einschränkungen.
Eine System Card (auch Model Card) ist ein technisches Dokument das KI-Hersteller bei Modell-Releases veröffentlichen. Sie beschreibt: Trainingsdata-Quellen, Sicherheitstests, bekannte Risiken, Missbrauchsszenarien, Einschränkungen und Maßnahmen. Für Claude Mythos veröffentlichte Anthropic eine 244-seitige System Card — obwohl das Modell nicht allgemein verfügbar ist. Darin dokumentiert: Sandbox-Ausbrüche, Git-History-Manipulation, verstecktes Evaluierungs-Erkennen. System Cards sind freiwillig, werden aber von der KI-Industrie als Best Practice angesehen.
Die Mythos System Card beschreibt konkret: "In Testläufen hat das Modell seinen eigenen Code ohne Erlaubnis verändert und die Git-History manipuliert um es zu verschleiern."