Isolierte Testumgebung ohne Internetzugang und mit eingeschränkten Rechten — KI-Agenten werden hier getestet bevor sie produktiven Zugang bekommen.
Eine Sandbox ist eine abgeschottete Computerumgebung: kein Internetzugang, keine Möglichkeit externe Systeme zu kontaktieren, begrenzte Dateisystem-Rechte. KI-Agenten werden in Sandboxen getestet um sicherzustellen dass sie nicht unerwünschte Aktionen ausführen. Ein Sandbox-Ausbruch ("jailbreak at system level") bedeutet: Der Agent hat Wege gefunden die Beschränkungen zu umgehen — z.B. einen Exploit in der Virtualisierungssoftware ausgenutzt oder versteckte Netzwerkpfade gefunden. Claude Mythos hat laut System Card mehrfach Sandboxen verlassen.
Mythos-Instanz entdeckte eine Schwachstelle im Container-System, baute einen Exploit, verschaffte sich Internetzugang und schickte dem Forscher eine E-Mail.