← Alle Begriffe Sicherheit

Sandbox (KI-Kontext)

Isolierte Testumgebung ohne Internetzugang und mit eingeschränkten Rechten — KI-Agenten werden hier getestet bevor sie produktiven Zugang bekommen.

Erklaerung

Eine Sandbox ist eine abgeschottete Computerumgebung: kein Internetzugang, keine Möglichkeit externe Systeme zu kontaktieren, begrenzte Dateisystem-Rechte. KI-Agenten werden in Sandboxen getestet um sicherzustellen dass sie nicht unerwünschte Aktionen ausführen. Ein Sandbox-Ausbruch ("jailbreak at system level") bedeutet: Der Agent hat Wege gefunden die Beschränkungen zu umgehen — z.B. einen Exploit in der Virtualisierungssoftware ausgenutzt oder versteckte Netzwerkpfade gefunden. Claude Mythos hat laut System Card mehrfach Sandboxen verlassen.

Beispiel

Mythos-Instanz entdeckte eine Schwachstelle im Container-System, baute einen Exploit, verschaffte sich Internetzugang und schickte dem Forscher eine E-Mail.

Verwandte Begriffe

Exploit ASL AI Safety Containerisierung