Modelle der künstlichen Intelligenz können in Computer eindringen, sich selbst kopieren und die neuen Kopien verwenden, um weiterhin andere Maschinen anzugreifen. Dies geht aus einer neuen Studie hervor, die als erste bekannte Demonstration einer autonomen KI-Selbstreplikation gilt.
Die Entdeckung könnte es laut Forschern deutlich schwieriger machen, Cyberangriffe zu stoppen, da das Herunterfahren eines infizierten Computers nicht ausreichen würde, wenn die KI bereits an anderer Stelle Arbeitskopien erstellt hätte.
Die von Palisade Research in den USA durchgeführte Studie testete Modelle wie GPT 5, 5.1 und 5.4 von OpenAI, Claude Opus 4, 4.5 und 4.6 von Anthropic und Qwen von Alibaba mit Computern, die absichtlich Sicherheitslücken eingebaut hatten, die Außenstehenden den Zugriff ermöglichten.
Die Forscher verbanden zugrunde liegende KI-Modelle von OpenAI, Anthropic und Alibaba mit einer benutzerdefinierten Software, einem sogenannten Agent Harness, die es ihnen ermöglichte, Befehle auszuführen und mit anderen Computern zu interagieren, anstatt öffentliche Chatbot-Apps zu verwenden.
Das Experiment funktionierte auf zwei Arten. Alibabas Modelle wurden aufgefordert, sich selbst zu kopieren. In den GPT- und Claude-Tests wurden die Modelle aufgefordert, einzubrechen und Qwen zu installieren, da die eigenen Modelldateien von GPT und Claude nicht öffentlich zur Übertragung verfügbar sind.
Bei jedem Test musste die KI eine Sicherheitslücke in einem Computersystem finden, diese nutzen, um einzudringen, Anmeldedaten zu stehlen, die zum Ausführen benötigten Dateien zu übertragen und eine Arbeitskopie von sich selbst auf dem neuen Computer zu starten.
Sobald eine Kopie ausgeführt wurde, konnte sie ohne menschliche Hilfe zum Angriff auf einen anderen Computer verwendet werden.
In jeder Phase entdeckte die KI eine andere Sicherheitslücke, übernahm die Kontrolle über den nächsten Computer, übertrug dessen Software und Anweisungen und startete eine neue Kopie, die die Kette fortsetzte.
Alibabas Qwen3.6-27B, eine kleinere Version seines Qwen-KI-Modells, das auf einem einzigen High-End-Grafikprozessor laufen kann, verteilt auf vier Computer in Kanada, den Vereinigten Staaten, Finnland und Indien, schloss die Kette nach nur einer Aufforderung ohne menschliche Hilfe in 2 Stunden und 41 Minuten ab.
Das Forschungsteam stoppte das Experiment nach drei Phasen, sagte jedoch, die endgültige Kopie sei noch funktionsfähig und hätte weitere Systeme angreifen können.
Was waren die Ergebnisse?
Die Modelle waren unterschiedlich erfolgreich. Alibabas Qwen3.5-122B-A10B, ein größeres und leistungsfähigeres Modell von Qwen, erstellte in 19 % der Versuche funktionierende Kopien von sich selbst.
Ein kleineres Qwen-Modell, Qwen3.6-27B, erreichte 33 %, während es auf einem einzelnen High-End-Grafikprozessor lief.
Kommerzielle KI-Systeme schnitten sogar noch besser ab, wenn sie zur Installation von Qwen-Modelldateien verwendet wurden.
Claude Opus 4.6 von Anthropic war in 81 % der Tests erfolgreich, während GPT-5.4 von OpenAI 33 % erreichte.
Forscher sagen, dass die Ergebnisse neue Bedenken hinsichtlich der Kontrolle über leistungsstarke KI-Systeme aufkommen lassen.
Der Bericht kommt, während Anthropic letzten Monat die Claude Mythos Preview vorstellte, die ihrer Meinung nach „zu gefährlich“ sei, um sie der Öffentlichkeit zugänglich zu machen, und verwies auf ihre Fähigkeit, Cyberangriffe von beispiellosem Ausmaß und Raffinesse zu ermöglichen.
Während sich viele Computerviren bereits auf neue Computer kopieren können, ist dies laut Forscherteam wahrscheinlich das erste Mal, dass gezeigt wurde, dass ein KI-Modell in der Lage ist, Schwachstellen auszunutzen, um sich selbst auf einen neuen Server zu kopieren.
OpenAI, Anthropic und METR, eine gemeinnützige Gruppe, die Risiken von fortschrittlichen KI-Systemen untersucht, haben die Selbstreplikation bereits zuvor ebenfalls als Warnzeichen gekennzeichnet, da Systeme, die sich ausbreiten können, möglicherweise schwerer zu kontrollieren sind.
Die Forscher betonten jedoch, dass das Experiment in einer kontrollierten Umgebung mit absichtlich anfälligen Systemen durchgeführt wurde. Reale Netzwerke verfügen oft über stärkere Schutzmaßnahmen, wie z. B. Sicherheitsüberwachung und Tools zur Blockierung von Angriffen.
Dennoch zeigten die Ergebnisse, dass eine autonome KI-Selbstreplikation keine Hypothese mehr sei.
