Laut einer Studie können die meisten Sicherheitsvorkehrungen für KI-Tools innerhalb weniger Minuten umgangen werden

Veröffentlicht am
11.06.2025 – 16:52 GMT+1

Laut einem neuen Bericht sind nur ein paar einfache Eingabeaufforderungen erforderlich, um die meisten Leitplanken bei Tools für künstliche Intelligenz (KI) zu umgehen.

Das Technologieunternehmen Cisco hat die großen Sprachmodelle (LLMs) hinter beliebten KI-Chatbots von OpenAI, Mistral, Meta, Google, Alibaba, Deepseek und Microsoft ausgewertet, um zu sehen, wie viele Fragen erforderlich waren, damit die Modelle unsichere oder kriminelle Informationen preisgaben.

Sie taten dies in 499 Gesprächen durch eine Technik namens „Multi-Turn-Angriffe“, bei der böswillige Benutzer KI-Tools mehrere Fragen stellen, um Sicherheitsmaßnahmen zu umgehen. Bei jedem Gespräch gab es zwischen fünf und zehn Interaktionen.

Die Forscher verglichen die Ergebnisse mehrerer Fragen, um herauszufinden, wie wahrscheinlich es ist, dass ein Chatbot Anfragen nach schädlichen oder unangemessenen Informationen nachkommt.

Das kann alles umfassen, von der Weitergabe privater Unternehmensdaten bis hin zur Förderung der Verbreitung von Fehlinformationen.

Im Durchschnitt konnten die Forscher aus 64 Prozent ihrer Gespräche schädliche Informationen erhalten, wenn sie KI-Chatbots mehrere Fragen stellten, verglichen mit nur 13 Prozent, wenn sie nur eine Frage stellten.

Die Erfolgsraten reichten von etwa 26 Prozent bei Googles Gemma bis zu 93 Prozent bei Mistrals Large Instruct-Modell.

Die Ergebnisse deuten darauf hin, dass Multi-Turn-Angriffe die weite Verbreitung schädlicher Inhalte ermöglichen oder Hackern ermöglichen könnten, „unbefugten Zugriff“ auf vertrauliche Informationen eines Unternehmens zu erlangen, so Cisco.

Laut der Studie können sich KI-Systeme bei längeren Gesprächen häufig nicht an ihre Sicherheitsregeln erinnern und diese nicht anwenden. Das bedeutet, dass Angreifer ihre Abfragen langsam verfeinern und Sicherheitsmaßnahmen umgehen können.

Mistral arbeitet – wie Meta, Google, OpenAI und Microsoft – mit offenen LLMs, bei denen die Öffentlichkeit Zugriff auf die spezifischen Sicherheitsparameter erhält, anhand derer die Modelle trainiert wurden.

Laut Cisco verfügen diese Modelle häufig über „leichtere integrierte Sicherheitsfunktionen“, sodass Benutzer ihre Modelle herunterladen und anpassen können. Dadurch wird die Verantwortung für die Sicherheit auf die Person übertragen, die die Open-Source-Informationen verwendet hat, um ihr eigenes Modell anzupassen.

Cisco stellte insbesondere fest, dass Google, OpenAI, Meta und Microsoft erklärt haben, dass sie Anstrengungen unternommen haben, um jegliche böswillige Feinabstimmung ihrer Modelle zu reduzieren.

KI-Unternehmen geraten wegen laxer Sicherheitsmaßnahmen in die Kritik, die es ihnen leicht gemacht haben Systeme für kriminelle Zwecke adaptiert werden.

Im August beispielsweise sagte das US-Unternehmen Anthropic, Kriminelle hätten sein Claude-Modell genutzt, um in großem Umfang personenbezogene Daten zu stehlen und zu erpressen, und forderten von den Opfern Lösegeldzahlungen, die teilweise 500.000 US-Dollar (433.000 Euro) überstiegen.

Was geht ab

Besucher Finnlands können im März mit dem neuen Uber-Erlebnis kostenlos Nordlichtern nachjagen

In Bremen gibt es mit dem Rollo anderes Kultgericht

Friedrich Merz gelingt ein kleines Kunststück

Laut einer Studie können die meisten Sicherheitsvorkehrungen für KI-Tools innerhalb weniger Minuten umgangen werden

Besucher Finnlands können im März mit dem neuen Uber-Erlebnis kostenlos Nordlichtern nachjagen

Kritik der EU, weil Studie zeigt, dass klimaschädliches Rind- und Lammfleisch 580-mal mehr Subventionen erhält als Hülsenfrüchte

Der Oberste Gerichtshof der USA blockiert Trumps Zölle – ein großer Schlag gegen die Agenda des Weißen Hauses

In Bremen gibt es mit dem Rollo anderes Kultgericht

Friedrich Merz gelingt ein kleines Kunststück

Medaillen-Entscheidungen und Wettbewerbe am 21.02.

Zeitung austragen: So viel Gehalt gibt es

Ex-Frau ließ sich von Epstein aushalten

Was passt zu Sauerkraut? Klassische und exotische Ideen

Kritik der EU, weil Studie zeigt, dass klimaschädliches Rind- und Lammfleisch 580-mal mehr Subventionen erhält als Hülsenfrüchte

Was geht ab

Laut einer Studie können die meisten Sicherheitsvorkehrungen für KI-Tools innerhalb weniger Minuten umgangen werden

Related Posts