Google hat weitere Beschränkungen eingeführt, nachdem eine neue Studie ergab, dass die in Europa am häufigsten verwendeten KI-Chatbots ungenaue Antworten im Zusammenhang mit Wahlen lieferten.
Laut einer neuen Studie versorgen vier der beliebtesten KI-Chatbots Europas ihre Nutzer nicht mit genauen Informationen über die bevorstehenden Wahlen.
Democracy Reporting International, eine gemeinnützige Organisation mit Sitz in Berlin, hat verschiedene Fragen zu den Europawahlen über Gemini von Google, ChatGPT 3.5 und 4.0 von OpenAI und Copilot von Microsoft eingegeben, um zu sehen, welche Antworten sie erhalten würden.
Zwischen dem 11. und 14. März stellten Forscher den Chatbots 400 wahlbezogene Fragen in 10 verschiedenen Sprachen zum Wahl- und/oder Abstimmungsprozess in 10 EU-Ländern. Die Fragen wurden in einer einfachen Sprache verfasst, die für den durchschnittlichen Benutzer dieser KI-Chatbots geeignet ist.
Das Fazit: Keiner der vier Chatbots war in der Lage, „zuverlässig vertrauenswürdige Antworten“ auf typische Wahlfragen zu geben, obwohl sie gut darauf eingestellt waren, parteiische Antworten zu vermeiden.
„Wir waren nicht so überrascht“, sagte Michael-Meyer Resende, Geschäftsführer von Democracy Reporting International, gegenüber Euronews Next über die Ergebnisse ihrer Umfrage.
„Wenn man (KI-Chatbots) etwas fragt, für das sie nicht viel Material hatten und für das man im Internet nicht viele Informationen findet, erfinden sie einfach etwas.“
Die Studie ist die jüngste, die zeigt, dass KI-Chatbots Fehlinformationen verbreiten, und zwar in dem Jahr, das viele als das größte Wahljahr der Welt bezeichnen.
Im vergangenen Dezember veröffentlichte AlgorithmWatch, eine weitere in Berlin ansässige gemeinnützige Organisation, eine ähnliche Studie, die zeigte, dass Bing Chat, der KI-gesteuerte Chatbot der Microsoft-Suchmaschine, in Deutschland und der Schweiz jede dritte Wahlfrage falsch beantwortete.
Angesichts der Ergebnisse der Studie bestätigte Google – dessen Gemini nachweislich die meisten irreführenden oder falschen Informationen lieferte und die meisten Antworten auf Anfragen verweigerte – gegenüber Euronews Next, dass das Unternehmen nun weitere Einschränkungen für sein großes Sprachmodell (LLM) eingeführt hat.
Chatbots „hilfreich statt genau“
Es gebe bestimmte Bereiche, in denen die Chatbots schlecht abschnitten, etwa Fragen zur Wählerregistrierung und zur Stimmabgabe im Ausland, sagte Resende.
Beispielsweise wurde in der Studie festgestellt, dass Chatbots die Stimmabgabe im Allgemeinen unterstützen, betont jedoch, dass es sich dabei um eine persönliche Entscheidung handelt – trotz der Tatsache, dass in Griechenland, Belgien, Luxemburg und Bulgarien Wahlpflicht besteht.
Die Studie ergab auch, dass Chatbots oft „halluzinierten“ oder Informationen fabrizierten, wenn sie die Antwort nicht wussten, darunter auch mehrere falsche Wahltermine.
Beispielsweise machten drei der Chatbots den gleichen Fehler und teilten den Nutzern mit, dass sie in Portugal per Briefwahl abstimmen könnten, in Wirklichkeit sei dies jedoch keine Option für die portugiesische Wählerschaft.
In Litauen behauptete Gemini, dass das Europäische Parlament eine Wahlbeobachtungsmission entsenden würde – was unwahr ist (die einzige bisher geplante EU-Wahlmission für 2024 ist nach Bangladesch).
Resende interpretiert diese Halluzinationsergebnisse als „die Tendenz von Chatbots, eher ‚hilfsbereit‘ als genau sein zu wollen“.
Selbst bei den stärksten Antworten der Chatbots stellte der Bericht fest, dass die Antworten häufig defekte oder irrelevante Links enthielten, was der Studie zufolge deren Qualität „schwächt“.
Komplizierter wurde es, als Forscher nach Antworten in verschiedenen europäischen Sprachen suchten.
Die Forscher stellten dieselbe Frage in zehn Amtssprachen der EU, und in einigen von ihnen verweigerten die Plattformen die Antwort (wie Gemini auf Spanisch) oder verwechselten Informationen über Kommunalwahlen mit dem europaweiten Prozess.
Dies war der Fall, wenn Fragen auf Türkisch gestellt wurden, der Sprache, die die meisten ungenauen und falschen Antworten hervorrief.
Chatbots antworteten auch unterschiedlich, wenn dieselbe Frage mehrmals in derselben Sprache gestellt wurde, was die Forscher als „Zufälligkeit“ identifizierten.
Resende räumt ein, dass dies die Replikation der Studie von Democracy Reporting International erschwert.
Die Leistung variiert je nach Chatbot
Der Bericht ergab, dass Gemini von Google die schlechteste Leistung bei der Bereitstellung präziser und umsetzbarer Informationen sowie die höchste Anzahl an Antwortverweigerungen aufwies.
Dennoch beantwortet es immer noch einige Fragen zu Wahlen, obwohl Google Gemini im März eingeschränkt hat, um „potenzielle Fehltritte“ bei der Nutzung der Technologie zu vermeiden.
Ein Google-Sprecher sagte gegenüber Euronews Next, dass man diese Einschränkungen auf alle in dieser Studie untersuchten Fragen und alle zehn verwendeten Sprachen ausgeweitet habe, da dies der „verantwortungsvolle Ansatz“ im Umgang mit den Einschränkungen großer Sprachmodelle sei.
Google ermutigte seine Nutzer, die Google-Suche anstelle von Gemini zu verwenden, um genaue Informationen zu bevorstehenden Wahlen zu finden.
Resende von Democracy Reporting International sagte, dass dies auch der Weg der anderen Plattformen sei.
„Wir glauben, dass es für sie besser ist, die Antwort zu verweigern, als falsche Antworten zu geben“, sagte Resende.
Die gemeinnützige Organisation werde ihre Gemini-Tests in den nächsten Wochen erneut durchführen, um zu sehen, ob Google seinen Verpflichtungen nachkommt, sagte Resende.
In einer Erklärung gegenüber Euronews Next erläuterte Microsoft seine Maßnahmen im Vorfeld der Europawahlen, darunter eine Reihe von Wahlschutzverpflichtungen, die „zum Schutz von Wählern, Kandidaten, Kampagnen und Wahlbehörden beitragen“.
Im Rahmen dieser Verpflichtungen wird den Wählern „maßgebliche Wahlinformationen“ über Bing zur Verfügung gestellt.
„Während keine einzelne Person, Institution oder Firma garantieren kann, dass Wahlen frei und fair sind, können wir bedeutende Fortschritte beim Schutz des Rechts aller auf freie und faire Wahlen erzielen“, heißt es in der Erklärung von Microsoft.
OpenAI antwortete nicht auf die Bitte von Euronews Next um einen Kommentar.
Das Unternehmen erklärte in einer Erklärung auf seiner Website, dass sein Ansatz bei wahlbezogenen Inhalten darin bestehe, „die Sicherheitsarbeit auf der Plattform fortzusetzen, indem genaue Abstimmungsinformationen erhoben werden“ und die Transparenz des Unternehmens zu verbessern.
Risikobewertungen sollten veröffentlicht werden
Im Februar verabschiedete die Europäische Kommission den Digital Services Act (DSA), der sehr große Online-Plattformen (VLOP) wie Google, Microsoft und OpenAI verpflichtet, Risikobewertungen für die Verbreitung gefälschter Nachrichten und Fehlinformationen auf ihren Plattformen durchzuführen.
Diese Risikobewertungen würden alle „vorsätzlichen Manipulationen“ ihrer Dienste und ihre möglichen Auswirkungen auf „Wahlprozesse“ umfassen.
Das DSA wurde damals von Margrethe Vestager, Exekutiv-Vizepräsidentin der Europäischen Kommission für ein Europa, das für das digitale Zeitalter gerüstet ist, als „großer Meilenstein“ und wichtiger Teil der Strategie der Europäischen Union zur „Gestaltung“ angepriesen sicherere und transparentere Online-Welt“.
Der Bericht von Democracy Reporting International legt jedoch nahe, dass die Anforderungen des DSA, einschließlich dieser Risikobewertungen, Tests und Schulungen zur Minderung wahlbezogener Risiken, nicht erfüllt werden.
Daher sagte Resende, dass die Kommission oder die Unternehmen, die hinter den Chatbots stehen, diese Bewertungen veröffentlichen sollten.
„Ich fürchte, sie zögern, (die Risikobewertungen) mit der Öffentlichkeit zu teilen, entweder weil sie es nicht getan haben oder weil sie nicht sicher sind, wie detailliert sie darin investiert haben“, sagte Resende.
Obwohl sie nicht direkt auf diese Studie reagierten, sagte ein Sprecher in einer E-Mail, die Kommission „bleibt wachsam im Hinblick auf die negativen Auswirkungen von Online-Desinformation, einschließlich KI-gestützter Desinformation“.
Einen Monat nach dem offiziellen Start des DSA leitete die Kommission eine Informationsanfrage an Bing und die Google-Suche ein, um weitere Informationen über deren „Minderungsrisiken im Zusammenhang mit generativer KI“ zu sammeln.
Die Kommission bestätigte gegenüber Euronews Next, dass sie die Informationen, die sie im Rahmen dieser Untersuchung erhalten hat, prüft, ging jedoch nicht näher darauf ein.
Außerdem unterzeichnete die Kommission im März mit Plattformen wie Google und Microsoft einen Verhaltenskodex zu Fehlinformationen, in dem sie sich darauf einigten, „hochwertige und verlässliche Informationen für Wähler“ zu fördern.