Künstliche Intelligenz (KI) ist für viele zu einem alltäglichen Bestandteil geworden. Wir sehen es in der KI in unseren Social-Media-Feeds geschrieben, sprechen mit großen Sprachmodellen darüber und hören es jedes Mal, wenn Amazons Alexa bei einer Aufforderung reagiert. Da die Technologie jedoch rasant voranschreitet, wird es immer schwieriger zu sagen, was real ist und was nicht.
In einer neuen Studie, veröffentlicht in der PLoS One-TagebuchForscher fanden heraus, dass die meisten Menschen nicht mehr zwischen KI-generierten Stimmen und den menschlichen Stimmen, von denen sie geklont wurden, unterscheiden können.
Den Teilnehmern wurden Proben von 80 verschiedenen Stimmen gegeben, von denen die Hälfte von KI und die andere von Menschen stammte. Anschließend wurden sie gebeten, das Gehörte anhand des Grads ihrer Vertrauenswürdigkeit oder Dominanz zu bewerten.
Innerhalb der KI-Kategorie gab es zwei verschiedene Typen: generische Stimmen, die von Grund auf neu erstellt wurden, und Stimmen, die aus Aufzeichnungen sprechender Menschen geklont wurden.
Während die meisten Menschen erkannten, dass es sich bei der generischen KI um eine Fälschung handelte, erwiesen sich die synthetisch geklonten Versionen als weniger entzifferbar: 58 Prozent wurden für echt gehalten. Im Vergleich dazu wurden 62 Prozent der echten Stimmen korrekt als menschlich identifiziert, sodass zwischen den Befragten nur ein geringfügiger Unterschied in der Fähigkeit bestand, die beiden zu unterscheiden.
„Der wichtigste Aspekt der Forschung ist, dass KI-generierte Stimmen, insbesondere Stimmenklone, so menschlich klingen wie Aufnahmen echter menschlicher Stimmen“, sagte Dr. Nadine Lavan, Hauptautorin der Studie und Dozentin für Psychologie an der Queen Mary University of London, gegenüber Euronews Next.
„Das ist besonders auffällig, da wir handelsübliche Tools verwendet haben, mit denen jeder Stimmen erstellen kann, die realistisch klingen, ohne viel Geld bezahlen zu müssen und auch keine besonderen Programmier- oder Technologiekenntnisse zu benötigen.“
Bedenken äußern
Die KI-Technologie zum Klonen von Stimmen funktioniert durch die Analyse und Extraktion von Schlüsselmerkmalen aus Sprachdaten. Aufgrund seiner Fähigkeit, so präzise nachzuahmen, ist es zu einem beliebten Werkzeug für Telefonbetrüger geworden, die manchmal Social-Media-Beiträge als Ressource nutzen, um die Stimmen ihrer Lieben zu imitieren.
Ältere Menschen sind am stärksten gefährdet, wobei mindestens zwei Drittel der über 75-Jährigen Opfer eines versuchten Telefonbetrugs werden, so eine Studie des Universität Portsmouth. Sie fanden außerdem heraus, dass fast 60 Prozent der Betrugsversuche über Sprachanrufe durchgeführt werden.
Obwohl nicht alle dieser Anrufe mithilfe von KI durchgeführt werden, wird sie aufgrund der Ausgereiftheit und Zugänglichkeit der Software immer häufiger eingesetzt. Beliebte Beispiele hierfür sind Hume AI und ElevenLabs.
Das KI-Klonen gibt auch in der Unterhaltungsindustrie Anlass zur Sorge, wo die Stimmen mehrerer Prominenter ohne Erlaubnis verwendet wurden. Letztes Jahr äußerte sich Scarlett Johansson mit klangvoller Stimme über OpenAI „unheimlich ähnlich“ im Film „Her“ für seinen ChatGPT-Dienst ausgezeichnet.
Dann gibt es noch den weitverbreiteten Einsatz von Audio-Deepfakes, die bisher Politiker oder Journalisten nachgeahmt haben, um die öffentliche Meinung zu beeinflussen Falschinformationen verbreiten.
Da all diese besorgniserregenden Missbräuche weiterhin die Gesellschaft durchdringen, ist Lavan davon überzeugt, dass KI-Entwickler die Verantwortung haben, strengere Sicherheitsvorkehrungen zu implementieren.
„Aus unserer Sicht als Forscher würden wir Unternehmen, die die Technologie entwickeln, immer empfehlen, mit Ethikern und politischen Entscheidungsträgern zu sprechen, um zu prüfen, welche ethischen und rechtlichen Fragen es gibt, zum Beispiel das Eigentum an Stimmen, die Einwilligung (und wie weit das angesichts einer sich ständig verändernden Landschaft gehen kann)“, sagte sie.
Verbesserung der Zugänglichkeit
Wie alle Technologien haben auch KI-generierte Stimmen das Potenzial, positiv genutzt zu werden – und könnten sich insbesondere für Menschen als nützlich erweisen, die stumm sind oder Schwierigkeiten beim Sprechen haben.
„Diese Art von unterstützender Technologie ist schon seit einiger Zeit im Einsatz, wobei Stephen Hawking eines der bekanntesten Beispiele ist. Neu ist jedoch die Möglichkeit, diese synthetischen Stimmen auf eine Weise zu personalisieren, die bisher nicht möglich war“, sagte Lavan.
„Heutzutage können Benutzer wählen, ob sie ihre ursprüngliche Stimme wiederherstellen möchten, wenn sie dies bevorzugen, oder eine völlig neue Stimme entwerfen möchten, die ihre Identität und ihren persönlichen Geschmack widerspiegelt.“
Sie wies auch darauf hin, dass die Technologie bei ethischem und verantwortungsvollem Einsatz die Zugänglichkeit und Vielfalt in den Bereichen Bildung, Rundfunk und Hörbuchproduktion verbessern könnte.
Zum Beispiel ein aktuelle Studie fanden heraus, dass KI-gestütztes Audio-Lernen die Motivation und das Leseengagement der Schüler steigerte – insbesondere bei solchen mit einer Neurodiversität wie der Aufmerksamkeitsdefizit-Hyperaktivitätsstörung (ADHS).
„Eine weitere faszinierende Entwicklung ist die Möglichkeit, eine Stimme in verschiedene Sprachen zu klonen, wodurch Menschen sich über Sprachgrenzen hinweg repräsentieren und gleichzeitig ihre Stimmidentität bewahren können. Dies könnte sich positiv auf die globale Kommunikation, Zugänglichkeit und den kulturellen Austausch auswirken“, fügte Lavan hinzu.
Da der Klang künstlicher Stimmen in unserem Leben immer präsenter wird, werden sich die Nuancen, mit denen wir sie nutzen und uns mit ihnen beschäftigen, weiterentwickeln. Lavan hofft, dies mit weiteren Forschungen untersuchen zu können und sich dabei auf die Wahrnehmung von KI-generierten Stimmen zu konzentrieren.
„Ich würde wirklich gerne genauer untersuchen, wie sich die Art und Weise, wie jemand mit dieser Stimme umgeht, verändert, wenn jemand weiß, ob eine Stimme KI-generiert ist oder nicht“, sagte sie.
„Ebenso wäre es sehr interessant zu sehen, wie Menschen KI-generierte Stimmen wahrnehmen würden, die nett und angenehm, aber eindeutig nicht menschlich klingen: Würden Menschen beispielsweise mehr oder weniger wahrscheinlich den Anweisungen dieser angenehmen, aber nicht menschlichen KI-Stimmen folgen? Würden Menschen mehr oder weniger wahrscheinlich wütend auf sie werden, wenn etwas schief geht?“
„Alle diese Fragen sind aus Forschungsperspektive wirklich interessant und können uns viel darüber sagen, worauf es bei der Interaktion zwischen Mensch (oder Mensch-Computer) ankommt“, sagte sie.













