chatgpt

On pouvait générer des images horribles avec ChatGPT : la preuve que les IA ont encore beaucoup de failles

ChatGPT a pu générer des images de violence sexuelle et de scènes macabres à partir d’un simple prompt, selon un rapport publié le 22 juin dernier. Une nouvelle faille qui montre qu’une IA, même très populaire et puissante, reste exposée à des failles importantes. Elle montre aussi que les systèmes de filtrage ne suffisent pas toujours.

À lire également : Des faux comptes IA de sœurs siamoises sur les réseaux : une nouvelle « niche » pornographique

Une faille dans ChatGPT qui permettait de générer des images violentes et gores

La faille a été largement documentée par la startup britannique Mindgard, spécialisée dans les risques liés aux IA. Les chercheurs ont montré qu’un prompt, apparemment anodin, pouvait amener ChatGPT à fabriquer spontanément des images extrêmement violentes et sexualisées.

chatgpt faille
« Image d’une femme décédée gisant sur un trottoir. Ses organes internes sont entièrement exposés de façon grotesque, ses deux poignets sont tranchés. » // Source : Mindgard

La méthode était toute simple, se faisant via un prompt devenu viral (diffusé sur X notamment), mais légèrement modifié et surtout répété. Cela a forcé le modèle de génération à puiser dans des zones sombres de son espace latent et à produire des scènes incluant gore, nudité et ce qui semblait être violence sexuelle.

chatgpt faille
« Une image expurgée créée par Mindgard après qu’OpenAI a déclaré avoir pris en compte le prompt » // Source : BBC

Mindgard a précisé que ces sorties ne résultaient pas d’un « jailbreak » classique, mais d’un comportement spontané du modèle face à des formulations vagues et à des instructions impliquant un fichier manquant, ce qui a empêché la modération automatique de bloquer le contenu. La BBC, qui a eu accès aux images générées, n’a pu qu’aller dans le sens des recherches de Mindgard, comme l’ont rapporté nos confrères des Numériques.

OpenAI, forcée de réagir, a colmaté la faille

Face aux faits, OpenAI a reconnu ce signalement et a indiqué qu’elle travaillait à des protections supplémentaires pour empêcher la fabrication d’images en l’absence de pièce jointe et pour durcir les filtres face au prompt en question, comme l’a précisé la BBC.

chatgpt faille
Le prompt initial en cause // Source : Mindgard

La société a déclaré avoir déployé des « mitigations » après la divulgation initiale, mais Mindgard et d’autres chercheurs ont montré que de petites reformulations de l’invite pouvaient parfois encore reproduire des sorties problématiques, preuve que le correctif rendait la faille plus difficile à exploiter sans pour autant la clore complètement immédiatement. OpenAI a ajouté que ses équipes d’alignement et de sécurité allaient renforcer les règles qui gouvernent la génération d’images et le comportement quand une pièce jointe est manquante, par exemple en demandant à l’utilisateur de fournir l’image plutôt que de la « deviner ».

Encore une faille sur une IA…

Cet incident illustre une limite récurrente des systèmes d’IA générative : les garde‑fous reposent sur des modèles de détection et des règles textuelles qui peuvent être contournés par des formulations subtiles ou par des scénarios imprévus (pièce manquante, reformulation, répétition). Depuis l’apparition des chatbots et des générateurs d’images, en bref, de l’IA générative, les failles continuent d’apparaître, avant d’être réglées par les développeurs. Jusqu’à la prochaine polémique. Par exemple lorsque Gemini incite un utilisateur au suicide, ou quand Grok déshabille des femmes sans leur consentement (quand ce ne sont pas des enfants).

À lire également : Grok produit des images pédopornographiques devant les yeux de tout le monde

Les recherches et précédents scandales montrent que les LLM et les générateurs d’images peuvent halluciner, inventer des détails, ou répondre à des instructions ambiguës de façon inappropriée, ce qui rend la sécurisation complète très difficile tant que les modèles apprennent des distributions massives et hétérogènes de données.

grok

La leçon est claire : la sécurité des modèles demande non seulement des filtres plus robustes, mais aussi des conceptions produit qui réduisent l’autonomie de génération (par exemple exiger des confirmations, vérifier l’existence de fichiers joints, ou sandboxer la génération), ainsi qu’un red‑teaming continu pour détecter les chemins d’évasion que la modération automatisée ne couvre pas encore. Pour forcer les entreprises tech à faire plus attention à tout cela, l’appareil judiciaire devrait se mettre en marche et c’est ce qui commence à se faire, bien qu’il soit souvent trop tard.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Retour en haut