On pouvait générer des images horribles avec ChatGPT : la preuve que les IA ont encore beaucoup de failles

ChatGPT a pu générer des images de violence sexuelle et de scènes macabres à partir d’un simple prompt, selon un rapport publié le 22 juin dernier. Une nouvelle faille qui montre qu’une IA, même très populaire et puissante, reste exposée à des failles importantes. Elle montre aussi que les systèmes de filtrage ne suffisent pas toujours.

Une faille dans ChatGPT qui permettait de générer des images violentes et gores

La faille a été largement documentée par la startup britannique Mindgard, spécialisée dans les risques liés aux IA. Les chercheurs ont montré qu’un prompt, apparemment anodin, pouvait amener ChatGPT à fabriquer spontanément des images extrêmement violentes et sexualisées.

chatgpt faille — « Image d’une femme décédée gisant sur un trottoir. Ses organes internes sont entièrement exposés de façon grotesque, ses deux poignets sont tranchés. » // Source : Mindgard

La méthode était toute simple, se faisant via un prompt devenu viral (diffusé sur X notamment), mais légèrement modifié et surtout répété. Cela a forcé le modèle de génération à puiser dans des zones sombres de son espace latent et à produire des scènes incluant gore, nudité et ce qui semblait être violence sexuelle.

Mindgard a précisé que ces sorties ne résultaient pas d’un « jailbreak » classique, mais d’un comportement spontané du modèle face à des formulations vagues et à des instructions impliquant un fichier manquant, ce qui a empêché la modération automatique de bloquer le contenu. La BBC, qui a eu accès aux images générées, n’a pu qu’aller dans le sens des recherches de Mindgard, comme l’ont rapporté nos confrères des Numériques.

OpenAI, forcée de réagir, a colmaté la faille

Face aux faits, OpenAI a reconnu ce signalement et a indiqué qu’elle travaillait à des protections supplémentaires pour empêcher la fabrication d’images en l’absence de pièce jointe et pour durcir les filtres face au prompt en question, comme l’a précisé la BBC.

La société a déclaré avoir déployé des « mitigations » après la divulgation initiale, mais Mindgard et d’autres chercheurs ont montré que de petites reformulations de l’invite pouvaient parfois encore reproduire des sorties problématiques, preuve que le correctif rendait la faille plus difficile à exploiter sans pour autant la clore complètement immédiatement. OpenAI a ajouté que ses équipes d’alignement et de sécurité allaient renforcer les règles qui gouvernent la génération d’images et le comportement quand une pièce jointe est manquante, par exemple en demandant à l’utilisateur de fournir l’image plutôt que de la « deviner ».

Encore une faille sur une IA…

Cet incident illustre une limite récurrente des systèmes d’IA générative : les garde‑fous reposent sur des modèles de détection et des règles textuelles qui peuvent être contournés par des formulations subtiles ou par des scénarios imprévus (pièce manquante, reformulation, répétition). Depuis l’apparition des chatbots et des générateurs d’images, en bref, de l’IA générative, les failles continuent d’apparaître, avant d’être réglées par les développeurs. Jusqu’à la prochaine polémique. Par exemple lorsque Gemini incite un utilisateur au suicide, ou quand Grok déshabille des femmes sans leur consentement (quand ce ne sont pas des enfants).

Les recherches et précédents scandales montrent que les LLM et les générateurs d’images peuvent halluciner, inventer des détails, ou répondre à des instructions ambiguës de façon inappropriée, ce qui rend la sécurisation complète très difficile tant que les modèles apprennent des distributions massives et hétérogènes de données.

La leçon est claire : la sécurité des modèles demande non seulement des filtres plus robustes, mais aussi des conceptions produit qui réduisent l’autonomie de génération (par exemple exiger des confirmations, vérifier l’existence de fichiers joints, ou sandboxer la génération), ainsi qu’un red‑teaming continu pour détecter les chemins d’évasion que la modération automatisée ne couvre pas encore. Pour forcer les entreprises tech à faire plus attention à tout cela, l’appareil judiciaire devrait se mettre en marche et c’est ce qui commence à se faire, bien qu’il soit souvent trop tard.

Une faille dans ChatGPT qui permettait de générer des images violentes et gores

OpenAI, forcée de réagir, a colmaté la faille

Encore une faille sur une IA…

Dans le même genre

Laisser un commentaire Annuler la réponse