Un filigrane facilitera la détection du contenu généré par ChatGPT. C’est ce que c’est et pourquoi il pourrait être facile de le vaincre.

  • Un filigrane cryptographique est censé être à venir qui facilitera la capture du contenu généré par ChatGPT
  • Un scientifique d’OpenAI révèle comment le filigrane ChatGPT pourrait être vaincu
  • L’informaticien Scott Aaron discute des travaux de sécurité et d’alignement de l’IA à OpenAI

Comment fonctionne le filigrane ChatGPT et pourquoi il pourrait être vaincu

ChatGPT d’OpenAI a introduit un moyen de créer automatiquement du contenu, mais prévoit d’introduire une fonction de filigrane pour faciliter la détection rend certaines personnes nerveuses. C’est ainsi que fonctionne le filigrane ChatGPT et pourquoi il peut y avoir un moyen de le vaincre.

ChatGPT est un outil incroyable que les éditeurs en ligne, les affiliés et les référenceurs adorent et redoutent à la fois.

Certains spécialistes du marketing l’adorent parce qu’ils découvrent de nouvelles façons de l’utiliser pour générer des résumés de contenu, des aperçus et des articles complexes.

Les éditeurs en ligne craignent la perspective que le contenu de l’IA inonde les résultats de recherche, supplantant les articles d’experts écrits par des humains.

Par conséquent, la nouvelle d’une fonctionnalité de filigrane qui déverrouille la détection du contenu créé par ChatGPT est également attendue avec anxiété et espoir.

Filigrane cryptographique

Un filigrane est une marque semi-transparente (un logo ou un texte) qui est intégrée à une image. Le filigrane indique qui est l’auteur original de l’œuvre.

On le voit largement dans les photographies et de plus en plus dans les vidéos.

Le filigrane de texte dans ChatGPT implique la cryptographie sous la forme de l’intégration d’un modèle de mots, de lettres et de ponctuation sous la forme d’un code secret.

Scott Aaronson et filigrane ChatGPT

Un informaticien influent nommé Scott Aaronson a été embauché par OpenAI en juin 2022 pour travailler sur la sécurité et l’alignement de l’IA.

La sécurité de l’IA est un domaine de recherche qui s’intéresse à l’étude des façons dont l’IA pourrait nuire aux humains et à la création de moyens de prévenir ce type de perturbation négative.

La revue scientifique Distill, avec des auteurs affiliés à OpenAI, définit la sécurité de l’IA comme suit :

« L’objectif de la sécurité à long terme de l’intelligence artificielle (IA) est de garantir que les systèmes d’IA avancés sont alignés de manière fiable sur les valeurs humaines – qu’ils font de manière fiable les choses que les gens veulent qu’ils fassent. »

L’alignement de l’IA est le domaine de l’intelligence artificielle qui vise à s’assurer que l’IA est alignée sur les objectifs visés.

Un grand modèle de langage (LLM) comme ChatGPT peut être utilisé d’une manière qui peut aller à l’encontre des objectifs de l’alignement de l’IA tels que définis par OpenAI , qui est de créer une IA qui profite à l’humanité.

En conséquence, la raison du filigrane est d’empêcher l’utilisation abusive de l’IA d’une manière qui nuit à l’humanité.

Aaronson a expliqué la raison du filigrane de la sortie ChatGPT :

« Cela pourrait être utile pour prévenir le plagiat académique, évidemment, mais aussi, par exemple, la génération massive de propagande… »

Comment fonctionne le filigrane ChatGPT ?

Le filigrane ChatGPT est un système qui intègre un modèle statistique, un code, dans le choix des mots et même des signes de ponctuation.

Le contenu créé par l’intelligence artificielle est généré avec un modèle assez prévisible de choix de mots.

Les mots écrits par les humains et l’IA suivent un schéma statistique.

Changer le modèle des mots utilisés dans le contenu généré est un moyen de « filigraner » le texte pour permettre à un système de détecter facilement s’il était le produit d’un générateur de texte IA.

L’astuce qui rend le filigrane de contenu AI indétectable est que la distribution des mots a toujours une apparence aléatoire similaire au texte généré par l’IA normal.

C’est ce qu’on appelle une distribution pseudo-aléatoire des mots.

Le pseudo-aléatoire est une série statistiquement aléatoire de mots ou de nombres qui ne sont pas réellement aléatoires.

Le filigrane ChatGPT n’est pas utilisé actuellement. Cependant, Scott Aaronson d’OpenAI a déclaré publiquement que c’était prévu.

À l’heure actuelle, ChatGPT est en avant-première, ce qui permet à OpenAI de découvrir le « désalignement » grâce à une utilisation dans le monde réel.

On peut supposer que le filigrane peut être introduit dans une version finale de ChatGPT ou plus tôt que cela.

Scott Aaronson a écrit sur le fonctionnement du filigrane :

« Mon projet principal jusqu’à présent a été un outil de tatouage statistique des sorties d’un modèle de texte comme GPT.

Fondamentalement, chaque fois que GPT génère un texte long, nous voulons qu’il y ait un signal secret autrement imperceptible dans ses choix de mots, que vous pouvez utiliser pour prouver plus tard que, oui, cela vient de GPT.

Aaronson a expliqué plus en détail comment fonctionne le filigrane ChatGPT. Mais d’abord, il est important de comprendre le concept de tokenisation.

La tokenisation est une étape qui se produit dans le traitement du langage naturel où la machine prend les mots d’un document et les décompose en unités sémantiques comme des mots et des phrases.

La tokenisation transforme le texte en une forme structurée pouvant être utilisée dans l’apprentissage automatique.

Le processus de génération de texte est la machine qui devine quel jeton vient ensuite en fonction du jeton précédent.

Cela se fait avec une fonction mathématique qui détermine la probabilité de ce que sera le prochain jeton, ce qu’on appelle une distribution de probabilité.

Le mot suivant est prédit mais c’est aléatoire.

Le filigrane lui-même est ce qu’Aaron décrit comme pseudo-aléatoire, en ce sens qu’il y a une raison mathématique pour qu’un mot ou un signe de ponctuation particulier soit là, mais il est toujours statistiquement aléatoire.

Voici l’explication technique du filigrane GPT :

« Pour GPT, chaque entrée et sortie est une chaîne de jetons, qui peuvent être des mots mais aussi des signes de ponctuation, des parties de mots ou plus – il y a environ 100 000 jetons au total.

À la base, GPT génère constamment une distribution de probabilité sur le prochain jeton à générer, en fonction de la chaîne de jetons précédents.

Une fois que le réseau neuronal a généré la distribution, le serveur OpenAI échantillonne alors un jeton en fonction de cette distribution ou d’une version modifiée de la distribution, en fonction d’un paramètre appelé « température ».

Tant que la température est différente de zéro, cependant, il y aura généralement un certain caractère aléatoire dans le choix du jeton suivant : vous pouvez exécuter encore et encore avec la même invite et obtenir un achèvement différent (c’est-à-dire une chaîne de jetons de sortie) à chaque fois. .

Alors pour filigraner, au lieu de sélectionner le jeton suivant au hasard, l’idée sera de le sélectionner de manière pseudo-aléatoire, en utilisant une fonction cryptographique pseudo-aléatoire, dont la clé n’est connue que d’OpenAI.

Le filigrane semble complètement naturel pour ceux qui lisent le texte car le choix des mots imite le caractère aléatoire de tous les autres mots.

Mais ce caractère aléatoire contient un biais qui ne peut être détecté que par quelqu’un qui a la clé pour le décoder.

Voici l’explication technique :

« Pour illustrer, dans le cas particulier où GPT avait un tas de jetons possibles qu’il jugeait également probables, vous pouviez simplement choisir le jeton maximisant g. Le choix semblerait uniformément aléatoire à quelqu’un qui ne connaissait pas la clé, mais quelqu’un qui connaissait la clé pourrait plus tard additionner g sur tous les n-grammes et voir qu’il était anormalement grand.

Le filigrane est une solution axée sur la confidentialité

J’ai vu des discussions sur les réseaux sociaux où certaines personnes ont suggéré qu’OpenAI pourrait conserver un enregistrement de chaque sortie qu’il génère et l’utiliser pour la détection.

Scott Aaronson confirme qu’OpenAI pourrait le faire, mais cela pose un problème de confidentialité. L’exception possible est pour la situation d’application de la loi, sur laquelle il n’a pas précisé.

Comment détecter le filigrane ChatGPT ou GPT

Quelque chose d’intéressant qui ne semble pas encore bien connu est que Scott Aaronson a noté qu’il existe un moyen de vaincre le filigrane.

Il n’a pas dit qu’il était possible de vaincre le filigrane, il a dit qu’il pouvait être vaincu.

« Maintenant, tout cela peut être vaincu avec suffisamment d’efforts.

Par exemple, si vous avez utilisé une autre IA pour paraphraser la sortie de GPT, eh bien, nous ne pourrons pas détecter cela. »

Il semble que le filigrane puisse être vaincu, du moins à partir de novembre, lorsque les déclarations ci-dessus ont été faites.

Rien n’indique que le filigrane soit actuellement utilisé. Mais lorsqu’il entrera en service, il se peut que l’on ne sache pas si cette échappatoire a été comblée.