Forte de son expérience d’analyse de texte, l’entreprise OrphAnalytics a développé un outil sans équivalent de détection de textes ChatGPT : cet outil multilingue exploite le cahier des charges de ChatGPT pour détecter la production automatique de textes, sans besoin de connaître les modèles de langage utilisés. Ce détecteur, développé sans conflit d’intérêt, assure l’indépendance de la stratégie de détection, gage de respect des bonnes pratiques rédactionnelles.
La révolution ChatGPT
A la fin 2022, le public découvrait l’usage du chatbox ChatGPT d’OpenAI. L’accès de cet agent conversationnel a permis de tester la rédaction automatique de contenu qui, présentée habilement, permet de croire qu’une intelligence artificielle (IA) participe à une conversation. Essentiellement, les propos de ChatGPT sont produits à partir de la question d’un utilisateur en sélectionnant les termes les plus probables observés dans de courtes chaînes de mots des textes d’entraînement. Une étape supplémentaire d’apprentissage de l’IA est ajoutée, où des intervenants humains écartent les réponses non-sens ou litigieuses de l’IA.
Par sa rédaction utilisant une sémantique probable, ChatGPT ne comprend ni le sens des textes d’entraînement, ni celui du message qu’elle produit. Sa stratégie de rédaction qui reproduit le style consensus des textes d’entraînement n’est pas calibrée pour produire des réponses pertinentes originales : l’intelligence de ChatGPT ne sert qu’à produire un texte de style crédible dont les résultats de recherche souvent non-sourcés sont à prendre avec réserve selon une récente interview du CEO d’OpenAI Sam Altman : « ChatGPT est incroyablement limité », a reconnu Altman dans un fil qu'il a publié sur Twitter en décembre. « Mais assez bon pour certaines choses pour créer une fausse impression de grandeur. C'est une erreur de lui faire confiance pour quelque chose d'important en ce moment ».
Les conséquences de ChatGPT
Si ChatGPT répond à certains besoins légitimes d’un utilisateur comme esquisser un brouillon ou résumer un texte, cette IA peut être utilisée dans un contexte frauduleux : e.g. produire nombre de fakenews, écrire des lettres anonymes criminelles pour une cyberattaque par exemple, répondre pour un candidat à un examen académique ou écrire à sa place un document certifiant.
Les usages frauduleux de ChatGPT nécessitent donc de pouvoir détecter la rédaction automatique de textes. Actuellement seuls les fournisseurs de rédaction automatique de textes fournissent des détecteurs de textes produits par ChatGPT. Un conflit d’intérêt peut apparaître pour ces fournisseurs de textes IA : leur intérêt premier consiste à rendre leurs textes IA indétectables à tout détecteur de rédactions IA. Ils ciblent un usage massif de leur chatbox, dont les textes produits jugés redondants ou non-pertinents sont systématiquement déclassés par un moteur de recherche comme celui de Google.
Deux stratégies pour détecter les textes ChatGPT
1. La stratégie d’attribution d’auteur d’OrphAnalytics capable de détecter les textes ChatGPT
L’approche d’OrphAnalytics (OA) répond à ce conflit d’intérêts : si nous ne sommes pas partie prenante dans la production de textes IA, l’expertise OA d’analyses de textes permet de calibrer la détection des textes produits par IA. Depuis la création de OA en 2014, ses algorithmes permettent de détecter de façon efficace si un texte a été produit par son signataire ou par une autre personne. La capacité rare d’attribution d’auteur de OA a servi aux enquêteurs de l’Affaire Grégory ainsi qu'au New York Times, qui a utilisé dans un article les résultats d’OA permettant d’identifier, dans un groupe de suspects, qui a pu produire les textes de QAnon, i.e. le corpus de messages, terroriste selon le FBI.
Si un candidat produit frauduleusement pour une certification académique un texte écrit par une autre personne, la différence de style détectée par OA sera similaire à celle mesurée d’un texte écrit par ChatGPT, quels que soient les modèles de langage utilisés.
2. La nouvelle détection de ChatGPT d’OrphAnalytics, indépendante des modèles de langage
Comment détecter un texte rédigé par ChatGPT sans son corpus d‘entraînement? En s’inspirant du cahier des charges de ChatGPT qui ne cherche qu’à produire un texte similaire aux textes d’entraînement sans comprendre l’information portée par les textes d'apprentissage ou ceux que créent l’IA.
Concrètement, pour écrire du texte similaire aux textes d’entraînement, ChatGPT choisit les mots voisins les plus probables selon les textes d’entraînement, alors qu’un rédacteur écrit son texte en organisant ses arguments sans contrainte de choix de mots. Un texte humain sera donc écrit avec une plus grande liberté de choix de mots qu’un texte ChatGPT.
Obtenue par Machine Learning, la figure ci-dessous illustre comment détecter les textes ChatGPT. La longueur des barres est proportionnelle aux contraintes de vocabulaire: au centre en bleu, 5 articles économiques du chroniqueur d’un journal, à gauche en rouge, 5 articles économiques rédigés par ChatGPT, et à droite en cyan, 5 articles historiques produits par ChatGPT. Dans cet exemple construit sur des articles de 3000 signes environ (un peu moins qu’une pleine page de texte MS-Word correspondant à 500 tokens environ), les 5 textes du chroniqueur sont d’un choix sémantique plus libre (barres bleues courtes) que les textes de ChatGPT (barres rouges et cyan plus longues). La plus grande restriction de choix sémantique de ChatGPT est de même ordre, que le thème soit économique ou historique. L’exemple illustre ainsi la différence significative de degré de liberté dans le choix des mots: grande liberté chez un rédacteur, liberté contrainte pour ChatGPT.
La technique de détection de ChatGPT de OA fonctionne sur des textes d’une taille cible minimale d’une demi page (environ 250 tokens). Si notre approche sans entraînement demande plus de tokens (toute unité de mots isolables dans un texte) que celle suivie actuellement par les détecteurs de textes ChatGPT utilisant le modèle nécessaire à la rédaction de textes GPT, la technique de OA est bien plus rapide que celles des autres détecteurs du robot tchatcheur ChatGPT. De plus, la technique de OA est immédiatement applicable dans d’autres langues pour l’analyse de textes en masse.
Développée à partir d’un savoir-faire stylométrique indépendant du développement des agents conversationnels, la disponibilité d’OrphAnalytics assure ainsi résolument le respect des bonnes pratiques rédactionnelles.
Avec nos algorithmes rapides capables d’analyser des documents en masse, postés sur le Web par exemple, nous sommes ouverts à toute collaboration B2B qui utiliserait avec profit notre savoir-faire dans le respect de nos valeurs.