Méthodes et solutions

Authentifier un document avec delta2T

Un texte est constitué d’éléments sémantiques (mots) structurés par les tournures de phrase (syntaxe) d’un auteur. En première observation, le signal sémantique semble majoritaire dans un texte. Cependant, le signal syntaxique prédomine largement le long d’un texte, car, plus stable, il mesure les choix de style suivis par un auteur. Si la paternité textuelle peut être déterminée par des méthodes sémantiques ou syntaxiques, des études linguistiques montrent que l’analyse de la syntaxe est la plus performante pour déterminer l’auteur d’un texte. Ce type d’analyse demande toutefois du temps et le concours d’une expertise spécialisée dans la langue du texte.

Par leur rapidité d’exécution, les approches algorithmiques d’authentification de texte se distinguent des méthodes linguistiques qui demandent la connaissance de la langue. Les algorithmes implémentés dans le logiciel delta2T d’OrphAnalytics déterminent le profil caractéristique d’un document en identifiant systématiquement les patterns utilisés dans et entre les mots, dans et entre les phrases. Cette approche algorithmique mesure essentiellement la syntaxe, car dans la masse des patterns mesurés, les signaux syntaxiques dominent, leur stabilité minorisant fortement les signaux sémantiques. La stratégie des mesures de delta2T permettant d’illustrer la syntaxe d’un auteur - et donc son style - rejoint la stratégie performante développée par les linguistes pour l’authentification de textes.

La comparaison par delta2T des profils stylométriques des textes d’un signataire permet de se prononcer objectivement sur leur paternité textuelle : des profils similaires indiquent que ces textes proviennent très vraisemblablement d’un seul auteur. Enfin, l’approche systématique - et donc sans a priori - intégrée dans delta2T, fonctionne dans toutes les langues testées. Elle fait actuellement l’objet d’une demande de brevet déposée le 22 février 2016.

Concrètement, l’application delta2T installée sur la plate-forme informatique d’une institution est autonome et travaille sans supervision informatique ou linguistique. Le logiciel delta2T traite les documents en toute confidentialité, sans base de données : les textes analysés sont réservés aux responsables de l’institution et ne sont pas stockés inutilement.

Plus précisément, la séquence de texte préparée par le signataire avec le module d’extraction de séquences de delta2T est envoyée vers le second module de  delta2T installé sur la plateforme de l’institution. Dédié aux analyses stylométriques, ce module établit alors un tableau de bord résumant l’essentiel des résultats de l’analyse textuelle pour le transmettre aux personnes concernées par l’évaluation du document.

Comparée aux analyses optimales d’authentification de texte développées par les linguistes, l’approche stylométrique de delta2T est disruptive car, en résumé :

  • les textes à authentifier sont préparés par le signataire ;
  • le logiciel d’analyse fonctionne sans opérateur ;
  • les résultats immédiats sont envoyés aux évaluateurs ;
  • l’analyse est résumée pour un jury sans formation linguistique ;
  • les analyses textuelles sont applicables dans toutes les langues testées.

Notre approche algorithmique d’analyses syntaxiques permet donc d’introduire pour la première fois une veille systématique de prévention de fraude intellectuelle, du ghostwriting plus particulièrement. L’approche algorithmique de delta2T est complémentaire à l’expertise linguistique demandée pour chacun de ces cas litigieux.