Extraits d'un article de Stéphane Riand, paru dans l'1Dex du 1er décembre 2017. Les analyses stylométriques des lettres de menace, ainsi que celles des livres de François Bayrou, ont été réalisées par OrphAnalytics.

Sise dans le sud-ouest de la France, en Nouvelle-Aquitaine, Tulle a construit sa réputation sur le développement de son industrie, de son artisanat (fabrication de dentelle, d’armes et d’accordéons). Dans la vallée de la Corrèze, «la ville aux sept collines» et ses vieux quartiers, au milieu desquels surgit le clocher de pierre de la cathédrale Notre-Dame, recèlent un riche passé. Et de lourds secrets. ...

Que pense François Bayrou de l’analyse de ses livres numériques?

«J’ai bien reçu le compte-rendu d’analyse stylométrique (Figure 1) d’un certain nombre de mes ouvrages, comparés à une série d’essais anonymes d’un autre auteur. Je crois cette démarche utile, au moins moralement. Le résultat me convient tout à fait: vous concluez que mes ouvrages ont été écrits par le même auteur. Le contraire m’aurait violemment surpris, car il se trouve que j’écris ce que je signe. Pour vous, ces textes ont été écrits “dans le respect des bonnes pratiques rédactionnelles, sans l’aide d’un tiers”, ce qui est toujours vrai. Comme dit Cyrano: “Je me les sers moi-même, avec assez de verve, mais je ne permets pas qu’un autre me les serve». François Bayrou, 26 septembre 2016

Figure 1: Analyse des ouvrages de François Bayrou (points roses et rouges) et d’un autre auteur (points gris). Commentaires détaillés ici.

Test de faisabilité: analyses stylométriques de pseudo-lettres de menace

L’1Dex a participé, à travers certains de ses rédacteurs et de ses commentateurs les plus fidèles, à un test bien concret. Les participants ont transmis à la rédaction deux textes distincts de menaces imaginaires dirigées contre des tiers, le premier de 500 signes, le second, plus long, de 2’000 signes. Ces documents ont été ensuite transmis aux experts à même de discuter l’origine des écritures anonymes.

Les résultats scientifiques sont les suivants:

Analyses stylométriques préliminaires de dix pseudo-lettres de menaces rédigées par les cinq premiers volontaires. Les dix textes sont présents dans la Figure 2. Cinq auteurs sont distinguables: une couleur par auteur. Les textes courts sont représentés par des ronds, les textes longs par des triangles.

Les textes sont fragmentés en extraits de 500 caractères environ, chaque texte étant ré-échantillonné deux fois. Une statistique d’usage de patterns de paires de caractères complexes est menée. La comparaison d’usage de patterns se fait par analyse multivariée pour pouvoir représenter les points obtenus par calcul dans un plan. Après l’analyse statistique, les deux dimensions représentées sont celles de variance maximale entre les points.

Dans la Figure 2, les textes de patterns de styles similaires se regroupent: les symboles de même couleur – et donc d’un même auteur – forment un nuage de couleur constitué de pictogrammes de textes courts et longs. Cette première analyse sépare clairement les nuages orange et bleu.

Figure 2: Analyse de 10 pseudo-lettres de menace produites par cinq volontaires.

L’expérience des spécialistes leur fait dire que la dispersion de nuages de points est optimale lorsque trois nuages de points au plus sont illustrés dans une représentation à deux dimensions. Aussi, afin d’arbitrer la situation au centre de la Figure 2, les textes des symboles de deux nuages de couleur clairement séparés sont enlevés, i.e. orange et bleu. Puis une analyse identique est menée sur les trois nuages de points restants: roses, rouges et verts.

Cette approche en deux étapes permet de clarifier la situation en optimalisant la résolution. Etablie à partir des trois nuages moins bien résolus la Figure 2, la Figure 3 représente maintenant ces trois nuages clairement distincts les uns des autres, les symboles des messages courts, les ronds, étant proches du centre de gravité des pictogrammes des textes longs.

Figure 3: Analyse de 6 pseudo-lettres de menace.

Ces deux figures illustrent donc que l’analyse stylométrique permet:

  1. d’apparier de façon convaincante les pseudo-lettres de menaces d’un même auteur,
  2. de discriminer clairement entre elles les lettres appariées écrites par différents auteurs.

Article précédent Article suivant