"Le fantôme derrière mon bachelor: le ghostwriting est un problème répandu dans les universités. Photo: Martin Barraud (plainpicture)"

Article de Stefania Telesca, publié dans le journal "Tages Anzeiger", le 24 Février 2016. Traduction effectuée par l'équipe d'OrphAnalytics.

Deux chercheurs de Lausanne ont mis au point un logiciel pour détecter le ghostwriting. Mais est-il possible pour un logiciel de distinguer des auteurs ? Nous avons fait le test.

Lorsque les étudiants soumettent leur travail, il y a parfois moins d'effort fourni qu’attendu. Des évidences montrent que de plus en plus de candidats académiques trichent en déléguant l’écriture de leurs travaux à d’autres personnes appelées ghostwriters. Les universités disposent actuellement de logiciels capables de détecter du plagiat. Cependant ces programmes sont inutiles dans le cas d'une œuvre rédigée par un tiers: ils ne détectent que les citations sans source citée comme, par exemple, des phrases entières reprises d’autres sources. Un ghostwriter produit contre rétribution un travail scientifique aux citations irréprochables qui reste ainsi sous le radar des outils de détection anti-plagiat.

Cela pourrait changer maintenant : deux chercheurs de Lausanne, Claude-Alain Roten, généticien, et Guy Genilloud, ingénieur en informatique, ont mis au point un algorithme qui examine les patterns caractéristiques du style d'écriture d’un auteur et, à partir de ces résultats, crée un profil personnalisé. Les combinaisons de mots et la construction des phrases sont analysées ainsi que le rythme d'un texte et le tempo d’une phrase.

Les professeurs ne connaissent pas leurs étudiants personnellement

Jusqu'à maintenant, il était pratiquement impossible pour les universités de détecter le ghostwriting. Dans les auditoires suisses, un grand nombre d'étudiants côtoient peu d’assistants. Plusieurs centaines d'étudiants par semestre peuvent être inscrits en psychologie, en formation médias ou en droit. L'anonymat est grand, les enseignants connaissent rarement leurs élèves personnellement. Il est donc difficile de savoir si un travail écrit a été rédigé par le candidat lui-même.

L’émission «Rundschau» a rapporté en janvier que les étudiants suisses ont acheté l'année dernière 200 mémoires de séminaire, de bachelor, ou de master à la plus grande agence de ghostwriting suisse : Acad Write. Combien d'étudiants ont utilisé d’autres fournisseurs reste une question ouverte.

Simple calcul

L’offre de ghostwriting n’est pas illégale en soi. Par exemple, le responsable d’Acad Write soutient qu’ils ne vendent seulement qu’un service. Seul est punissable l’étudiant qui soumet un document ghostwrité comme étant le sien. Les raisons avancées incitant à la fraude sont diverses. Manque de temps, surmenage ou simple calcul : un salarié gagne plus d’argent durant le temps consacré à la rédaction que ne coûte le mandat d'un ghostwriter. Un travail de bachelor rédigé par une tierce personne se négocie dès 3500 francs, selon le domaine d’étude, le sujet, le nombre de pages et la date de remise du document. La commande peut être prise en ligne. Aucune limite n’est fixée, les ghostwriters peuvent également rédiger un travail de doctorat.

Les chercheurs lausannois veulent actuellement lutter contre ces fraudes. Ils sont persuadés que ceux qui rédigent, de manière consciente, mais plus souvent inconsciente, ont une façon personnelle d'écrire. Ces patterns d'écritures sont en général invisibles à l'œil humain. Leur logiciel brasse une masse de données pour identifier des patterns de façon fiable. Les données sont lues par le programme et divisées optimalement en fragments de texte de 50'000 caractères. Plus grande est la quantité de textes d'un auteur, plus précis sera le résultat d’analyse. (Pour comparaison, un roman standard utilise entre un demi-million et un million de signes alors que les travaux universitaires présentent jusqu'à 150’000 caractères.)

Immanuel Kant préfère les phrases longues

Le logiciel calcule les relations entre les mots pour obtenir des valeurs X et Y qui forment un nuage de points caractéristiques pour chaque auteur. Les chercheurs ne veulent pas en trahir davantage, car leur logiciel en phase de test n’est pas encore breveté (du traducteur : demande de brevet déposée avant la publication de cet article).

L'inspiration à la source du programme d'analyse a été fournie par le physicien Wilhelm Fucks, auteur du livre "Nach allen Regeln der Kunst." Dès 1969, il a traité la question de savoir si les auteurs suivent des règles d’écriture qui pourraient être décrites quantitativement.

Pour Fucks, les textes étaient une masse ordonnée d'éléments individuels. Il a comparé une syllabe à un atome, un mot à une molécule. Dans son analyse des textes en prose, il a montré que le poète allemand Rainer Maria Rilke préfère des mots et des phrases courtes, alors que le philosophe Emmanuel Kant favorise l’usage de très longues phrases dans ses œuvres. L’approche de Fucks a été rejetée dans les années 60, car jugée arbitraire : selon le jugement des experts littéraires qui ne croyaient pas en la quantification des textes, il comparait l’incomparable.

"La trilogie "Millenium”

Les chercheurs lausannois arrivent maintenant à la conclusion: "oui, les styles d'écriture individuels peuvent être quantitativement mesurés et caractérisés.” Ils ont montré cela sur les romans de Stieg Larsson de la série "Millénium". L'auteur suédois a écrit lui-même les trois premiers volumes, "Aveuglement,” "Malédiction” et "Pardon” (du traducteur : titres allemands traduits en français pour "Les Hommes qui n'aimaient pas les femmes,” "La Fille qui rêvait d'un bidon d'essence et d'une allumette,” "La Reine dans le palais des courants d'air”). Dix livres étaient planifiés, Larsson est mort avant la publication de ses ouvrages. Les héritiers de Larsson et son éditeur ont commandé l’écriture du quatrième roman de "Millénium” "Complot” à l'écrivain David Lagercrantz (du traducteur : titre allemand traduit en français pour "Ce qui ne me tue pas”). A cette fin, Lagercrantz a utilisé les mêmes personnages et thèmes que ceux de Larsson pour développer une suite de l'histoire dans le style original.

Néanmoins, le logiciel peut distinguer de manière significative le style d'écriture de Larsson et Lagercrantz. Pour illustrer ces résultats avec clarté, Roten et Genilloud ont également analysé deux autres livres de Lagercrantz, formant ainsi 6 nuages de points (figure 1). (Du traducteur : ces six nuages forment deux groupes de points, un pour Larsson, l’autre pour Lagercrantz.)

Résultats de l’analyse par le logiciel

Un point de l'analyse correspond à 50'000 caractères (figure 1) ou 7'500 caractères (figure 2) d'un auteur. En tenant compte de différents critères comme la construction des phrases ou la combinaison des mots, l'algorithme calcule deux dimensions. Des nuages de points plus ou moins caractéristiques apparaissent alors selon l'auteur. Plus les points sont proches, plus le style de leurs textes est proche.

Le test en interne

Nous avons demandé une démonstration sur certains articles du «Tages-Anzeiger». Les deux chercheurs ont analysé 20 articles par journaliste, des collaborateurs de longue date du TA : Constantin Seibt, Jean-Martin Büttner et David Hesse (graphique 2). Les différences étaient moins distinctes que celles entre les romans "Millénium.” "La difficulté dans l'analyse des textes journalistiques est due à la plus grande liberté de style et donc à la variabilité qui existe entre auteurs,” explique Roten. En raison de leur longueur réduite, les articles de journaux sont en outre plus difficiles à analyser qu'un document académique ou un livre. Le logiciel d'analyse crée trois nuages de points à partir des textes soumis. Le logiciel distingue clairement le style d'écriture de Constantin Seibt des autres auteurs. Mais la moyenne des points montre également que les styles d'écriture des auteurs peuvent se ressembler.

Après des années de développement et de calibration, les deux chercheurs ont l'intention d'utiliser cet algorithme pour vérifier l'authenticité des documents. La start-up OrphAnalytics SA a été fondée en 2014 autour de cette idée. Maintenant, ils veulent proposer aux universités leurs logiciels pour lutter contre la fraude académique.

L'éducation ne doit pas être à vendre

Leur motivation est à la base de nature éthique: l'éducation et les titres ne doivent pas être à vendre. Les étudiants qui trichent et paient des ghostwriters peuvent grimper plus rapidement les échelons de carrière que ceux qui travaillent honnêtement. En outre, Roten souligne l'effet dissuasif de ces logiciels sur les étudiants.

Michael Hengartner, Président de Swissuniversities et Recteur de l'Université de Zurich, est convaincu qu'il est possible d'authentifier un texte par patterns textuels. Néanmoins, il voit des limitations dans l'usage académique d'un tel logiciel: "afin d'atteindre un niveau élevé de fiabilité, il faudrait disposer d’un grand nombre de textes par étudiant." Ce n’est pas le cas pour les étudiants au début des études. En outre, "Le style d'écriture d'un étudiant peut changer radicalement entre le début et la fin des études, ce qui fait partie du développement personnel académique."

La problématique des écrits ghostwrités devrait continuer à préoccuper les universités suisses. Les universités de Saint-Gall et de Berne ont déposé des plaintes pénales en lien avec le ghostwriting.

Article original

Die Geisterjäger

Stefania Telesca, "Tages Anzeiger", 24.02.2016.

Zwei Lausanner Forscher haben eine Software entwickelt, die Ghostwriting erkennen soll. Aber kann ein Computerprogramm Autoren unterscheiden? Wir haben den Test gemacht.

Wenn Studenten Arbeiten einreichen, dann steckt mitunter weniger Fleiss dahinter, als man vermuten würde. Es gibt Hinweise darauf, dass immer mehr akademische Anwärter betrügen, indem sie ihre Arbeiten von Fremden, sogenannten Ghostwritern, schreiben lassen. Die Universitäten verfügen zwar über Software, die Plagiate erkennen kann. Doch diese Programme sind im Falle einer fremdverfassten Arbeit nutzlos: Sie erkennen lediglich, ob nicht sauber zitiert wurde. Zum Beispiel, wenn ganze Sätze aus fremden Quellen kopiert wurden. Ein Ghostwriter aber erstellt gegen Bezahlung eine perfekt zitierte, wissenschaftliche Arbeit und bleibt so unter dem Radar entlarvender Plagiatscans.

Das könnte sich nun ändern: Die beiden Lausanner Forscher Claude-Alain Roten, ursprünglich Genforscher, und Guy Genilloud, Informatikingenieur, haben einen Algorithmus entwickelt, der bestimmte Muster im Schreibstil eines Autors sucht und ein Profil davon erstellt. Analysiert werden unter anderem die Wortkombinationen und der Satzbau sowie der Textrhythmus und das Tempo innerhalb eines Satzes.

Professoren kennen Studenten nicht persönlich

Bis jetzt war es für Universitäten praktisch unmöglich, Ghostwriting zu erkennen. Oft trifft in Schweizer Hörsälen eine grosse Zahl Studenten auf ­wenige Betreuer. Etwa bei Psychologie, Medienwissenschaften oder Rechtswissenschaften können es mehrere Hundert Studenten pro Semester sein. Die Anonymität ist gross, nur selten kennt der Dozierende seine Studenten persönlich. Das macht es schwierig, einzuschätzen, ob eine geschriebene Arbeit wirklich selbst verfasst wurde.

Wie die «Rundschau» im Januar berichtete, bestellten sich im vergangenen Jahr 200 Schweizer Studenten eine Seminar-, Bachelor- oder sogar Masterarbeit alleine bei der grössten Ghostwritingagentur der Schweiz, bei Acad Write. Wie viele Studenten darüber hinaus bei anderen Anbietern Arbeiten beziehen, ist offen.

Einfache Rechnung

Das Anbieten von Ghostwriting ist dabei nicht per se illegal. Die Acad Write zum Beispiel beteuert, sie verkaufe nur eine Dienstleistung. Strafbar macht sich einzig der Student, der die Arbeit als die eigene einreicht. Die Gründe, die für den Betrug angegeben werden, sind unterschiedlicher Natur. Zu wenig Zeit, Überforderung oder die einfache Rechnung, dass man mit bezahlter Arbeit in dieser Zeit mehr verdient, als man für den Ghostwriter hinlegen muss. Eine Bachelorarbeit aus fremder Feder gibt es bereits ab 3500 Franken, abhängig von Studienrichtung, Thema, Anzahl Seiten und Abgabetermin. Die Bestellung kann online vorgenommen werden. Es sind keine Grenzen gesetzt – die Ghostwriter übernehmen auch das Schreiben einer Doktorarbeit.

Dem wollen die Lausanner Forscher nun einen Riegel schieben. Sie sind überzeugt, dass sich Schreibende teils bewusst, vor allem aber auch unbewusst an gewisse Schreibmuster halten. Muster, die für das menschliche Auge meist nicht erkennbar sind. Ihre Software braucht denn auch grosse Datenmengen, um die Muster verlässlich zu finden. Idealerweise werden die Datensätze in das Programm eingelesen und in Texttranchen à 50'000 Zeichen aufgeteilt. Je höher die Zeichenmenge eines Autors, desto genauer das Resultat. (Zum Vergleich: Ein klassischer Roman hat zwischen 500'000 und einer Million Zeichen, universitäre Arbeiten haben bis zu 150'000 Zeichen.)

Immanuel Kant bevorzugte lange Sätze

Die Software verrechnet die Wort­beziehungen zu einem X- und einem ­Y-Wert, die im Diagramm für den jeweiligen Autor typische Punktwolken ergeben. Genaueres möchten die Forscher noch nicht verraten, denn ihre Software befindet sich im Prüfstadium und ist noch nicht patentiert.

Die Inspiration für dieses Analyseprogramm lieferte der Physiker Wilhelm Fucks, Autor des Buches «Nach allen Regeln der Kunst». Bereits 1969 beschäftigte er sich mit der Frage, ob Autoren beim Schreiben Regeln folgen und ob man diese quantitativ beschreiben könne.

Für Fucks waren Texte geordnete Mengen an einzelnen Elementen. Eine Silbe verglich er mit einem Atom, ein Wort mit einem Molekül. Bei seiner Analyse von Prosatexten zeigte er auf, dass der deutsche Dichter Rainer Maria Rilke kurze Wörter und kurze Satzlängen bevorzugte, während der Philosoph Immanuel Kant in seinen Werken eine sehr grosse Satzlänge favorisierte. Doch Fucks’ Verfahren wurde in den 60er-Jahren als willkürlich abgetan: Er vergleiche Unvergleichbares, so das Urteil der Literaturexperten, die nichts von der Quantifizierung von Texten hielten.

Die «Millenium»-Trilogie

Die Lausanner Forscher kommen nun aber zum Schluss: «Ja, individuelle Schreibstile lassen sich quantitativ erfassen und beschreiben.» Sie zeigten das etwa an Stieg Larssons Romanen der «Millennium»-Reihe. Die ersten drei Bände, «Verblendung», «Verdammnis» und «Vergebung», schrieb der schwedische Schriftsteller selbst. Geplant waren zehn Bücher, Larsson starb aber, bevor seine Werke publiziert wurden. Larssons Erben und sein Verlag beauftragten den Schriftsteller David Lagercrantz, den vierten «Millennium»-Roman «Verschwörung» zu schreiben. Dafür verwendete Lagercrantz dieselben Charaktere und Themen wie Larsson und entwickelte deren Geschichte im Stil des Originals weiter.

Trotzdem kann die Software den Schreibstil von Larsson und Lagercrantz deutlich unterscheiden. Um das Resultat zu verdeutlichen, analysierten Roten und Genilloud auch zwei weitere Bücher von Lagercrantz, daraus ergeben sich sechs Punktwolken (Grafik 1).

Der hauseigene Test

Wir baten um eine Demonstration an einigen Artikeln des «Tages-Anzeigers». Die beiden Forscher analysierten mindestens je 20 Artikel der langjährigen TA-Journalisten Constantin Seibt, Jean-Martin Büttner und David Hesse (Grafik 2). Die Unterschiede waren dabei weniger deutlich als bei den «Millennium»-Romanen. «Die Schwierigkeit bei der Analyse von journalistischen Texten liegt darin, dass die Autoren eine grössere Stilfreiheit und folglich mehr Variabilität aufweisen», erklärt Roten. Ausserdem seien Zeitungsartikel aufgrund ihrer eher kurzen Länge schwieriger zu analysieren als eine akademische Arbeit oder ein Buch. Trotzdem: Beim Test erstellte die Analysesoftware anhand der TA-Artikel drei Punktewolken. Deutlich unterscheidet das Programm den Schreibstil von Constantin Seibt von dem der anderen Autoren. Doch die Schnittmenge der Punktwolken zeigt auch, dass sich die Schreibstile von Autoren durchaus gleichen können.

Nach jahrelanger Entwicklung und Kalibrierung wollen die zwei Forscher diesen Algorithmus einsetzen, um die Authentizität von Dokumenten zu überprüfen. Aus der Idee entstand 2014 ihr Start-up Orph Analytics SA. Nun möchten sie ihre Software den Universitäten anbieten, um Abhilfe gegen akademischen Betrug zu schaffen.

Bildung soll nicht käuflich sein

Ihre Motivation dabei ist moralischer Natur: Bildung und Titel sollen nicht käuflich sein. Studenten, die betrügen und Ghostwriter bezahlen, könnten die Karriereleiter schneller erklimmen als diejenigen, die ehrlich arbeiten. Ausserdem unterstreicht Roten die abschreckende Wirkung einer solchen Software auf die Studenten.

Auch Michael Hengartner, Präsident von Swissuniversities und Rektor der Universität Zürich, ist überzeugt, dass sich gewisse Muster in Texten identifizieren lassen. Trotzdem sieht er Grenzen in der akademischen Anwendung solcher Software: «Um eine hohe Sicherheit bei den Ergebnissen zu erreichen, müsste man von jedem Studenten eine grosse Anzahl an Texten besitzen.» Dies sei besonders am Anfang des Studiums nicht der Fall. Ausserdem: «Der Schreibstil eines Studenten kann sich vom Anfang bis zum Ende eines Studiums stark verändern, das ist Teil der akademischen Selbstentwicklung.»

Die Problematik des Ghostwritings dürfte die Schweizer Universitäten weiter beschäftigen. Sowohl die Universität St. Gallen als auch die Universität Bern haben im Zusammenhang mit Ghostwriting Strafanzeigen eingereicht.

Article précédent Article suivant