"The ghost behind my bachelor thesis: ghostwriting is a common problem at universities. Picture : Martin Barraud (plainpicture)"

Article from Stefania Telesca, published by the "Tages Anzeiger" newspaper the 24 Februrary 2016. Translation performed by the OrphAnalytics team.

Two researchers from Lausanne have developed a software application for ghostwriting detection. But can a computer program distinguish authors? We did the test.

When students submit their work, there is sometimes less effort produced than expected. There are evidences that more and more academic candidates are cheating, their works being written by others, called ghostwriters. Universities already have software able to detect plagiarism. However, these applications are useless to detect a text written by a third person, because they are only able to spot unreferenced quotes such as, for instance, whole sentences copied from other sources. A ghostwriter is paid to produce a scientific work with perfect quotations which thus remains under the radar of anti-plagiarism tools.

This could now change: two researchers from Lausanne, Claude-Alain Roten, geneticist, and Guy Genilloud, computer engineer, have developed an algorithm that examines the patterns characteristic of an author's writing style and, from these results, defines an author’s profile. The combinations of words and sentence construction are analyzed as well as the pace of a text and the tempo of a sentence.

The professors do not know their students personally

Until now, it was almost impossible for universities to detect ghostwriting. In Swiss auditoriums, many students interact with few supervisors. Several hundred students per semester may be registered in psychology, media training or law. Anonymity is strong, professors rarely know their students personally. It is therefore difficult to ascertain whether a written work was written by the candidate himself.

The news program "Rundschau" reported in January that Swiss students bought last year 200 seminar papers, bachelor works and master theses from the largest ghostwriting platform of Switzerland: Acad Write. How many students used other suppliers remains an open question.

Simple calculation

It is not illegal per se to provide ghostwriting. For example, the manager of Acad Write insists they only sell a service. Is punishable only the student who submits the ghostwritten work as his own. The reasons advanced for fraud are diverse. Lack of time, overwork or the simple calculation that the whole salary received during the period of writing is higher than the cost of a ghostwriting mandate. A Bachelor's thesis written by a third person is available starting at 3500 francs, depending on the field of study, the subject, the number of pages and the deadline. The order can be made online. There are no limits – the ghostwriter can take over the writing of a Ph. D. thesis.

The researchers from Lausanne now want to prevent fraud. They are convinced that those who write, consciously, but more often unconsciously, have a personal way of writing. These writing patterns are generally invisible to the human eye. Their software application analyzes large amounts of data to reliably identify patterns. The data are read by the program and optimally divided into chunks of 50,000 text characters. The larger the text size of an author is, the more accurate the result will be. (By comparison, a standard novel uses between half a million and a million signs while academic work show up 150,000 characters.)

Immanuel Kant preferred long sentences

The software calculates the relationships between words to get the X and Y values for dots that form a typical cloud for each author. The researchers do not want to betray more because their software application is in test phase and is not yet patented (from the translator: a patent was applied for before the publication of this article).

The inspiration for this analysis application was provided by the physicist Wilhelm Fucks, author of the book "Nach allen Regeln der Kunst". As early as 1969, he dealt with the question of whether authors follow rules for writing, which could be described quantitatively.

For Fucks, texts were organized amounts of individual elements. He compared a syllable with an atom, a word with a molecule. In his analysis of prose texts he pointed out that the German poet Rainer Maria Rilke preferred short words and sentences, while the philosopher Immanuel Kant favored very large sentences in his works. But Fucks' procedure was dismissed in the 60s as arbitrary: according to the judgment of literature experts who did not believe in the quantification of texts, he compared the incomparable.

The "Millenium” trilogy

The researchers from Lausanne now conclude: "Yes, individual writing styles can be quantitatively measured and characterized.” They showed it on the Stieg Larsson novels of the "Millenium” series. The Swedish author himself wrote the first three volumes, "Blindness", "Curse" and "Pardon" (from the translator: German titles translated into English for "The Girl with the Dragon Tattoo,” "The Girl Who Played with Fire,” "The Girl Who Kicked the Hornets' Nest“). Ten books were planned, Larsson died before the publication of his works. Larsson's heirs and his publisher commissioned the writing of the fourth "Millennium” novel "Conspiracy” to writer David Lagercrantz (from the translator: German title translated into English for "The Girl in the Spider's Web"). For this purpose, Lagercrantz used the same characters and the same themes as those of Larsson to develop a sequel to the story in the original style.

However, the software can distinguish the writing style of Larsson and Lagercrantz significantly. To illustrate the results with clarity, Roten and Genilloud also analyzed two other books of Lagercrantz, thus forming six dot clouds (Figure 1). (From the translator : these six clouds form two dot groups, one for Larsson, the other for Lagercrantz.)

Results by software analysis :

One dot of the analysis corresponds to 50,000 characters (Figure 1) or 7,500 characters (Figure 2) of an author. Taking into account various criteria such as the construction of phrases or word combinations, the algorithm calculates two dimensions. More or less typical dot clouds are formed according to the author. The nearer the dots are, the closer the style of their texts is.

The in-house test

We asked for a demonstration performed on some articles of the "Tages-Anzeiger". The two researchers analyzed at least 20 articles of long-term TA journalists Constantin Seibt, Jean-Martin Büttner and David Hesse (Figure 2). The differences were less sharp than between the "Millennium” novels. "The difficulty in the analysis of journalist texts is that the authors have a wider freedom of style and therefore more variability which prevails between authors,” says Roten. Moreover, by their rather short length, newspaper articles are more difficult to analyze than an academic paper or a book. Nevertheless, the analysis software created three dot clouds using the TA items. The software clearly distinguishes the writing style of Constantin Seibt from the other authors. But the average of the dot cloud also shows that the writing styles of authors can be similar.

After years of development and calibration, the two researchers plan to use this algorithm to verify the authenticity of documents. The start-up OrphAnalytics SA was created in 2014 on this idea. Now they want to propose their software to universities in order to provide a solution against academic fraud.

Education should not be for sale

Their motivation here is ethical in nature: education and titles should not be for sale. Students who cheat and pay ghostwriters can climb up the career ladder more quickly than those who work honestly. Furthermore, Roten emphasizes the deterrent effect of these software applications on students.

Even Michael Hengartner, President of Swissuniversities and rector of the University of Zurich, is convinced that it is possible to authenticate a text by textual pattern patterns. Nevertheless, he sees limitations in the academic use of such software: "In order to achieve a high level of security, a large number of texts of student should be available.” This is not the case at the beginning of academic study. Furthermore, "The writing style of a student can change radically between the beginning and the end of academic study, which is part of the academic self-development.”

The ghostwriting issue should continue to preoccupy Swiss universities. The universities of St. Gallen and Bern have filed criminal complaints in connection with ghostwriting.

Original Article

Die Geisterjäger

Stefania Telesca, "Tages Anzeiger", 24.02.2016.

Zwei Lausanner Forscher haben eine Software entwickelt, die Ghostwriting erkennen soll. Aber kann ein Computerprogramm Autoren unterscheiden? Wir haben den Test gemacht.

Wenn Studenten Arbeiten einreichen, dann steckt mitunter weniger Fleiss dahinter, als man vermuten würde. Es gibt Hinweise darauf, dass immer mehr akademische Anwärter betrügen, indem sie ihre Arbeiten von Fremden, sogenannten Ghostwritern, schreiben lassen. Die Universitäten verfügen zwar über Software, die Plagiate erkennen kann. Doch diese Programme sind im Falle einer fremdverfassten Arbeit nutzlos: Sie erkennen lediglich, ob nicht sauber zitiert wurde. Zum Beispiel, wenn ganze Sätze aus fremden Quellen kopiert wurden. Ein Ghostwriter aber erstellt gegen Bezahlung eine perfekt zitierte, wissenschaftliche Arbeit und bleibt so unter dem Radar entlarvender Plagiatscans.

Das könnte sich nun ändern: Die beiden Lausanner Forscher Claude-Alain Roten, ursprünglich Genforscher, und Guy Genilloud, Informatikingenieur, haben einen Algorithmus entwickelt, der bestimmte Muster im Schreibstil eines Autors sucht und ein Profil davon erstellt. Analysiert werden unter anderem die Wortkombinationen und der Satzbau sowie der Textrhythmus und das Tempo innerhalb eines Satzes.

Professoren kennen Studenten nicht persönlich

Bis jetzt war es für Universitäten praktisch unmöglich, Ghostwriting zu erkennen. Oft trifft in Schweizer Hörsälen eine grosse Zahl Studenten auf wenige Betreuer. Etwa bei Psychologie, Medienwissenschaften oder Rechtswissenschaften können es mehrere Hundert Studenten pro Semester sein. Die Anonymität ist gross, nur selten kennt der Dozierende seine Studenten persönlich. Das macht es schwierig, einzuschätzen, ob eine geschriebene Arbeit wirklich selbst verfasst wurde.

Wie die «Rundschau» im Januar berichtete, bestellten sich im vergangenen Jahr 200 Schweizer Studenten eine Seminar-, Bachelor- oder sogar Masterarbeit alleine bei der grössten Ghostwritingagentur der Schweiz, bei Acad Write. Wie viele Studenten darüber hinaus bei anderen Anbietern Arbeiten beziehen, ist offen.

Einfache Rechnung

Das Anbieten von Ghostwriting ist dabei nicht per se illegal. Die Acad Write zum Beispiel beteuert, sie verkaufe nur eine Dienstleistung. Strafbar macht sich einzig der Student, der die Arbeit als die eigene einreicht. Die Gründe, die für den Betrug angegeben werden, sind unterschiedlicher Natur. Zu wenig Zeit, Überforderung oder die einfache Rechnung, dass man mit bezahlter Arbeit in dieser Zeit mehr verdient, als man für den Ghostwriter hinlegen muss. Eine Bachelorarbeit aus fremder Feder gibt es bereits ab 3500 Franken, abhängig von Studienrichtung, Thema, Anzahl Seiten und Abgabetermin. Die Bestellung kann online vorgenommen werden. Es sind keine Grenzen gesetzt – die Ghostwriter übernehmen auch das Schreiben einer Doktorarbeit.

Dem wollen die Lausanner Forscher nun einen Riegel schieben. Sie sind überzeugt, dass sich Schreibende teils bewusst, vor allem aber auch unbewusst an gewisse Schreibmuster halten. Muster, die für das menschliche Auge meist nicht erkennbar sind. Ihre Software braucht denn auch grosse Datenmengen, um die Muster verlässlich zu finden. Idealerweise werden die Datensätze in das Programm eingelesen und in Texttranchen à 50'000 Zeichen aufgeteilt. Je höher die Zeichenmenge eines Autors, desto genauer das Resultat. (Zum Vergleich: Ein klassischer Roman hat zwischen 500'000 und einer Million Zeichen, universitäre Arbeiten haben bis zu 150'000 Zeichen.)

Immanuel Kant bevorzugte lange Sätze

Die Software verrechnet die Wort­beziehungen zu einem X- und einem ­Y-Wert, die im Diagramm für den jeweiligen Autor typische Punktwolken ergeben. Genaueres möchten die Forscher noch nicht verraten, denn ihre Software befindet sich im Prüfstadium und ist noch nicht patentiert.

Die Inspiration für dieses Analyseprogramm lieferte der Physiker Wilhelm Fucks, Autor des Buches «Nach allen Regeln der Kunst». Bereits 1969 beschäftigte er sich mit der Frage, ob Autoren beim Schreiben Regeln folgen und ob man diese quantitativ beschreiben könne.

Für Fucks waren Texte geordnete Mengen an einzelnen Elementen. Eine Silbe verglich er mit einem Atom, ein Wort mit einem Molekül. Bei seiner Analyse von Prosatexten zeigte er auf, dass der deutsche Dichter Rainer Maria Rilke kurze Wörter und kurze Satzlängen bevorzugte, während der Philosoph Immanuel Kant in seinen Werken eine sehr grosse Satzlänge favorisierte. Doch Fucks’ Verfahren wurde in den 60er-Jahren als willkürlich abgetan: Er vergleiche Unvergleichbares, so das Urteil der Literaturexperten, die nichts von der Quantifizierung von Texten hielten.

Die «Millenium»-Trilogie

Die Lausanner Forscher kommen nun aber zum Schluss: «Ja, individuelle Schreibstile lassen sich quantitativ erfassen und beschreiben.» Sie zeigten das etwa an Stieg Larssons Romanen der «Millennium»-Reihe. Die ersten drei Bände, «Verblendung», «Verdammnis» und «Vergebung», schrieb der schwedische Schriftsteller selbst. Geplant waren zehn Bücher, Larsson starb aber, bevor seine Werke publiziert wurden. Larssons Erben und sein Verlag beauftragten den Schriftsteller David Lagercrantz, den vierten «Millennium»-Roman «Verschwörung» zu schreiben. Dafür verwendete Lagercrantz dieselben Charaktere und Themen wie Larsson und entwickelte deren Geschichte im Stil des Originals weiter.

Trotzdem kann die Software den Schreibstil von Larsson und Lagercrantz deutlich unterscheiden. Um das Resultat zu verdeutlichen, analysierten Roten und Genilloud auch zwei weitere Bücher von Lagercrantz, daraus ergeben sich sechs Punktwolken (Grafik 1).

Der hauseigene Test

Wir baten um eine Demonstration an einigen Artikeln des «Tages-Anzeigers». Die beiden Forscher analysierten mindestens je 20 Artikel der langjährigen TA-Journalisten Constantin Seibt, Jean-Martin Büttner und David Hesse (Grafik 2). Die Unterschiede waren dabei weniger deutlich als bei den «Millennium»-Romanen. «Die Schwierigkeit bei der Analyse von journalistischen Texten liegt darin, dass die Autoren eine grössere Stilfreiheit und folglich mehr Variabilität aufweisen», erklärt Roten. Ausserdem seien Zeitungsartikel aufgrund ihrer eher kurzen Länge schwieriger zu analysieren als eine akademische Arbeit oder ein Buch. Trotzdem: Beim Test erstellte die Analysesoftware anhand der TA-Artikel drei Punktewolken. Deutlich unterscheidet das Programm den Schreibstil von Constantin Seibt von dem der anderen Autoren. Doch die Schnittmenge der Punktwolken zeigt auch, dass sich die Schreibstile von Autoren durchaus gleichen können.

Nach jahrelanger Entwicklung und Kalibrierung wollen die zwei Forscher diesen Algorithmus einsetzen, um die Authentizität von Dokumenten zu überprüfen. Aus der Idee entstand 2014 ihr Start-up Orph Analytics SA. Nun möchten sie ihre Software den Universitäten anbieten, um Abhilfe gegen akademischen Betrug zu schaffen.

Bildung soll nicht käuflich sein

Ihre Motivation dabei ist moralischer Natur: Bildung und Titel sollen nicht käuflich sein. Studenten, die betrügen und Ghostwriter bezahlen, könnten die Karriereleiter schneller erklimmen als diejenigen, die ehrlich arbeiten. Ausserdem unterstreicht Roten die abschreckende Wirkung einer solchen Software auf die Studenten.

Auch Michael Hengartner, Präsident von Swissuniversities und Rektor der Universität Zürich, ist überzeugt, dass sich gewisse Muster in Texten identifizieren lassen. Trotzdem sieht er Grenzen in der akademischen Anwendung solcher Software: «Um eine hohe Sicherheit bei den Ergebnissen zu erreichen, müsste man von jedem Studenten eine grosse Anzahl an Texten besitzen.» Dies sei besonders am Anfang des Studiums nicht der Fall. Ausserdem: «Der Schreibstil eines Studenten kann sich vom Anfang bis zum Ende eines Studiums stark verändern, das ist Teil der akademischen Selbstentwicklung.»

Die Problematik des Ghostwritings dürfte die Schweizer Universitäten weiter beschäftigen. Sowohl die Universität St. Gallen als auch die Universität Bern haben im Zusammenhang mit Ghostwriting Strafanzeigen eingereicht.

Previous Post Next Post