VIII-IX L’HEBDO DE LA RECHERCHE, L’HEBDO 3 MAI 2007 

La génomique se mêle d’analyse de textesGénomics on text analysis

John Jay Premier ministre de la Justice américaine - 1st US minister of Justice - 1745-1829
Alexander Hamilton Premier ministre de l’Economie américaine - 1st US minister of the Economy - 1755-1804
James Madison 4e présidents des Etats-Unis - 4th US President - 1751-1836

Des chercheurs de l’UNIL ont scruté des documents écrits, comme la Bible et la Constitution américaine, avec des techniques qu’ils utilisent habituellement pour décrypter le patrimoine génétique de bactérie. Fascinant.
Researchers of Lausanne University (UNIL) have scrutinized written documents, such as the Bible and the US Constitution, with techniques they usually use to decipher the genetic information of bacteria. Fascinating.

«J'ai soumis à la question quelques textes fondateurs de la civilisation occidentale.» L'auteur de ces mots n'est ni un linguiste, ni un historien, ni un exégète mais un... microbiologiste! Un scientifique peu orthodoxe, il est vrai, puisqu'il n'hésite pas à s'écarter des sentiers battus. Jugez plutôt : Claude-Alain Roten, chercheur au département de microbiologie fondamentale de l'Université de Lausanne (UNIL), a utilisé la génomique pour analyser la Constitution américaine, la Bible ou l'Iliade et l'Odyssée.
"I have submitted to the question some founding texts of Western civilization." The author of these words is neither a linguist, nor a historian, nor an exegete but a ... microbiologist! An unorthodox scientist since he does not hesitate to get off the beaten track: Claude-Alain Roten, a researcher in the Department of Fundamental Microbiology at LausanneUniversity  (UNIL), used genomics to analyse the US Constitution, the Bible or the Iliad and the Odyssey.

L'idée n'est pas si iconoclaste qu'il y paraît. L’ADN est en effet un long texte, écrit à l'aide d'un alphabet de quatre caractères – les fameuses «bases» A. T. G. C. Et c'est d'ailleurs l'étude du patrimoine génétique d'une bactérie qui a mis la puce à l'oreille du chercheur. En analysant la fréquence des paires de lettres T et A dans le génome du micro-organisme, le biologiste a mis en évidence la présence d'irrégularités qui sont en fait la signature d'un virus qui y avait inséré son propre ADN.
The idea is not as iconoclastic as it seems. DNA is indeed a long text, written with a four-character alphabet – the famous "bases" A.T.G.C. and its study of the genetic information was of particular interest to the researcher. By analyzing the frequency of pairs of letters T and A in the genome of the microorganism, the biologist highlighted the presence of irregularities that are actually the signature of a virus that had inserted its own DNA.

Puisqu'il s'agit d'une simple histoire d'alphabet, Claude-Alain Roten et ses collègues ont entrepris d'appliquer une stratégie tout à fait analogue aux textes écrits. Pour les scruter, ils ont eu recours à une méthode statistique empruntée aux mathématiques dite «naïves» – qui «n'est pas si naïve que cela mais qui implique que l'on travaille avec le moins d'à priori possible». Il n'est en effet pas question de chercher à comprendre le sens des phrases, ni même de s'attarder sur le vocabulaire. En se focalisant uniquement sur la fréquence de paires de lettres, «c'est en fait la grammaire et la syntaxe que l'on met en évidence». Chacun ayant la sienne, il devient possible de repérer les ajouts.
Since this is a simple alphabet question, Claude-Alain Roten and his colleagues designed a strategy quite similar to written texts. To scrutinize them, they used a statistical method borrowed from so-called "naive" mathematics – which "is not so naive, but which implies to design the analysis with as little of a priori as possible". The goal is not to understand the meaning of the sentences, or even to work on the vocabulary. Focusing only on the frequency of letter pairs, "it is actually the grammar and syntax that are highlighted." Since each writer is using his own, it becomes possible to identify text insertions.

DE LA BIBLE A LA CONSTITUTION AMÉRICAINE
FROM THE BIBLE TO THE AMERICAN CONSTITUTION

Joignant la biologie à l’informatique, l'équipe lausannoise s'est ainsi lancée dans l'étude de l'Ancien Testament. «Nous avons repéré que certains passages divergent visiblement de la majeure partie du texte», trahissant – comme dans le cas du virus parasitant la bactérie – un apport étranger. Comment l'expliquer? Sur ce point, le microbiologiste ne se prononce pas, laissant aux théologiens le soin de tirer leurs propres conclusions.
Combining biology with computer science, the Lausanne team has thus embarked on the study of the Old Testament. "We have noticed that some passages visibly diverge from most of the text", betraying – as in the case of the virus parasitizing the bacteria – a foreign contribution. How to explain it? On this point, the microbiologist does not pronounce, leaving to the theologians to draw their own conclusions.

Affinant sa méthode avec le physicien Léonard Studer, Claude-Alain Roten s'est ensuite attaqué à un texte qui a longtemps défrayé la chronique. Il a examiné The Federalist, un ensemble de 85 articles qui ont expliqué la Constitution américaine, au XVIIIe siècle. On savait que trois hommes politiques ayant joué un rôle important dans l'histoire du pays les avaient écrits – Alexander Hamilton, James Madison et John Jay – sans pour autant les signer. Or, quelques années plus tard, juste avant de mourir dans un duel, le premier s'est attribué la paternité de certains de ces articles que le deuxième a ensuite revendiqués comme étant les siens. De quoi plonger les historiens dans la plus grande confusion. Il a finalement fallu attendre l'intervention de statisticiens, dans les années 60, pour que le doute soit levé et que les dires de Madison soient confirmés.
Refining his method with the physicist Leonard Studer, Claude-Alain Roten then explored a text that stayed as an open question. He reviewed The Federalist, a set of 85 articles that explained the US Constitution, in the eighteenth century. It was known that three politicians who played an important role in the history of the country had written them – Alexander Hamilton, James Madison and John Jay – without signing them. However, a few years later, just before dying in a duel, the former attributed the paternity of some of these items that the second later claimed to be his own. Enough to leave historians in the greatest confusion. It was not until the intervention of statisticians in the 1960s that the doubt was lifted and the words of Madison were confirmed.

«THE FEDERALIST» Ce recueil de 85 articles expliquant la Constitution américaine date de 1788.
"THE FEDERALIST" This collection of 85 articles explaining the US Constitution dates from 1788.

Cette saga a tant passionné Claude-Alain Roten qu'il a décidé de s'y plonger à son tour, génomique à l'appui. Comparant les douze articles controversés aux autres dont l'auteur était connu, il est arrivé à la conclusion qu'ils portaient bien la signature de Madison. «Le but du jeu n'était pas de découvrir quelque chose de nouveau, mais de tester la validité de notre méthode», souligne le chercheur lausannois.
This saga was so fascinating for Claude-Alain Roten that he decided to handle it with a genomic approach. Comparing the twelve controversial articles to the others whose author was known, he came to the conclusion that they bore the signature of Madison. "The goal of this experiment was not to discover something new, but to challenge the validity of our method," says the researcher from Lausanne.

Maintenant que c'est chose faite, Claude-Alain Roten s'est lancé dans des aventures plus littéraires. Avec un de ses collègues professeur de grec, il a entrepris de scruter l'Iliade et l'Odyssée afin de savoir si, sous la plume d'Homère, se cache un ou plusieurs écrivains.
Now that it's done, Claude-Alain Roten has embarked on more literary adventures. With one of his colleague teaching Greek at Lausanne University, he undertook to scrutinize the Iliad and the Odyssey in order to know if the pen of Homer hides one or more writers.

MESSAGES ÉLECTRONIQUESELECTRONIC MESSAGES
Le microbiologiste a aussi en tête des projets plus terre à terre. Il compte notamment s'intéresser aux messages électroniques – qui restent impénétrables aux analyses graphologiques – histoire de confondre leur auteur dans les cas délictueux. Une aubaine pour la police scientifique. La méthode ne manque d'ailleurs pas d'avenir. Elle pourrait servir à l'analyse de testaments – pour y détecter d'éventuels ajouts – et à la mise en évidence de plagiats de textes littéraires. Ou encore être mise à profit pour repérer l'intervention d'un nègre (ghostwriter) dans les Mémoires signés par des célébrités. De croustillantes révélations en perspective!
The microbiologist also has more down-to-earth projects in mind. He is particularly interested in electronic messages – which remain impenetrable to graphological analysis – to confuse their author in criminal cases. A boon for forensics. The method does not lack a future. It could be used for the analysis of wills – to detect possible additions – and the plagiarism detection within literary texts. Or be used to identify the intervention of a ghostwriter in memoirs signed by celebrities. Titillating revelations in perspective!

Les bactéries ne sont toutefois pas oubliées pour autant, puisque ces études sur les textes «ont déjà eu des retombées en génomique», souligne Claude-Alain Roten. Juste retour des choses. EG
However, the bacteria are not forgotten, since these studies on the texts "have already had repercussions in genomics," says Claude-Alain Roten. Just a rightful giving-back. EG