Un nouvel outil pour aider les ordinateurs à traduire
Lorsque la traduction automatique [1] commença à pointer le bout du nez, au début des années 1990, d'aucuns ont prétendu (peut-être pour se rassurer) qu'automatisme ou pas, il faudrait toujours des êtres humains pour relire le travail et corriger les bévues tenant au contexte. Le traducteur se transformerait donc tout simplement en réviseur. Mais, les progrès de l'intelligence artificielle sont tels qu'on peut entrevoir la possibilité pour la machine de se corriger elle-même.
Le 18 avril dernier La Tribune de Genève a publié un intéressant article de Mme Caroline Zuercher intitulé : « Un nouvel outil pour aider les ordinateurs à traduire ». Vu l'intérêt de ce thème pour bon nombre de nos lecteurs, nous avons acheté à notre confrère, La Tribune de Genève, le droit de reproduire cet article.
Étant donné le rôle central joué par M. Andreï Popescu-Belis dans le domaine de la « linguistique computationnelle », nous l'avons élu linguiste du mois.
-------
« Entre les langues, ça ne colle jamais!» Le diagnostic est celui d'Andrei Popescu-Belis, chercheur senior à l'Institut de recherche Idiap de Martigny (Suisse).[2] À la tête d'un consortium, cet informaticien a développé de nouvelles techniques pour améliorer les outils de traduction automatique. Il a présenté les résultats de ses travaux lors d'une conférence qui s'est tenue à Valence (Espagne) au début du mois d'avril 2017.
Chacun a son anecdote et nous avons tous déjà lu un mode d'emploi surréaliste passé entre les mains d'un traducteur maladroit. Le problème, détaille Andrei Popescu-Belis, c'est que tous les mots, ou presque, ont plusieurs sens, donc plusieurs traductions. Les pronoms ne sont pas identiques dans toutes les langues… Les Espagnols et les Italiens se permettent même d'en supprimer! Pour compliquer le tout, la concordance des temps varie également. Et ne parlons pas du chinois ou du japonais…
100 milliards de mots
L'enjeu est de taille puisqu'un outil comme Google Translate traite chaque jour quelque 100 milliards de mots. Depuis les années nonante, des progrès ont été effectués en recourant aux statistiques: l'ordinateur apprend la probabilité qu'un mot signifie une chose plutôt qu'une autre, en fonction des mots voisins. La proposition d'Andrei Popescu-Belis a été de ne plus effectuer ce calcul phrase par phrase mais de croiser des informations contenues ailleurs dans le texte. Ainsi, si le terme anglais «rock» est employé, il faut regarder si l'on parle de musique (rock'n roll) ou de géologie (la roche).
Un autre exemple? Les pronoms font en général référence à ce qui est apparu plus tôt dans le texte. Or, le «it» anglais (destiné aux objets et aux animaux) n'existe pas en français: on utilisera «il» ou «elle». Si vous demandez à un ordinateur de traduire «Ma tante a acheté une excellente voiture. Elle n'est pas très jolie», la version anglaise risque fort de remettre en cause la beauté de votre parente. Pour une bonne raison: le système a appris que «joli» est généralement utilisé pour des personnes, contrairement à «rouillé» ou «en panne». Là encore, un coup d'œil dans le rétroviseur pourrait éviter un impair.
Algorithmes publics
L'idée, donc, est de pousser le programme à «comprendre le sens global pour améliorer les choix locaux». Cette question est désormais étudiée dans le monde entier. A Martigny, Genève et Zurich, une vingtaine de personnes ont participé au projet d'Andrei Popescu-Belis, financé par le Fonds national suisse de la recherche. Des linguistes de l'Université de Genève ont notamment cherché à savoir où regarder pour donner la bonne réponse. «Dans les grandes lignes, nous indiquons au système le nombre de phrases précédentes qu'il doit analyser et comment il doit les analyser, puis nous procédons à des tests en conditions réelles», résume l'informaticien.
Avec l'anglais et l'espagnol, ces travaux permettent de supprimer un tiers des erreurs liées aux pronoms et 80% des problèmes de verbes. «Notre outil prend du temps pour effectuer les calculs, précise le chercheur. Il ne permet pas de traiter des milliers de phrases à la minute.» L'utilisation par tout un chacun n'est donc pas encore possible, mais ces algorithmes sont publics. D'autres pourront «les emballer et les rendre plus efficaces». Trois collaborateurs du consortium ont d'ailleurs été débauchés par Google Zurich.
«L'esprit est plein d'ardeur, mais la chair est faible»
Reste à savoir si, un jour, notre ordinateur pourra livrer un résultat parfait. «Nous en sommes très loin, mais ces systèmes permettent déjà de comprendre dans les grandes lignes un article rédigé dans une langue inconnue.» Autre limite: si certaines langues ont été bien étudiées, la plupart restent les parents pauvres de la traduction automatique.
Andrei Popescu-Belis conclut que, dans ce domaine, les chercheurs se sont en général montrés trop optimistes. Durant la guerre froide, les Américains essayaient déjà de décrypter les messages russes. L'histoire raconte qu'ils auraient testé leur système avec la phrase biblique «The spirit is willing but the flesh is weak» («L'esprit est plein d'ardeur, mais la chair est faible»). Un aller-retour vers le russe et le résultat aurait donné: «La vodka est forte, mais la viande est pourrie.» Depuis, de grands progrès ont été réalisés. La Bible, toutefois, reste hors de portée.
Un outil pour faire des recommandations
Le domaine d'activité d'Andrei Popescu-Belis s'appelle «linguistique computationnelle». Hormis la traduction automatique, son équipe aide des sites Internet à proposer des recommandations. Elle a par exemple développé pour TED (un site regroupant de courtes conférences réalisées par des personnalités marquantes) un mécanisme permettant de conseiller aux usagers de nouvelles vidéos.
La subtilité: les suggestions ne sont pas uniquement liées au fait que vous vous êtes déjà intéressé à un thème. Elles prennent en compte les commentaires que vous avez déposés, le logiciel étant capable de déterminer si leur tonalité est positive ou négative. «Quand vous écrivez «nul» ou «exceptionnel», cela ne pose pas de problème, mais si vous employez le terme «pas mal», l'ordinateur doit comprendre que ces mots doivent être traités ensemble», décrit le chercheur. L'analyse permet aussi de savoir sur quels aspects vous êtes positif ou négatif. «Nous avons employé cette méthode pour un site de livres audio. Nous pouvons ainsi préciser si vous avez apprécié l'histoire ou son lecteur.»
Pour Andrei Popescu-Belis, l'inconvénient de tels outils est qu'ils enferment les gens dans des cases et n'élargissent pas leur horizon - que ce soit dans les loisirs ou sur les opinions. Et le risque de manipuler le public? «Nous n'avons jamais développé de projet commercial mais c'est vrai, cela permettrait une publicité ciblée. De toute façon, il faut savoir que ce que nous faisons sur le net n'est jamais privé, mais se reflète en partie dans les recommandations que nous recevons.»
----------------
[1]
[2] L'Institut de Recherche Idiap (anciennement Institut d'intelligence artificielle perceptive), situé à Martigny, (Valais Suisse), est une fondation de recherche autonome, indépendante et à but non lucratif spécialisée dans la gestion d'informations multimédia et dans les interactions homme-machine multimodales. L'institut a été fondé en 1991 par la municipalité de Martigny, l'État du Valais, l'Ecole polytechnique federale de Lausanne, l'Université de Genève et Swisscom. L'institut de Recherche Idiap est agréé par les gouvernements du Valais et de la Confédération Suisse et est associé à l'EPFL par un plan de développement commun (LIDIAP est le laboratoire de l'EPFL de l'Idiap). Il est reconnu internationalement pour ses travaux en reconnaissance de la parole, apprentissage artificiel, vision par ordinateur et interface homme-machine.
Alors qu'il n'employait qu'une trentaine de personnes en 2001, l'Idiap a en 2016 une centaine d'employés, dont 80 chercheurs.
Merci Jonathan pour cet article très intéressant. J'ai bien rigolé en lisant l'exemple de traduction de la phrase biblique de l'anglais vers le russe. Ce n'est pas étonnant que la Bible est encore hors de portée car ceux qui lisent l'hébreu, savent fort bien que les écritures ont un caractère multidimensionnel et une explication élaborée du contexte devrait alors être fournie par le traducteur par exemple lorsque une lettre est ajoutée à un prénom (Sara devient Sarah ou Abram devient Abraham) ou lorsque une lettre est éliminée comme dans le cas de Dinah / Dina. Je n'ai malheureusement pas encore lu une traduction parfaite de la Bible (Torah) et il est en effet peu probable qu'une telle traduction se fasse automatiquement par voie électronique d’ici tôt.
Rédigé par : Sarah | 30/11/2017 à 21:39
A la fondation Bodmer, dans l'exposition actuelle sur "Les routes de la traduction", une traduction automatique du poème d'Egar Allan Poe "Le Corbeau" ("The Raven") est affichée. Curieusement, elle m'a paru assez... poétique. Mais cela ne me dégoûtera pas, j'espère, de la folle entreprise de traduire moi-même des poèmes.
Rédigé par : Elsa Wack | 01/12/2017 à 00:29