Publications dans Curating
La "débabélisation" d’Internet : pas si utopique que ça?


Marten van Valckenborch. credit photo: flickr.com/photos/imagem-mundo

En réaction à mon billet d’avant hier à propos du déclin du sentiment d’appartenance national  Thomas  Jestin, nouveau venu sur mikiane.com et auteur de http://appeldu18janvier2008.wordpress.com, a évoqué  une émission enregistrée par Public Sénat au cours de laquelle Jacques Attali parle d’un système qui pourrait devenir la nouvelle grande révolution d’Internet : je veux parler de la traduction automatique instantanée de textes…

Aujourd’hui « les Internet » français, anglais, espagnols, portugais, chinois, indiens, japonais, coréens…. sont globalement techniquement connectés  (la Chine l’est de plus en plus…). La dernière frontière entre internautes reste celle de la langue. Il est rare de trouver des français sur les réseaux sociaux coréens… Mais imaginez qu’un système permette des traductions instantanées de grande qualité, la barrière de la langue pourrait sauter et le village planétaire voire réellement le jour.

Qu’est ce qui limite aujourd’hui cette révolution ? Les moyens techniques : les services comme Google Translation, Reverso,  Traduction Voilà, Systran que nous connaissons ne sont pas de bonne qualité et ne peuvent pas prétendre, dans l’état, à rendre un service de traduction efficace à l’echelle de l’ensemble d’Internet.

Les problèmes principaux rencontrés dans les algoritmes de traduction de textes sont dûs à la complexité du contexte sémantique d’expression des interlocuteurs et à la taille des corpus de mots et de syntaxes connus par le système. Afin d’améliorer les traductions il est encore nécessaire de faire intervenir le cerveau humain. Mais on ne peut pas imaginer installer un traducteur-correcteur entre chaque interlocuteur… En revanche il est possible d’utiliser ces mêmes interlocuteurs pour réaliser les corrections. Prenons l’exemple d’une conversation via une page de commentaire sur un blog. Un chinois souhaite lire mikiane.com qui est écrit en français (c’est un exemple peu probable je vous l’accorde… :-)). Pour que la traduction soit compréhensible en cantonais, il faut lors de l’écriture du billet, prendre en compte les contraintes du système de traduction. Un logiciel qui s’installerait sur le traitement de texte pourrait indiquer au fur et à mesure de l'écriture de l'article le niveau de compréhension de celui ci par le traducteur automatique. En somme vous écrivez un mot inconnu ou utlisez une tournure de phrase ambigüe, le système le detecte et vous l’affiche. Il vous pose des questions et vous aide à lui parler « dans sa langue ». Simultanément, un système expert apprend "votre langue" au traducteur automatique en constituant un corpus de mot et d’expressions personnels. Le lecteur chinois pourrait à son tour utiliser le même système lorsqu’il souhaite poster un commentaire : une machine semi-automatique de traduction universelle et le début de la fin des frontières linguistiques sur le net.

Mais il y a une faille dans l'exposé. Quand j’évoque un système expert qui permettrait d’enrichir les corpus de mot et d’expressions afin d’intégrer les variations de la langue des interlocuteurs, il manque un élément dans la chaine. Qui apprend à la machine à traduire les corpus de mots et les expressions personnels? C’est là qu’intervient le réseau : un Wikipedia de la traduction! Des centaines de mots, d’expressions, de textes, livrés aux contributeurs internautes polyglotes prêts à donner de leur temps pour enrichir la machine. La puissance de la participation au profit de la "débabélisation" de l’internet….

Pour info Microsoft a déjà déposé en 2007 un brevet pour un système de traduction automatique pour messagerie intantanée.

Lire la suite