Traduction automatique

Un article de Freepedia.

Image:Symbole-ordinateur.png Cet article est une ébauche à compléter concernant l'informatique, vous pouvez partager vos connaissances en le modifiant.

La traduction automatique désigne au sens strict le fait de traduire entièrement un texte grâce à un ou plusieurs programmes informatiques, sans qu'un traducteur humain n'ait à intervenir. La traduction automatique est encore très imparfaite, et la génération de traductions d'une qualité comparable à celle de traducteurs humains relève encore de l'utopie. On englobe parfois également sous ce terme la traduction assistée par ordinateur où la traduction peut se faire en partie manuellement ou de façon interactive avec la machine.

La traduction (entièrement) automatique, malgré ses faiblesses, peut rendre des services dans des domaines précis, comme par exemple celui de la veille technologique, où elle permet de prendre connaissance très rapidement et de façon superficielle de grandes quantités de textes. Depuis quelques années, elle connaît également un essor considérable sur le Web, puisque divers systèmes en ligne permettent de traduire automatiquement pages Web et textes brefs : à l'heure actuelle, cette technologie est appréciée du grand public car elle permet de déchiffrer de façon grossière le thème d'une page Web dans une langue totalement inconnue, et des principaux faits ou éléments d'information qu'elle contient. Pour simplifier la navigation, plusieurs moteurs de recherche comme Google, Altavista ou Yahoo! (ce dernier effectue en outre, pour l'instant uniquement sur son site allemand, la traduction des requêtes [1]).


Sommaire

Prérequis

La traduction automatique nécessite :

Difficultés

  • Ambiguités lexicales : polysémie. Dans Le défi des Langues, Claude Piron raconte que le 4 mai 1991 il avait demandé à une machine de traduire: In such a case, you can make a very good case for wooden cases, c'est-à-dire: «En pareil cas, on peut produire une argumentation très convaincante en faveur des caisses en bois», phrase qu'il avait déjà lue et simplement condensée. Au bout d'un instant vint la réponse: «Dans un tel cas vous pouvez faire un très bon cas pour des cas inexpressifs». Il ne semble pas qu'on fasse mieux à l'heure actuelle.
  • Ambiguités grammaticales : un même mot peut relever de deux catégories grammaticales différentes. Toujours dans Le Défi des Langues l'auteur proposait à une machine, mise en mode interactif, He was sorting out food rations and chewing gum, phrase qui peut signifier soit «il triait des rations et du chewing gum», soit «il triait des rations tout en mâchant du chewing-gum». Au lieu de poser une question sur la valeur grammaticale du -ing dans chewing, au lieu d'«interagir», la machine livra la phrase suivante: « Il triait dehors rations de nourriture et mastiquant la gencive.» On aurait aujourd’hui moins ridicule mais guère plus juste.
  • Ambiguités sémantiques : selon le contexte, la traduction peut être différente. De même, les jeux de mots sont très difficiles à traduire (la poésie, ...). Il suffit de penser à la phrase: «They saw a tree» qui peut aussi bien signifier: «Ils ont vu un arbre» que «Ils scient un arbre». Dans le contexte personne ne s'y trompera, mais la machine n'en est pas à ce point.

Ajoutons que la machine elle-même est incapable de fournir une réponse là où le traducteur humain lui-même doit réfléchir ou se renseigner ; « his secretary » deviendra en français « son secrétaire » ou « sa secrétaire », suivant le sexe de l’employé(e), tandis que « son secrétaire » sera rendu en anglais par « his secretary » ou « her secretary » suivant le sexe de l’employeur(se). Pour que le programme soit capable de fournir une traduction correcte, il faut:

  • qu'il dispose, en plus de connaissances linguistiques, de connaissances factuelles sur l'état du monde (par exemple, il doit savoir que telle personne est de sexe féminin);
  • qu'il soit capable de réaliser une certaine interprétation du texte qui lui est soumis: s'il rencontre le mot « secrétaire », il a besoin de savoir, selon la langue-cible, le sexe de ce/cette secrétaire ou de son employeur. Il est facile de résoudre cette difficulté dans le cas d'une phrase simple comme « John Doe's secretary »: une règle simple permet d'exprimer le fait que l'expression « X's Y » implique que Y appartient à X. Mais si le programme rencontre la phrase « je suis allé au service de la comptabilité et j'ai parlé au secrétaire », il est plus difficile pour la machine de faire la relation entre les secrétaires et le service qui vient d'être mentionné; la tâche est encore plus ardue dans une contexte comme « j'ai vu M. Tartempion, qui m'a donné un document, je suis allé au service de la comptabilité pour qu'ils en fassent une photocopie, et je suis revenu le donner à la secrétaire »: ici, on ne peut même pas s'appuyer sur la proximité entre le mot « secrétaire » et le nom du service, puisqu'il est en fait question de la secrétaire de Tartempion, mentionné bien avant dans la phrase.


Quand on passe d'une langue germanique à une langue latine, on se rend compte de la difficulté que pose l'imparfait, temps qui marque en français la durée et l'inachèvement. Non que cette notion soit absente dans l'esprit des Germains, mais ils l'expriment d'une autre façon. Ainsi une phrase comme:

  • A kingdom of Dacia was in existence at least as early as the beginning of the 2nd century BC.

sera rendue par:

  • Un royaume de Dacia était en existence au moins dès le début du 2ème siècle avant J.C.

alors qu'il suffirait de dire:

  • Un royaume de Dacie existait au moins dès le début du 2ème siècle avant J.C.

Un traducteur préférerait peut-être: «Dès le début du 2ème siècle avant J.C, au moins, il existait un royaume de Dacie», mais nous n'en sommes pas là.


Une dernière difficulté qui n'est pas à négliger mais sur laquelle peu de gens insistent: les erreurs d'écriture qui empêchent les logiciels de faire leur travail. Et il ne faut pas seulement penser aux fautes d'orthographe: les fautes de langue, même courantes, compliquent singulièrement la tâche. Prenons l'exemple de:

Nous avons résolu le problème

N'importe quel logiciel vous donnera tout de suite:

We solved the problem

Mais on rencontre souvent des mots mal orthographiés, comme dans:

On à résolut le problème

en combinant fautes d'orthographe et emploi populaire de «on» pour «nous». Cela donnera quelque chose dans le goût de:

One with solved the problem

Il est permis de se demander jusqu'à quel point un pur anglophone pourra saisir. Quand on constate le niveau orthographique de certains articles sur Internet, on voit mal des étrangers se fier à un traducteur automatique pour essayer de savoir au moins de quoi on parle; et s'ils veulent faire un tour dans les forums, le problème sera pire encore.

Situation actuelle

Google, que nous nous permettons de citer, donne cet avertissement honnête [2]:

«Force est de reconnaître que les logiciels les plus évolués du marché sont bien loin d'égaler la maîtrise linguistique d'une locutrice native ou les compétences d'un traducteur professionnel. La traduction automatique reste une technologie très complexe et difficile à implémenter, dans la mesure où le sens d'un mot peut varier en fonction du contexte dans lequel il est utilisé (littéraire? scientifique? religieux?), du niveau de langage pratiqué (spécialiste? débutant?), des interactions rédacteur-lecteur (style pompeux? accessible?) et de nombreuses références socioculturelles. Pour toutes ces raisons, une traduction précise (ou au moins correcte et compréhensible) exige que l'entité intervenante -- personne ou logiciel – maîtrise le contexte, la structure et les règles de la paire de langues considérée. Les ingénieurs et les linguistes se penchent sur ce problème depuis plusieurs dizaines d'années, mais il faudra sans doute plusieurs lustres (et quelques lumières...) avant qu'il soit possible de disposer d'un système automatique de traduction dont les résultats sont comparables à ce que produit un cerveau humain spécialisé dans le domaine.»

Pour avoir une idée de la situation actuelle, nous pouvons présenter deux textes, l'un néerlandais l'autre allemand, que nous soumettons à la traduction d'un logiciel apprécié.

Le premier concerne Strasbourg et a été pris dans l'article néerlandais de Wikipedia:

Na de Eerste Wereldoorlog moet Duitsland de stad door de Vrede van Versailles in 1919 weer aan Frankrijk afstaan. Overeenkomstig de 14 voorstellen van de Amerikaanse president Wilson vindt er in Elzas-Lotharingen geen referendum plaats. De stad is op dat moment nog overwegend Duitstalig, en er zijn ook Elzassische soldaten die in de oorlog loyaal aan Duitsland waren.

On nous propose:

Après la première guerre mondiale, l'Allemagne doit céder la ville par la paix de Versailles en 1919 à la France. Conformément aux 14 propositions du président Wilson, américain dans, Elzas-Lotharingen n'a pas lieu de réferendum. La ville est à ce moment encore essentiellement germanophone, et il y a il y a les soldats aussi alsaciens qui a été fidèlement dans la guerre à l'Allemagne.

La langue est un peu étrange, mais toute personne connaissant un peu la question n'aura aucune peine à procéder au toilettage nécessaire qui donnera:

En 1919, après la première guerre mondiale, le Traité de Versailles oblige l'Allemagne à céder la ville à la France. Conformément aux 14 propositions du président américain Wilson, aucun plébiscite n'a lieu en Alsace-Lorraine. [Pourtant] la ville est à ce moment encore majoritairement germanophone, et par ailleurs des soldats alsaciens ont servi fidèlement l'Allemagne pendant la guerre.

Seulement, si nous prenons le début de l'article Prusse sur le Wikipedia allemand et que nous le passions au même logiciel, le résultat est plus surprenant:

Preußen (lat.: Borussia, Prussia oder Prutenia; poln. Prusy; russ.: Prussija) war ursprünglich das Gebiet des baltischen Volksstamms der Pruzzen, später eines der Länder des Deutschen Ordens und seit dem 16. Jahrhundert ein Herzogtum der Hohenzollern unter polnisch-litauischer Lehenshoheit, das seit 1618 in Personalunion mit der Mark Brandenburg verbunden war.

devient en effet:

La Prusse (lat.: Borussia, Prussia ou Prutenia; poln. Prusy; suie: Le Prussija) était à l'origine le secteur de la course balte des Pruzzen, plus tard un des pays du ordens allemand et depuis lesquelles 16. Siècle un duché des Hohenzollern sous des Lehenshoheit polnisch-litauischer qui a été lié depuis 1618 dans une union personnelle au mark au Brandebourg.

Quiconque a une teinture d'allemand préférera jeter un coup d'oeil sur le texte original plutôt que de remettre en ordre le charabia proposé, mais il sera nécessaire de connaître un peu l'histoire pour obtenir:

À l'origine la Prusse (latin: Borussia, Prussia ou Prutenia; polonais: Prusy; russe: Prussija) était un territoire habité par une population balte: les Vieux-Prussiens. Par la suite elle devint une des possessions des Chevaliers Teutoniques; au XVIème siècle elle forma un duché vassal de l'État polono-lituanien et appartenant aux Hohenzollern, avant d'être liée en 1618 à la Marche de Brandebourg par une union personnelle.

Architectures


Logiciels libres

Traducteurs en ligne

Logiciels libres

Logiciels commerciaux

  • METAL: logiciel de traduction automatique racheté par Siemens.
  • SYSTRAN : traduction automatique.
  • PROMT : logiciel de traduction automatique créé en Russie

Autres

  • projet MU

Voir aussi

Liens externes



Views
Outils personels
Boîte à outils
Autres langues
Autres Liens