dimarts, 23 de juliol del 2013

Els sistemes de traducció automàtica: 8 errors habituals

Els sistemes de TA són àmpliament usats hui dia per empreses, institucions o individus, tant a nivell personal com professional. És ben sabut que aquestes eines, tot i que impliquen un avantatge clar en relació amb el temps de traducció, suposen una font d'errors que van des d'aspectes sintàctics bastants subtils fins als errors més grollers que poden fer perdre la credibilitat de qualsevol. Hui, analitzem els errors més habituals.

Machine translation

Coneixem per traducció automàtica (TA) el sistema de traducció segons el qual obtenim un text meta (TM) a partir d'un text d'origen (TO) sense que hi haja cap intervenció humana. La majoria d'aquests sistemes solen funcionar amb el que s'anomena traducció directa amb coneixement lingüístic, és a dir: el sistema estableix equivalències directes entre paraules a partir del diccionari bilingüe que tinga instal·lat i reconeix algunes regles gramaticals bàsiques. Aquestes eines ofereixen uns resultats més bons com més pròximes són les llengües de traducció des del punt de vista sintàctic.

L’edició de textos traduïts automàticament


Potser hi ha gent que desconeix que els textos traduïts automàticament han de ser editats —és a dir, revisats tant en el fons com en la forma— si no volem córrer el risc de quedar en evidència. En aquest sentit, es poden fer dos tipus d'edicions: la preedició, que es du a terme sobre el text original, abans de traduir-lo, per tal minimitzar els errors provocats pel sistema de traducció; i la postedició, que té la funció de corregir les errades que s'han produït sobre el text ja traduït.

La preedició es justifica pel fet que els traductors automàtics solen cometre una sèrie d'errors recurrents, els quals es poden predir i, en alguns casos, evitar modificant el text d'origen. Tant és així que moltes empreses que treballen amb traductors automàtics elaboren llibres d'estil amb pautes de redacció rigoroses per a reduir errors i accelerar el procés al màxim. Una vegada que el sistema ha acabat la traducció, comença el procés de postedició, en la qual haurem d'esmenar tots els errors que queden en el text. En aquesta segona fase és molt recomanable consultar sovint l'original per a resoldre qualsevol dubte que puga sorgir sobre el contingut.

A l'hora d'editar un text traduït automàticament, és fonamental saber com funcionen aquests sistemes i quins són els errors que solen cometre, ja que això ens ajudarà a reconéixer-los més fàcilment. En la classificació que trobareu tot seguit, els errors apareixen ordenats en huit grans grups, cada un amb les observacions que m'ha semblat pertinent incloure-hi. Per a fer-ho, m'he basat en la meua experiència, que se centra en les llengües ES > CA. Ací ho teniu.

1. Errades d’ortografia de l'original 


Comencem pel més evident. Sempre s'han d'evitar les faltes d'ortografia, però quan un TA es troba una errada molt sovint l'error de l'original apareixerà augmentat en el text meta. En aquest sentit, ens podem trobar amb dues situacions: 
  • Que l'error remeta a una paraula existent en la llengua d'origen, però amb significat diferent, amb la qual cosa es produirà una confusió de paraules. Per exemple, un articulo 25, sense accent, esdevindrà articule 25, i no article. També pot passar que el sistema reinterprete l'error a partir dels seus propis criteris: el Salt, per exemple, tradueix incluídos, amb accent erroni, per vaig inclouredos [sic], com si l'error fóra que hi falta un espai (incluí dos) i no l'accent.
  • Que l'error done com a resultat una paraula que el sistema no reconeix. En aquest cas, el traductor mantindrà la paraula tal com apareixia en l'original, cosa que farà evident la tasca del traductor automàtic i la falta d'atenció del responsable del text. En tot cas, el que està assegurat és l'efecte negatiu que es produirà en el lector si ens passa per alt un error d'aquest tipus.
Sempre que siga possible, doncs, convé fer una llegida atenta al text o, si anem amb pressa, aplicar-li el corrector automàtic abans de passar-lo pel traductor per a esmenar les errades més grosses.

2. Problemes amb la polisèmia i l'homonímia


La polisèmia i l'homonímia són una font molt habitual d'errors ja que normalment impliquen diverses possibilitats de traducció. Els éssers humans recorrem al context i al sentit comú per a resoldre aquestes ambigüitats, però les màquines no ofereixen aquest recurs. El més semblant és el coneixement estadístic que incorporen algunes eines, tot i que les probabilitats que s'hi produïsca una errada continuen sent molt altes. 

Un cas d'homonímia freqüent són les formes verbals. Per exemple, fueron es pot traduir per van ser o van anar, segons el context, però un TA no sabrà distingir quina és la forma correcta en cada cas. En alguns casos, podrem evitar el problema canviant l'estructura de l'oració en la preedició: així, si en lloc de, per exemple, Fueron engañados vilmente optem per Les engañaron vilmente, evitarem qualsevol risc de confusió del sistema. Malgrat tot, la polisèmia i l'homonímia són molt freqüents i molt sovint no tindrem més remei que esmenar els errors en la postedició, ja que, altrament, podríem fer afirmacions com aquesta: «Hi ha tres grans religions: la cristiana, la musulmana i la bajoqueta» (exemple real, extret d'una redacció d'un alumne de secundària).

3. Paraules i expressions amb sentit figurat 


Els refranys, les frases fetes, els jocs de paraules i els dobles sentits són estructures lingüístiques que suposen grans dificultats de traducció ja que exigeixen uns coneixements enciclopèdics molt elevats en les llengües de traducció i que, en molts casos, no es podran resoldre sense recórrer a bibliografia especialitzada. Les eines de TA tradueixen literalment aquestes estructures, actuació que poques vegades serà l'encertada en la llengua meta. Per això, si sabem que un text ha de ser traduït automàticament convé que evitem i eliminem aquestes construccions en la preedició —sempre que siga possible— o que estiguem ben atents en la postedició per a identificar-les i oferir una alternativa apropiada.

4. Errors de concordança


Un error habitual dels sistemes de TA es dóna en oracions que contenen paraules que tenen un gènere o un nombre diferents en les llengües de traducció. Per exemple, en l'oració Este postre nuevo es delicioso, el sistema de TA traduirà este postre per aquestes postres sense problema, però la traducció de la resta d'elements que hi concorden presenta més dificultats. Vegeu els resultats que ofereixen diversos sistemes de TA:

Traductor de Google


Apèrtium

Salt 4.0 en línia
Com es pot observar, els resultats varien en els diferents sistemes de TA, però cap eina ha fet una traducció correcta. En general, es pot comprovar que com més separats estan els elements que tenen un gènere i un nombre diferent en les dues llengües més errors de traducció s'hi poden produir.

5. Calcs sintàctics


El risc de fer traduccions excessivament literals sol donar-se en alguns traductors humans, bé perquè són inexperts, bé perquè van molt atabalats i no disposen de temps suficient per a reflexionar-hi. En el cas dels traductors automàtics, la traducció literal no és un risc, sinó la norma: el pas d'una llengua a l'altra es fa paraula per paraula o, en el millor dels casos, considerant sintagmes petits, de manera que l'ordenació de les paraules del TO es manté quasi sense alteracions. Convé recordar que la sintaxi és un dels aspectes més genuïns d'una llengua i, alhora, un dels que passa més desapercebut, per la qual cosa cal evitar sempre les construccions copiades de la llengua d'origen que no sonen naturals en la llengua meta.

Alguns calcs molt freqüents en les traduccions ES > CA són els següents:
  • Adjectiu anteposat al substantiu. Es tracta d'un recurs estilístic cada vegada més habitual en castellà, que en català té un ús molt més restringit. Si no estem convençuts no ho dubtem: l'adjectiu, millor darrere.
  • Ús abusiu del possessiu. Com en el cas anterior, es tracta d'un recurs estilístic molt més freqüent en castellà que no en català, que a vegades pot portar a oracions redundants com «Messi se lesionó en su tobillo izquierdo». Si l'oració manté el mateix significat sense el possessiu, convé eliminar-lo o buscar construccions alternatives, que n'hi ha moltes.
  • Preposicions. A tall d'exemple, en la traducció ES > CA podríem citar els casos de la preposició a davant de complement directe, les preposicions a i en en les expressions de lloc i de temps, la preposició amb davant dels mitjans de transport, entre d'altres. 
La llista de problemes sintàctics donaria per a fer una entrada sencera, però aquests tres casos m'han semblat suficientment il·lustratius. Recordeu que en un bon text l'expressió s'ha de percebre com a natural, genuïna i poc forçada, cosa que no aconseguirem si imitem les construccions de la llengua d'origen.

6. Errors lèxics


A banda dels casos de polisèmia i homonímia, que ja hem comentat, els errors lèxics en les traduccions automàtiques es produeixen bàsicament quan una paraula del TO no està inclosa en el diccionari bilingüe de l'eina de traducció. Aquesta situació sol donar-se en dos casos: 1) quan apareix terminologia excessivament tècnica o de creació recent; o 2) quan hi ha lèxic molt restringit, ja siga per qüestions dialectals o de registre.

En els dos casos, el resultat serà el mateix: la paraula o l'expressió de la llengua d'origen quedaran sense traduir en el text meta. Les solucions a aquests problemes, en canvi, sí que seran diferents: en el primer cas, caldrà recórrer a diccionaris terminològics especialitzats, preferiblement en línia ja que és més probable que estiguen actualitzats (el Termcat seria el recurs per excel·lència); en el segon, caldrà buscar en diccionaris descriptius o diccionaris d'ús, ja siga en la llengua d'origen o en la llengua meta, segons els casos.

7. Repeticions


Un problema poc evident dels sistemes de TA és que apareguen repeticions que no estaven en l'original. Sol passar que dues paraules diferents en la llengua d'origen tenen assignades la mateixa traducció com a primera opció. Per exemple: el castellà sol emprar indistintament diversos i varios, els quals en català solen reduir-se a diversos. Encara que es tracta d'un problema difícil de preveure i de detectar en el text traduït, és convenient evitar aquestes redundàncies, ja siga modificant la paraula repetida o canviant l'estructura de l'oració recorrent a pronoms, ometent la paraula quan siga possible o buscant altres alternatives sintàctiques.

8. Noms propis


L'onomàstica és un altre dels aspectes problemàtics dels sistemes de TA. Com a norma general els noms propis no s'han de traduir, si bé hi ha excepcions notables, com ara topònims que tenen formes tradicionals i vives en la llengua pròpia, o determinats personatges històrics que s'han traduït tradicionalment. Amb tot, traduir l'onomàstica de manera incorrecta pot donar resultats inapropiats en el millor dels casos i més d'una vegada pot portar al ridícul.

Cada tipus de nom propi té les seues especificitats. Alguns topònims, per exemple, poden estar formats per noms comuns que el sistema de TA no reconeixerà com a nom propi, tot i la majúscula. Així, Baños del Agua Hedionda (Jaén) esdevindrà Banys de l'Aigua Pudenta* (més topònims curiosos, ací). Els antropònims, per la seua banda, també són problemàtics quan adopten la mateixa forma que els noms comuns: un cas com Rocío Campos Cabezas canviarà a Rosada Camps Caps. Finalment, els noms d'empreses, que sempre són invariables, ens han regalat alguns casos sonats que han aparegut fins i tot als mitjans de comunicació, com el cas de la Coca-cua (Coca-cola) i La Casolana (La Casera) que beuen per la Universitat d'Alacant.

La conclusió és clara: quan tingueu el més mínim dubte sobre com ha traduït un nom propi l'eina de traducció, consulteu l'original.

Conclusions


De tots els errors que he anat enumerant es poden extraure aquestes conclusions:
  1. Els sistemes de traducció automàtica, lluny de ser unes eines infal·libles, necessiten una revisió, de manera que la intel·ligència humana puga corregir els buits de la intel·ligència artificial, que en el camp del llenguatge són molts.
  2. Els problemes més freqüents són els sintàctics i els lèxics: com més allunyades estiguen les llengües de traducció sintàcticament i com més interpretacions tinguen les paraules d'un text (polisèmia, homonímia, jocs de paraules, sentit figurat, sentit simbòlic, connotacions, fraseologia...), més errors hi haurà en la traducció automàtica.
  3. Els TA no ofereixen els mateixos resultats en tots els tipus de text. Així, els textos que busquen la claredat, la precisió i l'objectivitat donaran millors resultats que els que tenen finalitats estètiques i literàries: com més literal siga la interpretació del text, millor.
  4. Com a conseqüència de tot això, el registre estàndard és el que millor s'adiu amb les característiques d'aquestes eines. Per això convé evitar els dos extrems: el llenguatge excessivament tècnic i culte, d'una banda, i un registre massa col·loquial o informal, de l'altra.
Ja per a acabar, voldria compartir aquesta pàgina extreta del portal Wikilingua, que tracta sobre una coneguda marca de gasosa. Es veu que la versió catalana d'aquest portal es crea a partir de la traducció automàtica sense revisar dels articles d'altres llengües, per la qual cosa representa un exemple perfecte dels problemes i els errors típics que he anat enumerant. En principi, hauríeu de veure destacats en groc bona part dels errors, de manera que vos resultarà senzill detectar-los.


I vosaltres, quina ha sigut la vostra experiència amb els traductors automàtics? Afegiríeu algun error més a la llista?