ISSN: 1579-9794

Hikma 23(1) (2024), 87 - 109

La traducción automática de los referentes culturales.

Propuesta de una metodología de evaluación aplicada a

textos del ámbito migratorio

Cultural references and machine translation: a

methodology for evaluation. The case of administrative

texts in the area of migration

CELIA RICO PÉREZ

celrico@ucm.es

Universidad Complutense de Madrid

Fecha de recepción: 20/02/2023

Fecha de aceptación: 25/07/2023

Resumen: Los referentes culturales constituyen uno de los grandes desafíos

para la traducción automática (TA). Pese a existir numerosos estudios ad hoc

acerca de esta herramienta, la magnitud de casos en los que se puede aplicar

excede los límites de las investigaciones actuales. La TA de las

manifestaciones culturales propias de una lengua se enmarca dentro los

campos poco explorados hasta el momento. En consecuencia, se muestra la

necesidad de revisar los métodos de evaluación que a menudo se emplean

para determinar la validez de las traducciones hechas por la máquina y

aplicarlo al caso de estos referentes, con especial incidencia en el ámbito

migratorio. En esta línea, el artículo presenta una propuesta metodológica

para la evaluación basada fundamentalmente en datos cualitativos sobre la

fluidez, la precisión y la aceptabilidad de las traducciones automáticas, a los

que se añaden datos cuantitativos sobre la percepción de estos mismos

criterios. En primer lugar, se contextualizan los referentes culturales en el

marco de la TA y la inteligencia artificial. A continuación, se presentan los

diferentes métodos de evaluación de evaluación automática y manual, con la

definición de una metodología específica para la evaluación de los referentes

culturales. Con el fin de ilustrar cómo se puede llevar a la práctica esta

metodología, se muestra un caso de evaluación de referentes culturales

mediante un estudio exploratorio llevado a cabo con textos administrativos

del ámbito migratorio.

Palabras clave: Referentes culturales, Traducción automática, Evaluación

de la traducción, Textos administrativos, Migración

88 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

Abstract: Cultural references constitute one of the great challenges for

machine translation (MT). Despite the existence of numerous ad hoc studies

on this technology, the number of cases where it can be applied exceeds the

limits of current research. MT of a language's own cultural manifestations is

one of the fields that have been little explored so far. Consequently, there is a

need to review the evaluation methods often used to determine the validity of

the texts produced by MT, with a focus on cultural referents on the field of

migration. In this line, the article presents a methodological proposal for MT

evaluation which is based primarily on the following qualitative data: fluency,

accuracy, and acceptability. To these, quantitative data is added on the

perception of these same criteria. First, the cultural references are

contextualised in the framework of MT and artificial intelligence. Then, the

different evaluation methods of automatic and manual evaluation are

presented, with the definition of a specific methodology for the evaluation of

cultural references. To illustrate this methodology from a practical point of

view, a case of evaluation of cultural references is shown by means of an

exploratory study carried out with administrative texts in the field of migration.

Keywords: Cultural references, Machine translation, Translation evaluation,

Administrative texts, Migration

NTRODUCCIÓN

La catalogación de los ámbitos a los que pueden referirse los

referentes culturales está ligada a una serie de contextos concretos como son

el medio natural, el patrimonio cultural, la cultura social o la cultura lingüística

(cf. Molina, 2006). En el proceso de transferencia de un referente de una

cultura a otra, este lleva asociado sus propias connotaciones, en otras

palabras, su propia carga cultural específica que, dentro del contexto en el

que aparece, puede llegar a plantear un problema cuando en la cultural meta

no existe un referente con una carga cultural equivalente. Esta característica

de los referentes culturales puede suponer un problema en los textos

traducidos de forma automática en función de si ese contexto cultural se ha

podido trasvasar o no. Si tomamos como ejemplo un referente de la cultura

social como puede ser el uso del tratamiento de cortesía usted, observaremos

que su traducción automática plantea problemas de equivalencia que solo

pueden resolverse por medio del contexto. Veamos los dos ejemplos

siguientes, ambos traducidos automáticamente con el programa de

traducción DeepL:

Texto original

Traducción automática

1) ¿Quiere usted un poco más de vino?

Do you want some more wine?

Celia Rico Pérez 89

Hikma 23(1) (2024), 87 - 109

2) ¿Quiere usted un poco más de vino,

Sra. García?

Would you like some more wine, Mrs.

Garcia?

Tabla 1. Ejemplos de TA DeepL

Fuente. Elaboración propia

En el primer caso, la carga cultural asociada a usted queda anulada en

la traducción automática, puesto que no hay un contexto específico que

permita a DeepL resolver la equivalencia de otro modo que no sea utilizando

el pronombre you; mientras que, en el segundo caso, al añadir la referencia

contextual Sra. García, DeepL cuenta con la información suficiente como para

generar una equivalencia con un nivel de cortesía similar en inglés.

El campo de la traducción automática de referentes culturales es un

área aún carente de estudios, quizá porque hasta la llegada de los sistemas

basados en inteligencia artificial no se habían conseguido resultados con

suficiente calidad que justificaran debidamente su estudio. Estos nuevos

desarrollos artificiales son capaces de generar traducciones que el propio ser

humano interpreta como un acto comunicativo válido. En parte, debido a

nuestra innata predisposición a interpretarlos de este modo, es decir, como si

la máquina tuviera la intención de transmitir un significado coherente. El

problema reside en que la máquina no tiene ninguna intención comunicativa

por sí misma y que el hecho de que genere textos que se lean de manera

fluida no garantiza, a priori, que la traducción se corresponda con el texto

original. En el caso de los referentes culturales, precisamente porque remiten

a ámbitos específicos, conviene explorar la capacidad de la máquina para

producir traducciones adecuadas y examinar los resultados mediante una

metodología de evaluación que abarque el carácter dinámico de estos

referentes a la hora de permitir el trasvase entre dos culturas concretas. Este

elemento dinamizador hace que los referentes culturales estén ligados

estrechamente al contexto y, por lo tanto, cualquier metodología que se

emplee para evaluar la traducción automática de estos deberá considerar en

todo momento este aspecto.

Por otra parte, parece necesario que desde los Estudios de Traducción

se reflexione acerca de la validez de las categorías de evaluación que

tradicionalmente se emplean con el fin de adaptarlas al análisis de la

traducción automática de los referentes culturales. Pongamos por caso,

estrategias típicamente humanas como pueden ser la domesticación o la

extranjerización (Venuti, 1995). Hacerlo de este modo conferiría, a la máquina

de una intencionalidad similar a la que se espera de la persona que traduce,

lo que, como ya se ha mencionado con anterioridad es hasta cierto punto

inverosímil. Además, atribuirle al programa de traducción esa capacidad

humana inherente contribuye a restar agencia al propio proceso humano de

90 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

traducción en el sentido que apunta Vieira (2019) al analizar los diferentes

grados de control que se pueden dar en la interacción de la persona con la

traducción automática.

En este artículo se plantea, en primer lugar, una reflexión sobre el lugar

que pueden ocupar los referentes culturales en el marco de la traducción

automática y la inteligencia artificial, para proseguir con una revisión de los

diferentes modelos que se emplean en la evaluación de la traducción

automática: los modelos automáticos y los manuales (Sánchez Ramos y Rico

Pérez, 2020, p. 34-48). A continuación, se proponen tres criterios de

evaluación que parecen más acordes con la problemática que nos

encontramos: la adecuación, la fluidez y la aceptabilidad. Finalmente, con el

fin de ilustrar la puesta en práctica de la metodología de evaluación que se

plantea, se muestra su aplicación en el caso concreto de los textos

administrativos en el campo de las migraciones. Tras la discusión de los

resultados obtenidos, el artículo concluye con la exposición de por qué no es

posible aplicar criterios universales para la evaluación de la traducción

automática. Referentes culturales, traducción automática e inteligencia

artificial

Cuando nos encontramos frente a la máquina que traduce no podemos dejar

de sentir cierta fascinación al comprobar cómo un ente digital puede producir

un texto que aparenta tener un origen humano. En un intento por descifrar los

entresijos de su funcionamiento recurrimos a recursos como la prosopopeya

para afirmar que la máquina aprende, piensa, decide, de modo que la

humanizamos con el fin de poder comprender algo que nos es desconocido.

Esto dota de cierto misterio a esos cerebros sintéticos que traducen y que

son «indescifrables para el gran público, pero capaces de asumir tareas con

un altísimo rendimiento» (cf. Torrijos, 2022, p. 31). Sin embargo, lo que hay

detrás de la máquina y su supuesta inteligencia no deja de ser un sistema

algorítmico complejo de reconocimiento conformado por patrones, que

procesa cantidades inimaginables de datos y usa para ello una ingente

cantidad de recursos informáticos, con un alto coste asociado no solo desde

el punto de vista económico, sino también medioambiental (cf. Bender et al.,

2021)

. Una vez procesados los datos, el sistema reproduce de manera

probabilística los patrones observados, con distintos grados de fiabilidad y

utilidad, pero siempre guiados por los datos de entrenamiento (cf. Bender,

Para que podamos hacernos una idea, se estima que el procesamiento de un transformador

GPT-3 como el que ha desarrollado OpenAI para #ChatGPT requiere una infraestructura

eléctrica y de computación por valor de varios millones de dólares, de manera que esta solo

puede activarse en los servidores de un gigante de la informática como es el caso de Microsoft.

En cierto modo, esta situación no hace más que consolidar la actuales dictaduras en la infoesfera

(Vetere, 2021).

Celia Rico Pérez 91

Hikma 23(1) (2024), 87 - 109

2022). En el caso de la traducción automática, los patrones de traducción se

extraen a partir de un compendio de corpus paralelos con millones de

palabras y de segmentos traducidos gracias a los que se pueden entrenar las

redes neuronales que, de algún modo, simulan el comportamiento humano al

traducir. Por ende, la calidad de estas traducciones generadas

automáticamente dependería de dos factores: los datos que se usen para el

entrenamiento y las técnicas de inteligencia artificial empleadas.

Sin embargo, conviene recordar que por mucho que la inteligencia

artificial pueda reproducir el lenguaje humano lo que en realidad hace no es

comprender ni aprender, sino hacer cálculos y asignar significados a partir de

unas instrucciones y ejemplos que ya se han procesado previamente. De ahí

que la magia de estos modelos cuando producen lenguaje se deba a los

ajustes que se hacen con retroalimentación humana, en los que se recogen

datos acerca de las puntuaciones sobre la adecuación del contenido que ha

generado la máquina para así poder mejorar los resultados automáticos y con

ellos, volver a entrenar el sistema. Con este procedimiento se ajusta el

comportamiento de la máquina a las preferencias declaradas de un grupo

específico de personas, esto es, las personas que etiquetan los resultados

(cf. Ouyan et al., 2022). Como vemos, en realidad, la traducción automática

es una cuestión de números y el texto que se genera no tiene ninguna

intención comunicativa porque, la máquina per se no tiene capacidad para

compartir pensamientos de ningún tipo. Sí es cierto, sin embargo, que, dadas

las cualidades cada vez más fluidas del texto generado automáticamente,

puede dar la impresión de que se crea una situación comunicativa. Esto es

así porque nuestra percepción del texto, independientemente de cómo se

haya generado, está mediada por nuestra propia competencia lingüística y

nuestra predisposición a interpretar los actos comunicativos como si

transmitieran un significado y una intención coherentes, con independencia

de si, efectivamente, lo transmiten. Así, la comprensión del significado

implícito es una ilusión que surge de nuestra singular comprensión humana

del lenguaje (cf. Bender et al., 2021, p. 616). El aumento en la fluidez del

resultado de la traducción automática modifica la percepción de la adecuación

de dicho resultado. Sin embargo, los sistemas de traducción automática

pueden producir resultados inexactos, aunque fluidos y coherentes por sí

mismos para un consumidor que no ve el texto original o que no puede

entenderlo por sí mismo (cf. Martindale y Carpuat, 2018). A los grandes

modelos lingüísticos de inteligencia artificial se les puede pedir que realicen

una serie de tareas de procesamiento del lenguaje natural si se les

proporcionan algunos ejemplos de la tarea. No obstante, estos modelos

suelen tener comportamientos no deseados tales como inventarse hechos,

generar textos sesgados o tóxicos (cf. Ouyang et al., 2022). La cuestión que

92 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

surge entonces es la siguiente: qué efecto tiene la traducción automática

aplicada a los referentes culturales.

1. M

ÉTODOS DE EVALUACIÓN EN TRADUCCIÓN AUTOMÁTICA

Los métodos de evaluación en traducción automática se suelen

clasificar en dos tipos: la evaluación automática, es decir, la realizada por el

propio software sin intervención humana, y la evaluación manual, realizada

por profesionales de la traducción (Sánchez Ramos y Rico Pérez, 2020, p.

34-48). Estos dos tipos se emplean en diferentes contextos de evaluación

tales como la comparación de dos o más sistemas para determinar cuál

ofrece mejores resultados en un determinado par de idiomas, la comparación

de las diferentes versiones de un mismo programa para analizar qué mejoras

se han realizado en cada una de ellas o la evaluación de los resultados que

da un sistema con textos de un campo de especialidad determinado. En el

caso de las métricas de evaluación automática, estas comparan las

traducciones obtenidas por el programa con una traducción de referencia

realizada por un traductor profesional. Aunque una correspondencia exacta

no es posible, se considera que la mejor traducción es aquella que más se

acerca a la traducción de referencia. La proximidad entre la traducción de

referencia y la que ha generado el programa se calcula de forma distinta

según las métricas y de ellas, BLEU (Bilingual Evaluation Understudy)

(cf.

Papineni et al., 2002) es la que se usa con más frecuencia. Para realizar los

cálculos de evaluación de la calidad se utilizan tres parámetros, siempre

relacionados con el grado de coincidencia léxica entre la traducción

automática y la traducción de referencia (cf. Sánchez y Rico, 2020, p. 31-54):

a) El número de palabras comunes entre la traducción de

referencia y la generada de forma automática.

b) La longitud del texto traducido automáticamente (calculado en

el número total de palabras).

c) La longitud de la traducción de referencia (calculada en el

número total de palabras).

A partir de estos tres parámetros, se pueden establecer las siguientes

relaciones:

1. La relación entre el número de palabras comunes (a) y la

longitud del texto traducido automáticamente (b). Con esta

relación se calcula la precisión, esto es, cuantas palabras del

texto traducido automáticamente no están en la traducción de

referencia. La puntuación que se obtiene penaliza la

Bilingual Evaluation Understudy) o Bilingual Evaluation Understudy (BLEU).

Celia Rico Pérez 93

Hikma 23(1) (2024), 87 - 109

generación de palabras adicionales que no aparezcan en la

traducción de referencia.

2. La relación entre el número de palabras comunes (a) y la

longitud de la traducción de referencia (c). Con esta relación

se calcula la exhaustividad, es decir, la cantidad de palabras

de la traducción de referencia que no aparecen en la

traducción automática.

3. La calidad de la traducción resultante del sistema de TA es

asignada con un valor en una escala del 1 al 100, de manera

que cuanto más alta sea la puntuación, mayor será la calidad

de la traducción.

Como vemos, este tipo de métricas automáticas miden únicamente el

grado de similitud entre una traducción automática y un documento de

referencia contrastado en la lengua meta, pero no se centran, en ningún caso,

en la expresión adecuada del significado del texto origen por lo que, en

realidad, carecen de validez en cuanto a la medida de la calidad semántica

de la traducción. Esta es una de las grandes desventajas de las métricas

automáticas y, aunque es cierto que sirven para dar una estimación de la

calidad en grandes volúmenes de texto, conviene atender también a los

resultados que se obtienen de la evaluación de oraciones individuales. Este

es, precisamente, uno de los puntos más controvertidos de BLEU y se debe

a que, al calcular la calidad de una traducción de acuerdo con una traducción

de referencia, no se tiene en cuenta que cabe la posibilidad de que un texto

traducido sea bueno sin ser necesariamente idéntico al de referencia.

Con respecto a la evaluación manual de la traducción automática, esta

se lleva a cabo de modo analítico, es decir, identificando errores uno por uno,

con categorías típicas como errores terminológicos, ambigüedad léxica,

omisiones, concordancia o errores de puntuación. Generalmente, se utilizan

plantillas correctoras que establecen una tipología de errores con una serie

de valores de penalización para cada uno de ellos, con el problema añadido

de que no son valores estándar, puesto que cada métrica asigna un peso

diferente a las distintas tipologías de error. Este tipo de evaluación nos da una

imagen pormenorizada de qué problemas se han identificado en el texto

traducido de manera automática. A la hora de aplicar las métricas de

evaluación manual, los evaluadores primero identifican el error en función de

una tabla previa de clasificación y luego asignan una puntuación según una

escala determinada, de forma que al final se obtiene una puntuación que

determina la calidad del texto meta. Algunas de las métricas de evaluación

manual más utilizadas son SAEJ2450 (cf. SAE 2001), el modelo MQM (cf.

Almaghout y Specia, 2013) y el modelo TAUS (cf. Valli, 2015).

94 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

La bibliografía especializada en la evaluación de la traducción

automática es extensa y abarca diversas disciplinas como la informática, la

lingüística computacional, la estadística o la inteligencia artificial (ver, por

ejemplo, Way, 2018). En los Estudios de Traducción, la evaluación de la

traducción automática ha hecho su entrada en los últimos años, coincidiendo

precisamente con la implantación casi generalizada de este tipo de

programas, y se ha centrado principalmente en la posedición (cf. Koponen et

al., 2021), adoptando −y adaptando, en la medida de lo posible− los métodos

de las disciplinas citadas. Ahora bien, los Estudios de Traducción no son

ajenos, en modo alguno, a la evaluación y esta es, precisamente, un área de

trabajo de gran tradición (cf. Conde, 2022). Por otra parte, en la evaluación

de la traducción automática no pueden aplicarse los mismos criterios que en

la evaluación de la traducción humana, puesto que son actividades diferentes

y con objetivos complementarios (cf. Mihalache, 2021). Hacerlo de otro modo,

suponeponer en pie de igualdad los resultados de una y otra, lo que de alguna

manera lleva intrínseca la devaluación del factor humano e impide una

adecuada traslación de los referentes culturales en tanto que «nociones

específico-culturales de un país o de un ámbito cultural, unidades de

comunicación que poseen una estructura semántica y pragmática compleja»

(cf. Luque, 2009). La cuestión es saber hasta qué punto estos métodos sirven

realmente para evaluar los referentes culturales traducidos de manera

automática.

2. C

RITERIOS PARA LA EVALUACIÓN DE LOS REFERENTES TRADUCIDOS

AUTOMÁTICAMENTE

La evaluación de los referentes culturales traducidos mediante

traducción automática puede considerarse un nuevo campo de estudio. Hasta

ahora, el análisis ha seguido la metodología propuesta fundamentalmente por

Molina (2006), quien define los referentes culturales (culturemas) como

elementos dinámicos que existen precisamente como la consecuencia de un

trasvase cultural entre dos culturas concretas, de manera que al entrar en

contacto a través de la traducción se puede provocar un problema de

compresión. Por lo tanto, los elementos culturales no existen fuera de un

contexto, puesto que su actuación como tal depende del contexto en el que

aparezcan (cf. Molina 2006, pp. 78 -79). Este es un punto clave a la hora de

definir una metodología de evaluación de los referentes culturales traducidos

automáticamente porque, como hemos podido comprobar en el apartado

anterior, el contexto no es precisamente un aspecto que se tenga en cuenta

en los criterios que se suelen utilizar. La evaluación de los elementos

culturales en el resultado de la traducción automática requiere un análisis

cualitativo para el que las métricas automáticas, como BLEU, no son

adecuadas. Tampoco resultan aptas las métricas manuales, puesto que usan

Celia Rico Pérez 95

Hikma 23(1) (2024), 87 - 109

escalas analíticas que incluyen anotaciones de errores y el cálculo de la

proporción de estos errores con respecto al número total de palabras del texto

traducido. Por consiguiente, son evaluaciones que no aportan datos

relevantes para el caso de los referentes culturales porque no recogen

información concreta sobre la esencia dinámica del referente cultural.

La propuesta de criterios que se presenta en este artículo toma como

punto de partida el eje funcionalista, que permite tener en cuenta el uso final

del texto en una situación o contexto determinado de modo que para que una

traducción sea buena debe funcionar (cf. Conde, 2022). A partir de este

marco de trabajo se proponen tres criterios básicos para la evaluación de los

referentes culturales, siguiendo las definiciones de Castilho et al. (2018,

pp. 18, -20):

a) Adecuación: grado en que la traducción transfiere el significado

de la unidad de la lengua de partida a la de llegada.

b) Fluidez: grado en que la traducción sigue las reglas de la

lengua de llegada.

c) Aceptabilidad: grado en que el texto traducido satisface las

necesidades de los potenciales usuarios.

Adicionalmente, y como se muestra en el siguiente apartado, la

aplicación de estos tres criterios permite obtener datos cualitativos que

revelan información significativa.

2.1 Aplicación práctica de los criterios: el caso de textos del ámbito

migratorio

La forma en que se comunica la administración pública con las

personas migrantes presenta un ámbito de situación comunicativa muy

interesante en el que analizar la traducción automática de los referentes

culturales. Por una parte, los textos que se manejan en este ámbito destacan

por características lingüísticas como la nominalización, la

despersonalización, las construcciones formadas por participio + sustantivo,

la subordinación reiterada, las construcciones pasivas, el uso de la pasiva

refleja y la abundancia de siglas (El-Madkouri, 2016, p. 131). A esto se

añaden las barreras culturales que se habrán de sortear para generar un texto

aceptable como resultado del proceso de traducción, sobre todo, en términos

y expresiones que se refieren a una realidad o a un tipo de documento

específico para una administración determinada del Estado.

Por otra parte, la comunicación multilingüe es clave en el contexto

migratorio. Debido a las restricciones presupuestarias para la gestión de las

necesidades lingüísticas de las personas migrantes (cf. Tesseur, 2017 y

96 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

2022), el uso de traducción automática se ve a menudo como una solución

práctica en las diferentes etapas de la cadena de ayuda (cf. Rico, 2020). Sin

embargo, la utilización indiscriminada de esta tecnología podría suponer una

brecha en el flujo de trabajo comunicativo o incluso, en algún momento, un

riesgo significativo, todo dependiendo del tipo de contenido que se vaya a

traducir (cf. Nitzke et al., 2019). Por esta razón, es importante conocer el

impacto que tienen los contenidos traducidos automáticamente como

respuesta a las necesidades multilingües de las personas migrantes. En este

sentido, con el objetivo de mostrar una aplicación práctica de los criterios de

evaluación que se proponen en este artículo, en los siguientes apartados se

presenta un estudio exploratorio sobre la evaluación de los referentes

culturales traducidos automáticamente en textos del ámbito migratorio.

2.1.1 Características de los participantes en el estudio

El estudio exploratorio se llevó a cabo entre el 17 y el 19 de enero de

2022 con un grupo de 176 estudiantes de la asignatura Técnicas y Recursos

para la Traducción e Interpretación en los Servicios Públicos en el Máster de

Comunicación Intercultural, Interpretación y Traducción en los Servicios

Públicos de la Universidad de Alcalá. Este grupo de estudiantes tenía como

combinación lingüística ES-AR, FR, RU, ZH, EN-ES con la siguiente

distribución por grupo de idioma (Gráfico 1):

Gráfico 1. Distribución del grupo de lenguas

Fuente. Elaboración propia

2.1.2 Instrumento

Para la recogida de datos se creó un cuestionario a través de un

formulario de Google con dos tipos de preguntas para evaluar la calidad del

resultado de la traducción automática según los criterios de adecuación,

Celia Rico Pérez 97

Hikma 23(1) (2024), 87 - 109

fluidez y aceptabilidad (en el Anexo I pueden verse las preguntas que se

hicieron). El primer grupo de preguntas recogía datos cuantitativos mediante

una escala Likert de 5 puntos en la que los participantes indicaban el grado

de acuerdo con una serie de afirmaciones relativas a la calidad del texto

traducido automáticamente y que se referían de manera explícita a los tres

criterios citados. Así, por ejemplo, para recoger la información sobre el criterio

de adecuación, los participantes debían indicar su grado de acuerdo con la

siguiente afirmación: «la traducción automática del texto con el que he

trabajado traslada de manera adecuada el significado del texto original». El

segundo grupo de preguntas se centraba en datos cualitativos, con preguntas

abiertas sobre la calidad de la traducción automática. En este sentido, se

pedía expresamente a los participantes que dieran su opinión sobre el

resultado de la traducción automática y que indicaran algún ejemplo

problemático, en el caso de que lo hubiera, con su correspondiente

explicación. Para el criterio de adecuación, por ejemplo, la pregunta se

formulaba de la siguiente manera: «¿hay algún caso en el que la traducción

automática del texto con el que has trabajado no haya trasladado de manera

adecuada el significado del texto original? Indica en qué caso y explícalo».

2.1.3 Corpus de análisis

El corpus de análisis estaba compuesto por textos del Portal de

Migraciones del Ministerio de Inclusión, Seguridad Social y Migraciones de

España. Se trata, principalmente, de contenidos informativos sobre trámites

y procedimientos con la Administración tales como la contratación de

trabajadores extranjeros, reagrupación, estancia por estudios o

autorizaciones de diversa índole. Asimismo, el corpus de análisis contenía

formularios y modelos de solicitud de autorización de estancia, de residencia

o de trabajo. Todos los textos se tradujeron en las combinaciones de idiomas

que estudiaban los participantes encuestados con la herramienta MyMemory,

el sistema de traducción automática proporcionado por la plataforma de

traducción MateCat que combina tanto la tecnología de Google Translator

como el motor de traducción de Microsoft Translator. Los participantes tenían

acceso a los textos traducidos directamente en la plataforma de traducción

MateCat, de manera que podían consultar simultáneamente el texto original

y su traducción. En la Imagen 1 se puede ver un ejemplo.

98 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

Imagen 1. Ejemplo de texto original con su traducción automática en la

plataforma MateCat

Fuente. Elaboración propia

2.1.4 Resultados

Como puede observarse en los Gráficos 2 a 4, la recogida de datos

cuantitativos muestra que los resultados en las tres categorías de evaluación

(adecuación, fluidez y aceptabilidad) se agrupan, principalmente, entre las

puntuaciones 3 y 4, con predominio de esta última. En el caso de la

adecuación, los resultados muestran que el 33,5 % de los participantes

asigna una puntuación de 3 al texto traducido automáticamente y que el

46,6 % asigna una puntuación de 4, es decir, que están de acuerdo

(puntuación 3) o muy de acuerdo (puntuación 4) en que la traducción

automática es adecuada para el fin comunicativo propuesto. Para el criterio

de fluidez el resultado es muy similar y se divide entre el 28,4 % para la

puntuación de 3 y el 49,4 % para la puntuación de 4. Por último, el criterio

aceptabilidad se distribuye entre el 39,8 % para la puntuación de 3 y el 40,9 %

para la puntuación de 4.

Celia Rico Pérez 99

Hikma 23(1) (2024), 87 - 109

Gráfico 2. Adecuación de la traducción automática

Fuente. Elaboración propia

Gráfico 3. Fluidez de la traducción automática

Fuente. Elaboración propia

100 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

Gráfico 4. Aceptabilidad de la traducción automática

Fuente. Elaboración propia

A la vista de estos datos cuantitativos, observamos que para los

participantes en el estudio la traducción automática cumple, en la mayoría de

los casos, con el criterio de trasladar de manera adecuada el significado del

texto original, ser aceptable para que una persona migrante pueda conocer

los trámites administrativos en cada caso y transmitir el sentido de forma

fluida con respecto a las normas de la lengua de llegada. Por lo tanto, se

puede concluir que la traducción automática de los textos objeto del estudio,

cumplen con la finalidad comunicativa básica.

Ahora bien, más allá del análisis cuantitativo, resulta interesante

detenerse en el análisis de los datos cualitativos pues nos permiten una

observación directa del resultado de la traducción automática y sus

consecuencias a la hora de establecer una comunicación fluida. Si bien es

cierto que, de manera general, los participantes muestran su satisfacción con

la traducción automática, debemos ser conscientes de que lo hacen con

ciertas precauciones al respecto. A continuación, se recogen cuatro

comentarios que, a modo de ejemplo, sirven para mostrar el tipo de

precauciones que señalan los participantes :

1. Comentario: «Cada vez hay menos errores por parte del

traductor automático, pero el traductor sigue siendo muy útil en

el proceso de traducción: el registro cultural y la gramática no

son perfectamente dominados por los programas de traducción

automática».

Celia Rico Pérez 101

Hikma 23(1) (2024), 87 - 109

2. Comentario: «Al tratarse de formularios la traducción

automática ha sido muy útil y a la vez no […] debido a la

cantidad de siglas e iniciales empleadas que necesitaban de la

modificación completa del segmento».

3. Comentario: «El resultado de la traducción automática es

bastante aceptable. No obstante, se debe prestar atención a

los elementos extratextuales, como los números o las etiquetas

debido a los fallos que puede originar la herramienta».

4. Comentario: «Quisiera poner de relieve que la traducción

automática de los segmentos resultó ser mejor de lo que podía

pensar antes de empezar la actividad, y a excepción de

expresiones más complejas por su estilo o sus referentes

culturales, debo admitir que MateCat tradujo muy bien el texto,

y me ha sorprendido bastante».

Los datos cualitativos recogidos por el experimento contienen mucha

más información de la que aquí se muestra, puesto que recogen la opinión

de un grupo de 176 participantes. En este sentido, es necesario apuntar que

el análisis de todos estos datos necesita un estudio exhaustivo que, en todo

caso, excede los objetivos del presente trabajo. Los cuatro comentarios que

aquí se señalan sirven, no obstante, para ilustrar el hecho de que a pesar de

que la traducción automática se percibe en un rango medio-alto con respecto

a los criterios de adecuación, fluidez y aceptabilidad, algunos referentes

culturales no se han traducido correctamente. En concreto, se trata de los

siguientes casos:

a) Documentos oficiales y leyes que no tienen una

correspondencia directa en otro idioma (es el caso, por

ejemplo, de una Ley orgánica).

b) La división geográfica en provincias y comunidades

autónomas.

c) Diferentes equivalencias para el mismo concepto: residencia

(«domiciles», «résidence» o «séjour»); ocupación (empleo),

traducido automáticamente con el sentido de ‘invasión’.

d) La traducción de las siglas como, por ejemplo, Unidad de

Grandes Empresas y Colectivos Estratégicos (UGE-CE)

para

En el texto original, la Unidad de Grandes Empresas y Colectivos Estratégicos (UGE-CE) se

refiere al organismo constituido en el año 2007 para dar respuesta ágil y asesoramiento experto

a las necesidades planteadas por empresas y organismos que requieren traer a España personal

no comunitario de especiales características (Secretaría de Estado de Migraciones, 2022)

102 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

las que la traducción automática genera una traducción literal

«Pôle Grandes Entreprises et Groupements Stratégiques

(CGU-CE)».

e) Palabras con un marcado referente cultural como pareja que

incluyen la posibilidad de estar casado o no y que en otras

culturas incluye necesariamente la necesidad de un

matrimonio (así ocurre, por ejemplo, en árabe).

f) La obligación de marcar en los formularios el primer y el

segundo apellido.

g) Las siglas en los formularios como, por ejemplo, las referidas

al sexo (H y M), las correspondientes al estado civil (S, C, V,

D, Sp) o el NIE (Imagen 2).

Imagen 2. Formulario para la solicitud de autorización de estancia y prórrogas

Fuente. Portal de Migraciones del Ministerio de Inclusión, Seguridad Social y

Migraciones

2.1.5 Discusión

No cabe duda de que los desarrollos actuales de los sistemas de

traducción automática neuronal cuentan con una calidad muy alta y que,

como se ha mostrado, los resultados son suficientemente satisfactorios como

para poder proporcionar una buena comunicación desde el punto de vista de

los parámetros propuestos. En este sentido, los resultados de este estudio

Celia Rico Pérez 103

Hikma 23(1) (2024), 87 - 109

están en consonancia con trabajos similares como el que proponen Ricart y

Jordán (2022) sobre la aplicación de la traducción automática en contextos

de crisis humanitarias. En su estudio, estos autores se centran en criterios de

evaluación vinculados con la eficacia en un contexto de necesidad

comunicativa inmediata como es de la comunicación con refugiados

ucranianos en España, de manera que «una traducción que podría ser

considerada como de baja calidad en un contexto, podría tener una calidad

suficiente en otro contexto distinto, dependiendo del propósito del usuario (cf.

Ricart y Jordán, 2022, p. 108). Los datos que recogen los autores son

fundamentalmente cuantitativos y apuntan a que en más de un 60 % de las

ocasiones, los resultados de la traducción automática son «perfectos o casi

perfectos» y que cerca del 30 % restante la traducción permite comprender

fragmentos de la información original, mientras que alrededor de un 10 % de

las interacciones se consideran completamente erróneas. Por lo tanto, el uso

de la TA permite la interacción de los refugiados ucranianos con las personas

de habla castellana con un porcentaje de éxito elevado. En este punto,

conviene mencionar que cuando se trata de evaluar la traducción automática

de los referentes culturales no basta con emplear métricas cuantitativas

porque, como ya se apuntaba al principio de este artículo, este tipo de

entidades requiere de un análisis que tenga en cuenta también cuestiones

cualitativas que, además, podrían suponer una brecha importante en la

comunicación, como demuestran los ejemplos que aparecen en los

resultados. No obstante, a pesar de las grandes expectativas de calidad de

la traducción automática es necesario tener en cuenta los posibles riesgos

que podrían llegar a tener consecuencias graves. Así lo afirman, por ejemplo,

Canfora y Ottmann (2020) cuando indican que la traducción automática

genera errores tales como omisiones, traducciones erróneas, adiciones o

terminología incoherente, entre otros, que pueden provocar daños,

especialmente en dominios críticos para la seguridad. En el caso de los

referentes culturales que he señalado en este experimento, no se trata

claramente de riesgos para la seguridad, aunque sí pueden provocar una

ruptura en el flujo de la comunicación y dejar a la persona migrante

desasistida ante un texto que tiene una apariencia fluida y aceptable, pero

que no consigue los fines comunicativos propuestos que la situación requiere.

ONCLUSIONES

El trabajo que he presentado aquí parte de la propuesta de que la

evaluación de los referentes culturales en los textos traducidos

automáticamente requiere el uso de métricas que atiendan a la naturaleza

dinámica de estos elementos que, en la traducción, están a caballo entre dos

culturas. Desde este punto de vista, parece que los métodos de evaluación

que tradicionalmente se han venido aplicando en la investigación de la

104 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

traducción automática no son los más efectivos, puesto que no permiten

recoger información sobre el contexto en el que se inscribe el elemento

cultural. Como se ha mostrado, las métricas automáticas contrastan la

traducción generada automáticamente con una traducción previa que se usa

como referencia, tomando como punto de comparación el número de

palabras comunes y la longitud del texto. Por su parte, las métricas manuales

consisten, de forma esencial, en la identificación de unos errores a los que se

les asigna un valor de penalización. Así pues, resulta evidente que ambos

tipos de métricas impiden una adecuada evaluación de la riqueza de matices

contextuales asociados a los referentes culturales. En este sentido, tal como

apunta Candel (2022, p. 117), no podemos decir que existan escalas

universales de valoración de la calidad, de modo que la evaluación de la

calidad del resultado de la traducción automática suele depender de factores

como la finalidad del texto o el valor que se dé a la inmediatez de la

traducción. En el caso de la evaluación de los referentes culturales la

propuesta que se ha planteado en este trabajo toma como punto de partida

el eje funcionalista, de manera que la calidad de la traducción automática se

evalúa a partir del uso final del texto en un contexto determinado. Los criterios

propuestos son la adecuación, la fluidez y la aceptabilidad.

Con el fin de ilustrar cómo se pueden llevar a la práctica estos criterios,

en este artículo se ha presentado un experimento de evaluación en el caso

concreto de los textos administrativos del ámbito migratorio. Esta

investigación se diseñó como un enfoque de método mixto, recopilando datos

cualitativos y cuantitativos sobre las percepciones del resultado de la

traducción automática. El análisis de los resultados ha revelado que los

contenidos traducidos de forma automática se consideran, en términos

generales, adecuados, aceptables y fluidos para los fines de la comunicación

de la administración con las personas, aunque algunos conceptos culturales

clave presenten traducciones erróneas y requirieran eventualmente de la

intervención de un traductor profesional. Este experimento, aunque se ha

realizado a pequeña escala, ha servido para mostrar de manera sencilla cómo

se puede llevar a cabo la evaluación de los referentes culturales en los textos

traducidos de manera automática.

EFERENCIAS BIBLIOGRÁFICAS

Almaghout, H. y Specia, L. (2-6 de septiembre 2013). A CCG-based quality

estimation metric for statistical machine translation [póster]. MT Summit

XIV, Niza, Francia. https://aclanthology.org/2013.mtsummit-

posters.4.pdf

Bender, E. M. (11 de mayo de 2022) Look behind the curtain: Don’t be dazzled

by claims of ‘artificial intelligence. The Seattle Times.

Celia Rico Pérez 105

Hikma 23(1) (2024), 87 - 109

https://www.seattletimes.com/opinion/look-behind-the-curtain-dont-be-

dazzled-by-claims-of-artificial-intelligence/

Bender, E. M., Gebru, T., McMillan-Major, A., y Shmitchell, S. (2021). On the

dangers of stochastic parrots Can Language Models Be Too Big?

[comunicación]. Proceedings of the 2021 ACM Conference on

Fairness, Accountability and Transparency, (pp. 610–623).

Association for Computing Machinery.

https://doi.org/10.1145/3442188.3445922

Candel-Mora, M. A. (2022). Fine-tuning machine translation quality-rating

scales for new digital genres: The case of user-generated content.

ELUA Estudios de Lingüística Universidad de Alicante, 38, 117-136.

https://doi.org/10.14198/elua.21900

Canfora, C. y Ottmann, A. (2020). Risks in neural machine translation.

Translation Spaces, 9(1), 58–77. https://doi.org/10.1075/ts.00021.can

Castilho, S.; Doherty, S.; Gaspari, F. y Moorkens, J. (2018). Approaches to

Human and Machine Translation Quality Assessment. En J. Moorkens,

S. Castilho, F. Gaspari y S. Doherty (Eds.), Translation Quality

Assessment from Principles to Practice (pp. 9-38). Springer

International. https://doi.org/10.1613/jair.1.12007.

Conde Ruano, J. T. (2022). Calidad. En Enciclopedia de traducción e

interpretación (ENTI). https://www.aieti.eu/enti/quality_SPA/

El-Madkouri Maataoui, M. (2016). El discurso del lenguaje jurídico-

administrativo español: análisis y perspectivas. En M. Eurrutia Cabrero

(Coord.). El lenguaje jurídico y administrativo en el ámbito de la

extranjería: Estudio multilingüe e implicaciones socioculturales (pp.

127-164). Peter Lang.

Google Translator. https://translate.google.es/

Koponen, M., Mossop, B. Robert, I. S. y Scocchera, G. (Eds.) (2021)

Translation, revision and post-editing. Routledge.

Luque Nadal, L. (2009) Los culturemas: ¿unidades lingüísticas, ideológicas o

culturales? Language Design, 11, 93-120.

Martindale, M. y Carpuat, M. (2018). Fluency Over Adequacy: A Pilot Study in

Measuring User Trust in Imperfect MT. En C. Cherry y G. Neubig (Eds.)

Proceedings of the 13thConference of the Association for Machine

Translation in the Americas (Volume 1: Research Track), (pp. 13-25).

Association for Machine Translation in the Americas,

https://www.aclweb.org/anthology/W18-1803

106 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

Microsoft Translator. https://translate.google.es/

Mihalache, I. (2021). Human and Non-Human Crossover: Translators

Partnering with Digital Tools. En R. Desjardins, C. Larsonneur y P.

Lacour (Eds.) When Translation Goes Digital. Case Studies and Critical

Reflections (pp. 19-44). Palgrave Macmillan.

Molina, L. (2006). El otoño del pingüino: análisis descriptivo de la traducción

de los culturemas. Publicaciones de la Universidad Jaime I.

MyMemory. https://guides.matecat.com/my

Nitzke, J.; Hansen-Schirra, S. y Canfora C. (2019). Risk management and

post-editing competence. JoSTrans. The Journal of Specialised

Translation, 31, 239-259.

Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C. L., Mishkin,

P., Zhang, C., Agarwal, S., Slama,K., Ray, S., Schulman, J., Hilton, J.,

Kelton, F., Miller, L., Simens, M., Askell, A., Welinder,P., Christiano, P.,

Leike, J. ,Lowe, R. (2022). Training language models to follow

instructions with human feedback.

https://doi.org/10.48550/arXiv.2203.02155

Papineni, K., Roukos, S., Ward T., y Zhu, W. (julio 2002). BLEU: a method for

automatic evaluation of machine translation. [Presentación de

comunicación]. ACL-2002: 40th Annual meeting of the Association for

Computational Linguistics (pp 311–318).

Portal de Migraciones del Ministerio de Inclusión, Seguridad Social y

Migraciones. https://www.inclusion.gob.es/web/migraciones/home

Ricart Vayá, A. y Jordán Enamorado, M. A. (2022). Traducción automática y

crisis humanitaria: análisis de la eficacia de Google Translate en la

comunicación con refugiados ucranianos en España. Revista

Tradumàtica, 20, 96-114. https://doi.org/10.5565/rev/tradumatica.306

Rico Pérez, C. (2020). Translation technologies for the aid-chain. En F. M.

Federici y S. O’Brien (Eds.) Translation in Cascading Crises (pp. 112-

131). Routledge.

SAE (2001). SAEJ2450 Translation quality metrics. http://www.apex-

translations.com/documents/sae_j2450.pdf

Sánchez Ramos, M. M. y Rico Pérez, C. (2020). Traducción automática.

Conceptos clave, procesos de evaluación y técnicas de posedición.

Comares.

Celia Rico Pérez 107

Hikma 23(1) (2024), 87 - 109

Secretaría de Estado de Migraciones. (2022). Unidad de grandes empresas

y colectivos estratégicos. https://www.inclusion.gob.es/web/unidadgra

ndesempresas/sobre-nosotros

Tesseur, W. (2017). The translation challenges of INGOs. Professional and

non-professional translation at Amnesty International. Translation

Spaces, 6(2), 209–229. https://doi.org/10.1075/ts.6.2.02tes

Tesseur, W. (2022). Translation as Social Justice: Translation Policies and

Practices in Non-Governmental Organisations (1.ª ed.). Routledge.

https://doi.org/10.4324/9781003125822

Torrijos Caruda, C. (2022). Inteligencia artificial y traducción al español.

Proyección, riesgos y responsabilidad. Puntoycoma, 174, 31–40.

https://www.aieti.eu/noticias/introduce-una-noticia/

Valli, P. (26-27 de noviembre de 2015). The TAUS Quality Dashboard

[Presentación de comunicación]. Proceedings of the 37th Conference

Translating and the Computer, (pp. 127–136).

https://aclanthology.org/2015.tc-1.17.pdf

Venuti, L. (1995): The Translator’s Invisibility, Routledge.

Vetere, G. (2021). Textnology. Imminent. Research

Report.https://imminent.translated.com/textnology

Vieira, L. N. (2019). Post-editing of machine translation. O'Hagan, M. (Ed.),

The Routledge handbook of translation and technology (1.ª ed.),

pp. 319-337). Routledge. https://doi.org/10.4324/9781315311258

Way, A. (2018). Quality Expectations of Machine Translation. Moorkens, J.,

Castilho, S., Gaspari, F., y Doherty, S. (Eds.), Translation Quality

Assessment from Principles to Practice (pp. 159-178). Springer

International. https://doi.org/10.1613/jair.1.12007

NEXO I. LISTADO DE PREGUNTAS PARA LA RECOGIDA DE DATOS MEDIANTE EL

CUESTIONARIO

1) Preguntas para la recogida de datos cuantitativos sobre la calidad

del texto traducido automáticamente

a) Pregunta sobre la adecuación de la traducción automática:

Expresa, en una escala de 1 a 5, tu acuerdo/desacuerdo con la

siguiente afirmación: «la traducción automática del texto con el que he

trabajado traslada de manera adecuada el significado del texto original».

108 La traducción automática de los referentes culturales […]

Hikma 23(1) (2024), 87 - 109

Imagen 3. Escala Likert correspondiente a la pregunta sobre la adecuación de

la traducción automática

Fuente. Cuestionario sobre la evaluación de la traducción automática de elaboración

propia

b) Pregunta sobre la fluidez de la traducción automática:

Expresa, en una escala de 1 a 5, tu acuerdo/desacuerdo con la

siguiente afirmación: «la traducción automática del texto con el que he

trabajado se lee, en su conjunto, de manera fluida con respecto a las normas

de la lengua de llegada».

Imagen 4. Escala Likert correspondiente a la pregunta sobre la fluidez de la

traducción automática

Fuente. Cuestionario sobre la evaluación de la traducción automática de elaboración

propia

c) Pregunta sobre la aceptabilidad de la traducción automática:

Expresa, en una escala de 1 a 5, tu acuerdo/desacuerdo con la

siguiente afirmación: «la traducción automática del texto con el que he

trabajado resulta aceptable para que una persona migrante conozca los

diferentes trámites administrativos y pueda rellenar las diferentes solicitudes

con esa información».

Imagen 5 . Escala Likert correspondiente a la pregunta sobre la aceptabilidad

de la traducción automática

Fuente. Cuestionario sobre la evaluación de la traducción automática de elaboración

propia

Celia Rico Pérez 109

Hikma 23(1) (2024), 87 - 109

2) Preguntas para la recogida de datos cualitativos sobre la calidad del

texto traducido automáticamente

d) Pregunta sobre la adecuación de la traducción automática:

¿Hay algún caso en el que la traducción automática del texto con el

que has trabajado no haya trasladado de manera adecuada el significado del

texto original? Indica en qué caso y explícalo con detalle.

e) Pregunta sobre la fluidez de la traducción automática:

¿Hay algún caso en el que la traducción automática no se lea de

manera fluida? Indica en qué caso y explícalo con detalle.

f) Pregunta sobre la aceptabilidad de la traducción automática:

¿Hay algún caso en el que la traducción automática del texto con el

que has trabajado no sea aceptable? Indica en qué caso y explícalo con

detalle