Líderes de opinión

Impacto del Transformador: ¿Se ha resuelto la traducción automática?

Published July 29, 2024

Updated April 4, 2026

Irina Barskaya, PhD, Head Data Scientist at Yandex

Google acaba de anunciar el lanzamiento de 110 nuevos idiomas en Google Translate como parte de su iniciativa de 1000 idiomas lanzada en 2022. En 2022, al principio agregaron 24 idiomas. Con los últimos 110, ahora son 243 idiomas. Esta rápida expansión fue posible gracias a la Traducción Automática de Zero-Shot, una tecnología donde los modelos de aprendizaje automático aprenden a traducir a otro idioma sin ejemplos previos. Pero en el futuro veremos juntos si este avance puede ser la solución definitiva al desafío de la traducción automática, y mientras tanto podemos explorar las formas en que puede suceder. Pero primero su historia.

¿Cómo era antes?

Traducción Automática Estadística (SMT)

Este fue el método original que utilizó Google Translate. Se basaba en modelos estadísticos. Analizaban grandes corpus paralelos, colecciones de traducciones de oraciones alineadas, para determinar las traducciones más probables. Primero el sistema traducía el texto al inglés como un paso intermedio antes de convertirlo en el idioma objetivo, y necesitaba hacer referencia a frases con conjuntos de datos extensos de transcripciones de las Naciones Unidas y el Parlamento Europeo. Es diferente a los enfoques tradicionales que necesitaban compilar reglas gramaticales exhaustivas. Y su enfoque estadístico le permitió adaptarse y aprender de los datos sin depender de marcos lingüísticos estáticos que podrían volverse completamente innecesarios.

Pero también hay algunas desventajas en este enfoque. Primero, Google Translate utilizó la traducción basada en frases, donde el sistema dividía las oraciones en frases y las traducía individualmente. Esto fue una mejora sobre la traducción palabra por palabra, pero todavía tenía limitaciones como frases incómodas y errores de contexto. Simplemente no entendía completamente las sutilezas como lo hacemos. Además, la TAE depende en gran medida de tener corpus paralelos, y cualquier idioma relativamente raro sería difícil de traducir porque no tiene suficientes datos paralelos.

Traducción Automática Neuronal (NMT)

En 2016, Google cambió a la Traducción Automática Neuronal. Utiliza modelos de aprendizaje profundo para traducir oraciones enteras como un todo y de una vez, dando traducciones más fluidas y precisas. La NMT opera de manera similar a tener un asistente multilingüe sofisticado dentro de su computadora. Utilizando una arquitectura de secuencia a secuencia (seq2seq), la NMT procesa una oración en un idioma para entender su significado. Luego, genera una oración correspondiente en otro idioma. Este método utiliza conjuntos de datos enormes para el aprendizaje, en contraste con la Traducción Automática Estadística, que se basa en modelos estadísticos que analizan grandes corpus paralelos para determinar las traducciones más probables. A diferencia de la TAE, que se centró en la traducción basada en frases y necesitaba mucho esfuerzo manual para desarrollar y mantener reglas y diccionarios lingüísticos, la capacidad de la NMT para procesar secuencias enteras de palabras le permite capturar el contexto matizado del lenguaje de manera más efectiva. Así que ha mejorado la calidad de la traducción en varios pares de idiomas, a menudo alcanzando niveles de fluidez y precisión comparables a los traductores humanos.

De hecho, los modelos de NMT tradicionales utilizaron Redes Neuronales Recurrentes (RNN) como la arquitectura central, ya que están diseñadas para procesar datos secuenciales manteniendo un estado oculto que evoluciona a medida que se procesa cada nuevo entrada (palabra o token). Este estado oculto sirve como una especie de memoria que captura el contexto de las entradas anteriores, lo que permite al modelo aprender dependencias en el tiempo. Pero las RNN eran computacionalmente costosas y difíciles de paralelizar de manera efectiva, lo que limitaba su escalabilidad.

Introducción de los Transformadores

En 2017, Google Research publicó el artículo titulado “La atención es todo lo que necesitas,” introduciendo a los transformadores al mundo y marcando un cambio crucial lejos de las RNN en la arquitectura de la red neuronal.

Los transformadores dependen solo del mecanismo de atención, la autoatención, que permite a los modelos de traducción automática neuronal enfocarse selectivamente en las partes más críticas de las secuencias de entrada. A diferencia de las RNN, que procesan palabras en una secuencia dentro de las oraciones, la autoatención evalúa cada token en todo el texto, determinando cuáles son cruciales para entender su contexto. Esta computación simultánea de todas las palabras permite a los transformadores capturar efectivamente tanto las dependencias de corto como de largo alcance sin depender de conexiones recurrentes o filtros convolucionales.

Así que al eliminar la recurrencia, los transformadores ofrecen varios beneficios clave:

Paralelización: Los mecanismos de atención pueden computar en paralelo en diferentes segmentos de la secuencia, lo que acelera el entrenamiento en hardware moderno como las GPU.
Eficiencia de entrenamiento: También requieren significativamente menos tiempo de entrenamiento en comparación con los modelos basados en RNN o CNN tradicionales, entregando un mejor rendimiento en tareas como la traducción automática.

Traducción Automática de Zero-Shot y PaLM 2

En 2022, Google lanzó el soporte para 24 nuevos idiomas utilizando la Traducción Automática de Zero-Shot, marcando un hito significativo en la tecnología de traducción automática. También anunciaron la Iniciativa de 1000 Idiomas, destinada a apoyar los 1000 idiomas más hablados del mundo. Ahora han implementado 110 idiomas más. La traducción automática de Zero-Shot permite la traducción sin datos paralelos entre el idioma de origen y el idioma de destino, eliminando la necesidad de crear datos de entrenamiento para cada par de idiomas, un proceso anteriormente costoso y tiempo-consuming, y para algunos pares de idiomas también imposible.

Este avance se hizo posible gracias a la arquitectura y los mecanismos de autoatención de los transformadores. La capacidad del modelo de transformador para aprender relaciones contextuales en varios idiomas, combinada con su escalabilidad para manejar múltiples idiomas simultáneamente, permitió el desarrollo de sistemas de traducción multilingüe más eficientes y efectivos. Sin embargo, los modelos de Zero-Shot generalmente muestran una calidad inferior a los entrenados con datos paralelos.

Luego, basándose en el progreso de los transformadores, Google introdujo PaLM 2 en 2023, lo que permitió el lanzamiento de 110 nuevos idiomas en 2024. PaLM 2 mejoró significativamente la capacidad de Translate para aprender idiomas estrechamente relacionados como Awadhi y Marwadi (relacionados con el hindi) y criollos franceses como Seychellois y Mauritian Creole. Las mejoras en PaLM 2, como la escalabilidad óptima de cómputo, conjuntos de datos mejorados y diseño refinado, permitieron un aprendizaje de idiomas más eficiente y apoyaron los esfuerzos continuos de Google para mejorar y ampliar el soporte lingüístico y acomodar matices lingüísticos diversos.

¿Podemos afirmar que el desafío de la traducción automática se ha resuelto completamente con los transformadores?

La evolución que estamos tratando tomó 18 años desde la adopción de la TAE por parte de Google hasta los 110 idiomas adicionales utilizando la Traducción Automática de Zero-Shot. Esto representa un gran salto que puede potencialmente reducir la necesidad de recopilar corpus paralelos extensos, una tarea histórica y muy laboriosa que la industria ha perseguido durante más de dos décadas. Pero afirmar que la traducción automática está completamente resuelta sería prematuro, considerando tanto las consideraciones técnicas como éticas.

Los modelos actuales todavía luchan con el contexto y la coherencia, y cometen errores sutiles que pueden cambiar el significado que se pretendía para un texto. Estos problemas son muy presentes en oraciones más largas y complejas, donde se necesita mantener el flujo lógico y entender matices para obtener resultados. Además, las sutilezas culturales y las expresiones idiomáticas a menudo se pierden o pierden significado, causando traducciones que pueden ser gramaticalmente correctas pero no tienen el impacto pretendido o suenan poco naturales.

Datos para preentrenamiento: PaLM 2 y modelos similares se preentrenan en un corpus de texto multilingüe diverso, superando a su predecesor PaLM. Esta mejora permite que PaLM 2 sobresalga en tareas multilingües, subrayando la importancia continua de los conjuntos de datos tradicionales para mejorar la calidad de la traducción.

Idiomas específicos de dominio o raros: En dominios especializados como los campos legales, médicos o técnicos, los corpus paralelos garantizan que los modelos encuentren terminologías y matices lingüísticos específicos. Los modelos avanzados pueden luchar con jerga específica de dominio o tendencias lingüísticas en evolución, planteando desafíos para la Traducción Automática de Zero-Shot. Además, los idiomas de baja recursos todavía se traducen mal, porque no tienen los datos que necesitan para entrenar modelos precisos.

Establecimiento de puntos de referencia: Los corpus paralelos siguen siendo esenciales para evaluar y establecer puntos de referencia del rendimiento de los modelos de traducción, particularmente desafiante para idiomas que carecen de suficientes datos de corpus paralelos. Las métricas automatizadas como BLEU, BLERT y METEOR tienen limitaciones al evaluar la sutileza en la calidad de la traducción aparte de la gramática. Pero luego, los humanos están limitados por nuestros sesgos. Además, no hay muchos evaluadores calificados ahí, y encontrar al evaluador bilingüe perfecto para cada par de idiomas para detectar errores sutiles es un desafío.

Intensidad de recursos: La naturaleza intensiva en recursos del entrenamiento y la implementación de los LLM es una barrera, limitando la accesibilidad para algunas aplicaciones u organizaciones.

Preservación cultural. La dimensión ética es profunda. Como describe Isaac Caswell, un científico de investigación de Google Translate, la Traducción Automática de Zero-Shot: “Puedes pensar en ello como un políglota que conoce muchos idiomas. Pero luego, además, ve texto en 1000 idiomas más que no se ha traducido. Puedes imaginar si eres algún gran políglota y luego simplemente comienzas a leer novelas en otro idioma, puedes empezar a armar qué podría significar basado en tu conocimiento del lenguaje en general”. Sin embargo, es crucial considerar el impacto a largo plazo en los idiomas menores que carecen de corpus paralelos, potencialmente afectando la preservación cultural cuando la dependencia se desvía de los idiomas en sí.

Irina Barskaya, PhD, Head Data Scientist at Yandex

Irina Barskaya, PhD, es una destacada científica de datos con más de una década de experiencia, que abarca tanto análisis de productos como análisis para tecnologías de vanguardia. Ella encabezó la creación y el análisis para Yasmina, el primer asistente de voz basado en IA completamente funcional y localizado para Arabia Saudita, manejando la compleja localización de datos y etiquetado para el árabe estándar moderno y los dialectos sauditas. Actualmente, Irina dirige el análisis de calidad en Yandex, impulsando avances en tecnologías de IA.