Connect with us

Inteligencia artificial

Facebook Crea un Modelo de Traducción Automática que Puede Traducir Directamente entre 100 Diferentes Idiomas

mm

Facebook ha desarrollado recientemente un nuevo modelo de traducción automática que puede traducir texto entre cualquier par de idiomas dado de un conjunto de 100 idiomas. Mientras que otros sistemas de traducción automática existen, la mayoría de los otros sistemas de traducción de inteligencia artificial operan traduciendo primero el texto al inglés y luego convirtiendo el texto desde allí. Como informó Engadget, el traductor de inteligencia artificial de Facebook opera sin utilizar el idioma inglés como intermediario, y se informa que puede lograr una precisión de aproximadamente el 90%.

El conjunto de datos de entrenamiento de Facebook para el modelo de inteligencia artificial se componía de alrededor de 7.500 millones de pares de oraciones, distribuidos en 100 diferentes idiomas. Los datos se recopilaron de la web utilizando una serie de crawlers web, y los idiomas presentes en los datos recopilados se identificaron utilizando un modelo de lenguaje llamado FastText. Una vez que se recopilaron los datos, se procesaron a través de una herramienta llamada LASER 2.0 para extraer el significado de las diferentes muestras de oraciones y emparejar oraciones en diferentes idiomas según su significado. LASER 2.0 fue desarrollado por Facebook y emplea algoritmos de aprendizaje no supervisado para crear incrustaciones. Las incrustaciones de oraciones contienen información sobre las relaciones entre diferentes oraciones según características como la frecuencia de uso y la proximidad entre oraciones. LASER 2.0 puede crear pares de oraciones que tienen significados muy similares.

Los datos de entrenamiento no se emparejaron solo según el significado de las oraciones. Los idiomas en sí se agruparon. El objetivo era diseñar un sistema que no requiriera el uso del inglés como medio entre dos idiomas, con Angela Fan de Facebook, quien lideró el proyecto, señalando que muchas regiones de todo el mundo hablan dos idiomas que no son el inglés. Los ingenieros de Facebook llevaron a cabo el entrenamiento centrándose en emparejar idiomas que se traducen comúnmente entre sí. Se crearon catorce grupos de idiomas diferentes, basados en variables como la cultura, las similitudes lingüísticas y la geografía. Por ejemplo, uno de los grupos lingüísticos creado por los investigadores contenía los idiomas más comunes en la India, que incluyen los idiomas urdu, tamil, hindi y bengalí. Se hizo esto para que los idiomas emparejados comúnmente recibieran traducciones de alta calidad.

El método de entrenamiento centrado en el grupo de idiomas llevó a algunos resultados interesantes. Se encontró que el modelo de traducción resultante tenía una mayor precisión que los modelos existentes para ciertos pares de idiomas. Por ejemplo, al traducir del inglés al bielorruso, el modelo de inteligencia artificial podía aplicar ciertos patrones que había aprendido al traducir el ruso porque el bielorruso tiene similitudes lingüísticas con el ruso. De manera similar, los esfuerzos de traducción entre el español y el portugués mejoraron ya que el español es el segundo idioma más hablado y había una gran cantidad de datos de entrenamiento para la tarea.

Hay aproximadamente sesenta idiomas que el sistema de traducción aún no cubre, y la precisión del modelo en idiomas con poca cantidad de datos de entrenamiento necesita ser mejorada antes de que esté listo para su uso. Muchos idiomas en el sudeste asiático y África carecen del volumen de datos necesario para entrenar un modelo confiable. El equipo de investigación necesitará determinar alguna forma de compensar esta falta de datos. El equipo de investigación también necesitará determinar cómo controlar cualquier patrón racista, sexista o profano que el modelo pueda haber aprendido. Si bien el equipo de investigación ha utilizado un filtro de profanidad, el filtro funciona principalmente en los datos en inglés.

El sistema de traducción automática no se ha implementado en la plataforma de redes sociales de Facebook yet. El modelo actual es solo para fines de investigación. Sin embargo, Facebook se está preparando para diseñar modelos similares y hacer que manejen las aproximadamente 20.000 millones de solicitudes de traducción que el sitio recibe todos los días.

Bloguero y programador con especialidades en Machine Learning y Deep Learning temas. Daniel espera ayudar a otros a utilizar el poder de la IA para el bien social.