NLLB, un AI de Facebook para la traducción directa de texto
Hace poco Facebook dio a conocer mediante una publicación los desarrollos del proyecto NLLB (No Language Left Behind), cuyo objetivo es crear un modelo universal de aprendizaje automático para la traducción directa de texto de un idioma a otro, sin pasar por la traducción intermedia al inglés.
El modelo propuesto cubre más de 200 idiomas, incluidos idiomas raros africanos y australianos y el objetivo final del proyecto es proporcionar un medio de comunicación para todas las personas, independientemente del idioma que hablen.
Para ayudar a las personas a conectarse mejor hoy y ser parte del metaverso del mañana, los investigadores de Meta AI crearon No Language Left Behind (NLLB), un esfuerzo por desarrollar capacidades de traducción automática de alta calidad para la mayoría de los idiomas del mundo.
Hoy anunciamos un avance importante en NLLB: hemos creado un único modelo de IA llamado NLLB-200., que traduce 200 idiomas diferentes con resultados de vanguardia. Muchos de estos idiomas, como el kamba y el lao, no eran compatibles ni siquiera con las mejores herramientas de traducción existentes en la actualidad.
Sobre el proyecto se menciona que está destinado para simplificar la creación de proyectos utilizando el modelo propuesto, el código de aplicaciones utilizado para probar y evaluar la calidad de los modelos (FLORES-200, NLLB-MD, Toxicity-200), el código de entrenamiento de modelos y codificadores basados en la librería LASER3 (Representación de SOrencia agnóstica del idioma). El modelo final se ofrece en dos versiones: completa y reducida. La versión reducida requiere menos recursos y es adecuada para pruebas y uso en proyectos de investigación.
Actualmente, menos de 25 idiomas africanos son compatibles con herramientas de traducción ampliamente utilizadas, muchas de las cuales son de mala calidad. Por el contrario, NLLB-200 admite 55 idiomas africanos con resultados de alta calidad. En total, este modelo único puede proporcionar traducciones de alta calidad para idiomas hablados por miles de millones de personas en todo el mundo. En total, los puntajes BLEU de NLLB-200 mejoran el estado del arte anterior en un promedio del 44 por ciento en todas las direcciones de 10k del punto de referencia FLORES-101. Para algunos idiomas africanos e indios, el aumento es superior al 70 por ciento con respecto a los sistemas de traducción recientes.
A diferencia de otros sistemas de traducción de aprendizaje automático, la solución de Facebook se destaca por ofrecer un modelo común para los 200 idiomas, que cubre todos los idiomas y no requiere modelos separados para cada idioma.
La traducción se realiza directamente del idioma de origen al de destino, sin traducción intermedia al inglés. Para crear sistemas de traducción universales, se propone un modelo LID (Language IDentification) adicional, que permite determinar el idioma utilizado. Aquellos. el sistema puede reconocer automáticamente el idioma en el que se proporciona la información y traducirla al idioma del usuario.
La traducción es compatible en cualquier dirección, entre cualquiera de los 200 idiomas admitidos. Para confirmar la calidad de la traducción entre cualquier idioma, se preparó el conjunto de prueba de referencia FLORES-200, que mostró que el modelo NLLB-200, en términos de calidad de traducción, es en promedio un 44 % superior a los sistemas de investigación propuestos anteriormente basados en aprendizaje automático cuando se utilizan métricas BLEU que comparan la traducción automática con la traducción humana estándar. Para lenguas africanas raras y dialectos indios, la superioridad en calidad alcanza el 70%. Puede evaluar visualmente la calidad de la traducción en un sitio de demostración especialmente preparado .
Para quienes estén interesados en el proyecto, deben saber que el modelo está disponible bajo una licencia Creative Commons BY-NC 4.0, que permite la copia, distribución, inclusión en sus proyectos y creación de trabajos derivados, pero sujeto a atribución, retención de la licencia y uso únicamente con fines no comerciales. La herramienta de modelado tiene la licencia MIT. Para estimular el desarrollo utilizando el modelo NLLB, se decidió destinar 200 mil dólares para otorgar becas a investigadores.
Finalmente si estás interesado en poder conocer más al respecto sobre la nota, puedes consultar la publicación original en el siguiente enlace.