Apple acaba de publicar un artículo, en colaboración con la USC, que explora los métodos de aprendizaje automático empleados para brindar a los usuarios de su sistema operativo iOS18 más opciones sobre el género cuando se trata de traducción.
Aunque las cuestiones abordadas en el trabajo (que Apple ha anunciado aquí) se relacionan, hasta cierto punto, con debates actuales sobre las definiciones de género, se centra en un problema mucho más antiguo: el hecho de que 84 de los 229 idiomas conocidos en el mundo mundo utiliza un sistema de género basado en el sexo.
Sorprendentemente, el idioma inglés cae en la categoría basada en el sexo, porque asigna pronombres singulares masculinos o femeninos.
Por el contrario, todas las lenguas romances (incluidos más de 500 millones de hispanohablantes) –y muchas otras lenguas populares, como el ruso– requieren un acuerdo de género de tal manera que obligan a los sistemas de traducción a abordar la asignación de sexo en el lenguaje.
El nuevo artículo ilustra esto observando todas las posibles traducciones al español de la frase. La secretaria estaba enojada con el jefe.:
La traducción ingenua está lejos de ser suficiente para textos más largos, que pueden establecer el género al principio (‘Él’, ‘Ella’etc.) y posteriormente no volver a hacer referencia al género. No obstante, la traducción debe recordar el género asignado al participante. a lo largo del texto.
Esto puede ser un desafío para los enfoques basados en tokens que abordan las traducciones en fragmentos discretos y corren el riesgo de perder el contexto de género asignado durante toda la duración del contenido.
Peor aún, los sistemas que proporcionan traducciones alternativas para asignaciones de género sesgadas no pueden hacer esto indiscriminadamente, es decir, simplemente sustituyendo el sustantivo de género, sino que deben garantizar que todas las demás partes del lenguaje concuerden con el sustantivo de género cambiado.
En este ejemplo del artículo de Apple/USC, vemos que, sin embargo Secretario se le ha asignado un género masculino, el pasado singular era ha quedado como femenino (estaba):
Un sistema de traducción también debe hacer frente a las excentricidades de determinados idiomas con respecto al género. Como señala el artículo, el pronombre I tiene género en hindi, lo que proporciona una pista poco común sobre el género.
Cuestiones de género
En el nuevo artículo, titulado Generando alternativas de género en la traducción automáticalos investigadores de Apple y la USC proponen un método semisupervisado para convertir entidades de género ambiguo en una variedad de alternativas a nivel de entidad.
El sistema, que se utilizó para informar la traducción desde la aplicación Apple Translate en iOS18, construye un esquema de lenguaje tanto mediante el uso de modelos de lenguaje grandes (LLM) como mediante el ajuste de modelos de traducción automática de código abierto previamente entrenados.
Los resultados de las traducciones de estos sistemas se entrenaron en una arquitectura que contenía estructuras de género – grupos de frases que contienen diversas formas de sustantivos de distintos géneros que representan la misma entidad.
El documento dice*:
«Se sabe que los sesgos de género presentes en los datos de los trenes se filtran en los sistemas de procesamiento del lenguaje natural (PNL), lo que da lugar a la difusión y posible amplificación de esos sesgos. Estos sesgos suelen ser también la causa fundamental de los errores.
‘Un sistema de traducción automática (TA) podría, por ejemplo, traducir doctor al término español médico (masculino) en lugar de médica (femenino), dada la entrada “El médico le pidió a la enfermera que la ayudara en el procedimiento”.
‘Para evitar prescribir una asignación de género incorrecta, los sistemas de traducción automática deben eliminar la ambigüedad del género a través del contexto. Cuando no se puede determinar el género correcto a través del contexto, proporcionar múltiples alternativas de traducción que cubran todas las opciones de género válidas es un enfoque razonable.’
El enfoque al que llegaron los investigadores convierte efectivamente una traducción de un solo token a una matriz controlada por el usuario.
(Aunque el documento no lo menciona, esto abre la posibilidad, ya sea en Apple Translate o en portales similares que ofrecen servicios de traducción, de que las elecciones del usuario se retroalimenten en iteraciones posteriores del modelo)
El modelo desarrollado por Apple y USC se evaluó en los equipos de prueba GATE y MT-GenEval. GATE contiene oraciones fuente con hasta 3 entidades de género ambiguo, mientras que MT-GenEval contiene material donde no se puede inferir el género, lo que, según afirman los autores, ayuda a comprender cuándo no se deben ofrecer al usuario opciones de género alternativas.
En ambos casos, los conjuntos de prueba tuvieron que volver a anotarse para alinearlos con los objetivos del proyecto.
Para entrenar el sistema, los investigadores se basaron en un novedoso algoritmo de aumento automático de datos, a diferencia de los conjuntos de prueba antes mencionados, que fueron anotados por humanos.
Los conjuntos de datos que contribuyeron a la curación de Apple fueron Europarl; Títulos Wiki; y WikiMatrix. Los corpus se dividieron en día g (con 12.000 oraciones), que abarca oraciones con palabras principales para todas las entidades, junto con una anotación de género ambiguo; y G-Trans (con 50.000 frases), que contiene entidades de género ambiguo y alineamientos de género.
Los autores afirman:
“Hasta donde sabemos, este es el primer corpus a gran escala que contiene ambigüedades de género y cómo afectan las formas de género en la traducción”.
Se han puesto a disposición conjuntos de datos y diversos datos para el proyecto en GitHub. Los datos presentan cinco pares de idiomas, comparando el inglés con el ruso, el alemán, el francés, el portugués y el español.
Los autores aprovecharon un enfoque anterior de 2019 para dotar al modelo de la capacidad de generar alineaciones de género, entrenamiento con pérdida de entropía cruzada y una pérdida de alineación adicional.
Para la rutina de aumento de datos, los autores evitaron los métodos tradicionales basados en reglas en favor de un enfoque centrado en datos, ajustando un modelo de lenguaje BERT previamente entrenado en el conjunto de datos G-Tag.
Doble toma
Para los casos en los que se detectan entidades de género ambiguas, Apple y la USC exploraron dos métodos: el ajuste de modelos de lenguaje previamente entrenados y el uso de LLM.
Con respecto al primer método, el artículo afirma:
‘Ajustamos un modelo M de MT previamente entrenado en un bitexto extraído del conjunto de datos de G-Trans. Las oraciones fuente de este bitexto contienen entidades ambiguas etiquetadas como masculinas o femeninas usando
En la imagen de arriba, vemos el texto ajustado en la columna central inferior y el resultado deseado en la columna de la derecha, con el fundamento subyacente ilustrado arriba.
Para este enfoque, los autores utilizaron un método de puntuación de celosía de un trabajo anterior de 2020. Para garantizar que solo se abordara el dominio objetivo (género), se utilizó como filtro una búsqueda de haz restringido.
Para el enfoque LLM, los autores idearon una estrategia que utiliza un LLM como editor, reescribiendo las traducciones proporcionadas para proporcionar asignaciones de género.
Con los resultados de ambos enfoques concatenados, el modelo se ajustó posteriormente para clasificar los tokens de origen como alineado (indicado por ‘1’ en el esquema siguiente) o no alineado (indicado por ‘2’ a continuación).
Datos y pruebas
El entidad ambigua El detector utilizado para el proyecto se desarrolló ajustando el modelo xlm-roberta-large de Facebook AI, utilizando transformadores. Para ello, se utilizó el G-Tag combinado en los cinco pares de idiomas.
En el primero de los dos enfoques antes mencionados, el modelo M2M 1.2B se entrenó en Fairseq, junto con datos bitexto del conjunto de datos G-Trans, con inflexiones de género proporcionadas por Wiktionary.
Para el método LLM, los autores utilizaron GPT-3.5-turbo. Para la alineación de las estructuras de género, se utilizó nuevamente xlm-roberta-large, esta vez con alineaciones de género extraídas de G-Trans.
Métricas para la evaluación de alternativas, estructura (con precisión y recordar), y precisión de alineación.
Aunque los dos primeros se explican por sí solos, la precisión de la alineación mide el porcentaje de estructuras de género de salida que se ajustan a la identidad de fuente correcta conocida y utiliza el método δ-BLEU, de acuerdo con la metodología de MT-GenEval.
A continuación se muestran los resultados del proceso de aumento de datos:
Aquí los autores comentan*:
‘Tanto M2M como GPT funcionan en su mayoría a la par con la excepción de inglés-ruso, donde GPT logra una recuperación de alternativas mucho menor (58,7 en comparación con 89,3). La calidad de las estructuras de género generadas es mejor para GPT en inglés-alemán e inglés-portugués y mejor para M2M en inglés-español e inglés-ruso, como se puede ver en las métricas de la estructura.
“Tenga en cuenta que no tenemos datos de G-Trans para inglés-italiano, por lo que los resultados del modelo M2M y la precisión de la alineación en inglés-italiano se deben exclusivamente a la generalización cero de los modelos M2M y XLM”.
Los investigadores también compararon el rendimiento del sistema de aumento de datos, a través de M2M, con el reescritor de género a nivel de oración de GATE, en los términos declarados por el propio GATE.
Aquí el documento dice:
‘Vemos mejoras significativas en la recuperación a costa de una degradación relativamente pequeña en la precisión (excepto inglés-italiano). Nuestro sistema es capaz de superar a GATE en su métrica F.5 propuesta en los 3 pares de idiomas.’
Finalmente, los autores entrenaron diversos modelos multilingües “vainilla” en bitexto vainilla. Los conjuntos de datos que contribuyeron fueron WikiMatrix, WikiTitles, Multi-UN, NewsCommentary y Tilde.
Se entrenaron dos modelos básicos adicionales, uno que incorpora el conjunto de datos G-Trans con la etiqueta prefijada
Los modelos se probaron con el conjunto de datos FloRes de 2022.
El artículo resume estos resultados:
‘El modelo básico no puede generar alternativas y muestra un enorme sesgo hacia la generación de formas masculinas (δ-BLEU que oscila entre 5,3 y 12,5 puntos).
‘Este sesgo se reduce en gran medida con la línea de base supervisada. El modelo entrenado con datos aumentados reduce aún más el sesgo y obtiene el mejor rendimiento en términos de métricas alternativas, precisión de alineación y δ-BLEU.
‘Esto demuestra la eficacia del proceso de aumento de datos. Los datos aumentados también nos permiten entrenar un sistema competitivo para inglés-italiano que carece de datos supervisados.’
Los autores concluyen señalando que el éxito del modelo debe considerarse en el contexto más amplio de la lucha de la PNL por racionalizar la asignación de género en un método de traducción; y señalan que esto sigue siendo un problema abierto.
Aunque los investigadores consideran que los resultados obtenidos no logran plenamente el objetivo de generar traducciones y/o desambiguaciones neutrales al género a nivel de entidad, creen que el trabajo es un ‘poderoso instrumento’ para futuras exploraciones en uno de los áreas más desafiantes de la traducción automática.
* Mi conversión de las citas en línea de los autores a hipervínculos
Publicado por primera vez el martes 8 de octubre de 2024