Tabla de enlaces
Resumen y 1. Introducción
2. Método
3. Experimentos sobre datos reales
4. Ablaciones en datos sintéticos
5. ¿Por qué funciona? Algunas especulaciones
6. Trabajo relacionado
7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias
A. Resultados adicionales sobre la decodificación autoespeculativa
B. Arquitecturas alternativas
C. velocidades de entrenamiento
D. Finetuning
E. Resultados adicionales en el comportamiento de escala del modelo
F. Detalles sobre CodeContests Finetuning
G. Resultados adicionales en puntos de referencia del lenguaje pure
H. Resultados adicionales sobre resumen de texto abstractivo
I. Resultados adicionales sobre razonamiento matemático en lenguaje pure
J. Resultados adicionales sobre el aprendizaje de inducción
Okay. Resultados adicionales sobre razonamiento algorítmico
L. Intuiciones adicionales sobre la predicción múltiple
M. Entrenamiento de hiperparámetros
Pérdidas de modelado de idiomas Dong et al. (2019) y Tay et al. (2022) Entrene en una mezcla de tareas de renovación con diferentes máscaras de atención (atención completa, causal y prefijo) para cerrar la brecha de rendimiento con la próxima prisión previa en tareas generativas. Tay et al. (2022) utiliza el objetivo de corrupción de SPAN, que reemplaza los tramos de tokens con tokens especiales para el codificador y el decodificador, luego predice el contenido de esos tramos. A diferencia de UNILM, esto permite una capacitación causal completa con el forzamiento de los maestros. Del mismo modo, Yang et al. (2019) Entrenan en secuencias permutadas, mientras conservan las embedidas posicionales originales, entrenando efectivamente el modelo para predecir varias partes de la secuencia dada una combinación de información pasada y futura. Este modelado de idiomas permutado es la tarea más cercana para la nuestra, ya que permite predecir más allá del siguiente token. Sin embargo, todas estas tareas de modelado de idiomas entrenan en un pequeño porcentaje del texto de entrada: en promedio, solo el 15% de los tokens están atrasados. Para Dong et al. (2019), donde el enmascaramiento se realiza en estilo Bert, es difícil enmascarar más del 15%, ya que destruye demasiada información. Para Tay et al. (2022), es técnicamente posible tener una proporción mayor, pero en la práctica, la configuración utilizada tiene entre el 15% y el 25% de las fichas enmascaradas. (Yang et al., 2019) también permite entrenar en toda la secuencia, ya que solo se permite, y no se pierde información. Sin embargo, en la práctica, dado que la permutación completamente aleatoria es muy difícil de reconstruir, solo se predice el 15% por razones de estabilidad de entrenamiento.
Predicción múltiple en el modelado de idiomas Qi et al. (2020) argumentan que la predicción de múltiples token fomenta la planificación, mejora las representaciones y evita el sobreajuste de los patrones locales que pueden resultar de la capacitación forzada a los maestros. Sin embargo, su enfoque técnico duplicate la corriente n-plieguera, mientras que la nuestra permite comparaciones de comprobación y hace que las representaciones residuales participen más directamente en los términos de pérdida auxiliar. Stern et al. (2018) y Cai et al. (2024) proponen finetizaciones de modelo con predicción multitheken para una inferencia más rápida, pero no estudian los efectos de dicha pérdida durante la pretruación. Pal et al. (2023) Use métodos de sondeo para demostrar que los modelos de predicción de la próxima token pueden predecir tokens consecutivos adicionales hasta cierto punto, pero menos que nuestros modelos que están específicamente entrenados para esta tarea. Jianyu Zhang (2024) observa mejoras en las tareas de modelado de idiomas con clasificación binaria de múltiples etiquetas sobre la ocurrencia de palabras de vocabulario en el futuro como una tarea de aprendizaje auxiliar.
Decodificación autopeculativa Stern et al. (2018) son, según nuestro conocimiento, los primeros en sugerir un esquema de decodificación especulativo para una inferencia más rápida. Nuestra arquitectura reemplaza sus cabezales de predicción lineal por capas de transformadores, pero por lo demás es comparable. Al reorganizar el orden del delantero/hacia atrás, podemos usar todos los términos de pérdida en lugar de elegir estocásticamente una cabeza para el cálculo de pérdidas. Cai et al. (2024) Presentan un esquema de decodificación autopeculativo más elaborado que utiliza las predicciones de Prime-Okay de cada cabeza en lugar de la mejor. Se puede usar con los modelos de predicción de múltiples token que entrenamos.
Predicción multi-objetivo El aprendizaje de varias tareas es el paradigma de la capacitación de redes neuronales conjuntamente en varias tareas para mejorar el rendimiento en las tareas de interés (Caruana, 1997). El aprendizaje con tales tareas auxiliares permite a los modelos explotar las dependencias entre las variables objetivo e incluso puede ser preferible en el caso de objetivos independientes (Waegeman et al., 2019). Mientras que las arquitecturas más específicamente adaptadas para la predicción de múltiples objetivos son concebibles (Spyromitrosxioufis et al., 2016; Learn et al., 2021), los enfoques modernos de aprendizaje profundo generalmente dependen de grandes troncos de modelos compartidos con cabezas de predicción separadas para las tareas respectivas (Caruana, 1997; Silver et al., 2016; Lampher et al., 2022) como nosotros. Se ha demostrado que la predicción de objetivos múltiples es una estrategia exitosa en varios dominios, por ejemplo, la predicción de collection de tiempo de aprendizaje con pasos de tiempo más distantes en el futuro como objetivos auxiliares (Vapnik y Vashist, 2009) o para aprender de movies con varios marcos futuros (Mathieu et al., 2016; Srivastava, 2016) o representaciones de futuros mareos (Vondrick et al., 2016).
Autores:
(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;
(2) Badr Yoebi Idrissi, Honest at Meta, Lisn Université Paris-Saclayand y Contribución igual;
(3) Baptiste Rozière, justo en Meta;
(4) David López-Paz, feria en Meta y último autor;
(5) Gabriel Synnaeve, justo en Meta y un último autor.