Home Ciencia y Tecnología Predicción múltiple de token: razonamiento algorítmico de maestría con uso mejorado de...

Predicción múltiple de token: razonamiento algorítmico de maestría con uso mejorado de recursos

34
0

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Okay. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

Okay. Resultados adicionales sobre razonamiento algorítmico

Investigamos lo siguiente Hipótesis de compartir el cálculo para explicar la eficacia de la predicción múltiple como pérdida de entrenamiento.

La dificultad de predicción de diferentes tokens en el texto pure varía mucho. Algunos tokens pueden ser las continuaciones de palabras parciales que se determinan de manera única a partir de su contexto anterior sin ningún esfuerzo, mientras que otros pueden requerir los nombres de los teoremas en pruebas matemáticas difíciles o la respuesta correcta a una pregunta del examen. Se ha demostrado que los modelos de lenguaje con conexiones residuales refinan su distribución de tokens de salida con cada capa sucesiva, y pueden ser entrenados con estrategias de salida temprana que gastan cantidades variables de recursos computacionales por posición de token. Las pérdidas de predicción de múltiples token fomentan explícitamente el intercambio de información entre las posiciones de token adyacentes y, por lo tanto, pueden verse como un método para aprender la asignación de recursos computacionales en los modelos de lenguaje de manera más eficiente a los tokens que benefician a la mayor parte.

Para verificar la verdad de esta hipótesis, aumentamos la tarea aritmética polinomial de la Sección 4.2 con un número variable de tokens de pausa (Goyal et al., 2023) Insertado entre la pregunta y un token que denota el comienzo de la respuesta. Los tokens de pausa introducen recursos computacionales adicionales que se pueden gastar para los cálculos que se espera que sean útiles más adelante en la secuencia, en otras palabras: para comenzar a pensar en la respuesta. Según el Hipótesis de compartir el cálculolos modelos de predicción de múltiples token aprenden a compartir información y, por lo tanto, el intercambio de cálculos entre las posiciones de token más fácilmente, y puede ser mejor para utilizar estos recursos computacionales adicionales que los modelos de predicción de los próximos token. En la Figura S15, mostramos los resultados de la evaluación en la tarea aritmética polinomial con un número fijo de tokens de pausa insertados tanto en el tiempo de entrenamiento como de evaluación. Los modelos de predicción de múltiples token también superan a los modelos de predicción de la siguiente token en estas variantes de tareas a través de dificultades de tareas y tamaños de modelos. Sin embargo, no vemos una fuerte evidencia de una ampliación o reducción de esta brecha, es decir, no podemos concluir de estos experimentos sobre la veracidad de la hipótesis de compartir el cálculo.

En la Tabla S11, informamos los resultados de otro experimento con el mismo espíritu: al agregar espacios y nuevas líneas a las indicaciones humaneval y MBPP, agregamos “tokens de pausa” de una manera algo pure. Según estos resultados, los modelos de predicción de múltiples token tienen una ligera ventaja en el uso de este cómputo provisto adicionalmente, pero el efecto es marginal.

Figura S15: Precisión en una tarea aritmética polinomial con un número variable de operaciones por expresión y tokens de pausa. Entrenamos y evaluamos modelos en la tarea aritmética polinomial descrita en la Sección 4.2, modificada por la adición de tokens de pausa (Goyal et al., 2023): entre la pregunta y el signo de igualdad que indica el comienzo de la respuesta, agregamos un número constante de tokens de pausa tanto en entrenamiento como evaluación. Tanto para una variante con cinco y con diez tokens de pausa, respectivamente, observamos mejoras comparables al usar una predicción múltiple a las obtenidas en el caso sin tokens de pausa (Figura 8).Figura S15: Precisión en una tarea aritmética polinomial con un número variable de operaciones por expresión y tokens de pausa. Entrenamos y evaluamos modelos en la tarea aritmética polinomial descrita en la Sección 4.2, modificada por la adición de tokens de pausa (Goyal et al., 2023): entre la pregunta y el signo de igualdad que indica el comienzo de la respuesta, agregamos un número constante de tokens de pausa tanto en entrenamiento como evaluación. Tanto para una variante con cinco y con diez tokens de pausa, respectivamente, observamos mejoras comparables al usar una predicción múltiple a las obtenidas en el caso sin tokens de pausa (Figura 8).

Tabla S11: Utilización de tokens en blanco adicionales en puntos de referencia de código.Tabla S11: Utilización de tokens en blanco adicionales en puntos de referencia de código.

Figura S16: precisión en una tarea aritmética polinomial para dos tamaños de modelo. Entrenamos y evaluamos modelos con parámetros de 30 m y 100 m en la tarea aritmética polinomial descrita en la Sección 4.2. Triplicar el tamaño del modelo tiene un efecto menor en el rendimiento que reemplazar la pérdida de predicción de la siguiente token por predicción múltiple. Se muestran dos ejecuciones independientes por configuración y sus medias, los modelos de parámetros de 100 m son idénticos a los de la Figura 8.Figura S16: precisión en una tarea aritmética polinomial para dos tamaños de modelo. Entrenamos y evaluamos modelos con parámetros de 30 m y 100 m en la tarea aritmética polinomial descrita en la Sección 4.2. Triplicar el tamaño del modelo tiene un efecto menor en el rendimiento que reemplazar la pérdida de predicción de la siguiente token por predicción múltiple. Se muestran dos ejecuciones independientes por configuración y sus medias, los modelos de parámetros de 100 m son idénticos a los de la Figura 8.

Tabla S12: temperaturas óptimas para todos los números en la Tabla 1Tabla S12: temperaturas óptimas para todos los números en la Tabla 1

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Truthful at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here