Home Ciencia y Tecnología Explorando arquitecturas alternativas para la predicción de LLM de múltiples token

Explorando arquitecturas alternativas para la predicción de LLM de múltiples token

33
0

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Okay. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

B. Arquitecturas alternativas

Tabla S4: las arquitecturas alternativas mejoran en la línea de base, pero no tan consistentemente. Vale la pena explorar arquitecturas alternativas para la predicción múltiple para mejorar la eficiencia. Aquí probamos anticausales, causales y lineales y no mostramos una mejora significativa con respecto a la arquitectura paralela.Tabla S4: las arquitecturas alternativas mejoran en la línea de base, pero no tan consistentemente. Vale la pena explorar arquitecturas alternativas para la predicción múltiple para mejorar la eficiencia. Aquí probamos anticausales, causales y lineales y no mostramos una mejora significativa con respecto a la arquitectura paralela.

La arquitectura descrita en la Sección 2 no es la única opción sensata, sino que se demuestra técnicamente viable y bien realizada en nuestros experimentos. Describimos y comparamos arquitecturas alternativas en esta sección.

Sin embeddings replicados Replicar la matriz n Instances sin incrustación es un método easy para implementar arquitecturas de predicción de múltiples token. Sin embargo, requiere matrices con formas (D, NV) en la notación de la Sección 2, que es prohibitiva para los entrenamientos a gran escala.

Cabezales lineales Además de usar una sola capa de transformador para las cabezas hiotras arquitecturas son concebibles. Experimentamos con una sola capa lineal sin ninguna no linealidad como cabezas, que equivalen a sondeo lineal de la representación residual del modelo z. Las arquitecturas con más de una capa por cabeza también son posibles, pero no seguimos más esta dirección.

Figura S11: Orden del delantero/hacia atrás en un modelo de predicción causal de N-Token con N = 2 cabezas. Al igual que en el avance/retroceso representado para los cabezales de predicción paralelos en la Figura 2, evitamos materializar todos los gradientes de la capa sin incrustaciones en la memoria simultáneamente y reducir significativamente el uso máximo de la memoria GPU. La iteración sobre las cabezas comienza con la más alejada del tronco. En cada cabeza, se acumula un gradiente de los cabezales de predicción sucesivos y de la propia pérdida de la cabeza para la salida de la cabeza y sus pesos.Figura S11: Orden del delantero/hacia atrás en un modelo de predicción causal de N-Token con N = 2 cabezas. Al igual que en el avance/retroceso representado para los cabezales de predicción paralelos en la Figura 2, evitamos materializar todos los gradientes de la capa sin incrustaciones en la memoria simultáneamente y reducir significativamente el uso máximo de la memoria GPU. La iteración sobre las cabezas comienza con la más alejada del tronco. En cada cabeza, se acumula un gradiente de los cabezales de predicción sucesivos y de la propia pérdida de la cabeza para la salida de la cabeza y sus pesos.

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Honest at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here