Home Ciencia y Tecnología Desatar la velocidad de LLM: la decodificación autoespeculativa de múltiples token redefine...

Desatar la velocidad de LLM: la decodificación autoespeculativa de múltiples token redefine la inferencia

46
0

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Ok. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

A. Resultados adicionales sobre la decodificación autoespeculativa

Tabla S2: aceleraciones relativas con decodificación autopeculativa. Para Wikipedia y libros, provocamos un modelo de parámetros 7B capacitado en tokens 500B, y para el código provocamos un modelo de parámetros 7B capacitado en 1T tokens de código en 4200 secuencias de 512 tokens de un conjunto de datos de prueba no visto durante la capacitación y generar finalizaciones que consisten en 512 tokens utilizando una decodificación de autopeculación granulada (esterna et al., 2018). Modelo de predicción de 4 token. Tenga en cuenta que la aceleración máxima que se puede obtener con la decodificación autopeculativa usando K cabezales es k. La última columna muestra el número promedio de tokens recuperados de un delantero que contiene esta secuencia (verificación y predicción). La aceleración se evaluó en el tamaño de lote máximo de 42, pero es constante a través de los tamaños de lotes (Figura S10).

Tabla S3: aceleraciones relativas con decodificación autopeculativa con modelos de nivel de byte en el código. Involucramos los modelos de parámetros 7B de la Sección 3.3 en 4096 secuencias de 1024 bytes de código no vistos durante el entrenamiento, y generamos finalizaciones que consisten en 1024 bytes utilizando una decodificación autopeculativa codiciosa (Stern et al., 2018) como en la Tabla S2. La aceleración se evaluó a un tamaño por lotes de 16.

::: Data
Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Truthful at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.

:::


::: Información Este documento es Disponible en arxiv bajo CC por 4.0 licencia de escritura.

:::

fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here