Home Ciencia y Tecnología Explorando arquitecturas alternativas para la predicción de LLM de múltiples token

Ciencia y Tecnología

Explorando arquitecturas alternativas para la predicción de LLM de múltiples token

Tania López

21 julio 2025

Tabla de enlaces

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Okay. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

B. Arquitecturas alternativas

Tabla S4: las arquitecturas alternativas mejoran en la línea de base, pero no tan consistentemente. Vale la pena explorar arquitecturas alternativas para la predicción múltiple para mejorar la eficiencia. Aquí probamos anticausales, causales y lineales y no mostramos una mejora significativa con respecto a la arquitectura paralela. Tabla S4: las arquitecturas alternativas mejoran en la línea de base, pero no tan consistentemente. Vale la pena explorar arquitecturas alternativas para la predicción múltiple para mejorar la eficiencia. Aquí probamos anticausales, causales y lineales y no mostramos una mejora significativa con respecto a la arquitectura paralela.

La arquitectura descrita en la Sección 2 no es la única opción sensata, sino que se demuestra técnicamente viable y bien realizada en nuestros experimentos. Describimos y comparamos arquitecturas alternativas en esta sección.

Sin embeddings replicados Replicar la matriz n Instances sin incrustación es un método easy para implementar arquitecturas de predicción de múltiples token. Sin embargo, requiere matrices con formas (D, NV) en la notación de la Sección 2, que es prohibitiva para los entrenamientos a gran escala.

Cabezales lineales Además de usar una sola capa de transformador para las cabezas hiotras arquitecturas son concebibles. Experimentamos con una sola capa lineal sin ninguna no linealidad como cabezas, que equivalen a sondeo lineal de la representación residual del modelo z. Las arquitecturas con más de una capa por cabeza también son posibles, pero no seguimos más esta dirección.

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Honest at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.

fuente

Explorando arquitecturas alternativas para la predicción de LLM de múltiples token

Tabla de enlaces

B. Arquitecturas alternativas

LEAVE A REPLY Cancel reply

Reciente

Prime No KYC On-line On line casino en 2025: por qué...

Actualización de Samsung July: Galaxy S25, S24, Fold 6 Obtener un...

Fox Nation adquiere los derechos de televisión al ‘verdadero freestyle americano’...

Otra víctima de transmisión, Corus cierra los canales de muchos niños

Nuevo arrendamiento de la vida para ‘Fortunate’ Shardul Thakur por delante...

‘Tan culpable como el CEO’: el silencio del astrónomo sobre el...

Historia de citas de Brittany Snow: todos sus famosos ex revelados,...

Chelsea Switch Information: Blues Star acepta términos personales con gigantes europeos...

Southwest Airways establece una fecha para el lanzamiento de la asignación...

El trailer de ‘The Baltimorons’: una emergencia de Nochebuena Spare un...