Home Ciencia y Tecnología Igniting Era Energy: LLMS múltiple para resumen de texto avanzado

Igniting Era Energy: LLMS múltiple para resumen de texto avanzado

41
0

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Ok. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

H. Resultados adicionales sobre resumen de texto abstractivo

En esta sección, informamos resultados de evaluación integrales en las tareas de resumen para los modelos de parámetros 7B capacitados en tokens 200B y 500B de lenguaje pure de la Sección 3.7.

Tabla S8: Evaluación integral sobre resumen de texto abstractivo. Las puntuaciones F1 Rouge-N (superposición de N-Gram) y Rouge-L (superposición de posterior común más larga) F1 para modelos 7B entrenados en tokens 200B y 500B de lenguaje natural, respectivamente. Las últimas tres columnas corresponden a modelos entrenados en tokens 500B, los tres anteriores a modelos entrenados en tokens 200B. Se muestran números de la línea de base N = 1 y la diferencia absoluta de los modelos N = 2 y N = 4 entrenados en el mismo número de tokens. Rouge-L de nivel sumario (Tabla S8: Evaluación integral sobre resumen de texto abstractivo. Las puntuaciones F1 Rouge-N (superposición de N-Gram) y Rouge-L (superposición de posterior común más larga) F1 para modelos 7B entrenados en tokens 200B y 500B de lenguaje natural, respectivamente. Las últimas tres columnas corresponden a modelos entrenados en tokens 500B, los tres anteriores a modelos entrenados en tokens 200B. Se muestran números de la línea de base N = 1 y la diferencia absoluta de los modelos N = 2 y N = 4 entrenados en el mismo número de tokens. Rouge-L de nivel sumario (

Tabla S9: rendimiento en resumen de texto abstractivo. Rouge-L (Superposición de posterior común más larga) F1 Puntuación para modelos 7B entrenados en tokens 200B y 500B de lenguaje natural. Finetizamos los modelos respectivos en los datos de capacitación de cada tarea por separado para un número determinado de épocas y seleccionamos los puntos de control con Rouge-L F1 máximo en el conjunto de datos de validación. La segunda y la quinta columna informan los números para un modelo de predicción de la siguiente token, mientras que el tercero, cuarto, sexto y séptimo informan las mejoras absolutas para los modelos de predicción de 2 y 4 token entrenados en la misma cantidad de datos, respectivamente. Boldface para números dentro de la diferencia 0.05 a la mejor para cada tamaño del conjunto de datos por separado.Tabla S9: rendimiento en resumen de texto abstractivo. Rouge-L (Superposición de posterior común más larga) F1 Puntuación para modelos 7B entrenados en tokens 200B y 500B de lenguaje natural. Finetizamos los modelos respectivos en los datos de capacitación de cada tarea por separado para un número determinado de épocas y seleccionamos los puntos de control con Rouge-L F1 máximo en el conjunto de datos de validación. La segunda y la quinta columna informan los números para un modelo de predicción de la siguiente token, mientras que el tercero, cuarto, sexto y séptimo informan las mejoras absolutas para los modelos de predicción de 2 y 4 token entrenados en la misma cantidad de datos, respectivamente. Boldface para números dentro de la diferencia 0.05 a la mejor para cada tamaño del conjunto de datos por separado.

Tabla S10: Estadísticas resumidas para evaluaciones de resumen de texto abstractos. Se informan promedios para las métricas Rouge-N y Rouge-L en todos los conjuntos de datos de la Tabla S8, por separado para precisión, recuperación y puntaje F1. Los modelos de predicción de 2 y 4 token superan la línea de base de predicción de la siguiente token. Entrenados en tokens 500B, los modelos de predicción de 4 token parecen mejores en las métricas de recuperación, mientras que los modelos de predicción de 2 token parecen mejores en las métricas de precisión. Los puntos de control del modelo se seleccionan como se describe en la Tabla S8. Boldface para números dentro de la diferencia 0.05 a la mejor para cada tamaño del conjunto de datos por separado.Tabla S10: Estadísticas resumidas para evaluaciones de resumen de texto abstractos. Se informan promedios para las métricas Rouge-N y Rouge-L en todos los conjuntos de datos de la Tabla S8, por separado para precisión, recuperación y puntaje F1. Los modelos de predicción de 2 y 4 token superan la línea de base de predicción de la siguiente token. Entrenados en tokens 500B, los modelos de predicción de 4 token parecen mejores en las métricas de recuperación, mientras que los modelos de predicción de 2 token parecen mejores en las métricas de precisión. Los puntos de control del modelo se seleccionan como se describe en la Tabla S8. Boldface para números dentro de la diferencia 0.05 a la mejor para cada tamaño del conjunto de datos por separado.

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Truthful at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here