Home Ciencia y Tecnología Rendimiento del código del mundo actual: Finetuning múltiple en CodeContests

Rendimiento del código del mundo actual: Finetuning múltiple en CodeContests

33
0

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Ok. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

F. Detalles sobre CodeContests Finetuning

Utilizamos el subconjunto de Python de las codecontestas (Li et al., 2022) dividida en el tren con anotaciones de recompensa (“correcto” / “incorrecto”) y condición en soluciones correctas en el tiempo de evaluación. Para la evaluación, generamos 1000 muestras por problema a partir de la división de prueba para cada temperatura t ∈ {0.5, 0.6, 0.7, 0.8, 0.9}, y calculamos el estimador imparcial para pase@okay de Chen et al. (2021) Para cada valor de Ok y T. Es posible que los modelos que estuvieran provocados con diferentes pérdidas tengan diferentes temperaturas óptimas respectivas para Go@Ok, por lo que calculamos y mostramos Ok 7 → Maxt Pass_at (Ok, T) en la Figura 4. En otras palabras, otorgamos el acceso de Go@Ok a un Oracle de temperatura. Para valores pequeños de Ok, Go@Ok mide la capacidad de comprender y resolver tareas, mientras que para Ok grande, también favorece la diversidad en los resultados. Según los resultados en la Figura 4, la predicción de la prueba de múltiples token conduce a modelos finetos que son mejores en ambos ejes.

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Honest at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.


fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here