Home Ciencia y Tecnología Rendimiento del código del mundo actual: Finetuning múltiple en CodeContests

Ciencia y Tecnología

Rendimiento del código del mundo actual: Finetuning múltiple en CodeContests

Tania López

22 julio 2025

Tabla de enlaces

Resumen y 1. Introducción

2. Método

3. Experimentos sobre datos reales

4. Ablaciones en datos sintéticos

5. ¿Por qué funciona? Algunas especulaciones

6. Trabajo relacionado

7. Conclusión, declaración de impacto, impacto ambiental, reconocimientos y referencias

A. Resultados adicionales sobre la decodificación autoespeculativa

B. Arquitecturas alternativas

C. velocidades de entrenamiento

D. Finetuning

E. Resultados adicionales en el comportamiento de escala del modelo

F. Detalles sobre CodeContests Finetuning

G. Resultados adicionales en puntos de referencia del lenguaje pure

H. Resultados adicionales sobre resumen de texto abstractivo

I. Resultados adicionales sobre razonamiento matemático en lenguaje pure

J. Resultados adicionales sobre el aprendizaje de inducción

Ok. Resultados adicionales sobre razonamiento algorítmico

L. Intuiciones adicionales sobre la predicción múltiple

M. Entrenamiento de hiperparámetros

F. Detalles sobre CodeContests Finetuning

Utilizamos el subconjunto de Python de las codecontestas (Li et al., 2022) dividida en el tren con anotaciones de recompensa (“correcto” / “incorrecto”) y condición en soluciones correctas en el tiempo de evaluación. Para la evaluación, generamos 1000 muestras por problema a partir de la división de prueba para cada temperatura t ∈ {0.5, 0.6, 0.7, 0.8, 0.9}, y calculamos el estimador imparcial para pase@okay de Chen et al. (2021) Para cada valor de Ok y T. Es posible que los modelos que estuvieran provocados con diferentes pérdidas tengan diferentes temperaturas óptimas respectivas para Go@Ok, por lo que calculamos y mostramos Ok 7 → Maxt Pass_at (Ok, T) en la Figura 4. En otras palabras, otorgamos el acceso de Go@Ok a un Oracle de temperatura. Para valores pequeños de Ok, Go@Ok mide la capacidad de comprender y resolver tareas, mientras que para Ok grande, también favorece la diversidad en los resultados. Según los resultados en la Figura 4, la predicción de la prueba de múltiples token conduce a modelos finetos que son mejores en ambos ejes.

Autores:

(1) Fabian Gloeckle, justo en Meta, Cermics Ecole des Ponts Paristech y contribución igual;

(2) Badr Yoebi Idrissi, Honest at Meta, Lisn Université Paris-Saclayand y Contribución igual;

(3) Baptiste Rozière, justo en Meta;

(4) David López-Paz, feria en Meta y último autor;

(5) Gabriel Synnaeve, justo en Meta y un último autor.

fuente

Rendimiento del código del mundo actual: Finetuning múltiple en CodeContests

Tabla de enlaces

F. Detalles sobre CodeContests Finetuning

LEAVE A REPLY Cancel reply

Reciente

Cómo las interfaces de la computadora cerebral (BCIS) y los sistemas...

El marco de acuerdo comercial de la Casa Blanca, las conversaciones...

Givon comparte sus fechas muy esperadas ‘queridas amadas, la gira’

Olímpicos de EE. UU., Los funcionarios paralímpicos provengan de las mujeres...

Muerte de Ozzy Osbourne: “Period uno de los buenos chicos de...

La serie de Marvel’s Marvel Man está tomando prestado un truco...

AWS expande su centro de innovación de IA generativo con inversión...

Bromley en poder de Palace Sub-21s en 2-2 Draw Pleasant de...

¿Por qué no existen motores de automóviles de siete cilindros?

Trapes de deslizamiento de mineros de oro en el este del...