Home Ciencia y Tecnología Los modelos de IA entrenados en datos sintéticos aún siguen las tendencias...

Los modelos de IA entrenados en datos sintéticos aún siguen las tendencias de frecuencia conceptual

57
0

Resumen y 1. Introducción

2 conceptos en datos previos a la proyección y cuantificar la frecuencia

3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental

3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”

4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo

4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos

5 concepts adicionales de frecuencias conceptuales de pre -proyren

6 Prueba de la cola: ¡Déjalo mover!

7 Trabajo relacionado

8 conclusiones y problemas abiertos, reconocimientos y referencias

Parte I

Apéndice

A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación

B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación

C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I

D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto

E. Detalles experimentales

F. ¿Por qué y cómo usamos RAM ++?

G. Detalles sobre los resultados del grado de desalineación

Modelos H. T2I: evaluación

I. Resultados de clasificación: ¡Déjalo mover!

4 Probación de estrés La tendencia de escala de rendimiento de frecuencia conceptual

En esta sección, buscamos aislar el efecto de la frecuencia conceptual en el rendimiento de disparo cero controlando un issue influyente ampliamente conocido [127, 79]: Similidad en la distribución entre los datos de prueba previa y aguas abajo. Además, nuestro objetivo es validar nuestra hipótesis aún más examinando la relación entre la frecuencia conceptual y el rendimiento posterior en modelos entrenados en datos de pretrenesa con distribuciones de conceptos, imágenes y subtítulos de concepto controlados sintéticamente.

4.1 Management de muestras similares en datos previos a la altura y aguas abajo

Motivación. El trabajo previo ha sugerido que la similitud de nivel de muestra entre los conjuntos de datos previos a la altura y aguas abajo afecta el rendimiento del modelo [62, 79, 127, 94]. Esto deja abierto la posibilidad de que nuestros resultados de rendimiento de frecuencia sean simplemente un artefacto de este issue, es decir, a medida que aumenta la frecuencia conceptual, es possible que el conjunto de datos preventivo también contenga muestras más similares a los conjuntos de pruebas. Por lo tanto, investigamos si la frecuencia conceptual sigue siendo predictiva del rendimiento posterior después de controlar la similitud de nivel de muestra.

Configuración. Usamos el Laion-200m [10] conjunto de datos para este experimento. Primero verificamos que un modelo Clip-VIT-B-32 entrenado en el conjunto de datos LAION-200M (utilizado para estudiar la similitud de muestra en el trabajo anterior [79]) exhibe una tendencia de registro lineal related entre la frecuencia conceptual y el rendimiento de disparo cero. Luego, usamos el método de poda casi de Mayilvahanan et al. [79] Para eliminar 50 millones de muestras más similares a los conjuntos de pruebas del conjunto de datos LAON-200M previamente al prisión. Proporcionamos detalles para esto en APPX. E.1. Esto elimina las muestras más similares entre los conjuntos de prueba previa y prueba. Verificamos que este procedimiento influya drásticamente en el rendimiento del modelo en nuestras tareas de clasificación y recuperación agregadas, respectivamente, replicando los hallazgos de Mayilvahanan et al. [79].

Hallazgo clave: La frecuencia conceptual aún predictiva del rendimiento. Repetimos nuestro análisis en modelos capacitados con este conjunto de datos de pretrenesa controlado con muestras de 150 m, e informamos los resultados en los mismos conjuntos de datos de clasificación y recuperación aguas abajo en la Fig. 4 (izquierda). A pesar de la eliminación de las muestras más similares entre los conjuntos de prueba previa y de prueba, todavía observamos consistentemente una relación clara-lineal de registro entre la frecuencia previa al pretratamiento de los conceptos del conjunto de pruebas y el rendimiento de disparo cero.

Conclusión. Este análisis reafirma que, a pesar de eliminar las muestras de previación, estrechamente relacionadas con los conjuntos de pruebas, la relación log-lineal entre la frecuencia conceptual y el rendimiento de disparo cero persiste. Tenga en cuenta que esto a pesar de las disminuciones sustanciales en el rendimiento absoluto, destacando la robustez de la frecuencia conceptual como un indicador de rendimiento.

Figura 5: La distribución del concepto de conjuntos de datos previos al entrenamiento es altamente de cola larga. Mostramos la distribución de las frecuencias previas al entrenamiento de todos los conceptos agregados en todos nuestros conjuntos de datos de clasificación posterior. En los tres conjuntos de datos previos al entrenamiento, observamos colas muy pesadas. Normalizamos las frecuencias conceptuales y eliminamos los conceptos con 0 recuentos para una mejor legibilidad.Figura 5: La distribución del concepto de conjuntos de datos previos al entrenamiento es altamente de cola larga. Mostramos la distribución de las frecuencias previas al entrenamiento de todos los conceptos agregados en todos nuestros conjuntos de datos de clasificación posterior. En los tres conjuntos de datos previos al entrenamiento, observamos colas muy pesadas. Normalizamos las frecuencias conceptuales y eliminamos los conceptos con 0 recuentos para una mejor legibilidad.

4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos

Motivación. El muestreo a través de los datos del mundo actual podría no dar lugar a diferencias significativas en la distribución de conceptos, como mostraremos más tarde en la Sec. 5. Por lo tanto, repitimos nuestro análisis en un conjunto de datos sintético diseñado con una distribución de conceptos explícitamente diferente [51]. Esta evaluación tiene como objetivo comprender si la frecuencia conceptual de previación sigue siendo un predictor de rendimiento significativo dentro de una distribución de conceptos sintéticos, generalizando incluso en modelos previos a las imágenes y subtítulos completamente sintéticos.

Configuración. El conjunto de datos Synthci-30m [51] Presenta una nueva distribución de conceptos, generando 30 millones de pares de texto sintético. Utilizando los datos y modelos disponibles públicamente de este punto de referencia, exploramos la relación entre la frecuencia conceptual y el rendimiento del modelo en este régimen de datos sintéticos.

Hallazgo clave: La frecuencia conceptual sigue siendo predictiva del rendimiento. Informamos resultados en modelos capacitados con su conjunto de datos controlado en la Fig. 4 (derecha). Todavía observamos consistentemente una relación clara-lineal de registro entre la frecuencia conceptual y el rendimiento de disparo cero.

Conclusión. Esta consistencia destaca que la frecuencia conceptual es un indicador robusto del rendimiento del modelo, que se extiende incluso a conjuntos de datos construidos sintéticamente y distribuciones de conceptos previos a la preparación.

Autores:

(1) Vishaal Udandarao, Tubingen AI Heart, Universidad de Tubingen, Universidad de Cambridge y contribución igual;

(2) Ameya Prabhu, Tubingen AI Heart, Universidad de Tubingen, Universidad de Oxford, y contribución igual;

(3) Adhiraj Ghosh, Tubingen AI Heart, Universidad de Tubingen;

(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;

(5) Philip HS Torr, Universidad de Oxford;

(6) Adel Bibi, Universidad de Oxford;

(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;

(8) Matthias Bethge, Tubingen Ai Heart, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.


fuente