Home Ciencia y Tecnología Analizar el impacto de la frecuencia previa al ejercicio en el rendimiento...

Analizar el impacto de la frecuencia previa al ejercicio en el rendimiento de disparo cero en modelos multimodales

35
0

Resumen y 1. Introducción

2 conceptos en datos previos a la proyección y cuantificar la frecuencia

3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental

3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”

4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo

4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos

5 concepts adicionales de frecuencias conceptuales de pre -proyren

6 Prueba de la cola: ¡Déjalo mover!

7 Trabajo relacionado

8 conclusiones y problemas abiertos, reconocimientos y referencias

Parte I

Apéndice

A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación

B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación

C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I

D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto

E. Detalles experimentales

F. ¿Por qué y cómo usamos RAM ++?

G. Detalles sobre los resultados del grado de desalineación

Modelos H. T2I: evaluación

I. Resultados de clasificación: ¡Déjalo mover!

3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero”

Después de haber obtenido estimaciones de frecuencia para nuestros conceptos posteriores, ahora establecemos la relación entre las frecuencias conceptuales de previación del texto de texto y el rendimiento de disparo cero en las tareas de clasificación, recuperación y generación. Primero detallamos nuestro enfoque experimental y luego discutimos los resultados clave.

3.1 Configuración experimental

Analizamos dos clases de modelos multimodales: texto de imagen y texto a imagen. Para ambos, detallamos los conjuntos de datos de pretrenesa y de prueba, junto con sus parámetros de evaluación asociados.

3.1.1 modelos de texto de imagen (clip)

Conjuntos de datos. Nuestra evaluación consta de 4 conjuntos de datos previos al pretreramiento, 2 conjuntos de datos de recuperación aguas abajo y 17 conjuntos de datos de clasificación aguas abajo, presentados en Tab. 1, que cubre un amplio espectro de objetos, escenas y distinciones de grano fino.

Modelos. Probamos el clip [91] modelos con ambos resnet [53] y transformador de visión [36] Arquitectura, con VIT-B-16 [81] y rn50 [48, 82] Entrenado en CC-3M y CC-12M, VIT-B-16, RN50 y RN101 [61] Entrenado en YFCC-15M y VIT-B-16, VIT-B-32 y VIT-L-14 entrenados en LAION400M [102]. Seguimos el clip abierto [61]deslizar [81] y ciclista [48] Para todos los detalles de implementación.

Incitación. Para una clasificación de disparo cero, experimentamos con tres estrategias de solicitud: {classname} solamente, “Una foto de un {classname}” y se envía un aviso. [91]que promedia más de 80 variaciones rápidas diferentes de {classname}. Para la recuperación, usamos la imagen o la leyenda como entrada correspondiente a la recuperación I2T (imagen a texto) o T2I (texto a imagen) respectivamente.

Métrica. Calculamos la precisión de clasificación de disparo cero medio para tareas de clasificación [91]. Para la recuperación, evaluamos el rendimiento utilizando métricas tradicionales para tareas de recuperación de texto a imagen y imagen a texto [91] (Recuerde@1, recuperar@5, recuperar@10).

3.1.2 Modelos de texto a imagen

Conjuntos de datos. Nuestro conjunto de datos previos al ejercicio es Laion-Aesthetics [103]con evaluaciones posteriores realizadas en versiones submuestreadas de ocho conjuntos de datos lanzados por Heim [71]: Cub200 [121]Every day-Dalle [33],

Tabla 2: Modelos utilizados en experimentos de texto a imagen (T2I).Tabla 2: Modelos utilizados en experimentos de texto a imagen (T2I).

Figura 2: Relaciones log-lineales entre la frecuencia conceptual y el rendimiento del clip cero-disparo. En todas las arquitecturas probadas (RN50, RN101, VIT-B-32, VIT-B-16, VIT-L-14) y conjuntos de datos preventivos (CC-3M, CC-12M, YFCC-15M, Laion-400M), observamos una relación lineal consistente entre el rendimiento de disparo cero de Clip en un concepto y la frecuencia de concepto de concepto de concepto de concepto logetizado. Esta tendencia es válida tanto para la clasificación de disparo cero (resultados promediados en 17 conjuntos de datos) como para la recuperación de texto de imagen (resultados promediados en 2 conjuntos de datos). ** Indica que el resultado es significativo (p <0.05 con una prueba t de dos colas), y por lo tanto mostramos la correlación de Pearson (ρ) también.Figura 2: Relaciones log-lineales entre la frecuencia conceptual y el rendimiento del clip cero-disparo. En todas las arquitecturas probadas (RN50, RN101, VIT-B-32, VIT-B-16, VIT-L-14) y conjuntos de datos preventivos (CC-3M, CC-12M, YFCC-15M, Laion-400M), observamos una relación lineal consistente entre el rendimiento de disparo cero de Clip en un concepto y la frecuencia de concepto de concepto de concepto de concepto logetizado. Esta tendencia es válida tanto para la clasificación de disparo cero (resultados promediados en 17 conjuntos de datos) como para la recuperación de texto de imagen (resultados promediados en 2 conjuntos de datos). ** Indica que el resultado es significativo (p <0.05 con una prueba t de dos colas), y por lo tanto mostramos la correlación de Pearson (ρ) también.

Detección [30]Parti-Prompts [130]Banco de dibujo [98]Base de coco [73]Comprensión relacional [32] y Winogrund [114]. Consulte Heim [71] Para más detalles sobre los conjuntos de datos de evaluación utilizados.

Modelos. Evaluamos 24 modelos T2I, detallados en la pestaña. 2. Sus tamaños van desde parámetros 0.4B (Deepfloyd-if-M [9] y dall · e mini [34]) a 4.3b parámetros (Deepfloyd-if-xl [9]). Incluimos varios modelos de difusión estables [96] así como variantes sintonizadas para estilos visuales específicos [6, 4, 5].

Incitación. Las indicaciones de texto de los conjuntos de datos de evaluación se utilizan directamente para generar imágenes, con 4 muestras de imagen generadas para cada mensaje.

Métrica. La evaluación consiste en alineación de texto de imagen y puntajes estéticos. Para métricas automatizadas [71]usamos un puntaje de clip esperado y máximo [57] para medir la alineación de texto de imagen junto con la puntuación de estética esperada y Max [102] para medir la estética. Para verificar la confiabilidad de las métricas automatizadas, las comparamos con las puntuaciones con clasificación humana (medida en una escala de calificación de 5 puntos) tanto para la alineación de texto de imagen como para la estética [71]. Para complementar los puntajes con calificación humana proporcionadas por Heim [71]Confirmamos nuestros hallazgos realizando una evaluación humana a pequeña escala también (ver Appx. C).

Figura 3: Relaciones log-lineales entre la frecuencia conceptual y las puntuaciones estéticas T2I. En todos los modelos T2I probados previamente en el conjunto de datos de Laion-Aesthetics, observamos una relación lineal consistente entre el rendimiento de disparo cero en un concepto y la frecuencia de prevención de concepto a escala logarítmica.Figura 3: Relaciones log-lineales entre la frecuencia conceptual y las puntuaciones estéticas T2I. En todos los modelos T2I probados previamente en el conjunto de datos de Laion-Aesthetics, observamos una relación lineal consistente entre el rendimiento de disparo cero en un concepto y la frecuencia de prevención de concepto a escala logarítmica.

3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”

Ahora sondeamos el impacto de la frecuencia conceptual en los conjuntos de datos previos a la preparación en el rendimiento de disparo cero de los modelos de texto de imagen. Utilizamos las frecuencias de concepto de texto de imagen coincidentes para estimar la frecuencia de los conceptos durante el pretratamiento. Nuestros hallazgos, ilustrados exhaustivamente en las Figs. 2 y 3, demuestre la frecuencia del concepto de efecto en el rendimiento del modelo en varias tareas y tipos de modelos.

Comprender las tramas. Los gráficos en el documento principal presentan resultados de clasificación de disparos de texto de texto (clip) con precisión y rendimiento de recuperación de texto a imagen utilizando recuperación@10. Del mismo modo, presentamos el rendimiento de los modelos generativos T2I en las tareas de generación de imágenes utilizando la puntuación estética esperada. Para las otras métricas mencionadas anteriormente para la recuperación, así como otras métricas de generación automatizada, junto con puntajes con clasificación humana, encontramos que muestran tendencias similares, y las proporcionamos como referencia en las aplicaciones. B y C. Para mayor claridad, la presentación de datos se simplifica de gráficos de dispersión a una línea cohesiva related al trabajo de Kandpal et al. [62] y Razeghi et al. [94]. El eje X está escala logarítmica, y las métricas de rendimiento se promedian dentro de los contenedores a lo largo de este eje para facilitar la visualización de la correlación log-lineal. Eliminamos los contenedores que contienen muy pocos conceptos por contenedor por eliminación estándar de IQR [122] Siguiendo a Kandpal et al. [62]. Además, calculamos la correlación de Pearson para cada línea y proporcionamos resultados de importancia basados ​​en una prueba t de dos colas [110].

Hallazgo de clave: escala log-lineal entre la frecuencia conceptual y el rendimiento de disparo cero. En las 16 parcelas, observamos una relación clara-lineal de registro entre la frecuencia conceptual y el rendimiento de disparo cero. Tenga en cuenta que estas gráficas varían en (i) tipos de modelos discriminativos versus generativos, (ii) Tareas de clasificación versus de recuperación, (iii) Arquitectura del modelo y escalas de parámetros, (IV) conjuntos de datos previos a la aparición con diferentes métodos de curación y escalas, (v) diferentes métricas de métricas, (vi) estrategias de impulsos diferentes para la clasificación de shot cero, y (vii) frecuencias de concepto solo de los frecuencias de imágenes adicionales de la imagen (mextuals o textos de imágenes adicionales (viñales (VI). La variación a lo largo (v) se presenta en las aplicaciones. La tendencia de escala log-lineal observada persiste en las siete dimensiones presentadas. Por lo tanto, nuestros resultados revelan claramente el aprendizaje hambriento de datos, es decir, la falta de la capacidad de los modelos multimodales actuales para aprender conceptos de conjuntos de datos previos al tratamiento previa de una manera eficiente en la muestra.

Figura 4: probando el estrés las tendencias de escala-lineal log. Proporcionamos evidencia adicional de que la relación log-lineal entre el rendimiento y la frecuencia conceptual se mantiene en diferentes escenarios: (izquierda) controlamos el efecto de la Figura 4: probando el estrés las tendencias de escala-lineal log. Proporcionamos evidencia adicional de que la relación log-lineal entre el rendimiento y la frecuencia conceptual se mantiene en diferentes escenarios: (izquierda) controlamos el efecto de la

Autores:

(1) Vishaal Udandarao, Tubingen AI Heart, Universidad de Tubingen, Universidad de Cambridge y contribución igual;

(2) Ameya Prabhu, Tubingen AI Heart, Universidad de Tubingen, Universidad de Oxford, y contribución igual;

(3) Adhiraj Ghosh, Tubingen AI Heart, Universidad de Tubingen;

(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;

(5) Philip HS Torr, Universidad de Oxford;

(6) Adel Bibi, Universidad de Oxford;

(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;

(8) Matthias Bethge, Tubingen Ai Heart, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.


fuente