Home Ciencia y Tecnología ¿Qué sucede cuando su aviso es demasiado oscuro?

¿Qué sucede cuando su aviso es demasiado oscuro?

41
0

Resumen y 1. Introducción

2 conceptos en datos previos a la proyección y cuantificar la frecuencia

3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental

3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”

4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo

4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos

5 concepts adicionales de frecuencias conceptuales de pre -proyren

6 Prueba de la cola: ¡Déjalo mover!

7 Trabajo relacionado

8 conclusiones y problemas abiertos, reconocimientos y referencias

Parte I

Apéndice

A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación

B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación

C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I

D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto

E. Detalles experimentales

F. ¿Por qué y cómo usamos RAM ++?

G. Detalles sobre los resultados del grado de desalineación

Modelos H. T2I: evaluación

I. Resultados de clasificación: ¡Déjalo mover!

Modelos H T2I: evaluación

Proporcionamos resultados cuantitativos y cualitativos adicionales en esta sección para los modelos T2I evaluados en el “¡Déjalo mover!“Conjunto de datos.

H.1 Resultados cuantitativos por recuperación

Proporcionamos un análisis más detallado sobre cómo funcionan los modelos T2I de última generación en los conceptos de cola larga que comprenden el “¡Déjalo mover!” conjunto de datos. Como se detalla en la Sec. 6, generamos 4 imágenes para cada concepto utilizando difusión estable XL [89]Difusión estable V2 [96] y sueño fotorreal [1].

Estrategia de solicitud. La estrategia de solicitación (rol del sistema) utilizada, adaptada de Shahmohammadi et al. [105]period:

Con este conjunto de imágenes generadas, realizamos un experimento controlado sobre los conceptos de cola larga utilizando la recuperación de vecinos más cercanos como la métrica de evaluación al consultar una imagen generada y recuperar los resultados de High-K de una galería de imágenes tomadas de la “¡Déjalo mover!” conjunto de datos. La tubería normal es la siguiente:

Configuración. Nosotros Defina la consulta y la galería de conceptos de cabeza y cola. Para los conceptos de cola, probamos los 25 conceptos con la frecuencia más baja del “¡Déjalo mover!” conjunto de datos. Para los conceptos de cabeza, probamos los 25 conceptos más frecuentes para la comparación. Utilizamos la misma estrategia de indicación con los 25 conceptos seleccionados en los 3 modelos T2I. Para crear el conjunto de la galería, muestreamos aleatoriamente 100 imágenes para cada uno de estos conceptos. Usamos dinov2 [85] VIT-S/14 como extractor de características.

Resultados. En la Tabla 5, proporcionamos los resultados de la característica de coincidencia acumulativa (CMC@K) para los 3 modelos T2I utilizados en nuestro experimento. CMC@K fue elegido ya que estamos interesados ​​en medir el delta entre los conceptos de cabeza y cola para recuperaciones exitosas dentro de las imágenes reales recuperadas de High-K para una imagen generada dada. Observamos una gran brecha de rendimiento entre Cabeza y Cola conceptos, proporcionando una evaluación cuantitativa del rendimiento de generación de los modelos T2I.

Tabla 5: puntajes de recuperación real generados. Comparamos los resultados de recuperación de Dinov2 VIT-S/14 cuando se usa imágenes generadas como imágenes de consulta. Informamos ∆ cmc@k resultados donde K {1,2,5} entre los conceptos de cabeza y cola.Tabla 5: puntajes de recuperación real generados. Comparamos los resultados de recuperación de Dinov2 VIT-S/14 cuando se usa imágenes generadas como imágenes de consulta. Informamos ∆ cmc@k resultados donde K {1,2,5} entre los conceptos de cabeza y cola.

H.2 Resultados cualitativos

En la Fig. 7 del texto principal, proporcionamos una visión inicial del rendimiento cualitativo de los modelos T2I en “¡Déjalo mover!” conceptos. Para facilitar la comprensión y la comparación, segregamos conceptos en 4 grupos: aeronaves (Fig. 23), actividad (Fig. 24), animal (Fig. 25) y otros (Fig. 26).

Resultados. La figura 23 muestra que los modelos T2I tienen dificultades para representar una aeronave en su forma completa en la mayoría de los casos, además de tergiversar el modelo específico en las imágenes generadas. La figura 24 muestra la dificultad que enfrentan los modelos T2I al representar acciones o actividades de las indicaciones. La figura 25 ejemplifica la misma incapacidad de los modelos T2I para representar con precisión las especies animales. Finalmente, el resto del conjunto de consultas se muestra en la Fig. 26 e incluye la incapacidad de clasificar y posteriormente generar ciertas especies de flores y objetos.

Figura 23: Resultados cualitativos en el clúster de la aeronave.Figura 23: Resultados cualitativos en el clúster de la aeronave.

Figura 24: Resultados cualitativos en el grupo de actividad.Figura 24: Resultados cualitativos en el grupo de actividad.

Figura 25: Resultados cualitativos en el grupo de animales.Figura 25: Resultados cualitativos en el grupo de animales.

Figura 26: Resultados cualitativos para otros casos de falla seleccionados.Figura 26: Resultados cualitativos para otros casos de falla seleccionados.

I Clasificación Resultados: ¡Déjalo mover!

Aquí, presentamos los valores de precisión en bruto de los 40 modelos probados en ambos ¡Déjalo mover! e Imagenet en la pestaña. 6. Para referencia, también informamos los conjuntos de datos en los que estos modelos fueron entrenados y el número de parámetros para cada modelo. Vemos caídas claras en el rendimiento en comparación con ImageNet, a través de tamaños del modelo, arquitecturas y conjuntos de datos de prisión.

Tabla 6: ¡Descumado de resultados completos en Let It Wag! e imagenet.Tabla 6: ¡Descumado de resultados completos en Let It Wag! e imagenet.

Autores:

(1) Vishaal Udandarao, Tubingen AI Middle, Universidad de Tubingen, Universidad de Cambridge y contribución igual;

(2) Ameya Prabhu, Tubingen AI Middle, Universidad de Tubingen, Universidad de Oxford, y contribución igual;

(3) Adhiraj Ghosh, Tubingen AI Middle, Universidad de Tubingen;

(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;

(5) Philip HS Torr, Universidad de Oxford;

(6) Adel Bibi, Universidad de Oxford;

(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;

(8) Matthias Bethge, Tubingen Ai Middle, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.


fuente