Tabla de enlaces
Resumen y 1. Introducción
2 conceptos en datos previos a la proyección y cuantificar la frecuencia
3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental
3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”
4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo
4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos
5 concepts adicionales de frecuencias conceptuales de pre -proyren
6 Prueba de la cola: ¡Déjalo mover!
7 Trabajo relacionado
8 conclusiones y problemas abiertos, reconocimientos y referencias
Parte I
Apéndice
A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación
B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación
C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I
D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto
E. Detalles experimentales
F. ¿Por qué y cómo usamos RAM ++?
G. Detalles sobre los resultados del grado de desalineación
Modelos H. T2I: evaluación
I. Resultados de clasificación: ¡Déjalo mover!
Una frecuencia conceptual es predictiva del rendimiento en las estrategias de impulso
Extendemos los resultados de la clasificación de disparo cero de la Fig. 2 en la Fig. 8 con dos estrategias de solicitación diferentes: los resultados en el documento principal utilizaron el {classname} solo como las indicaciones, aquí mostramos ambas (1) “Una foto de un {classname}” que solicita y (2) 80 conjuntos indicados según lo utilizado por Radford et al. [91]. Observamos que La fuerte tendencia de log-lineal entre la frecuencia conceptual y el rendimiento de disparo cero se mantiene constantemente en diferentes estrategias de solicitud.
B La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación
Suplementamos la Fig. 2 en el documento principal, donde mostramos resultados con el recuerdo de texto a imagen (I2T)@10 métrico. En las figs. 9 y 10, presentamos resultados para los experimentos de recuperación en las seis métricas: I2T-RECALL@1, I2T-RECALL@5, I2T-RECALL@10, T2I-RECALL@1, T2I-RECALL@5, T2I-RECALL@10. Observamos que La fuerte tendencia de log-lineal entre la frecuencia conceptual y el rendimiento de disparo cero se mantiene de manera robusta a través de diferentes métricas de recuperación.
Autores:
(1) Vishaal Udandarao, Tubingen AI Middle, Universidad de Tubingen, Universidad de Cambridge y contribución igual;
(2) Ameya Prabhu, Tubingen AI Middle, Universidad de Tubingen, Universidad de Oxford, y contribución igual;
(3) Adhiraj Ghosh, Tubingen AI Middle, Universidad de Tubingen;
(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;
(5) Philip HS Torr, Universidad de Oxford;
(6) Adel Bibi, Universidad de Oxford;
(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;
(8) Matthias Bethge, Tubingen Ai Middle, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.