Tabla de enlaces
Resumen y 1. Introducción
2 conceptos en datos previos a la proyección y cuantificar la frecuencia
3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental
3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”
4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo
4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos
5 concepts adicionales de frecuencias conceptuales de pre -proyren
6 Prueba de la cola: ¡Déjalo mover!
7 Trabajo relacionado
8 conclusiones y problemas abiertos, reconocimientos y referencias
Parte I
Apéndice
A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación
B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación
C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I
D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto
E. Detalles experimentales
F. ¿Por qué y cómo usamos RAM ++?
G. Detalles sobre los resultados del grado de desalineación
Modelos H. T2I: evaluación
I. Resultados de clasificación: ¡Déjalo mover!
5 concepts adicionales de frecuencias conceptuales de pre -proyren
Ahora presentamos observaciones notables sobre la distribución de las frecuencias conceptuales aguas abajo a través de modalidades coincidentes con texto, imagen y imagen de texto en conjuntos de datos previos a la tracción.
Encontrar 1: Los conjuntos de datos previos a la pretención exhiben una distribución de conceptos de cola larga. Nuestro análisis en la Fig. 5 revela una distribución extremadamente larga de frecuencias conceptuales en conjuntos de datos previos a la capacitación, con más de dos tercios de conceptos que ocurren a frecuencias casi insignificantes en relación con el tamaño de los conjuntos de datos. Nuestras observaciones respaldan los hallazgos de trabajos pasados que han notado la distribución de cola larga de conjuntos de datos de idiomas a gran escala [25, 88, 136]. Como observamos con la tendencia log-lineal, esta distribución refleja directamente las disparidades en el rendimiento.
Encontrar 2: Desalineación entre conceptos en pares de texto de imagen. Investigamos la alineación de conceptos dentro de los datos de texto de imagen previa al preado emparejado. La alineación perfecta de texto de imagen se outline como cada par de texto de imagen que contiene los mismos conceptos. Estudios anteriores han discutido cualitativamente el problema de la desalineación en grandes conjuntos de datos de texto de imagen [75, 124, 76]. Nuestro análisis nos permite cuantificar esto Grado de desalineación—Por cada par de texto de imagen en el conjunto de datos previos a la proyección, encontramos los conceptos que coinciden con la imagen y el título de texto de forma independiente. Si no hay conceptos de intersección de la imagen independiente
y golpes de texto, contamos ese par como desalineado (algoritmo detallado proporcionado en Appx. G). Pestaña. 3 muestra el alto grado de desalineación en todos los pares de texto de imagen. Hasta donde sabemos, este es el primer intento de cuantificar explícitamente el grado de desalineación en los conjuntos de datos de texto de imagen previa a la imagen. Liberamos los pares de texto de imagen desalineados precisos en los conjuntos de datos previos a la preparación para habilitar una mejor curación de datos.
Encontrar 3: Las frecuencias conceptuales en los conjuntos de datos están correlacionadas. A pesar de las vastas diferencias en el tamaño (que van de 3M a 400m muestras) y las estrategias de curación de los conjuntos de datos analizados, descubrimos una correlación sorprendentemente alta en las frecuencias conceptuales a través de ellas, como se presenta en Tab. 4. Esta consistencia sugiere que Web, como la fuente común de estos conjuntos de datos, exhibe naturalmente una distribución de cola larga, influyendo en cualquier conjunto de datos derivado de él para mostrar también un comportamiento de cola larga comparable. Este resultado inspiró el “¡Déjalo mover!” conjunto de datos.
Autores:
(1) Vishaal Udandarao, Tubingen AI Heart, Universidad de Tubingen, Universidad de Cambridge y contribución igual;
(2) Ameya Prabhu, Tubingen AI Heart, Universidad de Tubingen, Universidad de Oxford, y contribución igual;
(3) Adhiraj Ghosh, Tubingen AI Heart, Universidad de Tubingen;
(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;
(5) Philip HS Torr, Universidad de Oxford;
(6) Adel Bibi, Universidad de Oxford;
(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;
(8) Matthias Bethge, Tubingen Ai Heart, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.