Home Ciencia y Tecnología Cómo los modelos de IA cuentan y coinciden con los conceptos en...

Cómo los modelos de IA cuentan y coinciden con los conceptos en imágenes y texto

49
0

Resumen y 1. Introducción

2 conceptos en datos previos a la proyección y cuantificar la frecuencia

3 Comparación de frecuencia previa a la altura y rendimiento de “disparo cero” y 3.1 configuración experimental

3.2 Resultado: la frecuencia previa a la altura es predictiva del rendimiento de “disparo cero”

4 Probación de estrés La tendencia de escala de rendimiento de la frecuencia conceptual y 4.1 controlar muestras similares en datos previos a la pretruación y aguas abajo

4.2 Prueba de generalización a conceptos puramente sintéticos y distribuciones de datos

5 concepts adicionales de frecuencias conceptuales de pre -proyren

6 Prueba de la cola: ¡Déjalo mover!

7 Trabajo relacionado

8 conclusiones y problemas abiertos, reconocimientos y referencias

Parte I

Apéndice

A. La frecuencia conceptual es predictiva del rendimiento en las estrategias de incorporación

B. La frecuencia conceptual es predictiva del rendimiento a través de las métricas de recuperación

C. La frecuencia conceptual es predictiva del rendimiento para los modelos T2I

D. La frecuencia conceptual es predictiva del rendimiento entre los conceptos solo de los dominios de imagen y texto

E. Detalles experimentales

F. ¿Por qué y cómo usamos RAM ++?

G. Detalles sobre los resultados del grado de desalineación

Modelos H. T2I: evaluación

I. Resultados de clasificación: ¡Déjalo mover!

2 conceptos en datos previos a la proyección y cuantificar la frecuencia

En esta sección, describimos nuestra metodología para obtener frecuencias conceptuales dentro de los conjuntos de datos previos a la tracción. Primero definimos nuestros conceptos de interés, luego describimos algoritmos para extraer sus frecuencias de las imágenes

Figura 1: Extracción de concepto y tubería de estimación de frecuencia. (izquierda) Compilamos 4, 029 conceptos de 17 clasificación, 2 recuperación y 8 conjuntos de datos de información de generación de imágenes. (Derecha) Construimos índices eficientes tanto para la búsqueda de texto (utilizando la indexación de unigram estándar (1)) y la búsqueda de imágenes (usando RAM ++ [59] (2)); Intersecting Hits de ambos nos brinda (3) las frecuencias de texto de texto coincidentes por concepto.Figura 1: Extracción de concepto y tubería de estimación de frecuencia. (izquierda) Compilamos 4, 029 conceptos de 17 clasificación, 2 recuperación y 8 conjuntos de datos de información de generación de imágenes. (Derecha) Construimos índices eficientes tanto para la búsqueda de texto (utilizando la indexación de unigram estándar (1)) y la búsqueda de imágenes (usando RAM ++ [59] (2)); Intersecting Hits de ambos nos brinda (3) las frecuencias de texto de texto coincidentes por concepto.

y subtítulos de texto de conjuntos de datos previos a la creación. Finalmente, discutimos cómo agregarlos para calcular las frecuencias de concepto de texto de imagen coincidentes. Para una descripción esquemática de nuestros métodos, ver Fig. 1.

Definición de conceptos. Definimos los “conceptos” como los objetos o categorías de clase específicas que buscamos analizar en los conjuntos de datos previos a la captura. Para tareas de clasificación de cero disparos, estos conceptos son los nombres de clases, como las 1, 000 clases en Imagenet [35] (Por ejemplo, “Tench”, “Goldfish”, “Stingray”). Para las tareas de recuperación de texto de imagen y generación de imágenes, los conceptos se identifican como todos los sustantivos presentes en los subtítulos o indicaciones de generación, respectivamente. Por ejemplo, en la leyenda, “un hombre lleva un sombrero”, extraemos “hombre” y “sombrero” como conceptos relevantes. Además, filtramos sustantivos que están presentes en menos de cinco muestras de evaluación aguas abajo para eliminar conceptos ambiguos o irrelevantes. En todos nuestros experimentos, recopilamos una lista de 4, 029 conceptos obtenidos de 17 clasificaciones, 2 de recuperación y 8 conjuntos de datos de generación de imágenes (ver Tab. 1 para más detalles).

Frecuencia conceptual de los subtítulos de texto. Para habilitar búsquedas conceptuales eficientes, pre-indexamos todos los subtítulos de los conjuntos de datos previos al pretratamiento, es decir, construimos un mapeo de conceptos a subtítulos. Primero usamos el etiquetado de parte de voz para aislar sustantivos comunes y propios y posteriormente los limitamos para estandarizar los formularios de palabras [65] Con Spacy [58] . Estos sustantivos lemmatizados se catalogan en diccionarios unigram invertidos, siendo cada sustantivo la clave y todos los índices en las muestras de datos previas a la prisión que contienen ese sustantivo son sus valores. Para determinar la frecuencia de un concepto, particularmente aquellas compuestas de múltiples palabras, examinamos los unigramas individuales del concepto dentro de estos diccionarios. Para expresiones de múltiples palabras, al intersectar las listas de índices de muestra correspondientes a cada unigram, identificamos las muestras que contienen todas las partes del concepto. La frecuencia del concepto en los subtítulos de texto es el recuento de estos índices de muestra que se cruzan. Nuestro algoritmo de estimación de frecuencia, por lo tanto, permite la búsqueda escalable O (1) con respecto al número de subtítulos para cualquier concepto dado en los subtítulos del conjunto de datos previos a la preparación.

Frecuencia conceptual de imágenes. A diferencia de los subtítulos de texto, no tenemos un vocabulario finito para las imágenes previas a la creación previa a la indexación, y por lo tanto no podemos realizar una búsqueda conceptual O (1). En cambio, recopilamos todos los 4, 029 conceptos aguas abajo y verificamos su presencia en las imágenes utilizando un modelo de etiquetado de imagen previo a la imagen. Probamos varios detectores de objetos de vocabulario abierto, modelos de coincidencia de texto de imagen y modelos de etiqueta múltiple. Encontramos que Ram ++ [59]—En modelo de etiquetado de conjunto abierto que etiqueta las imágenes basadas en una lista predefinida de conceptos de manera multiclabel, realiza lo mejor. Este enfoque genera una lista de imágenes previas a la tracción, cada una etiquetada con si los conceptos aguas abajo están presentes o no, de las cuales podemos calcular las frecuencias conceptuales. Proporcionamos ejemplos cualitativos junto con ablaciones de elección de diseño en APPX. F.

Frecuencias conceptuales de texto de texto de imagen. Finalmente, combinamos las frecuencias obtenidas de las búsquedas de texto y de imágenes para calcular frecuencias de texto de imagen coincidentes. Esto implica la identificación del pretrén

Tabla 1: conjuntos de datos de pretratina y aguas abajo utilizados en experimentos de texto de imagen (clip).Tabla 1: conjuntos de datos de pretratina y aguas abajo utilizados en experimentos de texto de imagen (clip).

Muestras donde tanto la imagen como su subtítulo asociado corresponden al concepto. Al intersectar las listas de nuestras búsquedas de imagen y texto, determinamos el recuento de muestras que se alinean en ambas modalidades, ofreciendo una visión integral de la representación conceptual en todo el conjunto de datos. Observamos que este paso es necesario, ya que observamos una desalineación significativa de texto de imagen entre los conceptos en los conjuntos de datos previos a la preparación (ver Tab. 3), por lo tanto, los subtítulos pueden no reflejar lo que está presente en la imagen y el viceversa. Este comportamiento también se ha aludido en el trabajo previo que investiga estrategias de curación de datos previos a la aparición [76, 75, 124, 83]. Proporcionamos un análisis más detallado sobre la desalineación del texto de imagen en la Sec. 5.

Autores:

(1) Vishaal Udandarao, Tubingen AI Heart, Universidad de Tubingen, Universidad de Cambridge y contribución igual;

(2) Ameya Prabhu, Tubingen AI Heart, Universidad de Tubingen, Universidad de Oxford, y contribución igual;

(3) Adhiraj Ghosh, Tubingen AI Heart, Universidad de Tubingen;

(4) Yash Sharma, Centro Tubingen AI, Universidad de Tubingen;

(5) Philip HS Torr, Universidad de Oxford;

(6) Adel Bibi, Universidad de Oxford;

(7) Samuel Albanie, Universidad de Cambridge e igual asesoramiento, orden decidida por un volteo de monedas;

(8) Matthias Bethge, Tubingen Ai Heart, Universidad de Tubingen y el mismo asesoramiento, orden decidido por un cambio de moneda.


fuente