Home Ciencia y Tecnología Enseñando a la IA a decir "No sé": Una guía de cuatro...

Enseñando a la IA a decir "No sé": Una guía de cuatro pasos para la imputación de datos contextuales

31
0

Autores:

(1) Ahatsham Hayat, Departamento de Ingeniería Eléctrica e Informática, Universidad de Nebraska-Lincoln ([email protected]);

(2) Mohammad Rashedul Hasan, Departamento de Ingeniería Eléctrica e Informática, Universidad de Nebraska-Lincoln ([email protected]).

Resumen y 1 Introducción

2 método

2.1 Formulación de problemas y 2.2 Patrones de falta

2.3 Generación de valores faltantes

2.4 Descripción del reclamo

3 experimentos

3.1 Resultados

4 Trabajo relacionado

5 Conclusión y direcciones futuras

6 limitaciones y referencias

2 método

2.1 Formulación de problemas

2.2 Patrones de falta

Representamos el mecanismo de datos faltante como una distribución condicional de M dada x, que es parametrizada por un ϕ desconocido, de la siguiente manera.

En la literatura, se definen los siguientes tres mecanismos estándar para los datos faltantes [21].

Falta completamente al azar (MCAR). Se produce un caso MCAR cuando falta la probabilidad de que falta un valor de una variable es independiente de la variable misma y cualquier otra variable, expresada de la siguiente manera.

En MCAR, la probabilidad de falta no depende de la variable faltante ni de las variables observadas.

Falta al azar (mar). La probabilidad de que falta el valor de una variable solo depende de los valores observados de otras variables XO. Por lo tanto, la falta de falta es independiente de las variables faltantes y el valor faltante es predecible de las variables observadas, formalizadas de la siguiente manera.

No falta al azar (MNAR). Este caso corresponde a los mecanismos faltantes que no son MCAR ni Mar. En MNAR, la razón por la que falta un valor puede depender de otras variables, pero también del valor que falta.

A diferencia de Mar, la falta de falta en MNAR no se puede predecir solo a partir de las variables observadas. No hay un método common para manejar los datos faltantes de MNAR correctamente [14].

A menudo, las razones para faltar datos se ignoran cuando la falta de falta se debe a MCAR o MAR, por lo que se pueden simplificar los métodos de imputación. [33]. Por esta razón, la mayoría de la investigación cubre los casos en que los datos faltantes son del tipo MAR o MCAR.

2.3 Generación de valores faltantes

Construimos conjuntos de datos sintéticos con valores faltantes de hasta el 30% aplicando los siguientes tres mecanismos de falta en conjuntos de datos completos: MCAR, MAR y MNAR. Las implementaciones de estos mecanismos se modifican de [20].

MCAR. Se introdujo eliminando aleatoriamente el 30% de las observaciones de cada característica.

MAR. Primero, seleccionamos todas las observaciones dentro del rango del percentil 30 de una característica independiente (generalmente la primera columna en el conjunto de datos). Luego, eliminamos aleatoriamente el 60% de las observaciones de cada característica correspondiente (dependiente).

Mnar. Eliminamos las observaciones de una característica si las observaciones caen dentro del rango de percentil 30 del valor de la característica.

2.4 Descripción del reclamo

La Figura 1 ilustra el proceso de reclamación, que abarca cuatro etapas: (1) construir un conjunto de datos de lenguaje pure contextualizado, (2) generar descriptores adecuados para

Fig. 1: Una descripción general de la reclamación.Fig. 1: Una descripción general de la reclamación.

Valores faltantes, (3) creando un conjunto de datos contextualizado con conocimiento de falta de falta, y (4) adaptando una LLM para tareas aguas abajo. Detalamos estas etapas a continuación.

Construyendo un conjunto de datos de lenguaje pure contextualizado. Construimos un conjunto de datos de lenguaje pure contextualizado a partir de un conjunto de datos numérico X que contiene valores faltantes. El objetivo es generar una descripción contextualmente adecuada de cada atributo y sus medidas en lenguaje pure. Por ejemplo, un registro del conjunto de datos de vinos de UCI [12] con los atributos de entrada y salida numéricos se contextualizan de la siguiente manera: “El contenido de alcohol en el vino es 12.47. El nivel de ácido málico en el vino es 1.52 … la clase del vino se clasifica como vino de clase 1”.[1] Este paso convierte los valores numéricos en descripciones detalladas, preparando el conjunto de datos para integrar descriptores de valor faltantes.

Generación de descriptores adecuados para valores faltantes. A diferencia de los métodos de imputación convencionales que estiman los valores faltantes de los datos observados utilizando métodos numéricos, utilizamos descriptores contextualmente relevantes de los valores faltantes para la imputación. Generamos estos descriptores mediante un LLM conversacional (por ejemplo, ChatGPT-3.5 de Openai [2]). Le indicamos la LLM con una descripción del conjunto de datos y le indicamos que genere descriptores de valor faltantes, como: “Para cualquier valor de atributo faltante, sugiera un descriptor para los datos faltantes que puedo colocar en esas celdas”. Este método se basa en la extensa base de conocimiento de la LLM para producir descriptores de valor faltantes apropiados. En el apéndice se proporciona una lista de descriptores de valor faltantes contextualmente relevantes específicos de características para conjuntos de datos seleccionados.

Creación de un conjunto de datos contextualizado con conocimiento de falta de falta. Construimos el conjunto de datos del lenguaje pure contextualizado con conocimiento de la falta de conocimiento xmissingness_ware reemplazando los valores faltantes con los descriptores generados. Este proceso garantiza que cada instancia de datos sea consciente de sus atributos faltantes, por lo que capaz de mejorar la capacidad de la LLM para aprender de los datos incompletos al proporcionar un contexto explícito. Además, utilizamos descriptores distintos para características separadas en el conjunto de datos que contienen valores faltantes, informando implícitamente a un LLM que maneje la falta de cada característica de una manera contextualmente adecuada para mejorar el rendimiento de la tarea posterior.

Adaptando un LLM para resolver tareas aguas abajo. El paso closing implica el fino de un LLM previamente capacitado con el conjunto de datos contextualmente consciente de la falta de contexto. Incorporamos instrucciones y estrategias de tareas específicas para manejar los datos faltantes en el proceso de ajuste fino. Por ejemplo, para las tareas de clasificación, podríamos incluir instrucciones como: “Predecir la clase basada en las mediciones dadas. Use el contexto proporcionado por los descriptores de valor faltantes para informar su predicción”.

Este enfoque estructurado, desde la transformación de conjuntos de datos hasta el ajuste de LLMS, significa un método integral para abordar la falta de datos a través de las capacidades de los LLM.

Este documento está disponible en ARXIV bajo CC por 4.0 licencia de escritura (Atribución 4.0 Internacional).

[1] El script de Python utilizado para la contextualización se proporciona en el materials complementario.

fuente