En la recuperación de información tradicional, las consultas y documentos de los usuarios se representan como una lista de palabras clave, y la recuperación se realiza en función de la coincidencia de palabras clave. Sin embargo, la coincidencia de palabras clave simples enfrenta muchos desafíos. Primero, no puede entender claramente las intenciones de los usuarios. En explicit, no puede estimar el sentimiento positivo y negativo de los usuarios y puede devolver los resultados opuestos por error. En segundo lugar, no puede combinar expresiones sinónimas, reduciendo la diversidad de resultados [18]. Tercero, no puede manejar errores de ortografía y devolverá resultados irrelevantes. Por lo tanto, se emplea la alteración de la consulta para abordar los desafíos anteriores. Desafortunadamente, es difícil cubrir todo tipo de alteraciones de la consulta, especialmente esas alteraciones recientemente apartadas.
Con el gran éxito del aprendizaje profundo en el procesamiento del lenguaje pure, tanto las consultas como los documentos pueden representarse de manera más significativa como vectores de incrustación semántica. Dado que la recuperación basada en la incrustación resuelve los tres desafíos anteriores, se ha utilizado ampliamente en los sistemas de información modernos para facilitar la nueva calidad y rendimiento de la recuperación de última generación. Numerosos estudios anteriores se han concentrado en modelos de incrustación profunda, de DSSM [21]CDSSM [46]LSTM-RNN [38]y arco-i [20] a modelos de incrustación basados en transformadores [10, 16, 39, 40, 45, 53, 54]. Han mostrado ganancias impresionantes con la búsqueda de incrustación de vecinos más cercanos de fuerza bruta en algunos pequeños conjuntos de datos en comparación con la coincidencia tradicional de palabras clave.
Debido al costo computacional extremadamente alto y la latencia de consulta de la búsqueda de vectores de fuerza bruta, hay muchos enfoques de investigación que se centran en los algoritmos y sistemas de sistemas de búsqueda de vecinos más cercanos (ANN). [5–7, 11, 19, 24–26, 26, 41, 48]. Se pueden dividir en soluciones basadas en la partición y basadas en gráficos. Soluciones basadas en la partición, como Spann [11]divida todo el espacio del vector en una gran cantidad de grupos y solo realice una búsqueda de grano fino en un pequeño número de grupos más cercanos a una consulta en la búsqueda en línea. Soluciones basadas en gráficos, como Diskann [48]construya un gráfico vecino para todo el conjunto de datos y realice la mejor transferencia de los primeros puntos de partida fijos cuando entra una consulta. Ambos enfoques funcionan bien en algunos conjuntos de datos distribuidos uniformes.
Desafortunadamente, al aplicar la recuperación basada en la incrustación en el escenario internet, surgen varios desafíos nuevos. Primero, los volúmenes de datos de escala internet requieren modelos grandes, dimensiones de alta incrustación y un conjunto de datos de entrenamiento etiquetado a gran escala para garantizar una cobertura de conocimiento suficiente. En segundo lugar, las ganancias de rendimiento de los modelos de incrustación de última generación verificados en conjuntos de datos pequeños no pueden transferirse directamente a un conjunto de datos de escala internet (ver Sección 4.4). En tercer lugar, los modelos de incrustación deben trabajar con los sistemas ANN para servir volúmenes de datos a gran escala de manera eficiente. Sin embargo, diferentes distribuciones de datos de capacitación pueden afectar la precisión y el rendimiento del sistema de un algoritmo ANN, que reducirá en gran medida la precisión de los resultados en comparación con los modelos de incrustación con búsqueda de fuerza bruta. Destilado [52] ha verificado que Cocondenser [17] El modelo de incrustación con el índice FAISS-IVFPQ ANN alcanza la precisión de los resultados diferentes en MSMARCO [35] y NQ [28] conjuntos de datos. Además, incluso la misma distribución de datos de capacitación también dará como resultado diferentes distribuciones de vectores de incrustación, lo que conducirá a diferentes tendencias de clasificación de los modelos de incrustación en la búsqueda de fuerza bruta (KNN) y la búsqueda de vecino más cercano (ANN) (ANN) (ver Sección 4.6).
Autores:
(1) Qi Chen, Microsoft Beijing, China;
(2) Xiubo Geng, Microsoft Beijing, China;
(3) Corby Rosset, Microsoft, Redmond, Estados Unidos;
(4) Carolyn Buractaon, Microsoft, Redmond, Estados Unidos;
(5) Jingwen Lu, Microsoft, Redmond, Estados Unidos;
(6) Tao Shen, Universidad Tecnológica de Sydney, Sydney, Australia y el trabajo se realizó en Microsoft;
(7) Kun Zhou, Microsoft, Beijing, China;
(8) Chenyan Xiong, Carnegie Mellon College, Pittsburgh, Estados Unidos y el trabajo se realizó en Microsoft;
(9) Yeyun Gong, Microsoft, Beijing, China;
(10) Paul Bennett, Spotify, Nueva York, Estados Unidos y el trabajo se realizó en Microsoft;
(11) Nick Craswell, Microsoft, Redmond, Estados Unidos;
(12) Xing Xie, Microsoft, Beijing, China;
(13) Fan Yang, Microsoft, Beijing, China;
(14) Bryan Tower, Microsoft, Redmond, Estados Unidos;
(15) Nikhil Rao, Microsoft, Mountain View, Estados Unidos;
(16) Anlei Dong, Microsoft, Mountain View, Estados Unidos;
(17) Wenqi Jiang, Eth Zürich, Zürich, Suiza;
(18) Zheng Liu, Microsoft, Beijing, China;
(19) Mingqin LI, Microsoft, Redmond, Estados Unidos;
(20) Chuanjie Liu, Microsoft, Beijing, China;
(21) Zengzhong LI, Microsoft, Redmond, Estados Unidos;
(22) Rangan Majumder, Microsoft, Redmond, Estados Unidos;
(23) Jennifer Neville, Microsoft, Redmond, Estados Unidos;
(24) Andy Oakley, Microsoft, Redmond, Estados Unidos;
(25) Knut Magne Risvik, Microsoft, Oslo, Noruega;
(26) Harsha Vardhan Simhadri, Microsoft, Bengaluru, India;
(27) Manik Varma, Microsoft, Bengaluru, India;
(28) Yujing Wang, Microsoft, Beijing, China;
(29) Linjun Yang, Microsoft, Redmond, Estados Unidos;
(30) Mao Yang, Microsoft, Beijing, China;
(31) CE Zhang, Eth Zürich, Zürich, Suiza y el trabajo se realizó en Microsoft.