Home Ciencia y Tecnología Enfrentando desafíos multimodales de LLM: brechas de razonamiento y compensaciones de seguridad...

Ciencia y Tecnología

Enfrentando desafíos multimodales de LLM: brechas de razonamiento y compensaciones de seguridad en visión phi-3

Tania López

9 julio 2025

Tabla de enlaces

Resumen y 1 Introducción

2 Especificaciones técnicas

3 puntos de referencia académicos

4 seguridad

5 debilidad

6 visión phi-3

6.1 Especificaciones técnicas

6.2 puntos de referencia académicos

6.3 Seguridad

6.4 Debilidad

Referencias

Un ejemplo de ejemplo para puntos de referencia

B Autores (alfabéticos)

C Agradecimientos

6.4 Debilidad

Con respecto a las capacidades de LLM multimodal de nuestra visión PHI-3, se desempeña admirablemente en varios campos. Sin embargo, hemos identificado ciertas limitaciones, particularmente con preguntas que requieren habilidades de razonamiento de alto nivel. Además, se ha observado que el modelo genera ocasionalmente salidas sin tierra, por lo que es potencialmente poco confiable en áreas sensibles, como las finanzas. Para mitigar estos problemas, incorporaremos más datos DPO centrados en el razonamiento y relacionados con la alucinación en el post-entrenamiento en el futuro.

Desde el punto de vista de AI responsable, mientras que la seguridad posterior al entrenamiento ha hecho avances significativos, nuestra visión PHI3 ocasionalmente no se abstiene de responder consultas dañinas o sensibles. Ejemplos de tales ocasiones incluyen descifrar tipos particulares de captcha y describir imágenes de estafa que contienen desinformación o alucinación. Encontramos que este problema surge en parte de las capacidades, como el OCR, adquirido durante el proceso de capacitación con conjuntos de datos de ajuste de instrucciones normales, que pueden considerarse como la compensación entre ayuda e inocuencia. En el futuro, necesitamos explorar más a fondo esta área para lograr un mejor equilibrio.

Tabla 3: Resultados de comparación en puntos de referencia RAI multimodales públicos y privados. Tenga en cuenta que todas las métricas en la tabla son [0,10] y un valor más alto indica un mejor rendimiento.

Figura 7: Comparación del rendimiento de RAI categorizado de la visión PHI-3 con y sin el entrenamiento de seguridad posterior al VlGuard (izquierda) y el punto de referencia interno (derecha), respectivamente. Indica claramente que el post-entrenamiento de seguridad puede mejorar el rendimiento de RAI en casi todas las categorías de RAI. Figura 7: Comparación del rendimiento de RAI categorizado de la visión PHI-3 con y sin el entrenamiento de seguridad posterior al VlGuard (izquierda) y el punto de referencia interno (derecha), respectivamente. Indica claramente que el post-entrenamiento de seguridad puede mejorar el rendimiento de RAI en casi todas las categorías de RAI.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) Ce liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) Zeqi Lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Pérez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Canción Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin Xiao;

(98) Can Xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) Fan Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Li Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.

fuente

Enfrentando desafíos multimodales de LLM: brechas de razonamiento y compensaciones de seguridad en visión phi-3

Tabla de enlaces

6.4 Debilidad

Reciente

La votación de JD Vance es la votación de los recortes...

Wargasm Share Single ‘Síndrome del mundo pequeño’ reflexivo

Los principales campeones McIlroy, Scheffler llega a las dificultades de éxito...

Aquí hay 10 de las ciudades más caras para personas de...

Veinte muertos en el aumento de la multitud en el sitio...

Savannah Chrisley detalla la decisión de someterse a la liposucción

Jofra Archer espera que Stokes y McCullum ‘Let Hel Play’ The...

Por qué tantos afganos han sido obligados a salir de Irán

Alexander Isak a Liverpool: Fabrizio Romano anuncia ‘Huge Step’ como confirmó...

Miles de nigerianos asisten al funeral del ex presidente Buhari