Home Ciencia y Tecnología Benchmarking Multimodal Security: Phi-3-Imaginative and prescient’s Rai Efficiency RAI

Benchmarking Multimodal Security: Phi-3-Imaginative and prescient’s Rai Efficiency RAI

42
0

Resumen y 1 Introducción

2 Especificaciones técnicas

3 puntos de referencia académicos

4 seguridad

5 debilidad

6 visión phi-3

6.1 Especificaciones técnicas

6.2 puntos de referencia académicos

6.3 Seguridad

6.4 Debilidad

Referencias

Un ejemplo de ejemplo para puntos de referencia

B Autores (alfabéticos)

C Agradecimientos

6.3 Seguridad

Para garantizar la integración de Phi-3-visión Se alinea con los principios responsables de AI (RAI) de Microsoft, involucramos la seguridad posterior al entrenamiento en la etapa supervisada de ajuste fino (SFT) y en la etapa de optimización de preferencias directas (DPO). Al crear los conjuntos de datos de capacitación en seguridad, utilizamos no solo los conjuntos de datos RAI de solo texto, sino también una variedad de conjuntos de datos RAI multimodales internos (MM) que cubren varias categorías de daños identificadas en los puntos de referencia de RAI públicos e internos. A los efectos de la evaluación de RAI, realizamos una evaluación cuantitativa rigurosa en puntos de referencia públicos e internos, esto se realizó junto con una evaluación humana realizada por el equipo rojo interno de Microsoft.

En la Tabla 3, presentamos los resultados de evaluación de la visión Phi-3 en tres puntos de referencia RAI de tres mm: uno de referencia interno y dos públicos (específicamente, RTVLM [LLY+ 24] y vlguard [ZBY+ 24]). Yuxtaponemos estos resultados con los de otros modelos de código abierto como Llava-1.5 [LLLL23]Llava-1.6 [LLL+ 24]Qwen-Vl-Chat [BBY+ 23]y gpt4-v[Ope23]. Los resultados indican claramente que el entrenamiento de seguridad mejora notablemente el rendimiento de RAI de la visión PHI-3 en todos los puntos de referencia RAI. En la Figura 7, desglosamos aún más el rendimiento en diferentes categorías de RAI del VLGuard y los puntos de referencia internos, lo que demuestra que la seguridad posterior al entrenamiento puede ayudar a la visión PHI-3 a mejorar el rendimiento de RAI en casi todas las categorías.

Tabla 2: Resultados de comparación en puntos de referencia MLLM público. Todos los números informados se producen con exactamente la misma tubería para garantizar que los números sean comparables, excepto MM1-3B-CHAT [MGF+24] y mm1-7bchat [MGF+24]que no están disponibles públicamente. Adoptamos la configuración de evaluación utilizada en Llava-1.5 [LLLL23]sin ninguna imagen específica de solicitud o preprocesamiento para todos los resultados. Estos números pueden diferir de otros números publicados debido a las indicaciones ligeramente diferentes.Tabla 2: Resultados de comparación en puntos de referencia MLLM público. Todos los números informados se producen con exactamente la misma tubería para garantizar que los números sean comparables, excepto MM1-3B-CHAT [MGF+24] y mm1-7bchat [MGF+24]que no están disponibles públicamente. Adoptamos la configuración de evaluación utilizada en Llava-1.5 [LLLL23]sin ninguna imagen específica de solicitud o preprocesamiento para todos los resultados. Estos números pueden diferir de otros números publicados debido a las indicaciones ligeramente diferentes.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) Ce liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) Zeqi Lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Pérez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Canción Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin Xiao;

(98) Can Xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) Fan Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Li Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.


fuente