Home Ciencia y Tecnología Benchmarking Multimodal Security: Phi-3-Imaginative and prescient’s Rai Efficiency RAI

Ciencia y Tecnología

Benchmarking Multimodal Security: Phi-3-Imaginative and prescient’s Rai Efficiency RAI

Tania López

9 julio 2025

Tabla de enlaces

Resumen y 1 Introducción

2 Especificaciones técnicas

3 puntos de referencia académicos

4 seguridad

5 debilidad

6 visión phi-3

6.1 Especificaciones técnicas

6.2 puntos de referencia académicos

6.3 Seguridad

6.4 Debilidad

Referencias

Un ejemplo de ejemplo para puntos de referencia

B Autores (alfabéticos)

C Agradecimientos

6.3 Seguridad

Para garantizar la integración de Phi-3-visión Se alinea con los principios responsables de AI (RAI) de Microsoft, involucramos la seguridad posterior al entrenamiento en la etapa supervisada de ajuste fino (SFT) y en la etapa de optimización de preferencias directas (DPO). Al crear los conjuntos de datos de capacitación en seguridad, utilizamos no solo los conjuntos de datos RAI de solo texto, sino también una variedad de conjuntos de datos RAI multimodales internos (MM) que cubren varias categorías de daños identificadas en los puntos de referencia de RAI públicos e internos. A los efectos de la evaluación de RAI, realizamos una evaluación cuantitativa rigurosa en puntos de referencia públicos e internos, esto se realizó junto con una evaluación humana realizada por el equipo rojo interno de Microsoft.

En la Tabla 3, presentamos los resultados de evaluación de la visión Phi-3 en tres puntos de referencia RAI de tres mm: uno de referencia interno y dos públicos (específicamente, RTVLM [LLY+ 24] y vlguard [ZBY+ 24]). Yuxtaponemos estos resultados con los de otros modelos de código abierto como Llava-1.5 [LLLL23]Llava-1.6 [LLL+ 24]Qwen-Vl-Chat [BBY+ 23]y gpt4-v[Ope23]. Los resultados indican claramente que el entrenamiento de seguridad mejora notablemente el rendimiento de RAI de la visión PHI-3 en todos los puntos de referencia RAI. En la Figura 7, desglosamos aún más el rendimiento en diferentes categorías de RAI del VLGuard y los puntos de referencia internos, lo que demuestra que la seguridad posterior al entrenamiento puede ayudar a la visión PHI-3 a mejorar el rendimiento de RAI en casi todas las categorías.

Autores:

(1) Marah Abdin;

(2) Sam Ade Jacobs;

(3) Ammar Ahmad Awan;

(4) Jyoti Aneja;

(5) Ahmed Awadallah;

(6) Hany Awadalla;

(7) Nguyen Bach;

(8) Amit Bahree;

(9) Arash Bakhtiari;

(10) Jianmin Bao;

(11) Harkirat Behl;

(12) Alon Benhaim;

(13) Misha Bilenko;

(14) Johan Bjorck;

(15) Sébastien Bubeck;

(16) Qin Cai;

(17) Martin Cai;

(18) Caio César Teodoro Mendes;

(19) Weizhu Chen;

(20) Vishrav Chaudhary;

(21) Dong Chen;

(22) Dongdong Chen;

(23) Yen-Chun Chen;

(24) Yi-Ling Chen;

(25) Parul Chopra;

(26) Xiyang Dai;

(27) Allie del Giorno;

(28) Gustavo de Rosa;

(29) Matthew Dixon;

(30) Ronen Eldan;

(31) Victor Fragoso;

(32) Dan Iter;

(33) Mei Gao;

(34) min Gao;

(35) Jianfeng Gao;

(36) Amit Garg;

(37) Abhishek Goswami;

(38) Suriya Gunasekar;

(39) Emman Haider;

(40) Junheng Hao;

(41) Russell J. Hewett;

(42) Jamie Huynh;

(43) Mojan Javaheripi;

(44) Xin Jin;

(45) Piero Kauffmann;

(46) Nikos Karampatziakis;

(47) Dongwoo Kim;

(48) Mahoud Khademi;

(49) Lev Kurilenko;

(50) James R. Lee;

(51) Yin Tat Lee;

(52) Yuanzhi Li;

(53) Yunsheng Li;

(54) Chen Liang;

(55) Lars Liden;

(56) Ce liu;

(57) Mengchen Liu;

(58) Weishung Liu;

(59) Eric Lin;

(60) Zeqi Lin;

(61) Chong Luo;

(62) Piyush Madan;

(63) Matt Mazzola;

(64) Arindam Mitra;

(65) Hardik Modi;

(66) Anh Nguyen;

(67) Brandon Norick;

(68) Barun Patra;

(69) Daniel Pérez-Becker;

(70) Thomas Portet;

(71) Reid Pryzant;

(72) Heyang Qin;

(73) Marko Radmilac;

(74) Corby Rosset;

(75) Sambudha Roy;

(76) Olatunji Ruwase;

(77) Olli Saarikivi;

(78) Amin Saied;

(79) Adil Salim;

(80) Michael Santacroce;

(81) Shital Shah;

(82) Ning Shang;

(83) Hiteshi Sharma;

(84) Swadheen Shukla;

(85) Canción Xia;

(86) Masahiro Tanaka;

(87) Andrea Tupini;

(88) Xin Wang;

(89) Lijuan Wang;

(90) Chunyu Wang;

(91) Yu Wang;

(92) Rachel Ward;

(93) Guanhua Wang;

(94) Philipp Witte;

(95) Haiping Wu;

(96) Michael Wyatt;

(97) bin Xiao;

(98) Can Xu;

(99) Jiahang Xu;

(100) Weijian Xu;

(101) Sonali Yadav;

(102) Fan Yang;

(103) Jianwei Yang;

(104) Ziyi Yang;

(105) Yifan Yang;

(106) Donghan Yu;

(107) Lu Yuan;

(108) Chengruidong Zhang;

(109) Cyril Zhang;

(110) Jianwen Zhang;

(111) Li Lyna Zhang;

(112) Yi Zhang;

(113) Yue Zhang;

(114) Yunan Zhang;

(115) Xiren Zhou.

fuente

Benchmarking Multimodal Security: Phi-3-Imaginative and prescient’s Rai Efficiency RAI

Tabla de enlaces

6.3 Seguridad

Reciente

La película de Legend of Zelda emite CBC Sitcom Star como...

Tres encarcelados por asesinato de estrella sueca de hip-hop en estacionamiento

Rob Kardashian explica por qué se alejó de Highlight durante tantos...

Barcelona listo para posponer la fecha de regreso de Spotify Nou...

Ataques aéreos israelíes Ministerio de Defensa Siria

“Sé lo que hiciste el verano pasado”: Fisherman Slasher engancha una...

Bitcoin cae 4% después de que ballena de mil millones de...

Según los informes, los Knicks han “tocado la base” con guardia...

Lo que la terapia digital se equivoca con la recuperación y...

La agencia de la ONU se alarma como 1 de cada...