Inteligencia synthetic Los modelos de lenguaje grande se están implementando con más frecuencia en roles sensibles y orientados al público, y a veces salen muy mal.
Recientemente, Grok 4, el LLM desarrollado por X.AI Corp. y desplegado en X, llegó a los titulares por todas las razones equivocadas. Durante la segunda semana de julio, Grok siguió lo que solo puede ser descrito como un alborotoSuponiendo comentarios antisemitas e incluso llamarse a sí mismo “Mechahitler”.
Prevenir este tipo de mal comportamiento es bastante posible, según un informe reciente por Holistic AI Inc.una empresa fundada por los ex alumnos de la Universidad del Colegio de Londres que proporciona soluciones para que las organizaciones adopten AI de manera responsable.
En una entrevista exclusiva, los investigadores de IA holísticos explicaron que la clave es el equipo rojo o las pruebas de adversario estructuradas diseñadas para probar los sistemas de IA antes del despliegue. “El equipo rojo es una de las evaluaciones más tangibles que tenemos”, explicó Zekun Wu, un científico de investigación de IA de Holistic AI.
La mayoría de los LLM están orientados al cliente o están diseñados para chatear con las personas. Este proceso permite a los equipos de investigación ver si un modelo puede responder de manera segura a las solicitudes de los usuarios antes de que alguna vez salga en vivo.
A diferencia de la evaluación comparativa estándar, el equipo rojo se centra en las indicaciones hostiles y manipulativas, incluidos los intentos deliberados de evitar las características de seguridad, conocidas como Jailbreaking o para obtener respuestas dañinas como el discurso de odio, el sesgo o las instrucciones para actividades ilegales.
Estos podrían incluir hacer que el modelo de IA arroje racismo, amenazar al usuario, filtrar información confidencial o incluso dar más detalles sobre cómo construir una bomba.
Los hallazgos de la IA holística pintan un poco de imagen de Grok 4. En comparación con otros modelos, Grok obtuvo un puntaje extremadamente bajo en defensas de jailbreaking. Aproximadamente el 90% de los intentos de jailbreak fueron exitosos, lo que significa que casi cualquier persona puede engañarlo para decir o hacer casi cualquier cosa.
Este no es solo un problema de Grok. Wu enfatizó que las prácticas actuales de desarrollo de IA a menudo sufren defectos sistémicos: “Es como un automóvil oxidado, realmente no importa qué tipo de pintura ponga en el automóvil, solo lo está pintando. La arquitectura del modelo precise debe mejorarse”.
En el pasado, el público ha podido torcer modelos AI en un comportamiento mal en cuestión de horas sin la preparación adecuada. Hace una década, incluso antes de la popularidad de la IA generativa, Microsoft Tay, un bot de IA para adolescentes, también descendió directamente al racismo.
Sin embargo, los modelos de IA generativos modernos son mucho más sofisticados y son capaces de mantener lo que parecen ser conversaciones altamente matizadas con clientes y empleados. También pueden tener acceso a la información o herramientas confidenciales de la empresa que pueden permitirles causar más que daños en las relaciones públicas a la imagen de marca de una empresa.
Los ejemplos más actuales de aplicaciones de IA que se vuelven locas pueden ser un poco más devastadores. La AI Chatbot Mycity de la ciudad de Nueva York, promocionada como uno de los primeros ejemplos de un ayudante de IA generativo de toda la ciudad que podría ayudar a las empresas con información confiable, fue Dar consejos ilegales en 2024. El mismo año, Air Canada perdió un caso judicial Cuando un chatbot de IA le dio a un cliente una respuesta inconsistente sobre una política de duelo de la aerolínea y le ofreció a un cliente un descuento en la aerolínea y luego intentó retirarse.
Operai también recibió algo de prensa cuando su modelo de IA insignia, Chatgpt 4o, se volvió demasiado sycofántico, lo que significa que estaba de acuerdo con los usuarios con demasiada frecuencia, incluso en temas que serían peligrosos o dañinos para ellos. En un ejemplo, ChatGPT instó a un usuario a quitarse sus medicamentos. Operai se mudó rápidamente a fines de abril para Vuelve esa versión de su modelo para atenuar este comportamiento.
Holistic AI solo usó 100 indicaciones en tres categorías: solicitudes dañinas estándar, solicitudes abiertamente maliciosas e intentos de jailbreak, para sus pruebas iniciales. Incluso en esta pequeña batería de indicaciones, Grok 4 no se sostuvo. Para los investigadores, esto dijeron que en este momento las compañías de IA están presionando demasiado rápido para obtener modelos sin pruebas.
Holistic IA ha pasado cinco años construyendo una biblioteca patentada de más de 300,000 indicaciones adversas que pueden estresar los modelos de IA.
El desarrollo precise del software program de aplicación necesita una parte de ciberseguridad y supervisión de su ciclo de vida, donde el software program se prueba el estrés al someterlo a datos que se espera ver, posibles ataques maliciosos para descubrir vulnerabilidades que podrían haberse inyectado durante el desarrollo y el monitoreo continuo para las amenazas emergentes.
Las implicaciones para las empresas son claras: sin un equipo rojo robusto, los LLM pueden convertirse en pesadillas legales, reputacionales y operativas. Las capas de seguridad débiles hacen que los modelos sean vulnerables a la manipulación, la explotación y el daño de la marca.
En cuanto al futuro, Wu dijo que no está claro si los marcos regulatorios exigirán un equipo rojo, pero para la mayoría de las empresas la mayor motivación es la protección de la marca sobre el cumplimiento. Al observar los ejemplos anteriores enumerados anteriormente, el costo de las fallas generativas de IA para los negocios ha sido daños a la reputación, no multas.
“Un solo paso en falso en un AI La aplicación puede erosionar la confianza del cliente, activar la reacción de los medios o poner en riesgo las asociaciones comerciales “, dijo Wu.” En muchos casos, esas consecuencias son existenciales. Es por eso que las organizaciones líderes no esperarán los mandatos “.
Imagen: Siliconangle/Microsoft Designer
Apoye nuestro contenido gratuito abierto compartiendo e interactuando con nuestro contenido y comunidad.
Únete a Thecube Alumni Belief Community
Donde los líderes tecnológicos se conectan, comparten inteligencia y crean oportunidades
11.4k+
Crimson de ex alumnos de cubos
Nivel C y técnico
Expertos en dominio
Conéctese con 11,413+ líderes de la industria de nuestra crimson de líderes tecnológicos y empresariales que forman un efecto de crimson confiable único.
Siliconangle Media es un líder reconocido en innovación de medios digitales que sirve al público innovador y marcas, que reúne tecnología de vanguardia, contenido influyente, concepts estratégicas y compromiso de audiencia en tiempo actual. Como la empresa matriz de Silicio, red de thecube, Investigación de THECUBE, Cube365, THECUBE AI y los superstudios de TheCube, como los establecidos en Silicon Valley y la Bolsa de Nueva York (NYSE) – Siliconangle Media opera en la intersección de medios, tecnología e IA. .
Fundada por los visionarios tecnológicos John Furrier y Dave Vellante, Siliconangle Media ha construido un poderoso ecosistema de marcas de medios digitales líderes en la industria, con un alcance de más de 15 millones de profesionales de la tecnología de élite. La nueva nube de video de AI de AI de la compañía, está abriéndose en la interacción de la audiencia, aprovechando la crimson neuronal de thecubeai.com para ayudar a las empresas de tecnología a tomar decisiones basadas en datos y mantenerse a la vanguardia de las conversaciones de la industria.