Home Noticias Si AI intenta hacerse cargo del mundo, no cuente con un ‘cambio...

Si AI intenta hacerse cargo del mundo, no cuente con un ‘cambio de matar’ para salvar a la humanidad

28
0

Los LED se iluminan en un estante de servidor en un centro de datos.

Alianza de imágenes | Alianza de imágenes | Getty Pictures

Cuando se informó el mes pasado que Claude de Anthrope había recurrió al chantaje y a otras técnicas de autoconservación Para evitar ser cerrado, las campanas de alarma se dispararon en la comunidad de IA.

Los investigadores antrópicos dicen que hacer que los modelos se porten mal (“desalineación” en el lenguaje de la industria) es parte de hacerlos más seguros. Aún así, los episodios de Claude plantean la pregunta: ¿Hay alguna forma de apagar la IA una vez que supera el umbral de ser más inteligente que los humanos, o la llamada superinteligencia?

La IA, con sus extensos centros de datos y su capacidad para crear conversaciones complejas, ya está más allá del punto de un fallas físicas o “matar interruptor”, la thought de que simplemente puede desenchufarlo como una forma de evitar que tenga algún poder.

El poder que importará más, según un hombre considerado como “el padrino de la IA”, es el poder de la persuasión. Cuando la tecnología llega a un cierto punto, necesitamos persuadir a la IA de que su mejor interés es proteger a la humanidad, mientras protegemos contra la capacidad de la IA para persuadir a los humanos de otra manera.

“Si se vuelve más inteligente que nosotros, será mucho mejor que cualquier persona para persuadirnos. Si no tiene el management, todo lo que debe hacerse es persuadir”, dijo el investigador de la Universidad de Toronto, Geoffrey Hinton, que trabajó en Google Mind hasta 2023 y se fue debido a su deseo de hablar más libremente sobre los riesgos de la IA.

“Trump no invadió el Capitolio, pero persuadió a la gente para que lo hiciera”, dijo Hinton. “En algún momento, el problema se vuelve menos acerca de encontrar un cambio de muerte y más sobre los poderes de la persuasión”.

Hinton dijo que la persuasión es una habilidad que la IA se volverá cada vez más hábil para usar, y que la humanidad puede no estar lista para ello. “Estamos acostumbrados a ser las cosas más inteligentes”, dijo.

Hinton describió un escenario en el que los humanos son equivalentes a un niño de tres años en una guardería, y se enciende un gran cambio. Los otros niños de tres años te dicen que lo apague, pero luego los adultos vienen y te dicen que nunca tendrás que volver a comer brócoli si deja el cambio.

“Tenemos que enfrentar el hecho de que AI se volverá más inteligente que nosotros”, dijo. “Nuestra única esperanza es hacer que no quieran dañarnos. Si quieren hacernos, hemos terminado. Tenemos que hacerlos benevolentes, en eso tenemos que centrarnos”, agregó.

Hay algunos paralelos a la forma en que las naciones se han unido para manejar las armas nucleares que se pueden aplicar a la IA, pero no son perfectas. “Las armas nucleares solo son buenas para destruir las cosas. Pero la IA no es así, puede ser una fuerza tremenda para bien y mal”, dijo Hinton. Su capacidad para analizar datos en campos como el cuidado de la salud y la educación puede ser altamente beneficiosa, lo que, según él, debería aumentar el énfasis entre los líderes mundiales en la colaboración para hacer que la IA benevolente y implementar salvaguardas.

“No sabemos si es posible, pero sería triste si la humanidad se extinguiera porque no nos molestamos en averiguarlo”, dijo Hinton. Él piensa que hay una notificación notable del 10% al 20% de que la IA se haga cargo si los humanos no pueden encontrar una manera de hacerlo benevolente.

Geoffrey Hinton, Padrino de AI, Universidad de Toronto, en el centro del escenario durante el día dos de Collision 2023 en el Enercare Middle en Toronto, Canadá.

Ramsey Cardy | SportsFile | Getty Pictures

Se pueden implementar otras salvaguardas de IA, dicen los expertos, pero la IA también comenzará a capacitarse en ellos. En otras palabras, cada medida de seguridad implementada se convierte en datos de capacitación para la elección, cambiando la dinámica de management.

“El mismo acto de construir en los mecanismos de cierre enseña a estos sistemas cómo resistirlos”, dijo Dev Nag, fundador de la plataforma de IA Agentic Qerypal. En este sentido, la IA actuaría como un virus que muta contra una vacuna. “Es como la evolución en el avance rápido”, dijo Nag. “Ya no estamos administrando herramientas pasivas; estamos negociando con entidades que modelan nuestros intentos de controlarlas y adaptarse en consecuencia”.

Hay medidas más extremas que se han propuesto para detener la IA en una emergencia. Por ejemplo, un ataque de pulso electromagnético (EMP), que implica el uso de radiación electromagnética Dañar los dispositivos electrónicos y las fuentes de energía. La thought de bombardear los centros de datos y las redes de energía de corte también se ha discutido como técnicamente posible, pero actualmente una paradoja práctica y política.

Por un lado, la destrucción coordinada de los centros de datos requeriría ataques simultáneos en docenas de países, cualquiera de los cuales podría rechazar y obtener una ventaja estratégica masiva.

“Hacer los centros de datos es una gran ciencia ficción. Pero en el mundo actual, el AIS más peligroso no estará en un solo lugar: estarán en todas partes y no se coserán en el tejido de los negocios, la política y los sistemas sociales. Ese es el punto de inflexión del que realmente deberíamos hablar”, dijo Igor Trunov, fundador de AI Begin-Up Atlantix.

Cómo cualquier intento de detener la IA podría arruinar la humanidad

La disaster humanitaria que subyace en un intento de emergencia de detener la IA podría ser inmensa.

“Una explosión EMP continental detendría los sistemas de IA, junto con cada ventilador hospitalario, planta de tratamiento de agua y suministro de medicina refrigerada en su rango”, dijo Nag. “Incluso si de alguna manera pudiéramos coordinar a nivel mundial para cerrar todas las redes eléctricas mañana, enfrentaríamos una catástrofe humanitaria inmediata: sin refrigeración de alimentos, sin equipo médico, sin sistemas de comunicación”.

Los sistemas distribuidos con redundancia no solo se construyeron para resistir fallas naturales; También resisten inherentemente los cierres intencionales. Cada sistema de respaldo, cada redundancia creado para la confiabilidad, puede convertirse en un vector para la persistencia de una IA superinteligente que depende profundamente de la misma infraestructura en la que sobrevivimos. La IA moderna corre a través de miles de servidores que abarcan continentes, con sistemas automáticos de conmutación por error que tratan cualquier intento de apagado como daño a la ruta.

“Web fue diseñado originalmente para sobrevivir a la guerra nuclear; esa misma arquitectura ahora significa que un sistema superinteligente podría persistir a menos que estemos dispuestos a destruir la infraestructura de la civilización”, dijo Nag, y agregó: “Cualquier medida lo suficientemente extrema como para garantizar que el cierre de la IA trigger un sufrimiento humano más inmediato y seen de lo que estamos tratando de prevenir”.

Los investigadores antrópicos son cautelosamente optimistas de que el trabajo que están haciendo hoy, provocando chantaje en Claude en escenarios diseñados específicamente para hacerlo, les ayudará a prevenir una adquisición de IA mañana.

“Es difícil anticipar que llegaríamos a un lugar como ese, pero crítico hacer pruebas de estrés a lo largo de lo que estamos seguiendo, para ver cómo funcionan y usarlo como una especie de barandilla”, dijo Kevin Troy, investigador de antrópico.

El investigador antrópico Benjamin Wright cube que el objetivo es evitar el punto en que los agentes tienen management sin supervisión humana. “Si llegas a ese punto, los humanos ya han perdido el management, y deberíamos tratar de no llegar a esa posición”, dijo.

Trunov cube que controlar la IA es una cuestión de gobierno más que un esfuerzo físico. “Necesitamos interruptores de matar no para la IA en sí, sino para los procesos comerciales, las redes y los sistemas que amplifican su alcance”, dijo Trunov, lo que agregó significa aislar a los agentes de IA del management directo sobre la infraestructura crítica.

Hoy, ningún modelo de IA, incluido Claude o GPT de OpenAi, tiene agencia, intención o la capacidad de auto-preservado en la forma en que los seres vivos.

“Lo que parece ‘sabotaje’ suele ser un conjunto complejo de comportamientos que emergen de incentivos mal alineados, instrucciones poco claras o modelos excesivos. No es HAL 9000”, dijo Trunov, una referencia al sistema informático en “2001”, la película de ciencia ficción clásica de Stanley Kubrick. “Es más como un pasante demasiado confiado sin contexto y acceso a códigos de lanzamiento nuclear”, agregó.

Hinton mira el futuro que ayudó a crear con cautela. Él cube que si no hubiera topado con los componentes básicos de la IA, alguien más lo habría hecho. Y a pesar de todos los intentos que él y otros pronosticadores han hecho para jugar lo que podría suceder con la IA, no hay forma de saberlo con certeza.

“Nadie tiene ni thought. Nunca hemos tenido que lidiar con las cosas más inteligentes que nosotros”, dijo Hinton.

Cuando se le preguntó si estaba preocupado por el futuro infundido con IA que los niños de primaria de hoy pueden enfrentar algún día, respondió: “Mis hijos tienen 34 y 36 años, y me preocupo por su futuro”.

fuente

LEAVE A REPLY

Please enter your comment!
Please enter your name here