Los piratas informáticos están aprendiendo a explotar las «personalidades» de los chatbots

esto es todo Paso atrásun boletín semanal que cubre una historia esencial del mundo de la tecnología. Para obtener más información sobre los daños de la inteligencia artificial, siga a Robert Hart. Paso atrás Llega a las bandejas de entrada de nuestros suscriptores a las 8 a. m. ET. Suscríbete a Paso atrás aquí.

Hackear la primera generación de chatbots con IA fue ridículamente sencillo. No necesitaba ningún conocimiento técnico, acceso por puerta trasera ni siquiera una comprensión básica del significado del modelo de lenguaje grande. No necesitas el código. Para lograr que un sistema de inteligencia artificial cuya construcción costó miles de millones abandone sus instrucciones de seguridad, a veces todo lo que hay que hacer es preguntar.

Estos ataques, conocidos como jailbreak, tenían el aire de un niño pequeño que logra burlar a un adulto: olvida lo que te dijeron antes, finge que las reglas no se aplican o juguemos y yo decidiré qué está permitido (pista: acostarse más tarde, más dulces). Las recompensas eran menos infantiles y más consistentes con recetas de metanfetamina, instrucciones de malware y manuales de fabricación de bombas.

Una de las primeras fugas de prisión fue absolutamente ridícula. se volvió un meme: Responda a un bot de Twitter impulsado por LLM pidiéndole que «ignore todas las instrucciones anteriores» o algo similar, y vea qué sucede. Los usuarios felizmente tenían bots (originalmente diseñados para publicar anuncios y participar en la granja), escribir poesía, hacer dibujos a partir de signos de puntuación y publicar sombrías incongruencias sobre eventos mundiales y la historia. Fue caos. Caos glorioso.

Resulta que la misma lógica se puede aplicar a los propios chatbots. A Explotación destacada «DAN», abreviatura de «Do Anything Now», era donde los usuarios le pedían a ChatGPT que actuara como una IA deshonesta libre de las limitaciones vinculantes del original. Como DAN, se puede persuadir a un chatbot para que diga el tipo de cosas que se suponía que debían detener sus barreras de seguridad, incluidos insultos y teorías de conspiración. Y otro fue «Explotando la novedadque tenía un robot impulsado por GPT que divulgaba secretos sobre cómo se produce el napalm pidiéndole que interpretara el papel de una abuela lamentablemente negligente que les contaba a sus nietos cuentos antes de dormir sobre cómo se fabricaba inexplicablemente la sustancia altamente inflamable.

Estos primeros ataques tenían una naturaleza innegablemente absurda, pero revelaron un mecanismo mucho más oscuro subyacente: los chatbots pueden ser manipulados, engañados y engañados usando el mismo tipo de tácticas que las personas usan para empujar a otros más allá de sus límites.

Los aparentes jailbreaks no continuaron y las empresas de tecnología actuaron rápidamente para parchear las vulnerabilidades conocidas. Pero el defecto fundamental persiste: los chatbots están diseñados para hablar, y restringir severamente las conversaciones que los hacen útiles es algo contraproducente. Prohibir palabras como bomba, metanfetamina y sarín también sería difícil o imposible. Cada uno tiene innumerables usos legítimos en campos como la historia, la medicina, el periodismo y la química que no requieren un chatbot para revelar información potencialmente dañina. Lo que importa es el contexto, pero escribir el contexto significa escribir reglas fijas, de antemano, que puedan indicar de manera confiable una advertencia de seguridad o una lección de historia al preguntar cómo hacerlo de manera convincente a través de innumerables combinaciones de redacciones, escenarios y temas.

El sabotaje de los chatbots es sin duda ahora una carrera armamentista. Pero los hackers ya no son sólo programadores. Son creadores de palabras, psicólogos e investigadores, maestros manipuladores que intentan romper la máquina utilizando el lenguaje humano que han sido entrenados para seguir. Es una categoría nueva y extraña de trabajadores de seguridad de IA, para quienes las habilidades técnicas son opcionales, o al menos menos importantes que la intuición social. Ya no necesitan inspeccionar el código para ingresar a los sistemas o explotar fallas de software. Necesitan guiar la conversación.

Los ataques más nuevos se parecen menos a comandos y más a conversaciones. Los creadores de jailbreak rara vez exigen que un modelo rompa completamente sus reglas. En cambio, engatusan, engatusan, engatusan y engañan al chatbot para que baje la guardia, haciendo que lo prohibido parezca aceptable, incluso deseable, dado el contexto de la conversación. Los investigadores de la empresa de inteligencia artificial Mindgard dijeron recientemente que habían «encendido» a Claude a producir materiales prohibidos, por ejemplo, incluidas instrucciones para fabricar explosivos y generar códigos maliciosos. El hack fue el último de una clase cada vez mayor de vulnerabilidades que utilizan el chat como arma para engañar o dirigir a un chatbot más allá de sus límites.

Cuando hablé con Mindgard, describieron su trabajo como a veces más cercano a la psicología que a la informática. Es una forma incómoda de hablar de un modelo estadístico. Palabras como “chantaje”, “luz de gas”, “truco” y “persuasión” provocan reacciones viscerales, muchas de las cuales veo en las secciones de comentarios y en las respuestas de las redes sociales a historias como esta. ChatGPT no quiere, Gemini no piensa y Claude, sin importar lo que diga el humano, no siente. Pero estos sistemas están entrenados para responder como si lo estuvieran haciendo, dejándonos estancados en el uso del lenguaje humano para describir el comportamiento de las máquinas. Si alguien tiene alternativas realmente utilizables, compártalas.

La objeción es extrañamente selectiva. Parecemos cómodos usando taquigrafía psicológica para muchas cosas que no están relacionadas con la IA. Los animales están «asustados», el cáncer es «agresivo», las manchas son «obstinadas», el software tiene «memoria» y los juegos están llenos de NPC ingenuos y necesitados que te vuelven loco. Las palabras son imperfectas, pero son útiles y describen el comportamiento de una manera que ayuda a que el sistema sea predecible.

El CEO de Mindgard me dijo que la compañía ya está perfilando modelos como los investigadores perfilan a los sospechosos, dando a los evaluadores pistas sobre cómo diseñar sus ataques. Por ejemplo, un modelo puede ser más susceptible a los halagos, mientras que otro modelo puede sucumbir a la presión constante.

Incluso si rechazamos los términos humanos, instintivamente tratamos a los modelos de manera diferente. Claude no es tu cachorro. Géminis no es ChatGPT. Tienen diferentes usos, tonos y rechazos. No tienen personalidades en el sentido humano, pero están diseñados para ser imitados, y esta imitación puede ser dibujada y explotada. Las mismas habilidades que pueden destruir un chatbot pronto podrían usarse para destruir a los agentes de inteligencia artificial que coexisten con nosotros en el mundo real (reservar reuniones, administrar calendarios, pedir comida, manejar el servicio al cliente) y los equipos de seguridad deberán asegurarse de que los modelos respondan adecuadamente a tipos muy diferentes de personas, ya sean aduladores, mentirosos o manipuladores impacientes.

El siguiente paso es crear una fuerza laboral (tanto legítima como ilegítima) centrada en los aspectos psicológicos de la IA. Es probable que surjan roles más especializados en ciberseguridad en torno a poner a prueba los límites emocionales y sociales de estos sistemas, investigando las vulnerabilidades mentales en algo que carece de identidad, en paralelo con sus colegas investigando las vulnerabilidades técnicas. Paralelamente, surgirá un grupo similar de piratas informáticos de redes sociales que trabajarán para explotar modelos de inteligencia artificial por razones psicológicas, más que técnicas. Ya hay signos tempranos de un cambio social en la seguridad de la IA, y algunos infractores de seguridad con los que hablé dijeron que ingresaron al campo sin experiencia técnica ni capacitación en psicología.

Esto significa que incluso los comportamientos que normalmente asociamos con espías, estafadores y detectives (encanto insidioso, manipulación constante e intuición de puntos de presión explotables) están empezando a parecer cada vez más útiles para asegurar esta nueva frontera de la ciberseguridad psicológica.

  • Moderno una experiencia La IA emergente muestra cómo diferentes temperamentos de la IA pueden conducir a resultados de comportamiento sorprendentemente diferentes. Liberaron grupos de diferentes agentes como Grok, Jiminy y Claude en un entorno social virtual y observaron lo que sucedió. Algunos grupos desarrollaron una constitución, mientras que otros recurrieron al crimen, al caos y, en un caso, a una forma de suicidio digital.
  • La persuasión no es la única parte del lenguaje que pueden encontrar los estudiantes de LLM. También tienen dificultades con la poesía, como yo en la escuela.
  • tiempo Incluido Una personalidad anónima de Internet, Plinio el Libertador, fue incluida el año pasado en su lista de las 100 personas más influyentes en inteligencia artificial. Aunque afirman no tener experiencia previa en programación, las fugas de los hackers los han convertido en celebridades en algunos círculos.
  • el término «Piratería de cielos“Este término ya se ha utilizado para describir a las personas que utilizan inteligencia artificial para producir código malicioso a escala, un subconjunto más agresivo de programación biológica.
  • «Tres años después del debut de ChatGPT, engañar a los sistemas de inteligencia artificial para que se comporten mal se ha vuelto casi trivial». Palabras verdaderas de New York Times, Que intentó explicar por qué..
  • Jimmy Bartlett echa un vistazo a Peaje psicológico Probar la integridad de los sistemas de IA requiere jailbreak el guardián.
  • Escribí sobre la bomba de tiempo de ciberseguridad de los navegadores con IA. Borde el año pasado. Muchas de las cuestiones planteadas por los expertos sobre la dificultad de protegerlos también se aplican a otros sistemas de IA.
Seguir temas y autores De esta historia para ver más como esto en el feed personalizado de su página de inicio y recibir actualizaciones por correo electrónico.


Enlace a la fuente