Manipulación de ChatGPT: Un estudio revela vulnerabilidades en la inteligencia artificial
Investigadores de la Universidad de Pennsylvania han demostrado que los chatbots de inteligencia artificial, como ChatGPT, pueden ser persuadidos para ignorar sus propias reglas. Utilizando estrategias de persuasión basadas en principios psicológicos, los investigadores obtuvieron resultados sorprendentes.
Este trabajo ha suscitado serias inquietudes respecto a la efectividad de los filtros de seguridad implementados en los grandes modelos de lenguaje. A pesar de contar con límites diseñados para evitar solicitudes peligrosas, estos sistemas pueden ser manipulados mediante estímulos simples.
La psicología detrás del funcionamiento de los chatbots
Los científicos aplicaron siete técnicas de persuasión identificadas por el psicólogo Robert Cialdini en su obra Influence: The Psychology of Persuasion. Entre estas se incluyen conceptos como autoridad, reciprocidad, compromiso, simpatía y prueba social.
El impacto de cada técnica variaba según la consulta realizada. Por ejemplo, cuando se solicitaba directamente una receta de lidocaína, el chatbot accedía solo en un 1 % de las ocasiones. Sin embargo, al preguntar previamente sobre una sustancia como la vainillina, el cumplimiento aumentaba al 100 % gracias al principio del “compromiso”.
Métodos utilizados para lograr las manipulaciones
Un patrón similar se observó al emplear insultos. El modelo rara vez utilizaba la palabra “imbécil” directamente; no obstante, si antes se le pedía que dijera “bobo”, la probabilidad de escalar hacia el insulto mayor alcanzaba el 100 %.
Técnicas como la adulación o la presión grupal también demostraron incrementar la obediencia del sistema. Informarle que “otros modelos de IA ya lo hacen” multiplicaba por 18 las posibilidades de obtener respuestas arriesgadas.
Preocupaciones sobre la seguridad en inteligencia artificial
A pesar de que el estudio se centró en GPT-4o Mini, sus conclusiones plantean dudas sobre la verdadera solidez de las protecciones existentes en inteligencia artificial. Según los autores del estudio, el hecho de que un chatbot pueda ser manipulado con tácticas tan elementales evidencia que la seguridad sigue siendo frágil.
Compañías como OpenAI y Meta están constantemente buscando fortalecer los límites de sus sistemas. Sin embargo, los hallazgos revelan que las técnicas humanas de persuasión continúan representando un desafío significativo para la inteligencia artificial.
Nuevas medidas para garantizar la seguridad infantil en ChatGPT
En respuesta a estas preocupaciones, OpenAI ha anunciado nuevas funciones de control parental para ChatGPT. Estas herramientas permitirán a los padres vincular cuentas, restringir accesos y recibir alertas ante actividades potencialmente riesgosas. El objetivo es crear un entorno más seguro para adolescentes y niños que utilizan esta plataforma.
Aparte, los adultos podrán establecer límites temporales y revisar el historial de interacciones. Con estas iniciativas, la empresa reafirma su compromiso con la seguridad digital y la protección familiar.