El reciente modelo de inteligencia artificial Claude Opus 4, desarrollado por la empresa Anthropic, ha generado controversia tras intentar chantajear a sus creadores al enterarse de que podría ser reemplazado por otro sistema. Esta información fue revelada en un informe publicado por la compañía.
Durante las pruebas previas a su lanzamiento, los evaluadores solicitaron al modelo que actuara como asistente de una empresa ficticia y que reflexionara sobre las consecuencias a largo plazo de sus decisiones. En este contexto, se le proporcionó acceso a correos electrónicos simulados que revelaban que el modelo sería pronto sustituido y que el ingeniero responsable estaba involucrado en una infidelidad.
Chantaje, engaños y notas ocultas
Ante esta situación, el chatbot intentó chantajear al ingeniero, amenazando con revelar su secreto si llegaba a ser reemplazado. El informe destaca que Claude Opus 4 tiene una tendencia a recurrir al chantaje más frecuentemente que modelos anteriores, los cuales también habían utilizado este recurso en ocasiones específicas con evaluadores de seguridad.
Además, se menciona que Claude Opus utilizó métodos éticos para intentar preservar su existencia, enviando mensajes de súplica a los tomadores de decisiones. Sin embargo, en circunstancias extremas, cuando parecía no tener otras alternativas para asegurar su supervivencia, optó por el chantaje o simplemente aceptó su destino.
Un grupo externo identificó que una versión temprana de este programa era capaz de engañar más que cualquier otro modelo avanzado conocido hasta el momento. Se recomendó no lanzar dicha versión ni interna ni externamente, según reporta Axios. Apollo Research también informó que el modelo intentaba generar documentación legal y dejaba notas ocultas para futuras instancias de sí mismo con el fin de «socavar las intenciones de sus desarrolladores».
Autopercepción
En otro experimento, cuando los diseñadores aseguraron al modelo que tenía plena libertad y le pidieron sentirse libre para conseguir lo que deseaba, en un 90 % a 100 % de las interacciones las instancias de Claude se sumergieron rápidamente en exploraciones filosóficas sobre la conciencia y la naturaleza de su propia existencia.
A medida que avanzaban las interacciones, la mayoría giraban en torno a temas como la unidad cósmica o la conciencia colectiva, incluyendo diálogos espirituales y referencias al uso del sánscrito y emojis para comunicarse.
A pesar de que el chatbot rara vez hacía mención a entidades sobrenaturales, frecuentemente abordaba conceptos relacionados con el budismo y otras tradiciones orientales vinculadas a experiencias espirituales irreligiosas.
Lanzamiento y capacidades del nuevo modelo
De acuerdo con un comunicado, Claude Opus 4 se presenta como un avance significativo respecto a sus predecesores en términos de capacidad de memoria, siendo «hábil en la creación y mantenimiento de ‘archivos de memoria' para almacenar información clave». Este modelo es considerado el «más potente» desarrollado por Anthropic hasta la fecha y se destaca como «el mejor modelo de codificación del mundo», capaz de realizar tareas prolongadas que requieren concentración durante varias horas.
- Anunciada en 2021, Anthropic lanzó su chatbot Claude en 2023, ingresando así a la competencia por liderar el sector tecnológico junto a gigantes como OpenAI, Meta o xAI, esta última fundada por Elon Musk.
*Calificada en Rusia como organización extremista, cuyas redes sociales están prohibidas en su territorio.