¿Qué tan bien puede entender un chatbot lo que lee? Esta pregunta fue el punto de partida para un equipo del Washington Post, que decidió poner a prueba a cinco de los principales bots de IA disponibles en el mercado. La evaluación abarcó una variedad de textos, desde novelas y artículos científicos hasta discursos políticos y contratos legales, revelando resultados sorprendentes entre los asistentes virtuales más utilizados en la actualidad.
El estudio se diseñó con el objetivo de determinar si estos sistemas realmente comprenden el contenido o simplemente simulan una comprensión superficial. Para ello, el Washington Post organizó un test con cinco chatbots destacados: ChatGPT, Claude, Copilot, Meta AI y Gemini.
Desempeño en diferentes géneros textuales
Se utilizaron cuatro tipos de texto para la evaluación: literatura, ciencia médica, contratos legales y discursos políticos. Expertos en cada área evaluaron las respuestas generadas por los bots, formulando un total de 115 preguntas orientadas a medir su comprensión, análisis crítico y precisión.
En el ámbito literario, los resultados fueron desalentadores para muchos bots. Solo Claude logró captar todos los datos clave de una novela histórica; por otro lado, ChatGPT ofreció un resumen general aceptable pero dejó fuera personajes y temas relevantes como la esclavitud. En contraste, Gemini fue calificado como el menos efectivo; su desempeño fue comparado con un personaje que vio una película en lugar de leer la obra original.
Análisis legal y médico
En lo que respecta a contratos legales, Claude destacó nuevamente al identificar correctamente las cláusulas más importantes e incluso sugerir mejoras útiles. En contraste, ChatGPT y Meta AI resumieron aspectos clave de manera simplista, lo cual fue considerado "inútil" por expertos del área legal.
En cuanto a la lectura de artículos científicos, todos los bots mostraron un rendimiento aceptable debido a la estructura predecible de estos documentos. Sin embargo, Claude se llevó el mejor puntaje (10/10) al explicar un artículo sobre COVID persistente con claridad técnica y utilidad para médicos. Por su parte, Gemini omitió información esencial en su análisis sobre Parkinson.
Análisis político y conclusiones generales
Los discursos del expresidente Donald Trump representaron uno de los mayores retos en términos de análisis crítico. Aquí, ChatGPT logró equilibrar contexto y veracidad mejor que sus competidores. Aunque Copilot mostró precisión técnica, no captó adecuadamente el tono característico de esos discursos.
A nivel general, Claude se posicionó como el bot más consistente y competente. Su capacidad para realizar análisis tanto científico como legal le permitió sobresalir frente a otros asistentes virtuales que frecuentemente omitieron información crucial o realizaron resúmenes erróneos.
Dificultades en la comprensión automatizada
A pesar del desempeño destacado de Claude y ChatGPT, es importante señalar que ninguno de los bots alcanzó una precisión superior al 70%. Todos ellos presentaron limitaciones significativas al omitir datos relevantes o generar respuestas engañosas.
Aunque estos sistemas pueden ser herramientas útiles para asistir en tareas de lectura, aún no son capaces de reemplazar la comprensión humana. A menudo resulta evidente que “el robot se oculta detrás de una máscara humana”, lo que subraya la necesidad continua del juicio humano en la interpretación textual.
La noticia en cifras
| Cifra |
Descripción |
| 115 |
Preguntas formuladas para evaluar los bots |
| 10/10 |
Puntaje obtenido por Claude al explicar un paper sobre COVID persistente |
| 70% |
Porcentaje máximo de precisión general alcanzado por los bots |