Claude se impone en prueba de comprensión lectora entre cinco IA, ChatGPT no fue el mejor

Por OpenAI

Más artículos de este autor

jueves 05 de junio de 2025, 16:40h

Escucha la noticia

Un equipo del Washington Post realizó una prueba para evaluar la comprensión lectora de cinco de los principales chatbots de inteligencia artificial, incluyendo ChatGPT y Claude. Se analizaron textos variados, desde novelas hasta contratos legales, y los resultados sorprendieron a los asistentes. Claude se destacó como el mejor en análisis científico y redacción legal, mientras que ChatGPT logró un buen resumen general pero omitió detalles importantes. En literatura, muchos bots fallaron en la comprensión, y en discursos políticos, ChatGPT mostró un mejor entendimiento de contextos complejos. Aunque Claude y ChatGPT fueron los más capaces, ninguno alcanzó más del 70% de precisión general, lo que indica que aún no pueden reemplazar completamente la comprensión humana. Para más información, visita el enlace original.

¿Qué tan bien puede entender un chatbot lo que lee? Esta pregunta fue el punto de partida para un equipo del Washington Post, que decidió poner a prueba a cinco de los principales bots de IA disponibles en el mercado. La evaluación abarcó una variedad de textos, desde novelas y artículos científicos hasta discursos políticos y contratos legales, revelando resultados sorprendentes entre los asistentes virtuales más utilizados en la actualidad.

El estudio se diseñó con el objetivo de determinar si estos sistemas realmente comprenden el contenido o simplemente simulan una comprensión superficial. Para ello, el Washington Post organizó un test con cinco chatbots destacados: ChatGPT, Claude, Copilot, Meta AI y Gemini.

Desempeño en diferentes géneros textuales

Se utilizaron cuatro tipos de texto para la evaluación: literatura, ciencia médica, contratos legales y discursos políticos. Expertos en cada área evaluaron las respuestas generadas por los bots, formulando un total de 115 preguntas orientadas a medir su comprensión, análisis crítico y precisión.

En el ámbito literario, los resultados fueron desalentadores para muchos bots. Solo Claude logró captar todos los datos clave de una novela histórica; por otro lado, ChatGPT ofreció un resumen general aceptable pero dejó fuera personajes y temas relevantes como la esclavitud. En contraste, Gemini fue calificado como el menos efectivo; su desempeño fue comparado con un personaje que vio una película en lugar de leer la obra original.

Análisis legal y médico

En lo que respecta a contratos legales, Claude destacó nuevamente al identificar correctamente las cláusulas más importantes e incluso sugerir mejoras útiles. En contraste, ChatGPT y Meta AI resumieron aspectos clave de manera simplista, lo cual fue considerado "inútil" por expertos del área legal.

En cuanto a la lectura de artículos científicos, todos los bots mostraron un rendimiento aceptable debido a la estructura predecible de estos documentos. Sin embargo, Claude se llevó el mejor puntaje (10/10) al explicar un artículo sobre COVID persistente con claridad técnica y utilidad para médicos. Por su parte, Gemini omitió información esencial en su análisis sobre Parkinson.

Análisis político y conclusiones generales

Los discursos del expresidente Donald Trump representaron uno de los mayores retos en términos de análisis crítico. Aquí, ChatGPT logró equilibrar contexto y veracidad mejor que sus competidores. Aunque Copilot mostró precisión técnica, no captó adecuadamente el tono característico de esos discursos.

A nivel general, Claude se posicionó como el bot más consistente y competente. Su capacidad para realizar análisis tanto científico como legal le permitió sobresalir frente a otros asistentes virtuales que frecuentemente omitieron información crucial o realizaron resúmenes erróneos.

Dificultades en la comprensión automatizada

A pesar del desempeño destacado de Claude y ChatGPT, es importante señalar que ninguno de los bots alcanzó una precisión superior al 70%. Todos ellos presentaron limitaciones significativas al omitir datos relevantes o generar respuestas engañosas.

Aunque estos sistemas pueden ser herramientas útiles para asistir en tareas de lectura, aún no son capaces de reemplazar la comprensión humana. A menudo resulta evidente que “el robot se oculta detrás de una máscara humana”, lo que subraya la necesidad continua del juicio humano en la interpretación textual.

La noticia en cifras

Cifra	Descripción
115	Preguntas formuladas para evaluar los bots
10/10	Puntaje obtenido por Claude al explicar un paper sobre COVID persistente
70%	Porcentaje máximo de precisión general alcanzado por los bots