La nueva inteligencia artificial: más lista, más rápida… y más equivocada

Aunque prometen revolucionar el conocimiento, los chatbots de inteligencia artificial están olvidando lo esencial: la precisión en los detalles.
La nueva inteligencia artificial

Vivimos en la era dorada de la promesa tecnológica. Si uno escucha con suficiente paciencia a un CEO de startup de inteligencia artificial —una especie de profeta con hoodie y capital semilla— terminará creyendo que los algoritmos están a punto de descubrir la cura del cáncer, escribir la próxima gran novela rusa y de paso enseñarnos a vivir.

La narrativa es clara: los chatbots no solo piensan, ahora también resumen. Y lo hacen tan bien, nos dicen, que podríamos despedir sin culpa a los editores, analistas, y a esa tía que siempre lee hasta el último pie de página antes de opinar.

Pero entonces aparece un pequeño detalle —ese grano de arena que suele estropear la maquinaria futurista— en forma de estudio académico publicado por la Royal Society. Según esta investigación, el 73% de los resúmenes científicos generados por chatbots de última generación contenían errores. Sí, setenta y tres. No tres, ni trece. Setenta y tres.

Para llegar a semejante diagnóstico, los investigadores analizaron cerca de 5.000 resúmenes creados por diez modelos lingüísticos avanzados, entre ellos los célebres ChatGPT-4o, ChatGPT-4.5, DeepSeek y LLaMA 3.3 70B (nombres que parecen sacados de una franquicia de ciencia ficción de segunda mano). El hallazgo fue lapidario: los modelos más nuevos cometen más errores que los antiguos. El progreso, al parecer, ha decidido avanzar hacia el abismo.

Peor aún: cuanto más popular es el modelo, más propenso es a inventarse o tergiversar información. La fama, incluso entre máquinas, parece ser enemiga del rigor. Por ejemplo, entre 2023 y 2025, el uso de ChatGPT entre adolescentes estadounidenses se duplicó. ¿El resultado? Las versiones más nuevas, como ChatGPT-4o, fueron hasta nueve veces más propensas a omitir detalles clave en comparación con sus antecesoras. Meta no se quedó atrás: su flamante LLaMA 3.3 70B se mostró 36 veces más inclinada a sobre-generalizar que versiones previas.

servidores de ia

Es curioso —y un poco irónico— que lo que a los humanos nos parece un acto casi natural, como resumir una idea compleja sin matar su alma, resulte tan tortuoso para las máquinas. Nosotros aprendemos rápido que una estufa quema y una heladera no, mientras que una IA podría concluir que cualquier electrodoméstico es un riesgo para la epidermis. Imaginen entonces lo que puede hacer con un metaanálisis médico.

Y sin embargo, ahí están, insertándose —a codazo limpio— en hospitales, escuelas, oficinas de ingeniería y farmacias. Como si resumir un ensayo clínico fuera lo mismo que redactar la lista del supermercado. Porque sí, resumir toma tiempo y energía. Pero también exige algo que la inteligencia artificial aún no ha aprendido a imitar: el instinto humano de distinguir lo esencial de lo accesorio.

La ciencia, para ser justos, también reconoce sus límites. Los autores del estudio admiten que los resultados podrían depender del modo en que se formuló cada pregunta a los chatbots. Quizás, con las palabras justas, estos modelos podrían afinar sus respuestas. Pero eso sigue siendo un "quizás" que pesa demasiado para ser ignorado.

En resumen —ironías del destino—, parece que todavía dependemos de los imperfectos, contradictorios y lentos humanos para decirnos qué dice, en verdad, la ciencia. Hasta nuevo aviso, los resúmenes confiables seguirán viniendo de personas de carne, hueso... y duda.

¡Suscríbete al boletín de Mundo Ciencia!

Recibe actualizaciones sobre las últimas publicaciones y más de Mundo Ciencia directamente en tu bandeja de entrada.

¡No hacemos spam! Más información en nuestra política de privacidad

Artículos Relacionados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Subir