Hablemos de… Por qué los modelos de lenguaje alucinan.

Imagen de Nibaldo Pino Araya
Nibaldo Pino Araya
| 9 septiembre, 2025

En esta tercera entrega de nuestra serie “Hablemos de…”, queremos abordar un tema que toca el corazón de la confianza en la inteligencia artificial: las alucinaciones de los modelos de lenguaje. En Raona, defendemos la transparencia y recordamos siempre que la IA no es un oráculo. Los modelos no son profetas, no garantizan un 100% de certeza, y un reciente paper de investigadores de OpenAI y Georgia Tech (Kalai, Nachum, Vempala y Zhang, 2025) (https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf) viene a explicar por qué esto es así y qué podemos hacer al respecto.

 

El mito de la infalibilidad

Cuando un modelo de lenguaje responde con seguridad a una pregunta, tendemos a pensar que la respuesta debe ser correcta. Sin embargo, como el propio paper demuestra, incluso los sistemas más avanzados generan con frecuencia afirmaciones plausibles pero falsas. No se trata de errores anecdóticos: las alucinaciones son inherentes a la forma en que entrenamos y evaluamos los modelos.

Los autores hacen una analogía clara: así como un estudiante, frente a una pregunta difícil de examen, puede “arriesgar” una respuesta plausible en lugar de reconocer que no lo sabe, los modelos de lenguaje hacen lo mismo. Y no lo hacen por malicia, sino porque su entrenamiento y evaluación los empujan en esa dirección.

 

La raíz estadística de las alucinaciones

El artículo demuestra que las alucinaciones no son fenómenos misteriosos. Son, en esencia, errores estadísticos inevitables, comparables a fallos en tareas de clasificación binaria. Durante la fase de preentrenamiento, incluso si los datos fueran perfectos, los modelos tienden a cometer errores porque se ajustan a distribuciones probabilísticas donde lo infrecuente queda mal representado.

Un ejemplo práctico: los cumpleaños. Si en los datos de entrenamiento un cumpleaños aparece solo una vez, el modelo difícilmente podrá generalizar con precisión esa información. El paper denomina a este fenómeno la singleton rate, y demuestra que la frecuencia de ocurrencias únicas en los datos se correlaciona directamente con la probabilidad de alucinación. Dicho de otra manera: si la información es escasa, el modelo tenderá a inventarla.

 

El problema de las evaluaciones

Lo más inquietante no es solo que las alucinaciones surjan en el preentrenamiento, sino que persistan tras el post-entrenamiento. ¿Por qué? Aquí el análisis es demoledor: porque la mayoría de benchmarks premian la respuesta aunque sea incorrecta antes que el silencio. Los sistemas actuales se entrenan para “sacar buena nota en el examen” y no para ser veraces. La honestidad —responder con un “no lo sé”— se penaliza sistemáticamente.

Los autores son claros: bajo los esquemas de evaluación dominantes, un modelo que siempre se arriesga a adivinar tendrá mejor puntuación que otro que exprese dudas o incertidumbre. El resultado es una auténtica epidemia de modelos sobreconfiados.

 

Implicaciones para las empresas

Para las organizaciones que buscan incorporar la IA en procesos críticos, este hallazgo es crucial. No basta con desplegar un modelo “state-of-the-art” y confiar en su output. Es fundamental entender que:

  • La probabilidad de alucinación no desaparece con el tamaño del modelo.
  • Los errores tienden a concentrarse en áreas donde la información es escasa, poco representada o demasiado compleja.
  • El modo en que evaluamos y ajustamos los modelos puede exacerbar el problema.

 

Casos de uso donde las alucinaciones importan

  • Sector legal: Un asistente de IA que analiza contratos puede generar cláusulas inexistentes o jurisprudencia ficticia. Esto puede llevar a errores graves en negociaciones o litigios.
  • Salud: Un modelo que recomienda diagnósticos basados en síntomas podría inventar condiciones clínicas o sugerir tratamientos sin evidencia científica, poniendo en riesgo la seguridad del paciente.
  • Finanzas: En la gestión de inversiones, una alucinación sobre tendencias de mercado o normativas puede desencadenar decisiones costosas y riesgos reputacionales.
  • Recursos humanos: En la clasificación de CVs, el modelo puede “atribuir” competencias a un candidato que no figuran en su historial, sesgando la selección.

En todos estos escenarios, la consecuencia no es solo un error técnico, sino un impacto directo en la confianza de clientes, usuarios y reguladores.

 

Mitigar no es eliminar: estrategias prácticas

Reconocer que las alucinaciones son inevitables no significa resignarse. Significa diseñar procesos y arquitecturas que las manejen y reduzcan su impacto.

  1. Integrar RAG (Retrieval-Augmented Generation): Al enriquecer las respuestas del modelo con fuentes externas verificadas, se disminuye la probabilidad de inventar información. Sin embargo, como advierte el paper, esto no elimina por completo el problema: cuando la búsqueda falla, los incentivos estadísticos siguen favoreciendo el “arriesgar”.
  2. Diseñar pipelines de validación: En entornos críticos, las salidas del modelo deben pasar por filtros de validación automática (por ejemplo, verificadores de hechos) antes de llegar al usuario final.
  3. Aprovechar señales de incertidumbre: Estudios recientes muestran que las propias activaciones internas del modelo contienen pistas sobre cuándo está inseguro. Detectar y comunicar esa incertidumbre puede ser clave.
  4. Human-in-the-loop: En casos sensibles, mantener un humano en el circuito de decisión no es una opción conservadora, sino responsable. La IA puede proponer, pero la verificación final recae en un experto.
  5. Rediseñar la experiencia de usuario: En vez de interfaces que presentan la respuesta como definitiva, promover formatos donde se muestre nivel de confianza, referencias o incluso múltiples alternativas.

 

El valor de la transparencia

En Raona creemos que explicar estos límites no es debilidad, sino fortaleza. La confianza en la IA no se construye vendiéndola como infalible, sino demostrando que entendemos sus límites, que sabemos cuándo confiar y cuándo desconfiar. Al comunicar a nuestros clientes que un modelo puede —y va a— alucinar, reforzamos la credibilidad de nuestras soluciones.

Además, este enfoque encaja plenamente con marcos regulatorios como el AI Act europeo, que enfatiza la necesidad de sistemas transparentes, auditables y confiables.

 

Conclusión: hacia una IA más honesta

El paper “Why Language Models Hallucinate” (Kalai et al., 2025) nos deja una lección clara: las alucinaciones no son un fallo marginal, sino un resultado esperado del modo en que entrenamos y evaluamos los modelos. Y si queremos avanzar hacia sistemas más confiables, debemos cambiar tanto la tecnología como la forma en que la juzgamos.

En esta tercera entrega de “Hablemos de…”, hemos querido acercar un tema de alta complejidad a una narrativa clara: la IA no es un profeta. Pero sí puede ser una herramienta transformadora si la usamos con consciencia de sus límites y con métricas alineadas a la confianza.

En Raona trabajamos para guiar a las empresas en este camino: de la fascinación por la IA a la construcción de una IA en la que se pueda confiar.

 

Referencia: Kalai, A. T., Nachum, O., Vempala, S. S., & Zhang, E. (2025). Why Language Models Hallucinate. OpenAI & Georgia Tech. (https://cdn.openai.com/pdf/d04913be-3f6f-4d2b-b283-ff432ef4aaa5/why-language-models-hallucinate.pdf)

 

Nibaldo Pino Araya

Experto en IA y análisis de datos con 7+ años de experiencia en la industria y 9 en academia, apasionado por la innovación tecnológica y especializado en soluciones avanzadas de machine learning, NLP y visión por computador en Raona.

Compartir en Redes Sociales