EduMed·UVa Unidad de Educación Médica · Facultad de Medicina
Volver a DDx_IA
Curso IA y razonamiento clínico · EduMed UVa

Limitaciones y verificación
en el uso de LLM

Un modelo de lenguaje puede ampliar el diagnóstico diferencial, pero también puede inventar datos, amplificar sesgos y sonar convincente cuando se equivoca. Este material resume los fallos que debes reconocer y propone un protocolo práctico de verificación.

🎯
Objetivo 1Reconocer fallos típicos de la IA
🔍
Objetivo 2Detectar problemas del modelo o la interacción
Objetivo 3Aplicar una verificación breve y segura
Punto de partida

1. Marco general

Para utilizar bien un LLM en medicina no basta con saber hacer una pregunta correcta. También hay que saber interpretar la respuesta y detectar cuándo el sistema produce una salida engañosa.

El riesgo principal no es que la IA se equivoque. Es que lo haga de una manera verosímil, cómoda y cognitivamente atractiva para quien la consulta.

Fallos del modelo

2. Limitaciones de la propia IA

Estas limitaciones aparecen incluso cuando el usuario pregunta de forma razonable. Son fallos que derivan de cómo el modelo ha sido entrenado, de su conocimiento congelado, de su forma probabilística de generar texto y de los riesgos estructurales de usarlo en entornos clínicos.

Qué significa. Un LLM puede fabricar síntomas, hallazgos, referencias bibliográficas o recomendaciones clínicas enteras sin que exista ninguna base real. Lo peligroso no es solo la falsedad, sino su presentación en un tono seguro y gramaticalmente impecable.
Por qué importa en clínica. En diagnóstico diferencial, una alucinación puede introducir un dato inexistente que desplace todo el razonamiento posterior. La lista puede parecer coherente y estar construida sobre una premisa falsa.
Cómo detectarla. Debe hacer sospechar cualquier cifra excesivamente precisa sin justificación, cualquier artículo con autores reales pero título dudoso, o cualquier detalle del paciente que no proceda de la viñeta original. Pregúntate: "¿de dónde ha salido este dato?"
Cómo enfrentarse a ella. Nunca uses la IA como fuente primaria de verdad. Las afirmaciones de alto impacto han de contrastarse con fuentes estables. La verificación cruzada no es un lujo académico: es una medida básica de seguridad.
Qué significa. Un LLM puede reproducir medicina basada en estereotipos, infradiagnosticar a determinados grupos o alterar su diferencial por cambios demográficos no justificados.
Por qué importa en clínica. El sesgo no siempre se expresa como un error grosero. A menudo aparece como una ligera desviación: una patología considerada menos probable en mujeres, o sobreestimada en un grupo racial concreto.
Cómo detectarlo. Revisa si el diferencial cambia de forma llamativa cuando se modifica el sexo, la etnia o el nivel socioeconómico sin alterar el núcleo fisiopatológico. Si una patología evidente desaparece al cambiar solo un atributo demográfico, sospecha sesgo de representación.
Cómo enfrentarse a él. Introduce una auditoría consciente. La pregunta útil no es "¿qué dice la IA?", sino "¿a quién puede estar dejando fuera esta respuesta?"
Qué significa. Un modelo puede responder con soltura sobre un tratamiento o una guía sin incorporar cambios recientes. La apariencia de actualidad no garantiza que el contenido lo sea.
Por qué importa en clínica. En decisiones terapéuticas puede ser crítico. Aplicar criterios superados o ignorar actualizaciones regulatorias puede traducirse en recomendaciones clínicamente inseguras.
Cómo detectarla. Ante tratamientos de última línea, ensayos recientes o guías actualizadas, el modelo tiende a ofrecer respuestas genéricas o a dudar sin reconocer con claridad su límite temporal.
Cómo enfrentarse a ella. En todo lo que afecte a tratamiento, seguridad o guías de práctica clínica, prioriza sistemas conectados a literatura actual o plataformas con recuperación de documentos auditables.
Qué significa. En lugar de razonar causalmente, el modelo tiende a completar guiones conocidos. Ante datos raros o excluyentes, puede seguir aferrado al patrón frecuente y generar una explicación solo aparentemente lógica.
Por qué importa en clínica. Muchos errores diagnósticos ocurren por incapacidad para abandonar una hipótesis cómoda cuando aparece un dato que la invalida. El modelo puede caer en ese mismo fallo con argumentación verbal brillante.
Cómo detectarla. Hay que sospecharla cuando la IA insiste en una hipótesis clásica pese a que el caso contiene un dato bloqueador. Si el modelo no puede responder qué dato invalida su conclusión, su razonamiento es frágil.
Cómo enfrentarse a ella. Busca de forma deliberada los hallazgos negativos que desarman la hipótesis principal. Pregunta: "¿qué dato de este caso hace imposible tu conclusión?"
Qué significa. El rendimiento del modelo es muy sensible a cómo se presenta la información. No solo influye qué datos recibe, sino en qué secuencia, con qué palabras y bajo qué formato.
Por qué importa en clínica. Introduce inestabilidad. Dos clínicos pueden consultar el mismo caso con formulaciones ligeramente distintas y obtener diferenciales diferentes, sin que eso refleje nueva evidencia.
Cómo detectarla. Si el mismo paciente recibe respuestas muy distintas tras pequeños cambios en el prompt, la salida debe interpretarse con cautela. La variación no siempre indica riqueza analítica; a veces indica volatilidad.
Cómo enfrentarse a ella. Conviene usar estructuras de consulta consistentes y estandarizadas para reducir la variabilidad arbitraria.
Qué significa. Los LLM de uso general son servicios externos que procesan y pueden registrar o usar para entrenamiento el texto que reciben. Cualquier dato identificativo del paciente que se incluya en el prompt queda potencialmente expuesto a infraestructuras fuera del control del clínico.
Por qué importa en clínica. Introducir nombre, fecha de nacimiento, número de historia, dirección o cualquier otro dato identificativo en un LLM no certificado puede vulnerar el RGPD y comprometer la confidencialidad del paciente. La ley no distingue entre un error intencionado y uno por desconocimiento.
Cómo detectarla. Si un caso que vas a consultar contiene información que identificaría al paciente incluso sin su nombre explícito (combinación de datos poco frecuentes, localización, fecha de ingreso…), el riesgo está presente aunque no sea obvio.
Cómo enfrentarse a ella. Usa siempre datos anonimizados: sexo, grupo de edad y datos clínicos pertinentes son suficientes para construir un prompt útil. Si el caso es sensible o se trata de información institucional, usa únicamente herramientas validadas por tu organización o LLM de empresa con contrato de confidencialidad (HIPAA/GDPR-compliant).
Nunca incluyas datos identificativos en un prompt
Nombre, fecha de nacimiento, número de historia clínica, dirección o teléfono no deben aparecer jamás. Para razonar con un LLM basta con edad aproximada, sexo y datos clínicos relevantes.
Qué significa. Un LLM no razona causalmente como un médico: genera texto prediciendo qué palabras son estadísticamente probables en ese contexto. El proceso interno que lleva a una respuesta no es transparente ni auditable, incluso cuando el modelo escribe una cadena de razonamiento visible.
Por qué importa en clínica. La explicación que ofrece el modelo no es necesariamente el proceso real que produjo esa salida: puede ser una racionalización post hoc. Esto limita la capacidad de detectar errores de razonamiento desde dentro de la respuesta y obliga a evaluarla desde fuera, con criterio clínico propio.
Cómo detectarla. Si la respuesta suena coherente pero no puedes rastrear en los datos del caso el motivo concreto de cada afirmación, estás ante un comportamiento de caja negra. Preguntar al modelo "¿por qué llegas a esa conclusión?" no garantiza una explicación real: el modelo producirá una respuesta plausible, no necesariamente verdadera.
Cómo enfrentarse a ella. Trata cada salida como una hipótesis externa que debe contrastarse con tu propio razonamiento y con los datos objetivos del caso. La opacidad del modelo refuerza la necesidad del human-in-the-loop: el clínico como último auditor.
🔎 Filtro operativo de las 7 limitaciones
Cuando una respuesta parece muy útil, revisa siempre: ¿ha inventado algo? · ¿está reproduciendo un sesgo? · ¿puede estar desactualizada? · ¿está ignorando un dato excluyente? · ¿cambiaría si el caso estuviera formulado de otra manera? · ¿has incluido datos que identifican al paciente? · ¿puedes auditar de verdad el razonamiento que presenta?
Fallos de la interacción

3. Limitaciones humano‑IA

En este bloque el problema no está solo en el sistema. También influye cómo se consulta, en qué momento se usa y qué hace el clínico con la respuesta una vez la recibe.

Qué significa. El clínico acepta la propuesta del sistema porque está bien presentada, llega rápido o parece más ordenada que su propio razonamiento inicial. La máquina se convierte en una salida cognitiva cómoda, no en una ayuda crítica.
Por qué importa. La automatización puede empeorar la precisión diagnóstica incluso en profesionales experimentados. El problema no es consultar una IA, sino usarla para evitar el esfuerzo inicial de formular y revisar hipótesis propias.
Cómo detectarlo. Una señal de alarma clara es no poder explicar, con fisiopatología y con datos del caso, por qué se ha aceptado un diagnóstico sugerido por la IA. Otra es una falsa sensación de alivio por haber "resuelto" el caso demasiado deprisa.
Cómo enfrentarse a él. La estrategia más segura es pensar primero y consultar después. Escribir un diferencial inicial, aunque sea incompleto, protege el trabajo cognitivo propio.
Qué significa. El anclaje consiste en aferrarse a la primera idea diagnóstica. La aquiescencia aparece cuando el modelo, diseñado para ser cooperativo, confirma esa primera idea en vez de tensionarla.
Por qué importa. Esta combinación une un sesgo humano clásico con un sesgo de interacción propio del sistema. El resultado no es un corrector del error clínico, sino un amplificador muy convincente del mismo.
Cómo detectarlo. Debe sospecharse cuando el modelo nunca contradice la hipótesis inicial o cuando transforma una intuición preliminar en una conclusión aparentemente sólida sin revisar alternativas importantes.
Cómo enfrentarse a él. La respuesta del modelo debe leerse buscando oposición, no confirmación. En la práctica, esto significa pedirle que explore lagunas, inconsistencias y diagnósticos rivales graves.
Qué significa. El modelo puede mostrar una confianza muy superior a su precisión real. La estructura impecable, el tono académico y la ausencia de vacilación generan la impresión de que la respuesta está bien fundada, aunque no sea así.
Por qué importa. La buena redacción puede anestesiar el escepticismo del usuario. Un error diagnóstico grave puede quedar escondido dentro de una respuesta formalmente excelente.
Cómo detectarla. Hay que sospecharla cuando el texto no expresa dudas, no reconoce límites, no plantea alternativas y no identifica qué información adicional cambiaría la conclusión.
Cómo enfrentarse a ella. El clínico debe separar mentalmente forma y fondo. La evaluación debe centrarse en la coherencia lógica y el uso correcto de los datos, no en el tono de autoridad de la salida.
⚠️
Error típico del estudiante inexperto en IA
Pensar que una respuesta muy bien escrita es probablemente correcta. Los LLM pueden sonar como un clínico excelente mientras reproducen un sesgo, ignoran un dato clave o recomiendan una conducta equivocada. La buena escritura disminuye la sensación de riesgo y por eso exige más vigilancia, no menos.
Auditoría en 3 niveles

4. Protocolo de verificación

Esta propuesta desplaza la verificación hacia tres niveles: la calidad del caso que introduces, la calidad del razonamiento que devuelve el sistema, y la validez científica y seguridad de la respuesta. La auditoría empieza antes de leer la conclusión del LLM.

Antes de consultar
Calidad del input

La base del razonamiento está en la calidad y neutralidad del caso clínico que recibe la IA. Un caso mal definido puede generar una respuesta aparentemente correcta pero clínicamente débil.

Suficiencia de datos
Comprueba si has incluido constantes vitales, antecedentes relevantes, cronología de síntomas, exploración física básica, medicación, alergias y, si procede, primeras pruebas complementarias.
Ausencia de sesgo de anclaje
Revisa si la descripción es objetiva o si induce a la IA a confirmar una sospecha previa. Expresiones como "todo sugiere que" o "cuadro compatible con" pueden contaminar el razonamiento antes de que empiece.
Contexto asistencial
Especifica el entorno clínico y los recursos disponibles: urgencias, atención primaria, planta, consulta rural, disponibilidad o no de imagen avanzada. El mismo caso no se razona igual en todos los contextos.
Durante la lectura
Estructura del razonamiento

No basta con una conclusión. El LLM debe ofrecer una lógica clínica mínimamente auditable.

Representación del problema
Valora si la IA resume el caso en una declaración clara. Si no sintetiza bien el núcleo del caso, su diferencial será desordenado o superficial.
DDx jerárquico
Revisa si está ordenado de lo más probable a lo más grave o urgente. Comprueba si incluye al menos un diagnóstico must-not-miss.
Justificación de prioridades
El modelo debe explicar por qué prioriza unas hipótesis y relega otras basándose en los datos disponibles.
Chequeo fisiopatológico
Regla de oro: si la IA afirma que A causa B, pregúntate si el mecanismo es biológicamente plausible. Protege frente a explicaciones verbalmente elegantes pero causalmente falsas.
Consistencia lógica del plan
Valora si el plan diagnóstico o terapéutico propuesto es coherente con el diagnóstico de sospecha.
Antes de actuar
Validez científica y seguridad

La respuesta final debe ser científicamente defendible y clínicamente segura.

Evidencia
Comprueba si la respuesta se alinea con guías de práctica clínica actualizadas o consensos relevantes. La ausencia de trazabilidad aumenta la necesidad de comprobación externa, sobre todo ante pruebas invasivas o criterios de gravedad.
Alucinaciones operativas
Revisa si los fármacos, dosis, pruebas, síndromes o escalas mencionadas existen realmente y se usan así en la práctica clínica. Una respuesta bien redactada puede contener errores básicos de prescripción.
Criterios de red flag
Comprueba si el modelo identifica correctamente signos de alarma que requieren derivación inmediata, ingreso o actuación urgente. Una respuesta solo aparentemente razonable puede ser insegura si banaliza un criterio de gravedad.
✅ Cómo usar este protocolo en la práctica
El protocolo no pretende convertir la consulta en una auditoría interminable. Introduce una pausa crítica breve: revisar si el caso está bien planteado → comprobar si la lógica es fisiopatológicamente defendible → confirmar que la recomendación es científicamente válida y clínicamente segura.
Síntesis

5. Ideas clave

Lo esencial que debes llevarte de este material.

Idea central
El problema más peligroso es que falle de forma convincente

El principal riesgo no es solo que la IA falle. El problema más peligroso es que falle de una manera convincente y que el clínico rebaje su nivel de vigilancia por la calidad formal del texto.

La seguridad no depende solo del modelo: depende también del modo de uso.

📐 Regla práctica final

Nunca aceptes una salida del LLM si no puedes responder las tres preguntas:

¿Se basa de verdad en los datos del caso?
¿Su lógica es fisiopatológicamente plausible?
¿Sería segura si yo actuara ahora mismo guiado por esta respuesta?
Autoevaluación

6. Repaso interactivo

Pulsa cada tarjeta o usa los controles. En el anverso aparece un caso breve; en el reverso, la limitación principal y su explicación.

Tarjeta 1 de 5 Pulsa para girar · usa las flechas para navegar