EduMed·UVa Unidad de Educación Médica · Facultad de Medicina
Volver a DDx_IA
Curso IA y razonamiento clínico · EduMed UVa

Tipos de prompts
para razonar con IA en clínica

La utilidad de un LLM en diagnóstico no depende solo del modelo, sino de cómo se le pregunta. Este material ordena los principales tipos de prompts desde los más simples hasta los más complejos, y explica cuándo conviene consultar primero al clínico o al modelo, qué papel tiene la supervisión humana y por qué el RAG importa en preguntas de alto impacto clínico.

🗂️
Objetivo 1Distinguir tipos de prompts según complejidad y función
⚖️
Objetivo 2Qué gana y qué pierde el estudiante con cada forma de interacción
🎯
Objetivo 3Elegir la estrategia adecuada según incertidumbre y momento
Fundamentos

1. Qué es un prompt

Un prompt no es solo una pregunta. Es la instrucción que organiza la tarea cognitiva que va a realizar el modelo. En clínica, cambiar el prompt puede alterar la calidad, la amplitud, la claridad y la seguridad de la respuesta.

Idea central
La forma de preguntar cambia la respuesta

Un mismo caso puede generar una salida superficial, una lista organizada, una explicación paso a paso o una revisión crítica según cómo se formule la instrucción. Aprender a escribir prompts es también aprender a dirigir el razonamiento del LLM.

Consecuencia docente
No todos los prompts sirven para lo mismo

Un prompt breve puede bastar para una consulta factual, pero será pobre para un caso incierto o complejo. Las estrategias más estructuradas mejoran la utilidad clínica, aunque a costa de mayor tiempo y mayor exigencia para quien las usa.

Gradiente de complejidad

2. Complejidad

Los principales tipos de prompts pueden ordenarse desde los más intuitivos y rápidos hasta los que exigen más estructura, más vigilancia y más autonomía cognitiva por parte del estudiante.

Nivel inicial
Prompt directo

Rápido e intuitivo, pero también el más vulnerable a respuestas genéricas y confirmatorias. Adecuado para consultas simples y factuales donde el riesgo de error es bajo y el tiempo disponible es escaso.

Nivel intermedio
Prompt en dos pasos y cadena de pensamiento

Obligan al modelo a organizar y explicar antes de concluir. Mejoran el rendimiento en viñetas largas y casos complejos, porque reducen el riesgo de que el modelo pase por alto datos enterrados en el texto.

Nivel avanzado
Autorreflexión, roles dialógicos y tutor de fisiopatología

Sirven menos para obtener una respuesta rápida y más para tensionar, revisar o poner a prueba el razonamiento del estudiante. Requieren que el estudiante haya pensado primero y tenga base suficiente para evaluar críticamente la respuesta del modelo.

Estructura interna

3. Anatomía de un prompt

Un buen prompt para resolver escenarios clínicos con un LLM tiene varias partes fundamentales. No siempre hacen falta todas, pero cuanto más clara sea la arquitectura de la instrucción, más útil y más controlable será la respuesta.

Componente 1
Rol — Le dices al modelo quién debe ser

Cuanto más específico, mejor. No es lo mismo "eres un médico" que "eres un médico internista con experiencia en urgencias, habituado a razonar de forma sistemática y a comunicarte con estudiantes de medicina de segundo año". El rol no garantiza exactitud, pero orienta el tipo de respuesta que el modelo intentará producir.

Componente 2
Contexto clínico — Describes el escenario y delimitas lo que sabe el modelo

Incluyes motivo de consulta, datos relevantes de la anamnesis, exploración y pruebas disponibles. Es el equivalente a la presentación del caso. Aquí defines qué sabe el modelo antes de responder y condicionas en gran medida la calidad de la salida.

Componente 3
Tarea — Indicas exactamente qué quieres que haga

Puedes pedirle que elabore un diagnóstico diferencial, redacte un plan de actuación, explique un concepto o genere preguntas de autoevaluación. Conviene ser concreto: "lista los tres diagnósticos más probables ordenados por urgencia" es mucho mejor que "dime qué puede tener".

Componente 4
Audiencia y tono — Especificas para quién es la respuesta y en qué registro

No es igual responder para un estudiante de primer curso que para un residente o un especialista. Indicar la audiencia ayuda a modular la profundidad, el tipo de terminología y el tono didáctico. "Explícalo para un estudiante de primer año" y "usa terminología clínica estándar" producen salidas muy diferentes.

Componente 5
Formato de salida — Decides cómo quieres que devuelva la información

Puedes pedir prosa, listas, tablas, encabezados, una cadena de pensamiento, una longitud máxima o una estructura concreta. Si no lo indicas, el modelo elegirá por su cuenta. En clínica, dar forma a la salida mejora mucho la legibilidad y facilita la revisión crítica.

Componente 6
Restricciones — Le dices qué debe evitar o qué no debe asumir

Puedes pedir que no incluya opciones diagnósticas raras sin justificación, que no use siglas sin explicarlas o que no asuma datos que no se le han dado. Esta parte es muy útil para limitar errores frecuentes del modelo y para reducir respuestas excesivamente especulativas.

⚠️ Nunca incluyas datos personales del paciente en un prompt
Nombre, fecha de nacimiento, número de historia clínica, dirección, teléfono o cualquier otro dato identificativo no deben aparecer jamás. Los LLM son servicios externos que procesan y pueden registrar el texto que reciben. Para construir un escenario clínico útil basta con datos anonimizados: sexo, edad aproximada y los datos clínicos relevantes. La protección de datos del paciente es una obligación legal y ética que no admite excepciones.
Catálogo práctico

4. Tipos de prompts

Pulsa sobre cada tipo para ver su descripción, ventajas, límites, contexto ideal de uso y un ejemplo orientativo.

📝
Prompts instruccionales
Organizan cómo el modelo estructura y presenta la información

El estudiante proporciona el caso clínico en texto libre y solicita directamente un diagnóstico o diferencial sin ofrecer ninguna estructura previa, ejemplos ni instrucciones de formato.

Ventajas: es el método más rápido, intuitivo y fácil de formular.
Limitaciones: es el formato más vulnerable a respuestas superficiales o confirmatorias.
Ideal para: consultas factuales rápidas o casos muy sencillos.
Riesgo docente: puede dar una falsa sensación de utilidad porque no obliga a estructurar ni a auditar.
Aquí está el caso clínico de una mujer de 75 años con edema y proteinuria. ¿Cuál es el diagnóstico más probable y qué diagnósticos diferenciales priorizarías?

Se fuerza a la IA a organizar y estructurar primero la información clínica antes de intentar diagnosticar. Esto imita el proceso de síntesis que realizan los médicos humanos y reduce el riesgo de que el modelo pase por alto datos enterrados en el texto.

Ventajas: mejora el rendimiento frente a la instrucción directa porque obliga al modelo a sintetizar antes de concluir.
Limitaciones: requiere más lectura y todavía no obliga a explicar bien la fisiopatología.
Ideal para: viñetas largas o historiales desordenados.
Riesgo docente: un error en la síntesis inicial puede arrastrarse a todo el diferencial.
Paso 1: organiza la información del siguiente caso clínico en categorías estructuradas. Paso 2: a partir de esa información organizada, genera un diagnóstico diferencial priorizado.

Se instruye al modelo para que razone paso a paso y haga explícita su lógica antes de ofrecer una conclusión final. Es la estrategia más útil cuando el estudiante necesita ver cómo el modelo conecta los datos del caso.

Ventajas: produce explicaciones más ricas y vuelve la lógica más auditable.
Limitaciones: tarda más y puede acumular errores en casos muy ruidosos.
Ideal para: casos complejos, atípicos o raros.
Riesgo docente: la apariencia de lógica no sustituye a la plausibilidad clínica.
#1 Síntesis clínica: resume los datos clave del caso (antecedentes, síntomas, signos, exploración física y analítica disponible). A partir de ello, crea una lista de "problemas activos". #2 Análisis sindrómico: identifica los síndromes principales que emergen del caso. #3 Indagación activa: antes de dar el diagnóstico diferencial, detente. Enumera qué datos específicos de la anamnesis, factores de riesgo epidemiológico o hallazgos físicos faltan y explica por qué son cruciales para discriminar entre tus sospechas iniciales. #4 Diagnóstico diferencial jerarquizado: - Más probable: por frecuencia y concordancia clínica. - Diferenciales competitivos: otras causas que encajan parcialmente. - "Must-not-miss": diagnósticos graves o urgentes que deben descartarse obligatoriamente, aunque sean menos probables. #5 Justificación de hipótesis: explica brevemente qué datos apoyan y qué datos contradicen cada una de tus 5 hipótesis principales. #6 Plan de acción: sugiere pruebas complementarias priorizadas por la relación coste-beneficio y rentabilidad diagnóstica, de lo más sencillo o no invasivo a lo más complejo. Espera a mi respuesta tras el punto 3 si consideras que la información es insuficiente para avanzar con seguridad.
🎭
Modificaciones del rol y la reflexión del LLM
Cambian el papel que adopta el modelo o le obligan a revisar su propia salida

Se pide al LLM que primero recupere teoría o guías sobre un síndrome o un síntoma y solo después aplique ese conocimiento al caso concreto.

Ventajas: reduce errores de omisión y ancla la respuesta en un marco teórico.
Limitaciones: si la teoría inicial contiene errores o desactualización, el razonamiento posterior hereda ese fallo.
Ideal para: síndromes que el estudiante no domina bien.
Riesgo docente: el alumno puede quedarse en la teoría general y dejar de pensar en el paciente real.
Primero, resume las principales causas de dolor torácico agudo según las guías clínicas actuales. Luego, usando ese resumen, propón un diagnóstico diferencial para este paciente.

Se solicita a la IA que se revise a sí misma, que actúe como revisor crítico de su propia salida o que vuelva a analizar el caso buscando contradicciones, diagnósticos omitidos o banderas rojas.

Ventajas: ayuda a mitigar el cierre prematuro y favorece una segunda lectura del caso.
Limitaciones: consume más tiempo y puede volver al modelo excesivamente conservador.
Ideal para: decisiones clínicas de alto riesgo o validación final.
Riesgo docente: no elimina la necesidad de supervisión humana.
Has propuesto este diferencial. Ahora asume el rol de un revisor crítico: ¿Qué evidencia de este caso contradice tu primer diagnóstico? ¿Qué enfermedad pudiste omitir? Revisa tu respuesta.

El estudiante formula primero su hipótesis y luego pide al LLM que adopte un papel pedagógico o adversarial para ponerla a prueba. Es una de las estrategias más recomendables para evitar aquiescencia y automatización.

Ventajas: genera fricción epistémica y obliga a justificar el razonamiento.
Limitaciones: requiere que el estudiante ya haya pensado primero.
Ideal para: entrenamiento avanzado del juicio clínico.
Riesgo docente: si el prompt es blando, el diálogo puede ser largo pero poco exigente.
Actúa como un médico adjunto senior muy crítico. Mi diagnóstico principal para este paciente es X. Tu misión es cuestionar mi razonamiento, señalar los datos que he ignorado y proponer la mejor hipótesis alternativa que podría llevar al fallecimiento del paciente si me equivoco.

Se pide al LLM que actúe como tutor de mecanismos biológicos. Su función no es dar el diagnóstico final, sino obligar al estudiante a demostrar que su hipótesis explica de forma causal y coherente el conjunto del caso.

Ventajas: combate la ilusión de fluidez y obliga a conectar signos, síntomas y analítica.
Limitaciones: exige bastante base previa del estudiante.
Ideal para: profundizar en casos complejos o revisar hipótesis débiles.
Riesgo docente: sin base previa, la conversación puede resultar improductiva.
Actúa como tutor socrático de fisiopatología. No quiero que me des el diagnóstico final. Guíame con preguntas para analizar si esa enfermedad puede explicar de forma coherente los hallazgos clínicos y analíticos.
Orden de interacción

5. Cuándo consulta quién

No solo importa el tipo de prompt. También importa en qué momento se consulta al LLM y quién formula la primera hipótesis. Esta decisión cambia el riesgo de anclaje, aquiescencia y automatización.

Flujo recomendado
Human-first · Protocolo sándwich

El clínico piensa primero, formula su representación del problema y construye un diferencial inicial antes de consultar al LLM. Después usa la IA para ampliar, tensionar o revisar su razonamiento. Protege el esfuerzo cognitivo propio y reduce el anclaje sobre la primera salida del modelo.

Por qué es el flujo de referencia en docencia
El estudiante debe pensar antes de consultar. El LLM añade valor cuando actúa como ampliador, crítico o revisor, no cuando sustituye la construcción inicial del problema.
Uso más arriesgado
LLM-first · AI-first

El modelo formula primero las hipótesis y el clínico las revisa después. Puede ser útil para abrir posibilidades en casos muy atípicos o cuando se busca una segunda perspectiva inicial, pero aumenta el riesgo de sesgo de automatización, sobre todo en estudiantes o usuarios poco entrenados.

Opción avanzada
Pensamiento en paralelo

El clínico y el LLM generan de forma independiente un diferencial inicial y luego se comparan ambas salidas. Este modelo reduce la contaminación mutua de hipótesis y puede ser especialmente útil en casos complejos, aunque exige más tiempo y más disciplina cognitiva.

Uso concreto
Second thought · Segunda lectura

El LLM no se usa al inicio, sino al final de un primer ciclo diagnóstico, como herramienta de contraste. Sirve para revisar diagnósticos omitidos, pedir datos discordantes o actuar como revisor crítico antes de cerrar el caso.

Control del proceso

6. Supervisión humana: in, on y out of the loop

Estas expresiones ayudan a pensar cuánto control mantiene el clínico sobre la salida del sistema.

Modelo recomendado
Human in the loop

El clínico permanece dentro del proceso: introduce el caso, revisa la salida, contrasta los errores y toma la decisión final. Es el modelo más seguro y el más apropiado para formación, porque la IA no sustituye el juicio humano sino que se integra en él.

Supervisión limitada
Human on the loop

El sistema actúa con bastante autonomía y el humano supervisa más a distancia que de forma activa. Puede tener sentido en tareas más protocolizadas o de bajo riesgo, pero es menos apropiado para razonamiento clínico abierto y diagnóstico diferencial complejo.

No recomendado en diagnóstico
Human out of the loop

El humano queda fuera del circuito decisional o interviene demasiado tarde. En razonamiento clínico y diagnóstico diferencial este modelo no es aceptable como enfoque docente ni como práctica clínica segura, porque rompe el principio de validación crítica y desplaza indebidamente la responsabilidad.

Aplicación práctica
Cómo trasladar este marco a la docencia y a la práctica
En formación
Debe mantenerse al estudiante dentro del proceso, no convertirlo en mero lector de salidas de IA.
En práctica clínica
El profesional debe conservar la autonomía interpretativa y la decisión final.
En evaluación
Hay que valorar no solo la respuesta final, sino cómo se ha usado la IA y qué supervisión real ha existido.
Evidencia externa

7. RAG y herramientas con evidencia

No todos los sistemas de IA clínica funcionan igual. Un LLM generalista responde usando sobre todo lo que aprendió durante su entrenamiento previo. En cambio, un sistema con RAG añade un paso intermedio: antes de responder, busca información en fuentes externas y luego genera la respuesta a partir de esos documentos recuperados.

1
Qué es exactamente un RAG
La sigla RAG significa Retrieval-Augmented Generation (generación aumentada por recuperación). El proceso tiene tres pasos: el usuario formula una pregunta clínica → el sistema recupera artículos, guías o documentos relevantes en una base de datos externa → el modelo usa esos textos recuperados para generar una respuesta más anclada en fuentes concretas. El RAG no sustituye al modelo de lenguaje, sino que le añade un mecanismo de consulta externa antes de responder.
2
Por qué importa en clínica
En medicina, muchas preguntas dependen de guías recientes, ensayos actualizados, fichas técnicas nuevas o recomendaciones cambiantes. Un LLM generalista puede sonar convincente aunque esté usando información antigua o aproximada. Un sistema con RAG intenta reducir ese problema consultando primero una fuente externa antes de construir la respuesta. Especialmente útil en preguntas terapéuticas, guías recientes, conductas de alto impacto clínico y fármacos nuevos.
3
Diferencia práctica entre ambos modelos
Si preguntas a un LLM generalista por el tratamiento actual de un síndrome, la respuesta dependerá sobre todo de lo que el modelo aprendió antes. Si haces la misma pregunta a un sistema con RAG, este intentará localizar primero documentos relevantes y responder a partir de ellos. Dicho de forma simple: el LLM generalista contesta "desde su memoria"; el sistema con RAG intenta contestar "mirando primero en una biblioteca".
4
Qué no soluciona por sí solo
Tener RAG no convierte automáticamente una herramienta en correcta ni elimina la necesidad de supervisión. También hay que valorar qué fuentes consulta, cómo selecciona los documentos, si los interpreta bien y si el clínico comprueba que la respuesta realmente encaja con el caso.
5
Ejemplos de bases que podría consultar un RAG médico
📄 Bases bibliográficas
PubMed y bases de artículos científicos.
📋 Guías clínicas
Recomendaciones de sociedades científicas.
📚 Sumarios clínicos
Recursos estructurados para respuestas rápidas.
💊 Bases farmacológicas
Fichas técnicas, dosis e interacciones.
🏥 Historia clínica
Datos del paciente si el sistema está conectado.
🗂️ Protocolos locales
Vías clínicas y documentos hospitalarios.
6
OpenEvidence como ejemplo docente
Puede presentarse como ejemplo de herramienta de IA orientada a medicina basada en la evidencia. Su interés docente no está en sustituir el razonamiento clínico, sino en mostrar la diferencia entre conversar con un LLM generalista y consultar un sistema diseñado para apoyarse en literatura médica estructurada. Puede usarse para comparar dos preguntas idénticas formuladas a sistemas distintos.
🔗 Abrir OpenEvidence
Criterio de selección

8. Cómo elegir el tipo de prompt

No se trata de usar siempre el prompt más complejo, sino el más adecuado para la incertidumbre del caso y para el objetivo docente del momento.

1
Casos simples o consultas breves → instrucción directa (zero-shot)
Cuando la pregunta es factual, el riesgo es bajo y el tiempo disponible es escaso. No requiere estructura especial.
2
Casos largos o desordenados → instrucción en dos pasos (two-step)
Cuando la viñeta clínica es extensa o los datos están dispersos. Obliga al modelo a sintetizar antes de diagnosticar.
3
Casos complejos o atípicos → cadena de pensamiento (CoT)
Cuando el caso requiere razonamiento explícito y auditable paso a paso, especialmente en presentaciones poco habituales.
4
Cuando falta base teórica → generación de conocimiento previo
Cuando el estudiante no domina bien el síndrome o la categoría diagnóstica. El modelo aporta el marco teórico antes de aplicarlo al caso.
5
Antes de cerrar un caso → autorreflexión (self-reflection)
Como revisión final antes de aceptar un diferencial. El modelo actúa como revisor crítico de su propia salida o de la hipótesis del estudiante.
6
Para entrenar juicio crítico → tutor socrático o equipo rojo
Cuando el objetivo es pedagógico, no diagnóstico. El modelo tensiona, cuestiona y obliga al estudiante a justificar su razonamiento.
7
Para revisar mecanismos → experto en fisiopatología
Cuando se quiere comprobar si la hipótesis es biológicamente coherente. El modelo no da el diagnóstico, sino que exige al estudiante explicar los mecanismos.
⚠️ Largo no significa mejor — la calidad depende de si la instrucción mantiene el esfuerzo cognitivo del estudiante
Autoevaluación

9. Repaso interactivo

Lee el prompt del anverso e intenta identificar de qué tipo es y para qué es más útil antes de girar la tarjeta.

Tarjeta 1 de 6 Pulsa para girar · usa las flechas para navegar
Síntesis

10. Ideas finales

No olvidar
El prompt es una herramienta diagnóstica indirecta

No cambia al paciente, pero sí cambia cómo el LLM organiza, interpreta y devuelve la información. En ese sentido, escribir un buen prompt se parece a formular una buena pregunta clínica.

🎯 Meta formativa

En estudiantes de medicina, el mejor prompt no es el que da la respuesta más rápida, sino el que obliga a pensar mejor. La finalidad docente no es solo obtener un diferencial, sino aprender a construirlo, revisarlo y justificarlo.

✍️
Mini actividad final
Para un mismo caso clínico, formula tres versiones del prompt y compara qué cambia en las respuestas
01
Una instrucción directa (zero-shot)
Ejemplo"Paciente de 62 años con disnea y edemas. ¿Cuál es el diagnóstico más probable?"
Qué observarLa respuesta es rápida pero puede ser genérica. ¿Organiza bien el diferencial? ¿Justifica la prioridad?
Ver ejemplo ↓
02
Una instrucción en dos pasos (two-step)
Ejemplo"Paso 1: organiza los datos del caso en categorías. Paso 2: genera un diferencial priorizado a partir de esa organización."
Qué observar¿La síntesis inicial cambia el diferencial? ¿Aparecen diagnósticos que no habían surgido con el zero-shot?
Ver ejemplo ↓
03
Una versión con cadena de pensamiento o tutor socrático
Ejemplo"Razona paso a paso: síntesis clínica → síndromes → preguntas pendientes → DDx jerarquizado → justificación → plan."
Pregunta de reflexión¿Qué cambia más entre las tres versiones: el diagnóstico final, la amplitud del diferencial o la calidad de la justificación?
Ver ejemplo ↓
Evidencia de respaldo

11. Referencias comentadas

Estas referencias son útiles para entender qué comparó cada estudio y por qué resulta relevante para diseñar el uso docente y clínico de los prompts.

Interacción clínico-IA
Goh et al. · JAMA Network Open · 2024
Médicos con GPT-4 + recursos convencionales vs. médicos con recursos convencionales solos.
Mostró que dar acceso al LLM sin una estrategia clara no mejoraba de forma significativa el razonamiento diagnóstico del médico, aunque el LLM solo sí obtenía un rendimiento alto.
Formación en IA
Qazi et al. · Nature Health · 2026
Médicos con formación estructurada en alfabetización en IA vs. médicos con recursos convencionales solos.
Mostró una mejora clara del razonamiento diagnóstico cuando el uso del LLM iba precedido de entrenamiento específico.
Asistencia diagnóstica
McDuff et al. · Nature · 2025
Clínicos asistidos por AMIE vs. clínicos con buscadores y recursos médicos estándar.
Útil para pensar la IA como apoyo al diferencial en casos desafiantes.
Prompting
Hassanein et al. · Scientific Reports · 2025
Prompting directo, chain-of-thought y self-reflection en modelo multimodal para diagnóstico oral.
Muestra que la estructura del prompt cambia el rendimiento, la calidad explicativa y la calibración del modelo.
RAG
Liu et al. · JAMIA · 2025
Revisión sistemática y metaanálisis: LLMs basales vs. sistemas con RAG en tareas biomédicas.
Es la referencia más clara para explicar qué aporta el RAG: mejoría global del rendimiento y mejor anclaje en conocimiento externo.
Casos complejos
Ríos-Hoyo et al. · Frontiers in Medicine · 2024
GPT-3.5 y GPT-4 en 75 casos complejos del Massachusetts General Hospital Case Records.
Los LLM pueden incluir el diagnóstico correcto en el diferencial con cierta frecuencia, pero siguen fallando al jerarquizarlo como primera opción.