No todas las preguntas de examen miden lo mismo. Una pregunta bien construida puede evaluar si el alumno sabe un dato, si es capaz de decidir correctamente en un paso crítico de un caso clínico, o si sabe razonar ante la incertidumbre cuando la información disponible es incompleta o contradictoria.
Este apartado repasa tres formatos que cubren ese espectro: las archiconocidas MCQ (Multiple Choice Questions), las menos habituales KFQ (Key Feature Questions) y las aún menos frecuentes SCT (Script Concordance Tests). Los tres son útiles; la clave está en elegir el correcto según lo que queremos evaluar.
Sin duda la más conocida por todos. Se presenta un enunciado o un caso clínico breve seguido de varias opciones de respuesta. La investigación actual muestra que 4 opciones funcionan mejor que las clásicas 5: una respuesta correcta y tres distractores.
La dificultad de construir buenas MCQ suele estar en elegir bien esos distractores: ni demasiado fáciles ni imposibles. Las MCQ evalúan conocimiento factual y razonamiento bien definido. Su corrección es objetiva y automatizable.
¿Cuál de los siguientes betabloqueantes ha demostrado reducir la mortalidad en la insuficiencia cardíaca con fracción de eyección reducida?
| Opción | Fármaco | Comentario didáctico |
|---|---|---|
| A | Atenolol | Distractor: betabloqueante cardioselectivo, pero sin evidencia en IC-FEr. |
| B ✓ | Bisoprolol | Respuesta correcta. Junto con carvedilol y metoprolol succinato, evidencia de reducción de mortalidad en IC-FEr. |
| C | Pindolol | Distractor: tiene actividad simpaticomimética intrínseca; contraindicado en IC. |
| D | Propranolol | Distractor: no selectivo, sin evidencia en IC-FEr en los ensayos pivotales. |
- Usar 4 opciones; la 5.ª suele ser un distractor débil que no aporta discriminación.
- Los distractores deben ser plausibles para quien no domina el tema, pero claramente incorrectos para quien sí lo domina.
- Evitar opciones como "todas las anteriores" o "ninguna de las anteriores".
- El enunciado debe ser comprensible sin leer las opciones.
- Evitar negaciones dobles y palabras como "nunca" o "siempre".
- Todas las opciones deben tener longitud y estructura gramaticalmente paralelas.
Evalúa la toma de decisiones en los pasos críticos ("key features") de un problema clínico. Cada caso tiene varias preguntas breves en secuencia, centradas en las decisiones esenciales o potencialmente erróneas, no en la totalidad del caso.
Las preguntas pueden ser de selección múltiple o de texto abierto. El objetivo es medir aplicación del conocimiento, no memorización. A diferencia de la MCQ, no busca la respuesta "correcta teórica" sino la decisión clínica más adecuada en ese momento del caso.
¿Cuál es el paso más crucial e inmediato para prevenir la inminente inestabilidad hemodinámica? (Elija solo una opción)
| Opción | Acción | Comentario |
|---|---|---|
| A | Añadir diurético de asa en perfusión | Empeoraría la hipotensión; no aborda la causa. |
| B | Bolo de cristaloides para corregir hipotensión | Puede ser una medida de soporte, pero no la prioritaria con FC 38. |
| C ✓ | Suspender el bisoprolol de forma inmediata | Correcta. La bradicardia severa con shock es una contraindicación absoluta; la causa es iatrogénica. |
| D | Solicitar Rx tórax y troponinas | Puede hacerse, pero no es el paso más urgente. |
¿Cuál es la actuación más adecuada para reiniciar el tratamiento?
| Opción | Acción | Comentario |
|---|---|---|
| A ✓ | Reiniciar con la mitad de la dosis una vez resuelto el cuadro | Correcta. Los betabloqueantes deben reintroducirse con titulación cuidadosa; el beneficio en IC-FEr es mayor que el riesgo. |
| B | Cambiar a un betabloqueante no selectivo | Los no selectivos tienen peor perfil en IC. |
| C | Evitar betabloqueantes de forma definitiva | Incorrecto: la evidencia de beneficio en IC-FEr es sólida. |
- Identificar primero los key features: los pasos donde ocurren los errores clínicos más frecuentes o graves.
- No preguntar sobre todos los pasos del caso, solo los críticos.
- El caso debe ser lo suficientemente complejo para que la decisión no sea trivial.
- Cada pregunta debe poderse responder con la información del caso, sin conocimiento externo al mismo.
- El formato puede combinar respuesta múltiple y texto libre según el nivel de formación.
El SCT evalúa el razonamiento clínico en situaciones de incertidumbre. La metáfora literaria lo explica bien: imagina que comienzas un libro de misterio y en el primer capítulo ya tienes un sospechoso claro. En el segundo capítulo el autor te da nuevas pistas y empiezas a dudar. En medicina ocurre exactamente lo mismo: partimos de una hipótesis y los nuevos hallazgos la refuerzan o la debilitan.
Lo que mide el SCT no es si el alumno sabe un dato, sino cómo utiliza la nueva información para reformular sus hipótesis. Por eso no hay una única respuesta "verdadera": la corrección se hace por comparación con las respuestas de un panel de expertos.
−2 = mucho menos probable · −1 = menos probable · 0 = ni más ni menos · +1 = más probable · +2 = mucho más probable
| Si estás pensando en… | Y entonces encuentras… | −2 | −1 | 0 | +1 | +2 |
|---|---|---|---|---|---|---|
| La fatiga se debe a descompensación de la IC por progresión natural | FC actual de 37 lpm, sin signos de congestión pulmonar significativa | −2 | −1 | 0 | +1 | +2 |
| La fatiga se debe a exceso de ingesta de sal o incumplimiento dietético | El paciente refiere no haber seguido la dieta hiposódica y haber ganado 1–2 kg | −2 | −1 | 0 | +1 | +2 |
| La fatiga se debe a una dosis baja de diuréticos que habrá que aumentar | El paciente presenta aumento de creatinina y urea desde la última visita | −2 | −1 | 0 | +1 | +2 |
- El caso inicial debe tener suficiente información para generar hipótesis, pero no tanto como para resolverlo por completo.
- Cada nuevo hallazgo debe ser genuinamente informativo: ni confirmar ni descartar la hipótesis de forma obvia.
- El panel de expertos (mínimo 10–15 personas) determina la puntuación de referencia; no hay una única respuesta correcta.
- La escala Likert debe presentarse siempre de −2 a +2.
- El SCT no es adecuado para evaluar conocimiento factual básico; es para niveles avanzados de formación.
| Aspecto | MCQ | KFQ | SCT |
|---|---|---|---|
| Tipo de conocimiento | Factual y aplicado, respuesta única bien definida | Pasos críticos del caso; la decisión correcta | Razonamiento en la incertidumbre; actualización del juicio |
| Respuestas válidas | Una | Una o más, según contexto | Varias, dentro de la concordancia con el panel experto |
| Corrección | Automática, binaria | Basada en criterios clínicos | Ponderada según panel experto |
| Grado de incertidumbre | Bajo | Medio-alto | Alto |
| Nivel cognitivo | Reconocimiento y aplicación | Priorización y aplicación | Juicio clínico y ajuste de hipótesis |
| Nivel de formación recomendado | Cualquier nivel | Grado avanzado y residencia | Grado avanzado, residencia y especialistas |
| Complejidad de construcción | Media | Alta | Muy alta |
La evidencia sobre el uso de IA para generar ítems de evaluación procede principalmente del grupo de Yavuz Selim Kıyak (MedEdFlamingo), que ha publicado estudios específicos para los tres formatos. El hallazgo transversal es consistente: los prompts son la clave. Prompts genéricos y bien diseñados permiten a cualquier docente adaptar la generación de preguntas a su propia especialidad.
Sin embargo, la IA no sustituye el juicio experto. Las preguntas generadas deben ser revisadas clínica y pedagógicamente antes de usarse, y los SCT requieren siempre la construcción de un panel de expertos que no puede delegarse en la IA.
Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter, nov 2025. Acceder al artículo →
Revisión de ~2000 artículos, con análisis de 23 estudios que usaron ChatGPT para generar MCQ. Algunos encontraron calidad cercana a la humana.
Kıyak & Emekli (2024). Postgraduate Medical Journal.
Dos estudios (radiología y ginecología) evaluaron si ChatGPT y Claude pueden crear ítems SCT. Obtuvieron más del 90% de concordancia con criterios de calidad expertos.
Kıyak & Emekli (2025) · Yapıcı Coşkun et al. (2025). Medical Teacher.
Con el modelo o3 de OpenAI, se generaron 20 KFQ de cardiología. Evaluación experta:
- 15% aceptadas tal cual.
- 85% aceptadas con cambios menores.
- 0% rechazadas.
Problema más frecuente: falta de opciones genuinamente peligrosas y algún distractor inverosímil.
Kıyak et al. (2025). Medical Education Online.
- Usar los prompts publicados en los estudios como punto de partida: son genéricos y adaptables a cualquier especialidad.
- Revisar siempre la precisión clínica: la IA puede generar información incorrecta sin acceso a internet.
- Verificar que los distractores sean plausibles y que existan opciones genuinamente peligrosas en las KFQ.
- Para SCT: la IA puede generar el esquema, pero el panel de expertos es imprescindible para la clave de corrección.
- Declarar el uso de IA en la elaboración del material de evaluación.
- Pilotar siempre las preguntas antes de usarlas en evaluación de impacto.
-
Haladyna TM, Downing SM, Rodriguez MC. A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education. 2002;15(3):309–333.
31 reglas para elaborar MCQ → -
National Board of Medical Examiners (NBME). Constructing written test questions for the health sciences. 2024.
Acceder al documento → -
European Board of Medical Assessors. Guideline for writing multiple choice questions. 2017.
Acceder al documento →
-
Nayer M, Glover Takahashi S, Hrynchak P. Twelve tips for developing key-feature questions (KFQ) for effective assessment of clinical reasoning. Med Teach. 2018;40:1116–1122.
Acceder al artículo → -
Medical Council of Canada. Guidelines for the development of key feature problems and test cases. Agosto 2012.
Acceder al documento →
-
Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Medical Informatics and Decision Making. 2008;8(1):18.
Acceder al artículo → -
Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice. AMEE Guide No. 75. Medical Teacher. 2013;35(3):184–193.
Acceder al artículo →
-
Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgraduate Medical Journal. 2024;100(1189):858–865.
Acceder al artículo → -
Kıyak YS, Emekli E. Using large language models to generate script concordance test in medical education: ChatGPT and Claude. Revista Española de Educación Médica. 2025;6(1).
Acceder al artículo → -
Kıyak YS, Górski S, Tokarek T, Pers M, Kononowicz AA. Large language models for generating key-feature questions in medical education. Medical Education Online. 2025;30(1):2574647.
Acceder al artículo → -
Yapıcı Coşkun Z, Kıyak YS, Coşkun Ö, Budakoğlu Iİ, Özdemir Ö. Large language models for generating script concordance test in obstetrics and gynecology: ChatGPT and Claude. Medical Teacher. 2025;47(11):1767–1771.
Acceder al artículo → -
Sallam MA, Abouzeid E. Introducing AI as members of script concordance test expert reference panel: A comparative analysis. Medical Teacher. 2025:1–8.
Acceder al artículo → -
Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter. Nov 2025.
Acceder al artículo →
-
Escenarios clínicos de preguntas tipo test. By Flamingo en ChatGPT.
Abrir GPT → -
Preguntas tipo test en medicina. By Rohil Jain en ChatGPT.
Abrir GPT → -
Script Concordance Test Generator. By Flamingo en ChatGPT.
Abrir GPT →