Evaluación formativa · Nov 2025

MCQ · KFQ · SCT
Tres tipos de preguntas para evaluar el conocimiento, la decisión y el razonamiento clínico

Guía práctica sobre preguntas de respuesta múltiple, sobre puntos clave y de concordancia de guiones: qué son, cómo se construyen y para qué sirven en educación médica.

Evaluación formativa Examen escrito Razonamiento clínico Incertidumbre diagnóstica
EduMed Innova 2026
📌 ¿Por qué importa el tipo de pregunta?

No todas las preguntas de examen miden lo mismo. Una pregunta bien construida puede evaluar si el alumno sabe un dato, si es capaz de decidir correctamente en un paso crítico de un caso clínico, o si sabe razonar ante la incertidumbre cuando la información disponible es incompleta o contradictoria.

Este apartado repasa tres formatos que cubren ese espectro: las archiconocidas MCQ (Multiple Choice Questions), las menos habituales KFQ (Key Feature Questions) y las aún menos frecuentes SCT (Script Concordance Tests). Los tres son útiles; la clave está en elegir el correcto según lo que queremos evaluar.

"El tipo de pregunta que elegimos no es un detalle técnico: determina qué nivel cognitivo exigimos a nuestros alumnos y qué tipo de médico estamos formando."
📝
MCQ · Opción múltiple
Mide si el alumno sabe. Evalúa conocimiento factual y aplicación de información en situaciones con respuesta única y bien definida.
Incertidumbre baja
🎯
KFQ · Punto clave
Mide si el alumno decide correctamente. Evalúa los pasos críticos de un caso clínico complejo, los potencialmente erróneos.
Incertidumbre media-alta
🧭
SCT · Concordancia de guiones
Mide si el alumno razona ante la incertidumbre. Evalúa cómo actualiza sus hipótesis cuando llega nueva información.
Incertidumbre alta
MCQ
Multiple Choice Question · Pregunta de opción múltiple
Medimos si el alumno sabe

Sin duda la más conocida por todos. Se presenta un enunciado o un caso clínico breve seguido de varias opciones de respuesta. La investigación actual muestra que 4 opciones funcionan mejor que las clásicas 5: una respuesta correcta y tres distractores.

La dificultad de construir buenas MCQ suele estar en elegir bien esos distractores: ni demasiado fáciles ni imposibles. Las MCQ evalúan conocimiento factual y razonamiento bien definido. Su corrección es objetiva y automatizable.

✏️ Ejemplo · Betabloqueantes en insuficiencia cardíaca
Caso clínico
Varón de 65 años con insuficiencia cardíaca con fracción de eyección reducida (FE 30%), en tratamiento con IECA y diurético de asa. Se plantea iniciar un betabloqueante.

¿Cuál de los siguientes betabloqueantes ha demostrado reducir la mortalidad en la insuficiencia cardíaca con fracción de eyección reducida?

OpciónFármacoComentario didáctico
AAtenololDistractor: betabloqueante cardioselectivo, pero sin evidencia en IC-FEr.
B ✓BisoprololRespuesta correcta. Junto con carvedilol y metoprolol succinato, evidencia de reducción de mortalidad en IC-FEr.
CPindololDistractor: tiene actividad simpaticomimética intrínseca; contraindicado en IC.
DPropranololDistractor: no selectivo, sin evidencia en IC-FEr en los ensayos pivotales.
⚠️ Claves para construir buenas MCQ
Principios esenciales (Haladyna et al., 2002)
  • Usar 4 opciones; la 5.ª suele ser un distractor débil que no aporta discriminación.
  • Los distractores deben ser plausibles para quien no domina el tema, pero claramente incorrectos para quien sí lo domina.
  • Evitar opciones como "todas las anteriores" o "ninguna de las anteriores".
  • El enunciado debe ser comprensible sin leer las opciones.
  • Evitar negaciones dobles y palabras como "nunca" o "siempre".
  • Todas las opciones deben tener longitud y estructura gramaticalmente paralelas.
KFQ
Key Feature Question · Pregunta sobre un punto clave o crítico
Medimos si el alumno decide de forma correcta

Evalúa la toma de decisiones en los pasos críticos ("key features") de un problema clínico. Cada caso tiene varias preguntas breves en secuencia, centradas en las decisiones esenciales o potencialmente erróneas, no en la totalidad del caso.

Las preguntas pueden ser de selección múltiple o de texto abierto. El objetivo es medir aplicación del conocimiento, no memorización. A diferencia de la MCQ, no busca la respuesta "correcta teórica" sino la decisión clínica más adecuada en ese momento del caso.

✏️ Ejemplo · Inicio de bisoprolol en IC compleja
Caso clínico
Paciente de 80 años con IC-FEr (FEVI 20%), enfermedad renal crónica moderada y fibrilación auricular con respuesta ventricular controlada (FC promedio 60-70 lpm) con digoxina. Se inicia bisoprolol 2,5 mg dos veces al día. Una semana después acude a urgencias con hipotensión sintomática (PA 85/50 mmHg), signos de shock cardiogénico incipiente y FC de 38 lpm.
🔑 Pregunta clave 1 — Manejo inicial inmediato

¿Cuál es el paso más crucial e inmediato para prevenir la inminente inestabilidad hemodinámica? (Elija solo una opción)

OpciónAcciónComentario
AAñadir diurético de asa en perfusiónEmpeoraría la hipotensión; no aborda la causa.
BBolo de cristaloides para corregir hipotensiónPuede ser una medida de soporte, pero no la prioritaria con FC 38.
C ✓Suspender el bisoprolol de forma inmediataCorrecta. La bradicardia severa con shock es una contraindicación absoluta; la causa es iatrogénica.
DSolicitar Rx tórax y troponinasPuede hacerse, pero no es el paso más urgente.
🔑 Pregunta clave 2 — Reintroducción del tratamiento

¿Cuál es la actuación más adecuada para reiniciar el tratamiento?

OpciónAcciónComentario
A ✓Reiniciar con la mitad de la dosis una vez resuelto el cuadroCorrecta. Los betabloqueantes deben reintroducirse con titulación cuidadosa; el beneficio en IC-FEr es mayor que el riesgo.
BCambiar a un betabloqueante no selectivoLos no selectivos tienen peor perfil en IC.
CEvitar betabloqueantes de forma definitivaIncorrecto: la evidencia de beneficio en IC-FEr es sólida.
⚠️ Claves para construir buenas KFQ
Principios esenciales (Nayer et al., 2018)
  • Identificar primero los key features: los pasos donde ocurren los errores clínicos más frecuentes o graves.
  • No preguntar sobre todos los pasos del caso, solo los críticos.
  • El caso debe ser lo suficientemente complejo para que la decisión no sea trivial.
  • Cada pregunta debe poderse responder con la información del caso, sin conocimiento externo al mismo.
  • El formato puede combinar respuesta múltiple y texto libre según el nivel de formación.
SCT
Script Concordance Test · Concordancia de guiones
Medimos si el alumno razona ante la incertidumbre

El SCT evalúa el razonamiento clínico en situaciones de incertidumbre. La metáfora literaria lo explica bien: imagina que comienzas un libro de misterio y en el primer capítulo ya tienes un sospechoso claro. En el segundo capítulo el autor te da nuevas pistas y empiezas a dudar. En medicina ocurre exactamente lo mismo: partimos de una hipótesis y los nuevos hallazgos la refuerzan o la debilitan.

Lo que mide el SCT no es si el alumno sabe un dato, sino cómo utiliza la nueva información para reformular sus hipótesis. Por eso no hay una única respuesta "verdadera": la corrección se hace por comparación con las respuestas de un panel de expertos.

🔧 Estructura de una pregunta SCT
1️⃣
Caso clínico inicial
Se plantea un escenario con información parcial suficiente para generar hipótesis diagnósticas o terapéuticas.
2️⃣
Hipótesis + hallazgo nuevo
Para cada hipótesis se aporta un nuevo dato clínico. El alumno valora cómo cambia su confianza en esa hipótesis.
3️⃣
Escala Likert −2 a +2
El alumno puntúa cuánto modifica el nuevo hallazgo su grado de confianza en la hipótesis.
✏️ Ejemplo completo · Bisoprolol en IC-FEr con bradicardia
Caso clínico
Varón de 75 años con IC con fracción de eyección reducida (IC-FEr, FEVI 30%). Inició hace dos semanas bisoprolol 5 mg/día. En la última consulta su FC era de 70 lpm. Hoy acude a urgencias por fatiga extrema y disnea de reposo.
Cómo responder
Para cada fila, se aporta un nuevo hallazgo clínico ("y entonces encuentras…"). Valora en qué medida ese hallazgo cambia tu grado de confianza en la hipótesis de la izquierda ("si estás pensando en…"). Usa la escala:

−2 = mucho menos probable  ·  −1 = menos probable  ·  0 = ni más ni menos  ·  +1 = más probable  ·  +2 = mucho más probable

Si estás pensando en… Y entonces encuentras… −2 −1 0 +1 +2
La fatiga se debe a descompensación de la IC por progresión natural FC actual de 37 lpm, sin signos de congestión pulmonar significativa −2 −1 0 +1 +2
La fatiga se debe a exceso de ingesta de sal o incumplimiento dietético El paciente refiere no haber seguido la dieta hiposódica y haber ganado 1–2 kg −2 −1 0 +1 +2
La fatiga se debe a una dosis baja de diuréticos que habrá que aumentar El paciente presenta aumento de creatinina y urea desde la última visita −2 −1 0 +1 +2
Razonamiento esperado — fila 1
La presencia de bradicardia severa (37 lpm) y la ausencia de congestión pulmonar sugieren una causa iatrogénica (el bisoprolol) como más probable que la progresión natural de la IC. El panel de expertos tendería a marcar −2 o −1 para esta hipótesis ante este hallazgo.
⚠️ Claves para construir buenos SCT
Principios esenciales (Fournier et al., 2008)
  • El caso inicial debe tener suficiente información para generar hipótesis, pero no tanto como para resolverlo por completo.
  • Cada nuevo hallazgo debe ser genuinamente informativo: ni confirmar ni descartar la hipótesis de forma obvia.
  • El panel de expertos (mínimo 10–15 personas) determina la puntuación de referencia; no hay una única respuesta correcta.
  • La escala Likert debe presentarse siempre de −2 a +2.
  • El SCT no es adecuado para evaluar conocimiento factual básico; es para niveles avanzados de formación.
📊 Resumen comparativo
AspectoMCQKFQSCT
Tipo de conocimientoFactual y aplicado, respuesta única bien definidaPasos críticos del caso; la decisión correctaRazonamiento en la incertidumbre; actualización del juicio
Respuestas válidasUnaUna o más, según contextoVarias, dentro de la concordancia con el panel experto
CorrecciónAutomática, binariaBasada en criterios clínicosPonderada según panel experto
Grado de incertidumbreBajoMedio-altoAlto
Nivel cognitivoReconocimiento y aplicaciónPriorización y aplicaciónJuicio clínico y ajuste de hipótesis
Nivel de formación recomendadoCualquier nivelGrado avanzado y residenciaGrado avanzado, residencia y especialistas
Complejidad de construcciónMediaAltaMuy alta
🔑 Puntos clave para recordar
Una MCQ bien construida evalúa mucho más que memorización si el caso es clínicamente rico.
Los distractores son el elemento más difícil y más determinante de la calidad de una MCQ.
Las KFQ no preguntan por todos los pasos del caso, solo por los críticos: donde ocurren los errores con consecuencias.
El SCT no tiene una única respuesta correcta: la clave es la concordancia con el razonamiento experto.
A mayor incertidumbre del escenario, mayor nivel cognitivo exigido: MCQ → KFQ → SCT.
La IA generativa puede acelerar la construcción de los tres formatos, pero siempre requiere revisión experta y pilotaje.
🤖 Uso de IA generativa para construir MCQ, KFQ y SCT

La evidencia sobre el uso de IA para generar ítems de evaluación procede principalmente del grupo de Yavuz Selim Kıyak (MedEdFlamingo), que ha publicado estudios específicos para los tres formatos. El hallazgo transversal es consistente: los prompts son la clave. Prompts genéricos y bien diseñados permiten a cualquier docente adaptar la generación de preguntas a su propia especialidad.

Sin embargo, la IA no sustituye el juicio experto. Las preguntas generadas deben ser revisadas clínica y pedagógicamente antes de usarse, y los SCT requieren siempre la construcción de un panel de expertos que no puede delegarse en la IA.

Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter, nov 2025. Acceder al artículo →

"If you and your medical school aren't using AI to support the creation of assessment materials, you're missing a valuable opportunity for efficiency." — MedEdFlamingo, 2025
MCQ IA para preguntas tipo test

Revisión de ~2000 artículos, con análisis de 23 estudios que usaron ChatGPT para generar MCQ. Algunos encontraron calidad cercana a la humana.

Dato clave
Un humano tarda 30–60 min por MCQ. La IA lo hace en segundos. Pero siempre requiere revisión experta.

Kıyak & Emekli (2024). Postgraduate Medical Journal.

SCT IA para concordancia de guiones

Dos estudios (radiología y ginecología) evaluaron si ChatGPT y Claude pueden crear ítems SCT. Obtuvieron más del 90% de concordancia con criterios de calidad expertos.

Novedad adicional
Sallam & Abouzeid (2025) exploraron usar la IA como miembro del panel de expertos en la corrección de SCT.

Kıyak & Emekli (2025) · Yapıcı Coşkun et al. (2025). Medical Teacher.

KFQ IA para preguntas de punto clave

Con el modelo o3 de OpenAI, se generaron 20 KFQ de cardiología. Evaluación experta:

Resultados
  • 15% aceptadas tal cual.
  • 85% aceptadas con cambios menores.
  • 0% rechazadas.

Problema más frecuente: falta de opciones genuinamente peligrosas y algún distractor inverosímil.

Kıyak et al. (2025). Medical Education Online.

💰 Eficiencia y ahorro de recursos
Evidencia de impacto económico
La asistencia de IA supuso una reducción media del 57% en el coste laboral por caso (equivalente a 880 GBP por caso) frente a los métodos tradicionales de redacción de preguntas.
⚠️ Recomendaciones de uso responsable
  • Usar los prompts publicados en los estudios como punto de partida: son genéricos y adaptables a cualquier especialidad.
  • Revisar siempre la precisión clínica: la IA puede generar información incorrecta sin acceso a internet.
  • Verificar que los distractores sean plausibles y que existan opciones genuinamente peligrosas en las KFQ.
  • Para SCT: la IA puede generar el esquema, pero el panel de expertos es imprescindible para la clave de corrección.
  • Declarar el uso de IA en la elaboración del material de evaluación.
  • Pilotar siempre las preguntas antes de usarlas en evaluación de impacto.
Declaración de uso responsable de la IA. Durante la redacción del material incluido en esta página se utilizó Claude Sonnet 4.6 para asistir en la estructuración del contenido y la redacción del texto. La página ha sido construida como un Artefacto con Claude Sonnet 4.6. Todo el material fue revisado por los autores.
📝 ¿Cómo elaborar Multiple Choice Questions?
  • Haladyna TM, Downing SM, Rodriguez MC. A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education. 2002;15(3):309–333.
    31 reglas para elaborar MCQ →
  • National Board of Medical Examiners (NBME). Constructing written test questions for the health sciences. 2024.
    Acceder al documento →
  • European Board of Medical Assessors. Guideline for writing multiple choice questions. 2017.
    Acceder al documento →
🎯 ¿Cómo elaborar Key Feature Questions?
  • Nayer M, Glover Takahashi S, Hrynchak P. Twelve tips for developing key-feature questions (KFQ) for effective assessment of clinical reasoning. Med Teach. 2018;40:1116–1122.
    Acceder al artículo →
  • Medical Council of Canada. Guidelines for the development of key feature problems and test cases. Agosto 2012.
    Acceder al documento →
🧭 ¿Cómo elaborar SCT Questions?
  • Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Medical Informatics and Decision Making. 2008;8(1):18.
    Acceder al artículo →
  • Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice. AMEE Guide No. 75. Medical Teacher. 2013;35(3):184–193.
    Acceder al artículo →
📚 IA y generación de preguntas
  • Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgraduate Medical Journal. 2024;100(1189):858–865.
    Acceder al artículo →
  • Kıyak YS, Emekli E. Using large language models to generate script concordance test in medical education: ChatGPT and Claude. Revista Española de Educación Médica. 2025;6(1).
    Acceder al artículo →
  • Kıyak YS, Górski S, Tokarek T, Pers M, Kononowicz AA. Large language models for generating key-feature questions in medical education. Medical Education Online. 2025;30(1):2574647.
    Acceder al artículo →
  • Yapıcı Coşkun Z, Kıyak YS, Coşkun Ö, Budakoğlu Iİ, Özdemir Ö. Large language models for generating script concordance test in obstetrics and gynecology: ChatGPT and Claude. Medical Teacher. 2025;47(11):1767–1771.
    Acceder al artículo →
  • Sallam MA, Abouzeid E. Introducing AI as members of script concordance test expert reference panel: A comparative analysis. Medical Teacher. 2025:1–8.
    Acceder al artículo →
  • Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter. Nov 2025.
    Acceder al artículo →
🤖 GPTs para generar preguntas
  • Escenarios clínicos de preguntas tipo test. By Flamingo en ChatGPT.
    Abrir GPT →
  • Preguntas tipo test en medicina. By Rohil Jain en ChatGPT.
    Abrir GPT →
  • Script Concordance Test Generator. By Flamingo en ChatGPT.
    Abrir GPT →