MCQ · KFQ · SCT — EduMed EvalUVa

📌 ¿Por qué importa el tipo de pregunta?

No todas las preguntas de examen miden lo mismo. Una pregunta bien construida puede evaluar si el alumno sabe un dato, si es capaz de decidir correctamente en un paso crítico de un caso clínico, o si sabe razonar ante la incertidumbre cuando la información disponible es incompleta o contradictoria.

Este apartado repasa tres formatos que cubren ese espectro: las archiconocidas MCQ (Multiple Choice Questions), las menos habituales KFQ (Key Feature Questions) y las aún menos frecuentes SCT (Script Concordance Tests). Los tres son útiles; la clave está en elegir el correcto según lo que queremos evaluar.

"El tipo de pregunta que elegimos no es un detalle técnico: determina qué nivel cognitivo exigimos a nuestros alumnos y qué tipo de médico estamos formando."

📝

MCQ · Opción múltiple

Mide si el alumno sabe. Evalúa conocimiento factual y aplicación de información en situaciones con respuesta única y bien definida.

Incertidumbre baja

🎯

KFQ · Punto clave

Mide si el alumno decide correctamente. Evalúa los pasos críticos de un caso clínico complejo, los potencialmente erróneos.

Incertidumbre media-alta

🧭

SCT · Concordancia de guiones

Mide si el alumno razona ante la incertidumbre. Evalúa cómo actualiza sus hipótesis cuando llega nueva información.

Incertidumbre alta

MCQ

Multiple Choice Question · Pregunta de opción múltiple

Medimos si el alumno sabe

Sin duda la más conocida por todos. Se presenta un enunciado o un caso clínico breve seguido de varias opciones de respuesta. La investigación actual muestra que 4 opciones funcionan mejor que las clásicas 5: una respuesta correcta y tres distractores.

La dificultad de construir buenas MCQ suele estar en elegir bien esos distractores: ni demasiado fáciles ni imposibles. Las MCQ evalúan conocimiento factual y razonamiento bien definido. Su corrección es objetiva y automatizable.

✏️ Ejemplo · Betabloqueantes en insuficiencia cardíaca

Caso clínico

Varón de 65 años con insuficiencia cardíaca con fracción de eyección reducida (FE 30%), en tratamiento con IECA y diurético de asa. Se plantea iniciar un betabloqueante.

¿Cuál de los siguientes betabloqueantes ha demostrado reducir la mortalidad en la insuficiencia cardíaca con fracción de eyección reducida?

Opción	Fármaco	Comentario didáctico
A	Atenolol	Distractor: betabloqueante cardioselectivo, pero sin evidencia en IC-FEr.
B ✓	Bisoprolol	Respuesta correcta. Junto con carvedilol y metoprolol succinato, evidencia de reducción de mortalidad en IC-FEr.
C	Pindolol	Distractor: tiene actividad simpaticomimética intrínseca; contraindicado en IC.
D	Propranolol	Distractor: no selectivo, sin evidencia en IC-FEr en los ensayos pivotales.

⚠️ Claves para construir buenas MCQ

Principios esenciales (Haladyna et al., 2002)

Usar 4 opciones; la 5.ª suele ser un distractor débil que no aporta discriminación.
Los distractores deben ser plausibles para quien no domina el tema, pero claramente incorrectos para quien sí lo domina.
Evitar opciones como "todas las anteriores" o "ninguna de las anteriores".
El enunciado debe ser comprensible sin leer las opciones.
Evitar negaciones dobles y palabras como "nunca" o "siempre".
Todas las opciones deben tener longitud y estructura gramaticalmente paralelas.

KFQ

Key Feature Question · Pregunta sobre un punto clave o crítico

Medimos si el alumno decide de forma correcta

Evalúa la toma de decisiones en los pasos críticos ("key features") de un problema clínico. Cada caso tiene varias preguntas breves en secuencia, centradas en las decisiones esenciales o potencialmente erróneas, no en la totalidad del caso.

Las preguntas pueden ser de selección múltiple o de texto abierto. El objetivo es medir aplicación del conocimiento, no memorización. A diferencia de la MCQ, no busca la respuesta "correcta teórica" sino la decisión clínica más adecuada en ese momento del caso.

✏️ Ejemplo · Inicio de bisoprolol en IC compleja

Caso clínico

Paciente de 80 años con IC-FEr (FEVI 20%), enfermedad renal crónica moderada y fibrilación auricular con respuesta ventricular controlada (FC promedio 60-70 lpm) con digoxina. Se inicia bisoprolol 2,5 mg dos veces al día. Una semana después acude a urgencias con hipotensión sintomática (PA 85/50 mmHg), signos de shock cardiogénico incipiente y FC de 38 lpm.

🔑 Pregunta clave 1 — Manejo inicial inmediato

¿Cuál es el paso más crucial e inmediato para prevenir la inminente inestabilidad hemodinámica? (Elija solo una opción)

Opción	Acción	Comentario
A	Añadir diurético de asa en perfusión	Empeoraría la hipotensión; no aborda la causa.
B	Bolo de cristaloides para corregir hipotensión	Puede ser una medida de soporte, pero no la prioritaria con FC 38.
C ✓	Suspender el bisoprolol de forma inmediata	Correcta. La bradicardia severa con shock es una contraindicación absoluta; la causa es iatrogénica.
D	Solicitar Rx tórax y troponinas	Puede hacerse, pero no es el paso más urgente.

🔑 Pregunta clave 2 — Reintroducción del tratamiento

¿Cuál es la actuación más adecuada para reiniciar el tratamiento?

Opción	Acción	Comentario
A ✓	Reiniciar con la mitad de la dosis una vez resuelto el cuadro	Correcta. Los betabloqueantes deben reintroducirse con titulación cuidadosa; el beneficio en IC-FEr es mayor que el riesgo.
B	Cambiar a un betabloqueante no selectivo	Los no selectivos tienen peor perfil en IC.
C	Evitar betabloqueantes de forma definitiva	Incorrecto: la evidencia de beneficio en IC-FEr es sólida.

⚠️ Claves para construir buenas KFQ

Principios esenciales (Nayer et al., 2018)

Identificar primero los key features: los pasos donde ocurren los errores clínicos más frecuentes o graves.
No preguntar sobre todos los pasos del caso, solo los críticos.
El caso debe ser lo suficientemente complejo para que la decisión no sea trivial.
Cada pregunta debe poderse responder con la información del caso, sin conocimiento externo al mismo.
El formato puede combinar respuesta múltiple y texto libre según el nivel de formación.

SCT

Script Concordance Test · Concordancia de guiones

Medimos si el alumno razona ante la incertidumbre

El SCT evalúa el razonamiento clínico en situaciones de incertidumbre. La metáfora literaria lo explica bien: imagina que comienzas un libro de misterio y en el primer capítulo ya tienes un sospechoso claro. En el segundo capítulo el autor te da nuevas pistas y empiezas a dudar. En medicina ocurre exactamente lo mismo: partimos de una hipótesis y los nuevos hallazgos la refuerzan o la debilitan.

Lo que mide el SCT no es si el alumno sabe un dato, sino cómo utiliza la nueva información para reformular sus hipótesis. Por eso no hay una única respuesta "verdadera": la corrección se hace por comparación con las respuestas de un panel de expertos.

🔧 Estructura de una pregunta SCT

1️⃣

Caso clínico inicial

Se plantea un escenario con información parcial suficiente para generar hipótesis diagnósticas o terapéuticas.

2️⃣

Hipótesis + hallazgo nuevo

Para cada hipótesis se aporta un nuevo dato clínico. El alumno valora cómo cambia su confianza en esa hipótesis.

3️⃣

Escala Likert −2 a +2

El alumno puntúa cuánto modifica el nuevo hallazgo su grado de confianza en la hipótesis.

✏️ Ejemplo completo · Bisoprolol en IC-FEr con bradicardia

Caso clínico

Varón de 75 años con IC con fracción de eyección reducida (IC-FEr, FEVI 30%). Inició hace dos semanas bisoprolol 5 mg/día. En la última consulta su FC era de 70 lpm. Hoy acude a urgencias por fatiga extrema y disnea de reposo.

Cómo responder

Para cada fila, se aporta un nuevo hallazgo clínico ("y entonces encuentras…"). Valora en qué medida ese hallazgo cambia tu grado de confianza en la hipótesis de la izquierda ("si estás pensando en…"). Usa la escala:

−2 = mucho menos probable · −1 = menos probable · 0 = ni más ni menos · +1 = más probable · +2 = mucho más probable

Si estás pensando en…	Y entonces encuentras…	−2	−1	+1	+2
La fatiga se debe a descompensación de la IC por progresión natural	FC actual de 37 lpm, sin signos de congestión pulmonar significativa	−2	−1	+1	+2
La fatiga se debe a exceso de ingesta de sal o incumplimiento dietético	El paciente refiere no haber seguido la dieta hiposódica y haber ganado 1–2 kg	−2	−1	+1	+2
La fatiga se debe a una dosis baja de diuréticos que habrá que aumentar	El paciente presenta aumento de creatinina y urea desde la última visita	−2	−1	+1	+2

Razonamiento esperado — fila 1

La presencia de bradicardia severa (37 lpm) y la ausencia de congestión pulmonar sugieren una causa iatrogénica (el bisoprolol) como más probable que la progresión natural de la IC. El panel de expertos tendería a marcar −2 o −1 para esta hipótesis ante este hallazgo.

⚠️ Claves para construir buenos SCT

Principios esenciales (Fournier et al., 2008)

El caso inicial debe tener suficiente información para generar hipótesis, pero no tanto como para resolverlo por completo.
Cada nuevo hallazgo debe ser genuinamente informativo: ni confirmar ni descartar la hipótesis de forma obvia.
El panel de expertos (mínimo 10–15 personas) determina la puntuación de referencia; no hay una única respuesta correcta.
La escala Likert debe presentarse siempre de −2 a +2.
El SCT no es adecuado para evaluar conocimiento factual básico; es para niveles avanzados de formación.

📊 Resumen comparativo

Aspecto	MCQ	KFQ	SCT
Tipo de conocimiento	Factual y aplicado, respuesta única bien definida	Pasos críticos del caso; la decisión correcta	Razonamiento en la incertidumbre; actualización del juicio
Respuestas válidas	Una	Una o más, según contexto	Varias, dentro de la concordancia con el panel experto
Corrección	Automática, binaria	Basada en criterios clínicos	Ponderada según panel experto
Grado de incertidumbre	Bajo	Medio-alto	Alto
Nivel cognitivo	Reconocimiento y aplicación	Priorización y aplicación	Juicio clínico y ajuste de hipótesis
Nivel de formación recomendado	Cualquier nivel	Grado avanzado y residencia	Grado avanzado, residencia y especialistas
Complejidad de construcción	Media	Alta	Muy alta

🔑 Puntos clave para recordar

Una MCQ bien construida evalúa mucho más que memorización si el caso es clínicamente rico.

Los distractores son el elemento más difícil y más determinante de la calidad de una MCQ.

Las KFQ no preguntan por todos los pasos del caso, solo por los críticos: donde ocurren los errores con consecuencias.

El SCT no tiene una única respuesta correcta: la clave es la concordancia con el razonamiento experto.

A mayor incertidumbre del escenario, mayor nivel cognitivo exigido: MCQ → KFQ → SCT.

La IA generativa puede acelerar la construcción de los tres formatos, pero siempre requiere revisión experta y pilotaje.

🤖 Uso de IA generativa para construir MCQ, KFQ y SCT

La evidencia sobre el uso de IA para generar ítems de evaluación procede principalmente del grupo de Yavuz Selim Kıyak (MedEdFlamingo), que ha publicado estudios específicos para los tres formatos. El hallazgo transversal es consistente: los prompts son la clave. Prompts genéricos y bien diseñados permiten a cualquier docente adaptar la generación de preguntas a su propia especialidad.

Sin embargo, la IA no sustituye el juicio experto. Las preguntas generadas deben ser revisadas clínica y pedagógicamente antes de usarse, y los SCT requieren siempre la construcción de un panel de expertos que no puede delegarse en la IA.

Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter, nov 2025. Acceder al artículo →

"If you and your medical school aren't using AI to support the creation of assessment materials, you're missing a valuable opportunity for efficiency." — MedEdFlamingo, 2025

MCQ IA para preguntas tipo test

Revisión de ~2000 artículos, con análisis de 23 estudios que usaron ChatGPT para generar MCQ. Algunos encontraron calidad cercana a la humana.

Dato clave

Un humano tarda 30–60 min por MCQ. La IA lo hace en segundos. Pero siempre requiere revisión experta.

Kıyak & Emekli (2024). Postgraduate Medical Journal.

SCT IA para concordancia de guiones

Dos estudios (radiología y ginecología) evaluaron si ChatGPT y Claude pueden crear ítems SCT. Obtuvieron más del 90% de concordancia con criterios de calidad expertos.

Novedad adicional

Sallam & Abouzeid (2025) exploraron usar la IA como miembro del panel de expertos en la corrección de SCT.

Kıyak & Emekli (2025) · Yapıcı Coşkun et al. (2025). Medical Teacher.

KFQ IA para preguntas de punto clave

Con el modelo o3 de OpenAI, se generaron 20 KFQ de cardiología. Evaluación experta:

Resultados

15% aceptadas tal cual.
85% aceptadas con cambios menores.
0% rechazadas.

Problema más frecuente: falta de opciones genuinamente peligrosas y algún distractor inverosímil.

Kıyak et al. (2025). Medical Education Online.

💰 Eficiencia y ahorro de recursos

Evidencia de impacto económico

La asistencia de IA supuso una reducción media del 57% en el coste laboral por caso (equivalente a 880 GBP por caso) frente a los métodos tradicionales de redacción de preguntas.

⚠️ Recomendaciones de uso responsable

Usar los prompts publicados en los estudios como punto de partida: son genéricos y adaptables a cualquier especialidad.
Revisar siempre la precisión clínica: la IA puede generar información incorrecta sin acceso a internet.
Verificar que los distractores sean plausibles y que existan opciones genuinamente peligrosas en las KFQ.
Para SCT: la IA puede generar el esquema, pero el panel de expertos es imprescindible para la clave de corrección.
Declarar el uso de IA en la elaboración del material de evaluación.
Pilotar siempre las preguntas antes de usarlas en evaluación de impacto.

Declaración de uso responsable de la IA. Durante la redacción del material incluido en esta página se utilizó Claude Sonnet 4.6 para asistir en la estructuración del contenido y la redacción del texto. La página ha sido construida como un Artefacto con Claude Sonnet 4.6. Todo el material fue revisado por los autores.

📝 ¿Cómo elaborar Multiple Choice Questions?

Haladyna TM, Downing SM, Rodriguez MC. A Review of Multiple-Choice Item-Writing Guidelines for Classroom Assessment. Applied Measurement in Education. 2002;15(3):309–333.
31 reglas para elaborar MCQ →
National Board of Medical Examiners (NBME). Constructing written test questions for the health sciences. 2024.
Acceder al documento →
European Board of Medical Assessors. Guideline for writing multiple choice questions. 2017.
Acceder al documento →

🎯 ¿Cómo elaborar Key Feature Questions?

Nayer M, Glover Takahashi S, Hrynchak P. Twelve tips for developing key-feature questions (KFQ) for effective assessment of clinical reasoning. Med Teach. 2018;40:1116–1122.
Acceder al artículo →
Medical Council of Canada. Guidelines for the development of key feature problems and test cases. Agosto 2012.
Acceder al documento →

🧭 ¿Cómo elaborar SCT Questions?

Fournier JP, Demeester A, Charlin B. Script Concordance Tests: Guidelines for Construction. BMC Medical Informatics and Decision Making. 2008;8(1):18.
Acceder al artículo →
Lubarsky S, Dory V, Duggan P, Gagnon R, Charlin B. Script concordance testing: From theory to practice. AMEE Guide No. 75. Medical Teacher. 2013;35(3):184–193.
Acceder al artículo →

📚 IA y generación de preguntas

Kıyak YS, Emekli E. ChatGPT prompts for generating multiple-choice questions in medical education and evidence on their validity: a literature review. Postgraduate Medical Journal. 2024;100(1189):858–865.
Acceder al artículo →
Kıyak YS, Emekli E. Using large language models to generate script concordance test in medical education: ChatGPT and Claude. Revista Española de Educación Médica. 2025;6(1).
Acceder al artículo →
Kıyak YS, Górski S, Tokarek T, Pers M, Kononowicz AA. Large language models for generating key-feature questions in medical education. Medical Education Online. 2025;30(1):2574647.
Acceder al artículo →
Yapıcı Coşkun Z, Kıyak YS, Coşkun Ö, Budakoğlu Iİ, Özdemir Ö. Large language models for generating script concordance test in obstetrics and gynecology: ChatGPT and Claude. Medical Teacher. 2025;47(11):1767–1771.
Acceder al artículo →
Sallam MA, Abouzeid E. Introducing AI as members of script concordance test expert reference panel: A comparative analysis. Medical Teacher. 2025:1–8.
Acceder al artículo →
Kıyak YS. You Must Read These Articles If You (Will) Create Assessments with AI. MedEdFlamingo Newsletter. Nov 2025.
Acceder al artículo →

🤖 GPTs para generar preguntas

Escenarios clínicos de preguntas tipo test. By Flamingo en ChatGPT.
Abrir GPT →
Preguntas tipo test en medicina. By Rohil Jain en ChatGPT.
Abrir GPT →
Script Concordance Test Generator. By Flamingo en ChatGPT.
Abrir GPT →

MCQ · KFQ · SCTTres tipos de preguntas para evaluar el conocimiento, la decisión y el razonamiento clínico

MCQ · KFQ · SCT
Tres tipos de preguntas para evaluar el conocimiento, la decisión y el razonamiento clínico