La evaluación en medicina nunca ha sido sencilla. Valorar si un estudiante de grado sabe comunicar malas noticias, si un residente de primer año aplica asepsia correctamente o si un MIR es capaz de razonar ante la incertidumbre diagnóstica requiere algo más que intuición experta. Requiere criterios claros, compartidos y aplicados de forma consistente.
Durante décadas, la educación médica ha dependido de exámenes tipo test para medir conocimiento y de impresiones globales para valorar el desempeño clínico. Sin embargo, como señalan Shumway y Harden (2003), la tendencia actual exige moverse desde la evaluación del conocimiento hacia la evaluación de competencias complejas como el juicio clínico, el profesionalismo o la comunicación, y eso requiere instrumentos más sofisticados.
Las rúbricas son una respuesta efectiva y bien fundamentada a ese reto. La investigación acumulada —sintetizada entre otros por Jonsson y Svingby (2007) en su revisión de 75 estudios— muestra que las rúbricas analíticas, específicas por tarea y complementadas con ejemplos ancla, mejoran la consistencia de la puntuación, facilitan un juicio válido del desempeño complejo y promueven el aprendizaje.
Esta guía está dirigida a profesorado clínico, tutores de estudiantes de grado y residentes, y coordinadores de asignaturas o rotaciones.
Una rúbrica es una herramienta de evaluación estructurada que describe, de forma explícita y anticipada, qué se va a valorar y qué nivel de desempeño corresponde a cada puntuación o descriptor. Funciona como una matriz que combina criterios de calidad con niveles de logro, haciendo visible y comunicable aquello que en la evaluación clínica tradicional permanece implícito.
Los tres elementos esenciales
¿Por qué funciona? Porque cualquier evaluador puede observar directamente si el estudiante lava las manos, usa guantes y desinfecta la piel. No hay margen para la interpretación subjetiva: o lo hace o no lo hace, y si lo hace, se puede valorar si el tiempo y la técnica son los adecuados. El descriptor ancla la evaluación en conductas concretas y visibles.
¿Por qué no funciona? Porque no describe ninguna conducta observable. ¿Qué significa "competencia adecuada"? ¿Adecuada para quién, en qué contexto, según qué criterio? Dos evaluadores distintos pueden aplicar este descriptor de forma completamente diferente al mismo estudiante, lo que hace la evaluación injusta e indefendible.
- Una rúbrica describe cómo actúa el estudiante en cada nivel, no qué debe saber.
- Sin anclajes conductuales, dos evaluadores aplicarán la misma rúbrica de forma diferente.
- El número ideal de criterios suele estar entre tres y ocho.
Las rúbricas no son un anexo al final de la evaluación: forman parte del aprendizaje porque hacen explícitos los criterios de calidad y los niveles de desempeño. Por eso se integran en sistemas amplios como la OSCE/ECOE (Objective Structured Clinical Examination / Evaluación Clínica Objetiva Estructurada), la observación en el entorno real con mini-CEX (Mini-Clinical Evaluation Exercise), y también en marcos como las EPAs (Entrustable Professional Activities / Actividades Profesionales Confiables) o el portafolio, donde ayudan a definir niveles de confianza y a organizar evidencias de progreso.
Tres roles según el tipo de evaluación
La importancia de las rúbricas en la ECOE es vital. Sin rúbricas bien construidas y calibradas, la estandarización de la ECOE sería solo aparente ya que cada evaluador actuaría según su criterio, aplicando estándares distintos a los mismos estudiantes y generando diferencias de calificación que no reflejan diferencias reales de desempeño.
- La rúbrica guía la observación: el evaluador sabe qué mirar, en qué orden y con qué criterio.
- Diseña criterios específicos para cada estación; una rúbrica de comunicación no es transferible a técnica procedimental.
- Limita los criterios a los observables en el tiempo de la estación (3–7 suele ser suficiente).
- Añade siempre un criterio de valoración global al final.
- Guarda las hojas de evaluación: documentan las decisiones sumativas ante posibles reclamaciones.
Las rúbricas aportan valor en seis planos: transparencia, feedback, progresión, estandarización, toma de decisiones y alfabetización evaluadora del estudiante.
Cuando el estudiante conoce de antemano los criterios, la evaluación deja de ser un juicio opaco del experto y se convierte en una herramienta de aprendizaje. Jonsson (2014) demuestra que los estudiantes que acceden a la rúbrica antes de la tarea mejoran su rendimiento y perciben el proceso como más justo.
Una rúbrica analítica permite señalar exactamente en qué criterio y nivel se encuentra el estudiante. Los descriptores conductuales producen feedback que el estudiante puede convertir en acción concreta (Pitt y Winstone, 2023).
Las rúbricas evolutivas sitúan al estudiante en su trayectoria de desarrollo competencial. Al describir explícitamente los hitos —desde novato hasta experto—, ofrecen una imagen compartida de hacia dónde se dirige el aprendizaje.
Las rúbricas con descriptores conductuales reducen la variabilidad al proporcionar un marco de referencia común (Pangaro y ten Cate, 2013).
En evaluaciones de alto impacto, las rúbricas proporcionan documentación explícita y defendible de los criterios utilizados. Esto protege tanto al estudiante como a la institución (Norcini et al., 2011).
El concepto de student feedback literacy (Carless y Boud, 2018) recoge la capacidad del estudiante de comprender criterios de calidad e interpretar el feedback para mejorar. Las rúbricas compartidas antes de la evaluación son una de las estrategias más eficaces.
- Cuando la tarea es tan abierta y creativa que no puede describirse en niveles predefinidos.
- Cuando el tiempo de diseño no puede justificarse por el peso de la evaluación.
- En esos casos, una escala global con uno o dos anclajes y espacio para comentario narrativo puede ser más eficiente.
En medicina, las rúbricas permiten evaluar de forma estructurada tanto competencias simples como complejas, porque traducen lo que se espera del estudiante en criterios observables y niveles de desempeño. Este apartado resume qué competencias se prestan mejor a ser evaluadas con rúbricas, desde habilidades técnicas y comunicativas hasta tareas clínicas integradas en contextos reales o simulados o competencias transversales como el trabajo en equipo o la gestión del tiempo.
| Área | Competencia | Qué evalúa la rúbrica |
|---|---|---|
| Habilidades clínicas | Historia clínica | Recogida de información relevante, organización cronológica, identificación de síntomas clave y documentación |
| Exploración física | Técnica, orden sistemático, delicadeza con el paciente e identificación de hallazgos | |
| Procedimientos técnicos | Preparación, técnica, seguridad y manejo de complicaciones | |
| Comunicación | Presentación de casos | Estructura, claridad, síntesis de información relevante y capacidad de responder preguntas |
| Comunicación de malas noticias | Empatía, uso de lenguaje apropiado, manejo del silencio y apoyo emocional | |
| Consentimiento informado | Explicación de riesgos, beneficios, alternativas y verificación de comprensión del paciente | |
| Comunicación en equipo | Handoff entre turnos, presentación en sesiones multidisciplinares | |
| Investigación | TFG / TFM | Planteamiento, metodología, análisis, interpretación y calidad de la redacción |
| Revisiones bibliográficas | Estrategia de búsqueda, selección crítica, síntesis de evidencia y aplicabilidad clínica | |
| Pósteres y comunicaciones | Diseño visual, claridad del mensaje, rigor metodológico y capacidad de defensa | |
| Simulación clínica | Escenarios de emergencias | Priorización, toma de decisiones bajo presión, aplicación de protocolos |
| Trabajo en equipo | Comunicación efectiva, delegación, solicitud de ayuda, gestión de conflictos y liderazgo | |
| Manejo de recursos | Uso eficiente de material, reconocimiento de limitaciones y adaptación al contexto | |
| Profesionalismo | Razonamiento ético | Identificación de dilemas, análisis de principios, perspectivas múltiples y justificación |
| Actitud profesional | Puntualidad, respeto, confidencialidad, responsabilidad y trabajo en equipo | |
| Autoevaluación | Reflexión sobre el propio desempeño e identificación de áreas de mejora | |
| Otras | Razonamiento clínico | Generación de hipótesis, priorización de diferenciales y solicitud racional de pruebas |
| Educación al paciente | Adaptación del lenguaje, uso de recursos, verificación de comprensión y motivación | |
| Gestión del tiempo | Eficiencia en consultas, priorización de tareas y cumplimiento de plazos |
Evalúan cada componente por separado, proporcionando una puntuación individual para cada criterio. Son las más utilizadas en medicina porque permiten identificar con precisión fortalezas y debilidades específicas y facilitan la retroalimentación detallada.
- Se puntúa por separado: obtención de datos, organización temporal, identificación de síntomas clave, comunicación con el paciente y documentación.
- Evaluaciones sumativas de alto impacto (ECOE, competencias clave).
- Cuando el feedback detallado por dimensión es esencial para el plan de mejora del estudiante.
| Tipo | Ventajas | Limitaciones | Uso recomendado |
|---|---|---|---|
| Analítica | Feedback preciso por criterio. | Más tiempo de diseño. | Evaluaciones sumativas de alto impacto (ECOE). |
| Holística | Rápida. Captura la integración del desempeño. | Feedback menos específico. | Evaluaciones formativas durante rotaciones. |
| Evolutiva | Sitúa al estudiante en su trayectoria. | Difícil en un único encuentro. | Portafolios, seguimiento longitudinal. |
La combinación de un checklist para acciones críticas de seguridad más una rúbrica holística para la calidad del conjunto es el formato híbrido más equilibrado.
| Nivel | Descriptor global |
|---|---|
| A · Deficiente | No identifica los elementos para establecer diagnósticos pertinentes. |
| B · Insuficiente | Identifica algunos elementos para establecer solo un diagnóstico presuntivo. |
| C · Suficiente | Identifica elementos y establece un diagnóstico diferencial relacionado. |
| D · Bueno | Identifica y establece diferencial; estructura un plan diagnóstico coherente. |
| E · Excelente | Establece dos diagnósticos diferenciales priorizados con argumentos fisiopatológicos. |
| Criterio | A·0 | B·1 | C·2 | D·3 | E·4 |
|---|---|---|---|---|---|
| 1. Identificación elementos clínicos | No reconoce datos orientadores. | Uno o dos datos aislados. | Datos principales vinculados al problema. | Integra anamnesis, exploración y antecedentes. | Pondera todos los datos por valor diagnóstico. |
| 2. Diagnóstico presuntivo | Ninguno o incongruente. | Impreciso o inespecífico. | Correcto sin argumentación. | Correcto y justificado. | Preciso, jerarquizado, con fisiopatología. |
| 3. Diagnósticos diferenciales | No considera alternativas. | Uno sin argumentación. | Uno pertinente. | Dos o más relacionados. | Dos o más priorizados con criterios explícitos. |
| 4. Argumentación fisiopatológica | No aplica fisiopatología. | Conceptos descontextualizados. | Básica para el presuntivo. | Para presuntivo y diferenciales. | Sólida, jerarquiza todos los diagnósticos. |
| 5. Plan diagnóstico | No propone o son inapropiados. | Alguno sin justificación. | Básicos y pertinentes. | Confirma presuntivo y descarta diferenciales. | Jerarquizado, costo-efectivo, justificado. |
Las escalas más habituales son las de cuatro niveles (ejemplo: insuficiente / básico / competente / excelente) y las de cinco niveles (ejemplo: novato / principiante avanzado / competente / avanzado / experto). Con menos de tres niveles la rúbrica pierde capacidad discriminativa; con más de cinco sin descriptores suficientemente distintos, genera confusión y hace que los evaluadores tiendan a colapsar niveles adyacentes.
Ponderación de criterios
No todos los criterios tienen el mismo peso clínico. Esta decisión debe tomarse antes de usar la rúbrica, no durante ni después, y debe ser transparente para los estudiantes.
Fórmula general
- Puntuación total = Σ (valor obtenido en el criterio × peso del criterio)
- Nota (0–10) = (Puntuación total obtenida / Puntuación máxima posible) × 10
- Ejemplo: 4 criterios al 25 %, escala 1–4, media ponderada 3,0 → nota = (3,0/4) × 10 = 7,5 sobre 10
Es importante que la tabla de conversión esté publicada antes de la evaluación para que la relación entre el desempeño cualitativo y la calificación numérica sea completamente transparente.
- Usar descriptores vagos como "adecuado" o "bueno" sin especificar qué conducta los define.
- No ponderar los criterios antes de aplicar la rúbrica y tratarlos como equivalentes.
- Diseñar escalas de más de cinco niveles sin descriptores suficientemente distintos.
- No realizar calibración previa entre evaluadores en evaluaciones de alto impacto.
- 1 Nombre de la tarea
- 2 Propósito: formativo / sumativo · Nivel de impacto: bajo / alto
- 3 Decisión a tomar con los resultados
- 4 Evidencias a evaluar: producto / proceso / ambos
- 5 Criterios (3–8, críticos, no redundantes)
- 6 Número de niveles (3 / 4 / 5) y etiquetas
- 7 Descriptor del nivel de referencia para cada criterio
- 8 Descriptores de los demás niveles
- 9 Ponderación justificada de criterios
- 10 Revisión de lenguaje: test de observabilidad
- 11 Alineación con objetivos y marcos de competencias
- 12 Sesión de co-diseño o revisión con estudiantes
- 13 Pilotaje con 2–3 casos antes del uso real
Una rúbrica bien diseñada no garantiza por sí sola una evaluación justa: su calidad depende también de cómo se construye, se prueba y se aplica. Los tres pilares que determinan si una rúbrica es realmente útil y defendible son la validez de contenido —que mide lo que debe medir—, el pilotaje —que detecta problemas antes de que afecten a estudiantes reales— y la calibración entre evaluadores —que garantiza que dos docentes apliquen los mismos criterios de forma consistente.
- Los criterios están seleccionados por expertos clínicos y educativos.
- Los descriptores son conductuales y observables, no adjetivos genéricos.
- Todos los niveles de todos los criterios tienen descriptor propio.
- La rúbrica ha sido sometida a pilotaje con casos reales o simulados.
- Se ha realizado sesión de calibración con los evaluadores antes del uso real.
- Los sesgos frecuentes (lenidad, halo, centralidad) se han discutido en la formación.
- La ponderación de criterios está definida y justificada antes de la evaluación.
- Los estudiantes reciben la rúbrica antes de la evaluación, no solo después.
- La rúbrica se revisa al menos una vez al año o tras cada cohorte evaluada.
Ventajas respaldadas por la evidencia
La principal ventaja documentada es el incremento de la consistencia entre evaluadores. La revisión de Jonsson y Svingby (2007) concluye que la fiabilidad puede mejorarse con rúbricas analíticas, específicas por tarea y complementadas con ejemplos ancla. La mejora de la calidad del feedback es la segunda ventaja bien documentada.
Un efecto menos explorado pero relevante es el impacto sobre el juicio profesional del evaluador: trabajar con rúbricas obliga a los docentes a articular explícitamente sus estándares implícitos.
Por último, las rúbricas facilitan la integración con tecnología: al proporcionar criterios precisos a un modelo de lenguaje, es posible crear sistemas de evaluación semiautomatizada. Este uso se desarrolla en detalle en el apartado 10 (IAGen).
- Checklistización: tendencia a convertir competencias holísticas en listas de conductas discretas que no capturan la integridad del desempeño.
- Criteria compliance (Torrance, 2007): los estudiantes pueden usar la rúbrica como receta de cumplimiento, perdiendo creatividad o pensamiento profundo.
- Tiempo de elaboración: una rúbrica bien diseñada requiere inversión significativa de tiempo.
- Rigidez potencial: pueden limitar la valoración de aspectos creativos o contextuales.
- Riesgo de fragmentación: se puede perder la visión holística del desempeño.
- Falsa sensación de objetividad: siempre existe un componente de juicio profesional que no puede eliminarse.
La llegada de modelos de lenguaje de gran tamaño como ChatGPT o Claude ha cambiado el tipo de evidencias de desempeño que puede generar un estudiante. Trabajos escritos que antes requerían semanas de esfuerzo pueden producirse en minutos con ayuda de la IA.
Esto no significa que las rúbricas deban perseguir el uso de la IA: ese enfoque es reactivo e ineficaz. Significa que las rúbricas deben evolucionar para capturar aquello que la IA no puede producir de forma autónoma: el proceso de razonamiento del estudiante, la trazabilidad de sus decisiones, su capacidad de defensa oral, su juicio clínico contextualizado y su reflexión auténtica (Emekli y Karahan, 2025).
Ahora que comenzamos a utilizar la IA generativa como complemento a nuestra labor de evaluación, nos damos cuenta de que necesitamos darle instrucciones precisas si queremos que evalúe a nuestros alumnos como lo haríamos nosotros. La IA no evalúa lo que no puede ver y, por tanto, evaluará tan bien como nosotros le hayamos enseñado a hacerlo.
¿Y cuál es la mejor manera de comunicar a una IA cómo queremos hacer una evaluación? A través del diseño de una rúbrica: en ella le diremos qué criterios tiene que evaluar y cómo debe hacerlo, para luego construir una retroalimentación adecuada para nuestros alumnos.
- Sin rúbrica: si solo le decimos "valora si el razonamiento es adecuado o no", lo hará según criterios que desconocemos y no interpretará los matices que nosotros consideramos importantes.
- Con rúbrica: si le indicamos que para calificar el diferencial como adecuado el estudiante debe incluir al menos tres diagnósticos ordenados por probabilidad con justificación fisiopatológica, la IA tiene un criterio claro para evaluar y orientar la retroalimentación.
Por eso, cuando queramos diseñar asistentes de evaluación basados en IA tendremos que construir rúbricas detalladas, iterar con ellas y consensuarlas con el equipo docente, además de mantener siempre la supervisión docente sobre el proceso.
Las rúbricas son nuestros prompts pedagógicos para transformar a nuestro asistente de un simple corrector gramatical a un co-evaluador que aplica nuestro criterio clínico y nuestros estándares de excelencia. La IA no reemplaza nuestro juicio experto: lo amplifica cuando le damos instrucciones claras, y nos va a permitir volver a los exámenes de desarrollo o a tareas de mayor impacto que los exámenes tipo test.
- Revisar las rúbricas de trabajos escritos: si solo evalúan el producto, añadir criterios de proceso y trazabilidad.
- Incluir en al menos una evaluación la defensa oral, con criterios específicos de justificación.
- Añadir un criterio de declaración de uso de IA con descriptor de uso transparente y reflexivo.
- No prohibir el uso de IA sin haber rediseñado la evaluación: la prohibición sin rediseño no cambia el aprendizaje.
- Mantener siempre la supervisión final del docente sobre cualquier evaluación asistida por IA.
Para obtener una rúbrica útil de un modelo de lenguaje, el docente debe aportar: el contexto, el propósito, los objetivos de aprendizaje y el tipo de evidencia. El resultado siempre debe revisarse y pilotarse antes de usarse.
Los siguientes ejemplos están elaborados aplicando los principios descritos en esta guía. Son modelos con fines ilustrativos y deben ser revisados y pilotados antes de su uso en evaluación real.
| Criterio | Peso | Insuficiente (1) | Básico (2) | Competente (3) | Excelente (4) |
|---|---|---|---|---|---|
| Estructura y síntesis | 30% | Carece de estructura reconocible; omite datos esenciales o los presenta desordenados. | Presenta los datos principales pero sin síntesis; el hilo conductor es difícil de seguir. | Estructura clara con anamnesis, exploración y plan ordenados; sintetiza los datos relevantes. | Muy estructurada y sintética; jerarquiza con criterio clínico y anticipa las preguntas del oyente. |
| Razonamiento diagnóstico | 40% | No plantea diagnóstico diferencial o lo hace sin relación con los datos del caso. | Plantea un diagnóstico posible pero no lo justifica ni considera alternativas. | Diferencial con 2–3 opciones ordenadas por probabilidad, justifica cuál es más probable. | Diferencial completo y priorizado, integra fisiopatología y ajusta el plan al contexto del paciente. |
| Comunicación oral | 30% | No mantiene contacto visual, lee del papel, lenguaje inapropiado. | Comunicación funcional pero con pausas largas o falta de fluidez. | Expresión clara, fluida y adaptada al oyente; verifica comprensión. | Muy fluida, adapta el lenguaje al interlocutor, responde con seguridad a preguntas del evaluador. |
| Criterio | Peso | Insuficiente (1) | Básico (2) | Competente (3) | Excelente (4) |
|---|---|---|---|---|---|
| Asepsia | 25% | No realiza lavado de manos ni usa guantes; no desinfecta la piel. | Realiza lavado de manos pero no desinfecta adecuadamente; guantes inconsistentes. | Técnica aséptica correcta: lavado de manos, guantes y desinfección con técnica y tiempo adecuados. | Técnica aséptica impecable, verbaliza los pasos críticos y corrige activamente cualquier ruptura. |
| Comunicación con el paciente | 25% | No informa al paciente del procedimiento; no pide consentimiento. | Informa al paciente de forma muy breve sin verificar comprensión. | Informa, solicita consentimiento, explica posibles molestias y verifica comprensión. | Informa, escucha las preocupaciones, adapta su lenguaje y tranquiliza durante el procedimiento. |
| Técnica procedimental | 35% | No consigue canalizar o comete errores graves de técnica. | Consigue canalizar pero con dificultades importantes en la punción o fijación. | Procedimiento ordenado, con buena técnica de punción y fijación correcta del catéter. | Eficiente y seguro; palpa y visualiza la vena antes de puncionar, minimiza el disconfort y documenta. |
| Manejo de incidencias | 15% | Ante un fallo, abandona o no sabe cómo proceder. | Ante un fallo, pide ayuda sin haber intentado ninguna medida correctora. | Identifica el problema, intenta una corrección y, si no lo resuelve, pide ayuda de forma apropiada. | Anticipa posibles incidencias, tiene un plan alternativo y gestiona el fallo sin comprometer la seguridad. |
| Criterio | Peso | Insuficiente (1) | Básico (2) | Competente (3) | Excelente (4) |
|---|---|---|---|---|---|
| Preparación del entorno | 15% | No verifica privacidad, presencia de acompañante ni posición del paciente. | Verifica algún elemento del entorno pero omite aspectos básicos. | Garantiza privacidad, verifica si el paciente quiere acompañante y se sienta a su nivel. | Prepara el entorno de forma óptima y crea un clima de confianza antes de comenzar. |
| Empatía y apoyo emocional | 35% | No reconoce la reacción emocional del paciente; continúa dando información sin pausar. | Reconoce la emoción de forma superficial; pausa brevemente y retoma sin explorar el estado emocional. | Valida la reacción emocional, pausa tras dar la noticia y pregunta qué necesita antes de continuar. | Acompaña de forma experta, usa el silencio terapéutico y cierra con un plan de apoyo concreto. |
| Claridad de la información | 30% | Usa terminología técnica sin adaptación; la información es confusa o incompleta. | Intenta adaptar el lenguaje pero la información esencial es incompleta. | Informa de forma clara, en pequeñas dosis y verificando la comprensión del paciente. | Estructura la información y adapta el nivel de detalle a la capacidad de absorción del paciente. |
| Manejo del silencio y preguntas | 20% | No tolera el silencio; interrumpe o rellena con información innecesaria. | Tolera el silencio pero no lo usa terapéuticamente; responde las preguntas de forma incompleta. | Respeta el silencio del paciente; responde a sus preguntas de forma honesta y adaptada. | Usa el silencio como herramienta terapéutica y cierra con un plan de seguimiento claro. |
| Criterio | Peso | Insuficiente (1) | Básico (2) | Competente (3) | Excelente (4) |
|---|---|---|---|---|---|
| Planteamiento del problema | 20% | No define claramente el problema o la pregunta de investigación. | Define el problema de forma vaga; la justificación es insuficiente. | Define con claridad el problema, justifica su relevancia clínica y delimita el alcance. | Definición precisa con marco conceptual sólido y relevancia clínica bien argumentada. |
| Análisis e interpretación | 30% | No analiza los resultados o lo hace de forma superficial. | Analiza los datos pero sin profundidad crítica; las conclusiones son poco coherentes. | Analiza con sentido crítico, discute limitaciones y extrae conclusiones coherentes. | Análisis riguroso; integra las limitaciones en las conclusiones y propone implicaciones prácticas concretas. |
| Uso reflexivo de IA | 25% | No declara el uso de IA o lo hace de forma que sugiere que no ha revisado el contenido generado. | Declara que usó IA pero sin especificar para qué ni cómo verificó los resultados. | Declara qué herramientas de IA utilizó, para qué partes y cómo verificó los resultados. | Declara el uso con detalle, reflexiona críticamente sobre sus limitaciones y demuestra comprensión autónoma en la defensa. |
| Defensa oral | 25% | No es capaz de explicar el contenido de su trabajo; no responde a las preguntas del evaluador. | Responde a algunas preguntas pero con dificultad para argumentar más allá de lo escrito. | Defiende con claridad los argumentos, responde con seguridad y reconoce las limitaciones. | Defensa experta: adapta argumentos, reconoce la incertidumbre y demuestra que el trabajo es auténticamente suyo. |
- Alpuche-Hernandez A, Trejo-Mejía JA, Peña-Balderas J, Ortiz-Montalvo A. Diseño y elaboración de rúbricas para evaluar competencias de estudiantes de medicina en un ECOE. Psicología Educativa. 2021;8-9(1):58-64.
- Carless D, Boud D. The development of student feedback literacy: enabling uptake of feedback. Assessment & Evaluation in Higher Education. 2018;43(8):1315-1325.
- Chiavaroli NG, Pearce J. Twelve tips for developing effective marking schemes for constructed-response examination questions. Med Teach. 2024 Oct;46(10):1284-1290.
- Cockett A, Jackson C. The use of assessment rubrics to enhance feedback in higher education. Nurse Education Today. 2018;69:8-13.
- Colbert-Getz JM, Ryan M, Hennessey E, et al. Measuring assessment quality with an assessment utility rubric for medical education. MedEdPORTAL. 2017;13:10588.
- Emekli E, Karahan BN. Comparison of automatic item generation methods in the assessment of clinical reasoning skills. Revista Española de Educación Médica. 2025;1:637221.
- Fraile J, Panadero E, Pardo R. Co-creating rubrics: The effects on self-regulated learning, self-efficacy and performance. Studies in Educational Evaluation. 2017;53:69-76.
- Jonsson A, Svingby G. The use of scoring rubrics: Reliability, validity and educational consequences. Educational Research Review. 2007;2(2):130-144.
- Kıyak YS, Emekli E. A Prompt for Generating Script Concordance Test Using ChatGPT, Claude, and Llama. Revista Española de Educación Médica. 2024;5(3).
- Norcini J, Anderson B, Bollela V, et al. Criteria for good assessment: consensus statement and recommendations from the Ottawa 2010 Conference. Medical Teacher. 2011;33(3):206-214.
- Pangaro L, ten Cate O. Frameworks for learner assessment in medicine: AMEE Guide No. 78. Medical Teacher. 2013;35(6):e1197-e1210.
- Pitt E, Winstone N. Enabling and valuing feedback literacies. Assessment & Evaluation in Higher Education. 2023;48(2):149-157.
- SEFSE-AREDA. Rúbrica para evaluar las rotaciones de los residentes. 2024.
- Shumway JM, Harden RM. AMEE Guide No. 25: The assessment of learning outcomes for the competent and reflective physician. Medical Teacher. 2003;25(6):569-584.
- Torrance H. Assessment as learning? How the use of explicit learning objectives and feedback can come to dominate learning. Assessment in Education. 2007;14(3):281-294.
- Tutor AS, Escudero E, Del Nogal Ávila M, et al. Learning and assessment strategies for a humanized medical education. Front Physiol. 2023 Jul 10;14:1212031.