Problemas en la calificación de la prueba de la U.Nacional

Casi desde la misma creación de este blog en septiembre de 2009 había querido escribir acerca de cómo se califica la prueba de admisión aplicada semestralmente por la Universidad Nacional de Colombia para el ingreso a sus programas académicos de pregrado y ahora, casi 7 años después de estudiar la prueba y ver la evolución del proceso de admisión me daré a la tarea de compartir ciertos problemas que he podido detectar y que es pertinente incorporar al análisis y discusión sobre la prueba.

Los problemas que mencionaré en esta publicación han sido evidenciados del estudio de la prueba y discusiones con diferentes profesores y estudiantes de la UN, entre quienes destaco especialmente a Alvaro Montenegro, Edilberto Cepeda y Erika Arias.

La prueba diseñada por la UN es la prueba estandarizada de mayor impacto aplicada por una institución de educación superior (IES) en Colombia con más de 100,000 examinandos al año de los cuales en promedio 1 de cada diez obtiene un cupo de admisión.

Prueba de admisión UNAL
El desempeño en la prueba académica de ingreso es el principal criterio de admisión a pregrados en la UN. Foto: Unimedios

De acuerdo a Corte Constitucional de Colombia (Sentencias T-441/97 open_in_new y T-326/98 open_in_new) los cupos de admisión universitarios son un bien escaso y por tanto todo proceso de admisión implementado por una IES pública debe priorizar los méritos académicos del aspirante para brindarle o no un cupo, y en el caso de la UN, ese mérito es medido a través de la prueba de admisión dejando de lado los resultados obtenidos en la prueba Saber 11, que para efectos de resultar admitido no importan en lo absoluto.

Sin embargo, hasta primer semestre de 2013 en la UN se presentaba un fenómeno que perjudicaba la eficiencia del principio de asignación de cupos: un bien escaso era otorgado a un aspirante por méritos académicos pero al final del día el aspirante no se matriculaba y no habían listas de espera, es decir, se perdían cupos, se perdía dinero y se postergaban o frustraban sueños.

En respuesta a este fenómeno a partir segundo semestre de 2013 la Universidad introdujo una serie de cambios en el mecanismo de asignación de cupos que tuvo, entre otros propósitos, optimizar por completo la asignación sancionando a quien pasa y no se matricula y brindando la oportunidad de seleccionar carreras luego de conocer el puntaje obtenido en la prueba.

Pero hay algo que el análisis ha descuidado: cualquiera sea el mecanismo de asignación de cupos y de selección de carreras el criterio clave que determina la respuesta al problema de a quien se le otorga un cupo es un puntaje. La pregunta entonces cambia. ¿Los puntajes están bien calculados? Yo estoy seguro que se pueden calcular mejor.

A través de los próximos párrafos defenderé esta tesis teniendo en cuenta algunos fundamentos psicométricos, matemáticos y estadísticos que orientan el diseño, aplicación y calificación de la prueba. Es posible que me extienda un poco —procuraré hacer amena la lectura— y no entraré en detalles conceptuales y numéricos pero brindaré enlaces y referencias para complementar. Podemos seguir la discusión en los comentarios (los leeré y responderé) o también a través de Twitter open_in_new.

1. El área de ciencias no es unidimensional


Hay 30 preguntas o "reactivos" que se agrupan y se califican conjuntamente en un área llamada "ciencias" donde se evalúan temas de biología, física y química. En la construcción de pruebas para medir trazos latentes (algo que no podemos medir directamente) se requiere un constructo bien elaborado y en este caso unidimensional, es decir, hay que asegurarse de que lo se quiere medir esté bien definido y que los ítems apunten en esa dirección. Este no es el caso, es un área con ruidos.

Un análisis de componentes principales open_in_new de los items del área de ciencias puede dar cuenta que los ítems han fallado en aplicaciones pasadas de la prueba al medir un mismo constructo. En la literatura esto se conoce como un problema de validez interna.

Análisis componentes principales UNAL no unidimensional
Mapa factorial de ítems. Caso no unidimensional.

Análisis componentes principales UNAL unidimensional
Mapa factorial de ítems. Caso unidimensional.

2. Los puntajes por área se obtienen mediante un modelo obsoleto


El fundamento teórico para calificar la prueba open_in_new es la teoría de respuesta al item (TRI) y bajo esta teoría hay un modelo ampliamente utilizado en pruebas psicométricas alrededor del mundo para medir constructos de "habilidad" en áreas de conocimientos en pruebas educativas (y muchas otras). Este modelo se conoce como el modelo de Rasch y su uso, aunque ampliamente extendido, debe hacerse con cuidado.

El modelo de Rasch open_in_new (o modelo de 1 parámetro) fue propuesto en 1960 y su uso en mediciones educativas considera únicamente la dificultad de las preguntas para computar un puntaje total por área. En efecto hay preguntas con diferentes dificultades, pero hay mejores modelos y más recientes, también construidos sobre la TRI, que pueden producir mejores estimaciones del puntaje o "habilidad" del examinando.

Hay modelos de dos parámetros: dificultad y discriminación.
Hay modelos de tres parámetros: dificultad, discriminación y pseudoazar.
Hay incluso modelos de cuatro parámetros.

Curva característica del ítem - Teoría de respuesta al ítem
Curva característica de un ítem (CCI) en modelos de TRI. La magnitud de (b) es el índice de dificultad de la pregunta, la magnitud de (a) es el índice de discriminación y la magnitud de (c) es la probabilidad de responder al azar.

¿Qué quiero decir con esto? Que es posible modelar al menos dos hechos que hoy en día no se tienen en cuenta: que existen preguntas de la misma dificultad que no discriminan igual entre quienes saben y quienes no y la probabilidad de responder una pregunta por pura suerte ("pinochazo"). Estos hechos no son nuevos en las pruebas y hay respuestas matemáticas y estadísticas frente a estos problema al menos desde 1968 con el modelo de dos parámetros propuesto entonces por Birnbaum open_in_new.

¿Qué implicación practica resulta de seguir ajustando un modelo de Rasch? Que se podrían obtener mejores estimaciones que respondan a ese mérito académico que se busca y por el cual se asignan los cupos. En estadística ese es uno de los problemas de cada día: estimar y estimar bien, lo menos sesgado y más preciso posible.

Esta discusión es muy extensa y confronta —académicamente hablando— a psicólogos con matemáticos y estadísticos e incluso he visto acuñados los términos de defensores del modelo Rasch y los defensores de los modelos de teoría de respuesta al ítem.

El problema con la elección del modelo no subyace en las estimaciones obtenidas para los aspirantes que obtienen los mejores puntajes pues independientemente del número de parámetros del modelo les va a ir bien, sino que el foco de análisis se traslada a los aspirantes con puntajes en las fronteras donde quedan asignados los cupos.

Veamos un ejemplo.
A Medicina se admiten en promedio cada semestre cohortes de 120 estudiantes y el aspirante en el puesto 121 a pesar de tener un buen puntaje puede quedarse sin cupo, y si bien la universidad le ofrecerá la oportunidad de escoger otra carrera ese aspirante en principio quería ser médico y ahora deberá replantearse qué hacer. El problema no está en que o el aspirante 120 (con cupo) o el 121 (sin cupo) no puedan llegar a ser excelentes médicos sino que un modelo favoreció a uno cuando es posible que el otro reúna más méritos académicos. Es una cuestión delicada de unas pocas décimas que determina que alguien obtenga o no un cupo.

3. Falla un supuesto clave para poder aplicar el modelo


A la luz de la TRI en el proceso no se garantiza un supuesto de "independencia entre las respuestas a cada pregunta dado un trazo latente fijo". ¿Qué significa esto? Que se puede deducir o adivinar la respuesta a una pregunta luego de haber resuelto otra(s) o debido a el órden en que se presentan las preguntas y esta situación se puede presentar en múltiples conjuntos de preguntas que se cobijan bajo un mismo enunciado o lectura en la prueba. De nuevo, este problema afecta de una u otra manera las estimaciones de puntajes. En la literatura esto se conoce como un fallo en el supuesto de independencia local y consecuentes problemas de "testlets".

4. El puntaje total se obtiene arbitrariamente


El tiempo de preparación y las tres horas y media de presentación de la prueba se resumen en un puntaje total estandarizado con el cual el aspirante compite por un cupo. Sigamos la dinámica de preguntarnos cosas: ¿cómo se obtiene ese puntaje? La universidad nunca ha sido clara con la fórmula pero resulta directo pensar que es una función de los puntajes por áreas y en efecto así es.

El puntaje total resulta de sumar ponderadamante los puntajes obtenidos en cada una de las 5 áreas de la prueba y luego estandarizar todas las sumas obtenidas. El problema está en sumar.

Veamos otro ejemplo. Pensemos por un momento en planos cartesianos.

Plano 1
Eje X: Habilidad en matemáticas
Eje Y: Habilidad en lectoescritura
Pregunta: ¿Qué obtengo de sumar ser pilo en matemáticas y en lectoescritura?

Plano 2
Eje X: Habilidad en matemáticas
Eje Y: Habilidad en ciencias naturales
Pregunta: ¿Que obtengo de sumar ser pilo en matemáticas y en ciencias naturales?

Plano 3
Eje X: Habilidad en lectoescritura
Eje Y: Habilidad en ciencias sociales
Pregunta: ¿Qué obtengo de sumar ser pilo en lectoescritura y ciencias sociales?

La respuesta no es directa en ningún caso pero la prueba, además de las sumas, imputa una igualdad matemática open_in_new y esto tiene implicaciones en el puntaje obtenido y todo lo que se haga con ese puntaje. En cada plano del ejemplo anterior se pueden sumar los vectores pero debe existir claridad al interpretar el vector resultante. Ahora bien, en la prueba de la UN estoy sumando cinco vectores diferentes con pesos diferentes y eso está definiendo un perfil del admitido a la UN.

¿Está bien construido ese perfil? La respuesta no la puedo brindar yo pero a modo de ilustración puedo decirles que el ICFES en sus pruebas reporta puntajes por áreas pero no reporta un puntaje total y diferentes universidades de Colombia y el mundo han adaptado sus procesos de ingreso cambiando las pruebas según sea el programa al que se presenta el aspirante.

En una IES tan grande e importante como la U.Nacional, con la amplia oferta de programas académicos de pregrado que tiene hoy y sus alcances regionales me cuesta dar por verdadero —por no decir que estoy en contra— un perfil único del admitido.

Conclusión


El proceso de admisión de la Universidad Nacional de Colombia ha contado con una evolución y la Universidad ha venido perfeccionando no solamente la prueba en sí misma sino la asignación de cupos. En términos generales la prueba de admisión funciona bien y existen diferentes elementos de discusión, sin embargo, se están dando por ciertos supuestos que se traducen en fuentes de error que al final del día se reflejan en el puntaje con el que compite el aspirante.

En lo que concierne estrictamente al proceso de calificación el hacer uso de modelos más modernos es algo que se debe considerar a pesar que el costo se refleje en más horas de procesamiento de los datos, algo que no representa mayores dificultades técnicas y que se hace necesario dado el impacto social que tiene la prueba.

Todos los estudios y análisis al proceso de admisión son bienvenidos y necesarios y más cuando existe la propuesta de consolidar una única prueba de admisión nacional open_in_new a IES públicas.

Coda: Sugerir que la prueba de admisión discrimina a las mujeres a propósito es victimizarlas irresponsablemente.
El Blog de la Nacho

comment 8 comentarios

marie.rod chevron_right

1) Deberían dejar mas tiempo para contestar... Hay que tener en cuenta que por ejemplo en matematicas se necesita mas analisis por lo tanto mas tiempo.
2) Hacer examen segun carrera. Por ejemplo, alguien quiere estudiar medicina, y le va muy bien en biologia por lo que tiene que ver con eso... y en otras no mucho entonces no pasa y eso no quiere decir que no pueda ser capaz de estudiar aya.

Respuesta
Felipe Calvo call_missed_outgoing

1) Los tiempos son probados y son suficientes para contestar todo el examen: el reto está en administrar bien el tiempo, por eso es aconsejable conocer la estructura de la prueba de admisión antes de presentarla y si es preciso llevar un reloj de mano.

2) Hacer pruebas por carreras no es practico y resulta muy costoso, sin embargo tal vez pueda ser pertinente considerar pruebas únicas a nivel de una o varias facultades.

yarledy chevron_right

me parece ecxelente que el examen de admision se este perfeccionando cada vez mas ;)

Unknown chevron_right

Pues yo creo que deberían darle mas valides a un puntaje dependiendo de la carrera por ejemplo Si un aspirante desea ingresar a ingeneria que valga mas el puntaje de matematicas que el de sociales por que es algo que va a ir directamente relacionado con la carrera

Unknown chevron_right

Me parece que el examen esta diseñado para que obtenga un cupo un estudiante que tenga bases en todos los campos, independientemente de la carrera a la que se este aplicando. conozco a muchos que les ha funcionado el no aplicar solo para una carrera, ya que pueden elegir otras opciones realizan de nuevo el examen y aplican a la carrera deseada; como otros que no les importa estudiar otra cosa, el objetivo es estudiar y salir adelante.

Anónimo chevron_right

A mí lo que no me gusta del nuevo examen es que la gente cuando tiene un puntaje suficiente para pasar, pero no a la carrera que quisieran, sólo por obtener el cupo se mete a carreras que nada que ver con ellos. Es como pasar por pasar, y le quitan el cupo a personas que en realidad quieren pasar a tal carrera pero no tienen un puntaje demasiado alto.

Está bien que pongan digamos que con 600 puntos se pase el examen, pero sería mejor que fuera sólo una fecha para inscribir las carreras.

Unknown chevron_right

Del examen de la UN rescato mucho que sea un examen general para todas las carreras y que no tengan mas en cuenta matematicas que sociales dependiendo de la carrera a la que vayan y esto es porque el enfoque no esta tanto en los conocimientos que se tengan en cada materia sino el razonamiento y la capacidad de resolver los problemas con las herramientas que se dan.

Sin embargo para que lo anterior se cumpla a la perfección, me parece a mi que la Universidad debería ser mas clara con los temas que van a salir en el exámen, ya que la suerte juega un papel importante a la hora de responder.
Me explico, me pasó a mi que cuando estaba estudiando para el examen, no sabia con certeza que estudiar, la cantidad de temas que salen para estudiar por ejemplo en este blog, es inmensa, y obviamente en un examen de 120 preguntas no va a salir todo lo que se estudie, asi que al final no tuve mas que tratar de estudiar todo lo que pude, pero con tantos temas en tantas materias (estamos hablando de unos 20-30 temas solo en matematicas) es normal que algunas o muchas cosas se nos pasen y simplemente no alcanzemos a repasar todo, en mi examen, por ejemplo, salió una pregunta de filosofia que a fuerza tenia que saberme quien era el filosofo, por suerte lo habia escuchado y sabia que hizo, pero no fue mas que suerte, pudieron haberme preguntado por cualquier otro y la diferencia entre tener la respuesta correcta e incorrecta hubiera sido simplemente haber escuchado de el antes, porque cuando estaba estudiando ni se me pasó por la cabeza buscar la vida intima de Bertrand Russel (porque la pregunta ni siquiera iba por las principales aportanciones de el).

Entonces, como conclusión, me gusta el formato del examen, me parece mas desafiante que la prueba saber 11, no es solo lógica, se necesita razonamiento, extracción de datos, aplicación de saberes y uno que otro pre saber, pero siento que es muy aleatorio si no te sabes todos los temas del colegio de memoria y los anteriores factores quedan en un segundo plano ante el aprendizaje mecanico de los saberes.

Fundación RZ chevron_right

Sacarle 10 minutos a la segunda sesión para la primera. No más.

Publicar un comentario...

Deje su comentario empleando su ¿Qué es esto? Si utiliza servicios de Google como Gmail, Blogger, Youtube, Google Drive, entre otros, usted ya dispone de una cuenta de Google.
Haciendo click en la opción de 'Notificarme' puedes estar pendiente desde tu correo de las respuestas a tu comentario.

Blog de la Nacho