La probabilidad de las causas

Me parece una expresión muy adecuada para presentar la idea detrás del Teorema de Bayes: si un cierto test médico ha dado positivo, hay dos posibles causas, que la persona esté enferma, o que se trate de un falso positivo. ¿Cómo de probable es cada una de ellas? Esa es justamente la pregunta que contesta la conocida fórmula:

Bayes

Seguro que la mayoría de los lectores la conocen, es el resultado final del tema estándar de probabilidad elemental, y parte del temario de las matemáticas de bachillerato. Pero si algún lector no la conoce, que siga leyendo, por favor. Parte de esta entrada estará dedicada al significado de la fórmula de Bayes.

Pero antes, quería dedicarle un párrafo al libro en el que he descubierto la expresión «La probabilidad de las causas» para presentar la fórmula de Bayes. Es un texto escrito por dos compañeros de mi departamento. Aunque está pensado para un curso de Estadística de 1º de un Grado en el área de Ciencias/Ciencias de la Salud, creo que puede ser útil en Bachillerato, y en general para cualquiera que quiera entender las ideas de fondo de la Estadística. Porque lo que me ha resultado más atractivo del libro es su empeño (casi siempre coronado por el éxito) en transmitir las ideas de fondo tras las técnicas básicas de la Estadística. Es posible que me haya resultado tan interesante precisamente porque ha permitido que entienda algunas de las cosas que siempre me habían resultado escurridizas. El libro está accesible online y además está acompañado de una parte práctica que incluye una introducción a R.

Veamos ahora un ejemplo estándar de aplicación del Teorema de Bayes a un test de diagnóstico. Supongamos que cierta enfermedad afecta al 0,5 % de la población, y que tenemos una prueba para detectarla. Ninguna prueba es completamente fiable, y hay dos tipos de errores. Los falsos positivos son los casos en los que la prueba da positivo aunque la persona no está enferma, y los falsos negativos son los casos en los que la prueba da negativa aunque la persona está enferma. Es fácil imaginar que en la práctica existe una relación entre estos dos tipos de errores, y que para hacer muy pequeña la cantidad de falsos negativos necesitaremos pruebas muy sensibles, que tendrán, en general, una tasa mayor de falsos positivos. Compensar adecuadamente estos dos parámetros es uno de los problemas centrales del diseño de pruebas médicas, ya que el equilibrio deseable varía en cada situación. En nuestro ejemplo, y para simplificar, supondremos que no hay falsos negativos, y que los falsos positivos son el 5 %.

Supongamos ahora que elegimos una persona al azar, le hacemos la prueba y el resultado es positivo. ¿Qué probabilidad hay de que esté enferma? Si llamamos E al suceso «persona enferma»,  y + al suceso «resultado de la prueba positivo», en el lenguaje de la probabilidad condicionada la probabilidad que queremos calcular es P(E|+)Según la fórmula de Bayes,

enfermo-Bayes

Es decir, en términos de porcentajes, la probabilidad de que la persona esté enferma es aproximadamente el 9,09 %. No despreciable, desde luego. El resultado positivo de la prueba la ha multiplicado casi por 20, pero seguramente es más baja de lo que los lectores sin experiencia en este tema esperaban.

Creo que la forma más sencilla de entender este resultado (y de entender la fórmula de Bayes), es pensarlo en términos de fracciones. El rectángulo de la figura representa el total de la población, el rectángulo rojo de la esquina superior izquierda las personas enfermas, y el rectángulo rojo de la esquina inferior derecha los falsos positivos. El modelo está hecho a escala, de forma que las áreas relativas representan las probabilidades. En este modelo, la pregunta anterior – el resultado de la prueba en una persona elegida al azar es positivo, ¿cuál es la probabilidad de que esté enferma? – se convierte en: elegimos un punto rojo al azar (un resultado positivo). ¿Cuál es la probabilidad de que sea un punto de la esquina superior izquierda? Como el área total de los puntos rojos (como fracción del total) es 0,005 + 0,05 y el área de la esquina superior izquierda es 0,005, vemos que la probabilidad es, en efecto, 0,0909.

Bayes-ej

El debate sobre los deberes

En un comentario de la última entrada Lucas preguntaba por el programa de Jesús Cintora sobre los deberes, en particular sobre la intervención de Alberto Royo, autor de «Contra la nueva educación» (autor y libro que yo descubrí en el programa).

Mi conclusión principal sobre el programa es que es frustrante el poco rigor y la poca profundidad que hay en nuestro debate público. Como ya han pasado unos días, si algún lector quiere refrescar la memoria el programa está aquí y la intervención de Alberto Royo empieza en el minuto 23:30. Creo que merece la pena complementar esos minutos con esta entrada de su blog,

En este debate siempre he echado de menos los números. Ya en las lejanas reuniones del cole de mis hijas, lo único que intentaba cuando surgía el inevitable debate entre los bandos de padres pro y anti deberes era poner algún número a la cantidad de deberes. Nunca lo conseguí, los maestros solían salirse por la tangente de «cada niño es distinto». ¡Pues claro que cada niño es distinto! Por eso no tiene sentido mandarles a todos las mismas tareas, al que las necesita y al que no, al que se concentra y las hace en media hora y al que todavía se distrae mucho, y necesita media tarde para ello.

José Antonio Marina (minuto 49) sí se atrevió a poner un número: 15 minutos al día en 1º y subiendo 15 minutos cada curso. Me parece que llegar a 1,5 horas al final de primara es demasiado, pero al menos con estas cifras se podría empezar a hablar.

Como prueba de la superficialidad del programa me quedo con la situación de la estudiante de ESO (1h 02 min), y el relato de sus tareas del día: «pasar a limpio» una redacción de inglés y estudiar para el examen, estudiar los resúmenes de sociales y un ejercicio de matemáticas. Es verdad que «estudiar para un examen» es una tarea con duración difícil de valorar, y lo mismo estudiar los resúmenes, pero su madre en el programa dice que es una chica eficiente y que los hace en 1 hora. Mi reacción fue: ¿cómo es posible entonces que esté haciendo deberes a las 21:30? ¿No haría falta dar algo más de información sobre el horario de la estudiante durante esa tarde?

En fin, que el propósito fundamental de esta entrada era dar entrada al debate de los lectores que os animéis.