La probabilidad de las causas

Me parece una expresión muy adecuada para presentar la idea detrás del Teorema de Bayes: si un cierto test médico ha dado positivo, hay dos posibles causas, que la persona esté enferma, o que se trate de un falso positivo. ¿Cómo de probable es cada una de ellas? Esa es justamente la pregunta que contesta la conocida fórmula:

Bayes

Seguro que la mayoría de los lectores la conocen, es el resultado final del tema estándar de probabilidad elemental, y parte del temario de las matemáticas de bachillerato. Pero si algún lector no la conoce, que siga leyendo, por favor. Parte de esta entrada estará dedicada al significado de la fórmula de Bayes.

Pero antes, quería dedicarle un párrafo al libro en el que he descubierto la expresión «La probabilidad de las causas» para presentar la fórmula de Bayes. Es un texto escrito por dos compañeros de mi departamento. Aunque está pensado para un curso de Estadística de 1º de un Grado en el área de Ciencias/Ciencias de la Salud, creo que puede ser útil en Bachillerato, y en general para cualquiera que quiera entender las ideas de fondo de la Estadística. Porque lo que me ha resultado más atractivo del libro es su empeño (casi siempre coronado por el éxito) en transmitir las ideas de fondo tras las técnicas básicas de la Estadística. Es posible que me haya resultado tan interesante precisamente porque ha permitido que entienda algunas de las cosas que siempre me habían resultado escurridizas. El libro está accesible online y además está acompañado de una parte práctica que incluye una introducción a R.

Veamos ahora un ejemplo estándar de aplicación del Teorema de Bayes a un test de diagnóstico. Supongamos que cierta enfermedad afecta al 0,5 % de la población, y que tenemos una prueba para detectarla. Ninguna prueba es completamente fiable, y hay dos tipos de errores. Los falsos positivos son los casos en los que la prueba da positivo aunque la persona no está enferma, y los falsos negativos son los casos en los que la prueba da negativa aunque la persona está enferma. Es fácil imaginar que en la práctica existe una relación entre estos dos tipos de errores, y que para hacer muy pequeña la cantidad de falsos negativos necesitaremos pruebas muy sensibles, que tendrán, en general, una tasa mayor de falsos positivos. Compensar adecuadamente estos dos parámetros es uno de los problemas centrales del diseño de pruebas médicas, ya que el equilibrio deseable varía en cada situación. En nuestro ejemplo, y para simplificar, supondremos que no hay falsos negativos, y que los falsos positivos son el 5 %.

Supongamos ahora que elegimos una persona al azar, le hacemos la prueba y el resultado es positivo. ¿Qué probabilidad hay de que esté enferma? Si llamamos E al suceso «persona enferma»,  y + al suceso «resultado de la prueba positivo», en el lenguaje de la probabilidad condicionada la probabilidad que queremos calcular es P(E|+)Según la fórmula de Bayes,

enfermo-Bayes

Es decir, en términos de porcentajes, la probabilidad de que la persona esté enferma es aproximadamente el 9,09 %. No despreciable, desde luego. El resultado positivo de la prueba la ha multiplicado casi por 20, pero seguramente es más baja de lo que los lectores sin experiencia en este tema esperaban.

Creo que la forma más sencilla de entender este resultado (y de entender la fórmula de Bayes), es pensarlo en términos de fracciones. El rectángulo de la figura representa el total de la población, el rectángulo rojo de la esquina superior izquierda las personas enfermas, y el rectángulo rojo de la esquina inferior derecha los falsos positivos. El modelo está hecho a escala, de forma que las áreas relativas representan las probabilidades. En este modelo, la pregunta anterior – el resultado de la prueba en una persona elegida al azar es positivo, ¿cuál es la probabilidad de que esté enferma? – se convierte en: elegimos un punto rojo al azar (un resultado positivo). ¿Cuál es la probabilidad de que sea un punto de la esquina superior izquierda? Como el área total de los puntos rojos (como fracción del total) es 0,005 + 0,05 y el área de la esquina superior izquierda es 0,005, vemos que la probabilidad es, en efecto, 0,0909.

Bayes-ej

Anuncio publicitario