La probabilidad de las causas

Me parece una expresión muy adecuada para presentar la idea detrás del Teorema de Bayes: si un cierto test médico ha dado positivo, hay dos posibles causas, que la persona esté enferma, o que se trate de un falso positivo. ¿Cómo de probable es cada una de ellas? Esa es justamente la pregunta que contesta la conocida fórmula:

Bayes

Seguro que la mayoría de los lectores la conocen, es el resultado final del tema estándar de probabilidad elemental, y parte del temario de las matemáticas de bachillerato. Pero si algún lector no la conoce, que siga leyendo, por favor. Parte de esta entrada estará dedicada al significado de la fórmula de Bayes.

Pero antes, quería dedicarle un párrafo al libro en el que he descubierto la expresión «La probabilidad de las causas» para presentar la fórmula de Bayes. Es un texto escrito por dos compañeros de mi departamento. Aunque está pensado para un curso de Estadística de 1º de un Grado en el área de Ciencias/Ciencias de la Salud, creo que puede ser útil en Bachillerato, y en general para cualquiera que quiera entender las ideas de fondo de la Estadística. Porque lo que me ha resultado más atractivo del libro es su empeño (casi siempre coronado por el éxito) en transmitir las ideas de fondo tras las técnicas básicas de la Estadística. Es posible que me haya resultado tan interesante precisamente porque ha permitido que entienda algunas de las cosas que siempre me habían resultado escurridizas. El libro está accesible online y además está acompañado de una parte práctica que incluye una introducción a R.

Veamos ahora un ejemplo estándar de aplicación del Teorema de Bayes a un test de diagnóstico. Supongamos que cierta enfermedad afecta al 0,5 % de la población, y que tenemos una prueba para detectarla. Ninguna prueba es completamente fiable, y hay dos tipos de errores. Los falsos positivos son los casos en los que la prueba da positivo aunque la persona no está enferma, y los falsos negativos son los casos en los que la prueba da negativa aunque la persona está enferma. Es fácil imaginar que en la práctica existe una relación entre estos dos tipos de errores, y que para hacer muy pequeña la cantidad de falsos negativos necesitaremos pruebas muy sensibles, que tendrán, en general, una tasa mayor de falsos positivos. Compensar adecuadamente estos dos parámetros es uno de los problemas centrales del diseño de pruebas médicas, ya que el equilibrio deseable varía en cada situación. En nuestro ejemplo, y para simplificar, supondremos que no hay falsos negativos, y que los falsos positivos son el 5 %.

Supongamos ahora que elegimos una persona al azar, le hacemos la prueba y el resultado es positivo. ¿Qué probabilidad hay de que esté enferma? Si llamamos E al suceso «persona enferma»,  y + al suceso «resultado de la prueba positivo», en el lenguaje de la probabilidad condicionada la probabilidad que queremos calcular es P(E|+)Según la fórmula de Bayes,

enfermo-Bayes

Es decir, en términos de porcentajes, la probabilidad de que la persona esté enferma es aproximadamente el 9,09 %. No despreciable, desde luego. El resultado positivo de la prueba la ha multiplicado casi por 20, pero seguramente es más baja de lo que los lectores sin experiencia en este tema esperaban.

Creo que la forma más sencilla de entender este resultado (y de entender la fórmula de Bayes), es pensarlo en términos de fracciones. El rectángulo de la figura representa el total de la población, el rectángulo rojo de la esquina superior izquierda las personas enfermas, y el rectángulo rojo de la esquina inferior derecha los falsos positivos. El modelo está hecho a escala, de forma que las áreas relativas representan las probabilidades. En este modelo, la pregunta anterior – el resultado de la prueba en una persona elegida al azar es positivo, ¿cuál es la probabilidad de que esté enferma? – se convierte en: elegimos un punto rojo al azar (un resultado positivo). ¿Cuál es la probabilidad de que sea un punto de la esquina superior izquierda? Como el área total de los puntos rojos (como fracción del total) es 0,005 + 0,05 y el área de la esquina superior izquierda es 0,005, vemos que la probabilidad es, en efecto, 0,0909.

Bayes-ej

El sorteo de la Champions (y II)

Muchas gracias a todos por las aportaciones. Creo que ha habido tres soluciones distintas, y que tiene sentido recapitularlas.

  1. Con probabilidad elemental, fijando un primer equipo español, digamos el A. La probabilidad de que su rival sea español es 2/7. Que el rival de A no sea español tiene probabilidad 5/7, y en ese caso que el rival de B sea el tercer equipo español tiene probabilidad 1/5. Por tanto, la probabilidad de eliminatoria española era \frac{2}{7} + \frac{5}{7} \cdot \frac{1}{5} = \frac{3}{7}.
  2. Directamente con la regla de Laplace, contando casos favorables y posibles. En algún momento hablaremos de la combinatoria, casi desaparecida del currículo. Y cuando se trata, reducida a variaciones, permutaciones y combinaciones, con sus correspondientes fórmulas. A la hora de la verdad, muchas cosas no son nada de eso. Por ejemplo, los posibles emparejamientos entre n equipos.
    Para la primera eliminatoria hay \binom{n}{2} posibilidades, para la segunda \binom{n-2}{2}, etc. Como es mejor ignorar el orden de esos emparejamientos, tras dividir por (\frac{n}{2})! se obtiene la fórmula para el número de emparejamientos entre n equipos: \frac{\binom{n}{2} \binom{n-2}{2} \cdots \binom{2}{2}}{(\frac{n}{2})!}. Tras simplificar queda (como observó ricardito) que el número de emparejamientos entre n equipos es el producto de los impares menores que n. En el caso de los 8 equipos, 7 \times 5 \times 3.
    ¿En cuántos de ellos hay eliminatoria española? Hay 3 posibles emparejamientos entre equipos españoles, y para cada uno de ellos hay que emparejar los restantes 6 equipos. Por tanto, hay 3 \times 5 \times 3 emparejamientos con eliminatoria española.
  3. Para terminar, mi modelo de las bolas rojas. Consideramos 8 posiciones, distribuidas en 4 cajas. La posición 1 y 2 en la primera caja, la 3 y la 4 en la segunda, etc. Hay \binom{8}{3}=56 formas de colocar 3 bolas en esas 8 posiciones.  Si en una caja hay dos bolas, hay 6 huecos para la bola roja restante. Por tanto, en 4\times 6 de las distribuciones de bolas hay 2 en la misma caja, y la probabilidad es \frac{24}{56} = \frac{3}{7}.

El sorteo de la Champions y los modelos matemáticos

Actualización 3: un lector pregunta por los detalles del sorteo. Creo que lo razonable es aclarar eso al principio. Se trata de un sorteo puro, cualquier combinación es igualmente probable. Los detalles de cómo se lleva a cabo el sorteo «real» son irrelevantes, eso es parte del tema de «elegir bien el modelo», sobre el que quería escribir en esta entrada. En todo caso, simplemente hay 8 bolas en un bombo, y se van extrayendo una a una. Se empareja 1ª con 2ª, 3ª con 4ª, etc.

Tal y como ha quedado la entrada, creo que también es justo avisar a los lectores de que el reto es encontrar el fallo en los dos primeros argumentos. 

———————————————————

A cuenta del sorteo de la Champions, en el que de un total de 8 equipos tenemos 3 españoles, @edusadeci lanzó la pregunta de qué probabilidad hay de que el sorteo empareje a dos equipos españoles, ya advirtiendo de que no es un problema tan sencillo como parece. Merece la pena echar un vistazo a las respuestas, realmente variadas …

Creo que es un ejemplo más de lo difícil que es la probabilidad, y de que muy pronto aparecen preguntas «sencillas» nada fáciles de contestar.

El aspecto que más me interesa del problema es que es un ejemplo perfecto de la importancia de elegir un buen modelo. Desde luego, la probabilidad se puede calcular directamente contando resultados del sorteo. Pero no es sencillo, y es otro buen ejemplo de lo sutil que es la combinatoria, sobre todo dado lo desentrenados que estamos en ella (su presencia en la educación matemática obligatoria es menos que testimonial).

El modelo que me parece más sencillo para contestar la pregunta original es considerar 4 cestos, y 3 bolas rojas. Si colocamos al azar las 3 bolas en los cestos, ¿cuál es la probabilidad de que caigan en cestos distintos? La clave para darse cuenta de que es el mismo problema es considerar las 8 bolas del sorteo, y ver el sorteo como el procedimiento de extraer bolas, al azar, e irlas colocando de dos en dos en los cestos. Podemos imaginar las bolas de los equipos españoles coloreadas de rojo, y darnos cuenta de que realmente el resto de las bolas ¡no juegan ningún papel! Visto así, queda también claro que se trata de una variante del problema del cumpleaños, donde tenemos 3 personas, que cumplen años en 4 días (con probabilidad uniforme, e independientes, claro) y nos preguntamos por la probabilidad de que sus cumpleaños sean distintos.

Una vez hemos llegado aquí, el resto es probabilidad «sencilla». Si numeramos las 3 bolas según el orden en que las colocamos en los cestos y consideramos los sucesos

A_i \equiv «la bola i cae en un cesto vacío» (para i=2,3)

vemos que calcular la probabilidad de que no haya eliminatoria entre dos equipos españoles es una pregunta que se puede responder con conocimientos básicos de probabilidad condicionada:

probabilidad-Champions

Actualización: podría decir aquello de «estaba preparado para ver si alguien prestaba atención», pero en absoluto, mi argumento está mal, sin paliativos. Un fiel seguidor del blog me lo ha hecho ver: el problema del modelo que propongo es que no excluye que haya tres bolas en un cesto, cosa prohibida en el sorteo. Eso sí, la solución que propone el lector (matemático, como yo) creo que tampoco es correcta. Al final, esta entrada va a ser sobre todo una prueba de que, con la probabilidad y la combinatoria, cualquiera puede cometer errores. Y que modelar de forma correcta es complicado, aún en situaciones «sencillas».

Como ya no me fío de nada he decidido recurrir a la «fuerza bruta», y contar las formas de colocar 3 bolas rojas en 4 cestos, sin permitir que haya 3 en el mismo. Son 16, y aquí están: 

sorteo-bolas-rojas

De esas 16, sólo en 4 se evita el emparejamiento entre dos equipos españoles. Por tanto, la probabilidad de que haya una eliminatoria española es 3/4. Nada extraño que haya ocurrido … 

Actualización 2nuevo error, otra vez de principiante. Los sucesos de la figura NO son equiprobables. Si pensamos en las permutaciones de 8 elementos, que sí son equiprobables, y vemos el sorteo como emparejar 1 y 2, 3 y 4, etc, los sucesos con 3 bolas en distintos cestos se pueden completar a 8 permutaciones (en el sentido de contar sólo las posiciones de las bolas rojas), mientras que los que tienen dos bolas en un mismo cesto se pueden completar solo a 2. Visto así, el conteo para los sorteos sin emparejamiento español es 32/(32+56) = 4/7, que sí coincide con la solución que proponía Roberto Muñoz, el lector que me hizo ver mi primer error. 

Lo dicho, la probabilidad es resbaladiza, y si algún lector tiene un futbolín y cree que debo pasar por debajo de él, estoy dispuesto.