INTRODUCCIÓN A LA ESTADÍSTICA :

Vamos a Las Vegas… perdón, al Gran Casino de Madrid.

 (NOTA: Sí, esta pestaña es la de estadística. Por eso comienzo por la estadística importante. Posteriormente aparece un resumen teórico de estadística descriptiva y otro de estadística aleatoria).

Está de moda el asunto del gran casino que, presumiblemente, se va a abrir en Madrid, aunque, por otro lado, no deja de generar cierta desconfianza recordar algunos antecedentes (como cuando un proyecto semejante se pensó para Los Monegros) o las ventajas fiscales que van a tener los promotores.

Y es que el juego es un negocio, un gran negocio. Es difícil no conocer algún caso cercano que, de una forma u otra, esté enganchado al juego o no haber hablado nunca de lo que pagan las máquinas de apuestas en los bares. Ahora bien, ¿por qué el juego es un negocio? ¿Por qué tantas personas – unas 400.000- están atrapadas al juego?

La clave está en un concepto económico llamado valor esperado; aplicado al juego le vamos a llamar ganancia esperada. El caso más sencillo sería si nos jugamos con un amigo un euro al lanzamiento de una moneda. Si sale cara gano un euro, si sale cruz lo pierdo. Como la probabilidad de cara es un 50% y la de cruz un 50%, mi ganancia esperada será +1 ∙ 0,5 + (-1) ∙ 0,5 = 0 euros. Es fácil imaginar que para cualquier juego que practiquemos la ganancia esperada será negativa.

Un caso muy sencillo se da en las máquinas de apuestas. Para ir a un ejemplo claro nos remontaremos a las semifinales de la Champions del año pasado. Se pagaba 1,8 euros por euro apostado a que ganase el Barcelona (1/1,8 = 0,5555; es decir, se valoraba en un 55,55% la probabilidad de que gane el Barcelona), 3,5 euros a que ganase el Real Madrid (con la misma lógica, dividiendo uno por 3,5, da una probabilidad del 28,57%), 5 euros a que ganase el Bayern (20%) y 10 euros a que ganase el Chelsea (10%); como la suma total es 55,55 + 28,57 + 20+ 10 = 114,12; como supera el 100%, la casa de apuestas siempre gana (en caso contrario se podría ganar a largo plazo apostando siempre 1 euro a cada ganador).

Así pues, ¿Cuándo merece la pena apostar? Cuando la ganancia esperada del jugador sea positiva en términos de sus probabilidades subjetivas. Por ejemplo, si una persona valora en un 40% la probabilidad de que gane el Real Madrid la Champions y apuesta 10 euros, su ganancia esperada será (35 – 10 = 25) ∙ 0.4 + (-10) ∙ 0,6 = + 4 euros.

La clave de las ganancias en los casinos de la famosa familia Pelayo no es otra que el valor esperado. Como entendían que no existía la ruleta perfecta, estudiaban miles de jugadas para ver cuales eran los números que se repetían más a menudo. Una vez descubiertos, basta apostar siempre a los mismos números; a largo plazo se gana.

Desde este punto de vista, tiene cierta lógica económica apostar. Pero existen otros juegos como el de la máquina tragaperras en los cuales todos sabemos que a largo plazo siempre se pierde. Entonces, ¿cómo explicar que la gente juegue?

La clave está ahora en la dopamina, una hormona segregada en el cerebro que está asociada al placer. Para entendernos, cuando una persona se droga se libera dopamina proporcionando un placer, como todos sabemos, momentáneo. El problema es que si una persona se engancha el cerebro cambia (es la famosa plasticidad del cerebro, descubierta no hace mucho) y se genera una necesidad, como pueda ser comer, beber o dormir.

Por eso es tan difícil salir de las adicciones. De hecho, se genera dopamina tan sólo con la expectativa de jugar. Esto lleva a entender que una persona que lucha contra una adicción está peleando, en cierta forma, contra su naturaleza. Por eso es mejor conocer la magnitud del rival, aunque lo tengamos “dentro” de nosotros.

De todas formas, aún hay mecanismos de ganancias más terribles. Los casinos hacen estudios para saber cual es la ganancia esperada que más engancha a los jugadores (no se trata de perder por cada euro apostado 70 céntimos; nadie seguiría jugando) y peor aún: se están probando técnicas basadas en programación neurolingüística para saber cuando una persona está al límite de su pérdida; de esta forma se le asigna un premio para que siga con la partida y pierda todavía más dinero.

Otros mecanismos son más simples: financieros (una persona que apueste por Internet o tenga su cuenta abierta  permite operar a la casa de apuestas como si fuese un banco ya que dicha cuenta no deja de ser un depósito), psicológicos (todos queremos más; es difícil, después de una ganancia, parar y retirarse, tenemos tendencia a repetir la apuesta jugando más dinero) o temporales (la diferencia entre el momento en el que dejamos el dinero para una apuesta y se produce el acontecimiento final permite a la casa de apuestas invertir ese dinero para ganar todavía más).

Y es que está claro que las casas de apuestas deben ganar algo de dinero, ya que se dedican a patrocinar equipos de fútbol o la fórmula 1.

En resumidas cuentas, estimado lector, si quieras jugar, hazlo. Pero conoce a tus enemigos: son el valor esperado y la dopamina.

 PUBLICADO EN FEBRERO DEL AÑO 2.013.

Para descargarlo:

 

Vamos al casino.doc
Download

ESTADISTICA

La estadística tiene dos partes claramente diferenciadas; la descripitva (una muestra o población de la que deseamos describir una característica numérica como su peso o altura) y la aleatoria (un fenónmeno aleatorio que deseamos describir como la altura al azar de una persona o su peso)

1. Procedimientos descriptivos.

1. Tablas.  Frecuencias absolutas (acumuladas), relativas (acumuladas).

 

X (valores)

n (frec.abs)

N (frec.abs.ac)

f (frec.rel)

F (frec.rel.ac)

0

12

12

0,24

0,24

1

15

27

0,3

0,54

2

16

43

0,32

0,86

3

7

50

0,14

1

 

50

 

1

 

 

Es fácil ver que los valores de esta muestra de 50 datos son 0 (suspenso), 1 (aprobado), 2 (notable) y 3 (sobresaliente).

La frecuencia absoluta indica el total de personas con cada nota; por ejemplo, hay 16 notables.

La frecuencia absoluta acumulada se obtiene sumando los datos de la frecuencia absoluta, por ejemplo hay 43 personas con notable o menos.

La frecuencia relativa se obtiene dividiendo el número de personas de una categoría por el total, por ejemplo hay 0,32 (un 32%, 16 dividido por 50) de personas que han sacado notable.

La frecuencia relativa acumulada se puede obtener de dos formas, o bien sumando de forma acumulada la frecuencia relativa o bien dividiendo la frecuencia absoluta acumulada entre el total. Es decir, el 0,86 se obtiene sumando 0,24 + 0,3 + 0,32 o dividiendo 43 por 50 y quiere decir que el 86% de la muestra ha sacado notable o menos.

2. Medidas de posición central. Media, moda, mediana (datos pares, impares).

La media de la muestra se obtiene sumando todos los valores y dividiendo por el total;

Media = ∑ xi / n = ((0 x 12) + (1 x 15) + (2 x 16) + (3 x 7))/ 50

Moda: valor más repetido, en este caso el 2 (si hay dos valores que se repiten el mismo número de veces decimos que la distribución es bimodal).

Mediana: el valor que está en la mitad de todos los dados en la muestra. Si tengo 50 datos el valor central no sería el 25º ya que deja 24 a su izquierda y 25 a su derecha. Deberíamos sumar el dato 25º con el dato 26º y dividir entre dos (sale 1, ya que los datos que van del 13º al 27º son siempre unos).

Si el total de la muestra es impar, por ejemplo, si tuviésemos 51 datos, ahora sí el dato correcto sería el 26º ya que deja a cada lado 25 datos.

Lo veremos más claro en el siguiente punto.

3. Medidas de posición no central. Percentil (Cuartil, decil, quintil) j(n +1) / 100.

Las medidas de posición no central se denominan cuantiles, ya que agrupan los datos por posición relativa. Lo mejor es comprender el concepto de percentil, ya que es la referencia básica.

Por ejemplo, el percentil 25 me dice el valor que deja por debajo el 25% de la muestra (con lo que el 75% de la muestra estará por encima).

Es muy sencillo comprender la idea a partir de una muestra de fumadores, si el percentil 25 es 13, quiere decir que el 25% de las personas fuman como mucho 13 cigarrillos, de donde se concluye que el 75% fuma más de 13 cigarrillos.

Entendida la idea de percentil (como valor de referencia para toda la población) razonamos con facilidad la idea de cuartil (hay 3 cuartiles, correspondientes a los percentiles 25, 50 y 75), de decil (hay 9 deciles; el primero es el percentil 10, el último es el percentil 90) o de quintil (hay 4, percentil 20, 40, 60 y 80 respectivamente).

Quedaría por razonar el cálculo:

Supongamos una muestra dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31.

Para calcular el percentil 25 (observar que j vale 25 y que n vale 8) haríamos la operación (25 x 9)/100 = 2,25. Eso quiere decir que hay que tomar el 2º dato más el 25% de la diferencia entre el 3º y el 2º.

Es decir: 10 + 0,25 (13 – 10) = 10,75.

De la misma forma, la mediana o percentil 50 sería (50 x 9)/100 = 4,5.

El 4º dato más el 50% de la distancia entre el 5º y el 4º dato.

Es decir: 17 + 0,5(20 – 17) = 18,5.

Por último, para calcular el percentil 75: (75x9)/100 = 6,75.

Así, 25 + 0,75(27 – 25) = 26,5.

Posteriormente volveremos a analizar estos datos.

4. Medidas de dispersión.

Como dice su nombre, sirve para saber si los datos están o no muy dispersos. La muestra 4, 5, 5, 5, 6 tiene la misma media (5) que la muestra 1,1, 5, 9,9, y es obvio que en el segundo caso los datos están mucho más dispersos que en el primero.

Para realizar las operaciones que vienen a partir de ahora usaremos la muestra del apartado anterior dada por los valores 8, 10, 13, 17, 20, 25, 27 y 31.

Rango o recorrido: el dato mayor menos el menor, es decir, 31 – 8 = 23.

Rango intercuartílico: el tercer cuartil menos el primer cuartil o bien el percentil 75 menos el percentil 25; con los datos anteriores, 26.5 menos 10,75 = 15,75.

Desviación media: muy poco usada, ya que es la media de los valores absolutos de las desviaciones con respecto de la media.

 En la muestra de referencia, (8 + 10 + 13 + 17 + 20 + 25 + 27 + 31)/ 8 = 18,875.

Si hacemos las desviaciones, 8 – 18,875 en valor absoluto es 10,875.

De la misma forma tenemos 10 – 18.875 es 8,875 en valor absoluto y para el resto de valores tenemos 5,875; 1,875; 1,125; 6,125; 8,125 y 12,125.

Sumando todos da 55, dividido por 8 da 6,875 como desviación media.

 Varianza muestral, es la suma de las diferencias de cada uno de los valores respecto de la media al cuadrado dividido por la muestra menos uno.

Hay que tener cuidado ya que algunos libros escriben en el denominador tan sólo la n, pero por propiedades estadísticas que no son objetivos del curso usaremos la fórmula de referencia.

Así; S2 = ∑ (xi – med)2/ n -1

En el ejemplo, 118,26 + 78,76 + 34,51 + 3,51 + 1,26 + 37,51 + 66 + 147 da 486,81; dividido por 7 tenemos 69,54.

La desviación típica es la raíz cuadrada de la varianza, es decir, 8,339.

Sin embargo, la dispersión depende de las unidades de medida. No queda la misma dispersión si mido salarios en euros o si los mido en pesetas. Por lo tanto, lo mejor es usar un índice de dispersión relativa que se denomina coeficiente de variación y que es capital en estadística.

El coeficiente de variación es igual a la desviación típica dividida por la media; en nuestro caso, 8,339 dividido por 18,875 nos da 0,441.

Es decir, CV = S / med = 0,441.

Este indicador se usa para comparar dispersiones en muestras calculadas a partir de medidas diferentes, pero además tiene muchas otras implicaciones importantes:

Decimos que una media es representativa de los datos si el CV es menor que uno (en este caso es cierto).

Decimos que una muestra es homogénea si el coeficiente de variación es menor que 0,25 (o multiplicado por 100, menor que el 25%), cosa que en este caso no se cumple.

Es MUY IMPORTANTE observar que en una muestra como la de referencia en la que cambiamos el 31 por 310 la media ya no sería representativa de los datos debido a que tenemos uno extremo.

Esto nos lleva a una conclusión capital en estadística debido a que a veces la mejor referencia de tendencia central es la media (se toma como medida de dispersión la desviación típica) y a veces la mejor referencia de tendencia central es la mediana (se toma como medida de dispersión el rango intercuartílico aunque muchas veces se dan el primer y el tercer cuartil para que se vea mejor la referencia).

Aunque volveremos a ello, en el primer caso se supone que la muestra sigue una distribución normal y lo mejor es realizar los denominados análisis paramétricos mientras que en el segundo la muestra no sigue una distribución normal y entonces se realizan análisis no paramétricos.

Así mismo, cuando desarrollemos en el segundo bloque la inferencia estadística obtendremos el denominado error estándar de la media que se calcula dividiendo la desviación típica por la raíz cuadrada del tamaño de la muestra:

EE (med) = S /√n = 8,339 / 2,82 = 2,957.

Veremos sus implicaciones a partir del tercer bloque de estudio.

5. Medidas de forma:

La asimetría nos indica si la muestra se encuentra “equilibrada” en torno a la media-mediana o no.

Una intuición muy sencilla viene dada por estas distribuciones de notas:

Primero, 4, 4, 4, 4, 5, 5, 6, 6, 6, 6 es claramente una distribución simétrica.

Si tenemos 4, 4, 4, 4, 5, 5, 5, 5, 10, 10 tendríamos una distribución simétrica a derecha.

Si tenemos 0, 0, 4, 4, 4, 4, 5, 5, 5, 5 tendríamos una distribución asimétrica a izquierda.

La fórmula matemática para calcular este índice sería:

As = ∑ (xi – med)3/ nS3

Se supone que su cálculo no es objetivo del curso, sí su interpretación.

Eso sí, hay que tener mucho cuidado con la misma ya que una distribución asimétrica a derecha tiene todos los datos agrupados a la izquierda y viceversa como veremos en los estudios estadísticos que acompañan este curso.  

La curtosis (leptocúrtica, mayor que cero;  mesocúrtica, cercana a cero;  platicúrtica, menor que cero) nos indica si los datos están muy agrupados o no en torno a la media.

Como siempre, usamos la analogía de las notas de clase para intuir el concepto con más claridad;

Caso leptocúrtico: 0, 0, 0, 5, 5, 5, 9, 9, 9.

Caso mesocúrtico: 2, 3, 4, 5, 5, 5, 6, 7, 8.

Caso platicúrtico: 4, 4, 4, 5, 5, 5, 6, 6, 6.

La fórmula matemática para calcular este índice sería:

Curt = ∑(xi – med)4/ nS4 – 3.

Una manera sencilla de memorizar estos nombres es tener en cuenta que están en orden alfabético (l, m, p).

Por otro lado, ¿hasta qué punto una distribución es asimétrica o no lo es?

Se da la circunstancia de que una muestra puede tener una asimetría de 0,5, otra una asimetría de 4 y que la primera sea asimétrica y la segunda no. Eso depende del valor del error estándar de la asimetría (nos lo debe dar siempre el programa informático).

Así, tenemos que si el coeficiente de asimetría entre su error estándar es menor que 2 (en valor absoluto) la distribución se considera simétrica mientras que en caso contrario se considera asimétrica.

Si en el primer caso el error estándar es 0,2, dividiendo 0,5 por 0,2 obtenemos 2,5. Al ser mayor que dos en valor absoluto y ser 0,5 positivo, consideramos la distribución asimétrica a derecha.

Si en el segundo caso la distribución tiene de error estándar 5, 4 dividido por 5 da 0,8 que es menor que dos con lo cual consideraríamos que esta distribución es simétrica.

Lo mismo ocurre para el caso de la curtosis.

Hay que saber relacionar los conceptos de asimetría y curtosis con los gráficos (cosa que ya hemos intuido) e incluso con los percentiles.

Si hay mucha más distancia entre el cuartil 3 y el cuartil 2 que entre el cuartil 2 y el cuartil 1 consideramos que la distribución es simétrica a derecha, ya que el gráfico asociado sería más plano a la derecha.

De la misma forma, si la distancia entre el cuartil 2 y el cuartil 1 es mucho mayor que la distancia entre el cuartil 3 y el cuartil 2 consideremos la distribución asimétrica a izquierda.

6. Diagramas: histograma, sectores, tallos y hojas, boxplot (outlier normal 1,5 RI; outlier extremo 3 RI).

 Los más importantes son el diagrama de tallos y hojas y el boxplot

El diagrama de tallos y hojas funciona así:

1 33344

1 5555578999

2 022

2 589

3 1

3 7

En este caso tendría un total de 23 datos que van desde el 13, 13, 13, 14, 14, 15, hasta el 28, 29, 31 y 37.

Es útil “girar” el diagrama hacia la izquierda para comprobar así que la distribución es simétrica a derecha (¿Por qué?).

Por último están los diagramas de cajas o boxplot.

En los mismos, aparece en forma de “nave espacial” todos los datos, de forma que tenemos una caja que tiene marcada una línea con la mediana, de manera que el extremo inferior es el percentil 25 y el extremo superior es el percentil 75.

Los bigotes indicarían más o menos los valores extremos, de manera que el bigote inferior es el primer número superior al primer cuartil menos 1,5 veces el rango intercuartílico mientras que el bigote superior es el primer número inferior al tercer cuartil más 1,5 veces el rango intercuartílico.

Todos los valores que están fuera de este rango serían extremos o “outliers”.

Para comprenderlo bien, volvemos a la muestra (8, 10, 13, 17, 20, 25, 27, 31) con Q1 = 10,75, Q2 = 18,5 y Q3 = 26,5. Hemos visto que RI = Q3 – Q1 = 15,75.

Así, el extremo inferior sería el primer número superior a 10,75 – 1,5 x 15,75 = -12,875 que es el primero de la muestra, el 8.

Por otro lado, el extremo superior sería el primer número inferior a 26,5 + 1,5 x 15,75 = 50,125 que es el mayor de la muestra, el 31.

En este caso no tendríamos valores extremos.

7. Otras ideas:

Existen diversas propiedades o conceptos que se aplican a nivel teórico y que merece la pena resaltar de cara a la prueba final. Aparecen al final del formulario a memorizar para la parte de estadística.

Referencia: 1, 2, 4.

MEDIA GEOMÉTRICA: es la raíz enésima del producto de todos los valores de la muestra. Se usa si la variable sólo puede tener signos positivos y la media geométrica está cerca de la mediana. No es habitual; lo lógico es que la media aritmética esté cerca de la mediana y en ese caso se usa la media de toda la vida.

Cálculo: la raíz cúbica de 1 x 2 x 4 es 8.

MEDIA ARMÓNICA: total de datos dividido por la suma de los inversos de cada observación de la muestra. Se usa cuando los datos son tasas de variación (velocidades).

Cálculo: 3 dividido por 1/1 + 1/2 + 1/4 = 1,75, es decir, 3 / 1,75 = 1,714.

MEDIA PONDERADA: es igual que la media aritmética con el matiz de que cada dato se multiplica por el número de veces que sale y después se hace la división entre el total de datos. Otra forma de verlo son las asignaturas en las que tenemos un parcial y después un final que vale doble; se suma la primera nota más la segunda dividida por dos y se divide por tres.

Cálculo: si en el ejemplo la última referencia vale doble, (1 + 2 + 8)/4 = 2,75.

TRANSFORMACIONES DE UNA MUESTRA RELACIONADAS CON LA MEDIA Y LA VARIANZA:

Es obvio que la muestra 1, 2, 4 tiene de media 7/3 = 2,33.

La varianza sería 1,332 + 0,332 + 1,672 dividido por 2 es decir: 4,666.

Si sumamos a todos los datos una cantidad, por ejemplo 3 (4, 5, 7), a la media anterior se le suma 3, quedando 5,33. La varianza no sufriría variación alguna.

Si multiplicamos todos los datos por 3 (3, 6, 12) la media quedaría multiplicada por 3 quedando 7, mientras que la varianza quedaría multiplicada por 3 al cuadrado (9 por 4,666).

Resumiendo: si a todos los elementos de una muestra les sumo un valor a constante, la nueva media será la anterior más “a” y la varianza no sufrirá ninguna variación.

Si todos los valores de la muestra los multiplico por un valor “a”, la media queda multiplicada por a y la varianza queda multiplicada por a2.

TIPIFICACIÓN:

Si a cada valor le restamos la media y dividimos por la desviación típica estamos tipificando los datos.

En el ejemplo, los datos son 1, 2, 4, la media es 2,33 y la desviación típica es la raíz de 4,666 = 2,16.

Los datos tipificados serían (1 – 2,33) / 2,16 = - 0,615; (2 – 2,33) / 2,16 = - 0,152 y (4 – 2,33) / 2,16 = 0,773.

Estos datos cumplen la propiedad de que su media es 0 y su desviación típica es 1.

Tienen la ventaja de que son útiles para hacer comparaciones relativas: ver la situación de una observación respecto de su grupo. En este contexto, puede ocurrir que dentro de las notas de un examen un alumno ya que haya sacado un 7 en una clase en términos relativos esté peor que un alumno que haya sacado un 6 en otra clase. La intuición es muy sencilla, a lo mejor el primer examen era muy sencillo y la media global fue de 8 mientras que el segundo fue muy difícil y la media global fue de 5.

2. Probabilidad y variables aleatorias.

1. Definición y conceptos asociados a probabilidad.

Un EXPERIMENTO ALEATORIO es aquel en el que no podemos predecir un resultado; por ejemplo, el lanzamiento de un dado. Lo contrario de un experimento aleatorio es un EXPERIMENTO DETERMINISTA que se daría si queremos medir el tiempo de caída del dado. Es claro que la cinemática nos da el resultado con exactitud.

El ESPACIO MUESTRAL de un experimento aleatorio está formado por los posibles resultados del mismo. Continuando con el ejemplo del dado, el espacio muestral estaría formado por el 1, 2, 3, 4, 5 y 6.

Un SUCESO es un subconjunto del espacio muestral. El suceso “par” se daría si obtenemos en una tirada un 2, un 4 ó un 6. El suceso “menor o igual que tres” se daría si obtenemos un 1, un 2 ó un 3.

La PROBABILIDAD DE UN SUCESO sería la frecuencia relativa con la que se da dicho suceso. Si bien usamos la fórmula de Laplace “casos favorables dividido por casos posibles” y así sabemos que la probabilidad de sacar par es 0,5 (3 dividido por 6) la intuición obedece a un límite que vendría dado por el número de veces que sale par dividido por número de tiradas cuando las mismas tienden a infinito.

Aunque existen diferentes axiomáticas para definir la probabilidad no entraremos en las mismas y nos quedaremos con una idea básica: una probabilidad es un atributo de un suceso, el cual es un subconjunto de un espacio muestral el cual está formado por los posibles resultados de un experimento aleatorio.

En términos de bioestadística no se estudian probabilidades de dados o de juegos de azar (eso lo dejaremos para los aficionados al casino) si no que se hacen estudios para evaluar la posible incidencia de un hábito (fumar) en una enfermedad (cáncer).

Es por eso que vamos a estudiar las propiedades de la probabilidad usando de referencia un estudio. En el mismo, supondremos que si de 200 personas tienen cáncer 40, la probabilidad de tener cáncer es de 40 dividido por 200, es decir, 0,2.

El estudio que usamos de modelo serviría si dividimos todos los valores por el total de la muestra, 200. Vamos, pues, con ello.

2. Propiedades de la probabilidad:

 

 

Cáncer

No cáncer

 

Fumador

30

70

100

No fumador

10

90

100

 

40

160

200

 

Observemos que p(C) = 40/200 = 0,2 es la probabilidad de tener cáncer.

P(F) = 100/200 = 0,5 es la probabilidad de fumar.

P(F∩C) = 30/200 = 0,15 es la probabilidad de fumar y tener cáncer (INTERSECCIÓN).

P(F/C) = 30/40 = 0,75 es la probabilidad de fumar SI tiene cáncer (es la llamada PROBABILIDAD CONDICIONADA; en la misma es fundamental observar que el denominador viene dado por la condición consistente en este caso en el total de personas con cáncer que son 40).

P(C/F) = 30/100 = 0,3 es la probabilidad de tener cáncer SI se fuma.

P(nC) = 160/200 = 0,8 es la PROBABILIDAD CONTRARIA O COMPLEMENTARIA; simplemente, probabilidad de no tener cáncer.

P(F∩nC) = 70/200 = 0,35 es la probabilidad de fumar y no tener cáncer o bien la probabilidad que tiene una persona de que SÓLO SE DE UN SUCESO, en este caso fumar.

P(FUC) = (30 + 70 + 10)/200 = 0,55 es la probabilidad de fumar o tener cáncer (UNIÓN)

Las propiedades de la probabilidad relacionan todas estas probabilidades entre sí (se aconseja al alumno pensar de memoria los números):

La probabilidad de un suceso está siempre entre 0 y 1. Si es cero hablamos del suceso imposible (en un dado, sacar a la vez menos de 2 y más de 5); si es de uno, hablamos del suceso seguro (en un dado, sacar menos de 8).

P(nF) = 1 – P(F); ésta es la más intuitiva. Hasta un niño sabe que si la probabilidad de que llueva es del 80%, la probabilidad de que no llueva es del 20%.

P(FUC) = P(F) + P(C) – P(F∩C) = 0,5 + 0,2 – 0,15.

P(F∩nC) = P(F) – P(F∩C)

P(C/F) = P(C∩F)/P(F) = 0,3 = 0,15/0,5

Observar que la probabilidad de tener cáncer si fumas (el 30%) es mayor que la probabilidad de tener cáncer (el 20%). Eso sugiere que hay una hipotética relación entre el hecho de fumar y tener cáncer. La inferencia estadística, como veremos en el siguiente apartado, nos dirá si esa relación es o no significativa.

Dos sucesos son INDEPENDIENTES si P(C/F) = P(C); la intuición es muy sencilla ya que sería lo mismo tener cáncer que tener cáncer si fumo. Eso quiere decir que una cosa no tiene nada que ver con la otra.

En un estudio real es casi imposible que se de esta igualdad exacta ya que sería una gran casualidad. De lo que se trata es de evaluar si los datos están MUY ALEJADOS o no de la igualdad.

En el caso de tener sucesos independientes es inmediato comprobar que siempre se cumple la siguiente igualdad P(F∩C) = P(F) x P(C)

La independencia se da cuando lanzamos dos tiros seguidos a una diana (suponiendo que el primero no nos inspire) o cuando tomamos dos personas que no tienen nada que ver entre sí. Esto es básico en el momento de hacer este tipo de estudios.

Dos sucesos son DISJUNTOS O INCOMPATIBLES si no pueden ocurrir a la vez; como ha quedado explicado al tirar un dado no me puede quedar a la vez un número menor que dos y mayor que cuatro.

Las LEYES DE MORGAN son relaciones más retorcidas:

P(nC∩nF) = P(nC) U P(nF)

P(nCUnF) = P(nC) ∩P(nF)

En la teoría de la probabilidad es común analizar fórmulas como la probabilidad total, Bayes (en honor al reverendo que comenzó estas investigaciones), la odds o el factor de Bayes, pero de momento las omitimos.

3. Variable aleatoria.

Consiste en asignar una probabilidad a cada resultado numérico de un experimento aleatorio.

Si bien este desarrollo no es materia de examen, es fundamental para comprender todos los temas posteriores. Así, supongamos el experimento aleatorio “lanzar dos veces una moneda” el cual usamos para definir la variable aleatoria “número de caras”.

Es claro que vamos a obtener cero, una o dos caras y que sus probabilidades respectivas (muy intuitivas) son 0,25; 0,5 y 0,25.

Lo vemos en la siguiente tabla:

 

X

P(X)

F(X)

0

0,25

0,25

1

0,5

0,75

2

0,25

1

 

1

 

 

Mientras que la primera columna nos da de manera directa todas las probabilidades en la segunda tenemos lo que se llama FUNCIÓN DE DISTRIBUCION en la que vienen todas las probabilidades acumuladas.

Es capital, ahora, distinguir la estadística descriptiva (dada en el tema anterior) de la estadística aleatoria (que vemos ahora). Aunque se definen media y varianza, sus expresiones son diferentes.

En la ESTADÍSTICA ALEATORIA la media se denota como µ = ∑ XiP(Xi) = E(X)

Haciendo las operaciones tenemos (0 x 0,25) + (1 x 0,5) + (2 x 0,25) = 1

Su interpretación es que si lanzamos dos veces al aire una moneda ESPERAMOS obtener una cara. Puede que no la obtengamos o incluso el resultado me podría haber quedado en decimales pero su interpretación es la que es.

La varianza se denota como σ2 = Var(X) = ∑ (Xi – E(X))2 = ∑ Xi2P(Xi) – E(X)2

La mejor expresión para operar es la segunda que nos da de manera sencilla                 

 (02 x 0,25) + (12 x 0,5) + (22 x 0,25) – 12 = 0,5

La desviación típica sería σ = √ 0,5 que indicaría como en el caso de la estadística descriptiva si el experimento aleatorio tiene mucha desviación respecto de la media o esperanza. A más desviación, menos representativa es la media. En este contexto se podría calcular el COEFICIENTE DE VARIACIÓN con las fórmulas anteriores para ver además de la representatividad la posibilidad de que los datos sean o no homogéneos.

En el ámbito de la bioestadística existen tres modelos que son muy habituales. Los distinguiremos como distribuciones discretas (si sólo pueden dar valores puntuales como el número de enfermos) o distribuciones continuas (si los datos van por rangos; por ejemplo el peso o el nivel de colesterol).

6. Variables discretas.

La VARIABLE ALEATORIA BINOMIAL se da cuando repetimos n veces un experimento que sólo tiene dos posibilidades que denominaremos como forma reducida “éxito” o “fracaso”.

Por ejemplo, tomamos 10 personas y estudiamos la variable “número de personas con gripe”. Su rango de valores es de 0 a 10 (en general, a n). Si la probabilidad de tener gripe es del 20% podemos calcular la probabilidad de que tengan gripe un número cualquiera de personas.

En estadística existen numerosos programas informáticos que compiten entre sí; otras áreas de conocimiento como la matemática tienen todo más unificado. En todo caso, su manejo suele ser sencillo. Los programas más usados son SPSS (se debe pagar licencia), Gretl, Stata, R, Rcomander o Eviews entre otros.

Volviendo a la binomial, se denota como B(n,p) = B(10; 0,2).

Su esperanza es E(x) = np = 10 x 0,2 = 2.

Tiene sentido ya que el 20% de 10 personas es 2, por lo tanto lo esperado es que de 10 personas tengan gripe 2.

La varianza es Var(x) = npq = 10 x 0,2 x 0,8 = 1,6.

Observar que si p es la probabilidad de éxito (si podemos considerar como tal tener gripe) q = 1 – p es la probabilidad de fracaso.

La varianza es mayor conforme p se acerca a 0,5. También tiene lógica ya que si p fuese 0,01 los resultados serían muy bajos y menos oscilantes.

Para hacer cálculos se realiza la operación P(X=k) = k! pk qn-k/ n! (n-k)!

Los más expertos habrán visto como aparece implícitamente un número combinatorio.

En todo caso, para calcular p(X=3) = 3! 0,230,87/ 10! 7!

Si de 10 personas están enfermas 8 se comprueba que p(X=8) es muy baja. En otras palabras, es muy difícil que pase lo que está pasando. Es decir, posiblemente estemos dentro de una epidemia.

La VARIABLE ALEATORIA DE POISSON se da en fenómenos más extraños que tienen que ver con el paso del tiempo referenciados a una población.

Por ejemplo, número de enfermos de tuberculosis en Pamplona, número de accidentes laborales en una fábrica determinada. No sería válido introducir el número de enfermos de gripe en Pamplona debido a que ese tipo de enfermedad es habitual. Además, debemos referenciar el tiempo. Si el número de enfermos es puntual (más extraño) o es en una semana o un mes, por ejemplo.

Siempre que estemos en una variable de Poisson habrá un valor de referencia (λ=5) que será el número medio de enfermos. En términos de probabilidad iremos la función va creciendo hasta dicho valor de referencia y luego va bajando suave de forma que en teoría el rango de valores de la variable de Poisson iría desde 0 hasta infinito.

En términos técnicos, se denota como P(λ) = P(5), siendo E(X) = λ, Var(X) = λ.

Para realizar operaciones, la fórmula de referencia es P(X=k) = eλk/k!

Si hacemos P(X=3) = e-553/3!

Hay que tener en cuenta que se puede pasar de una variable Binomial a otra de Poisson cuando np es menor que 5 si n es grande, ya que en ese caso la esperanza nos diría que el fenómeno es raro.

Si tenemos 4000 personas y la probabilidad de tener tuberculosis es del 0,001, lo esperado (multiplicando ambas) es que sólo haya 4 personas con tuberculosis (de 4000 se puede considerar un fenómeno raro).

En ese caso, si nos piden calcular la probabilidad de que 5 personas tengan tuberculosis podemos usar la binomial de la forma típica o la fórmula de Poisson con λ=5.

Por último, en Poisson se cumplen regularidades con el tiempo, por eso es fundamental tenerlo en cuenta. Si un año los enfermos de tuberculosis siguen con λ=5 y otro año se cumple la misma distribución, para calcular la probabilidad de que en dos años haya 7 enfermos usaremos la propiedad sumativa y tendremos en cuenta que estamos en una variable de Poisson P(λ = 5+5 = 10).

El mismo fenómeno se puede reducir. Si en lugar de medir en número de coches que pasan por un peaje al día medimos el número de coches que pasa a la hora hay que tomar el λ inicial y dividirlo por 24.

7. Variables continuas; la normal.

La variable aleatoria normal tiene forma de campana (de Gauss) y su nombre viene debido a que antiguamente se pensaba que todas las variables continuas seguían la misma distribución con la siguiente regularidad:

Si una variable como el “peso de las personas” era N(70, 5), es decir, una normal de media 70 y desviación típica 5 (la notación general es N(µ, σ)), teníamos que aproximadamente el 69% de las personas estaba entre 65 y 75; el 95,5% de las personas estaba entre 60 y 80 y el 99.9% estaba entre 55 y 85.

Es decir, vamos construyendo intervalos restando y sumando una vez la desviación típica respecto de la media; luego hacemos eso dos veces y por último hacemos eso tres veces.

Curiosamente podemos pensar en otra variable como la “edad” de una población. La forma de la misma depende de la evolución de un país; un país que esté prosperando tiene más jóvenes que mayores; llegado a un nivel este aspecto se equilibra (es cuando la distribución más se parece a la campana de Gauss) y cuando llega la “decadencia” tiende a haber más mayores que jóvenes.

Para calculara probabilidades con la variable normal se usa siempre un programa informático y en caso de no tenerlo debemos tipificar los datos para transformarlos en una normal de media uno y desviación típica cero, la cual permite usar las tablas de probabilidad de la z= N(0,1).

Por ejemplo, si dada la N(70,5) nos piden la probabilidad de que una persona pese menos de 60 kgs usando un programa informático tendremos que aplicar un comando semejante a normal(60,70, 5). Si no tenemos el programa, debemos tipificar y hacer P(X≤60) = P(X≤(60-70)/5) = P(X≤-2) = 0,0228.

Como siempre, la tipificación viene dada por la fórmula (X-µ)/σ

La normal cumple propiedades importantes como que la combinación lineal de variables aleatorias normales mantiene la normalidad (de media y varianza calculadas a partir de las propiedades que veremos en el siguiente punto).

Hay que recordar que una combinación lineal consiste en sumar y restar variables que puedan estar multiplicadas por constantes.

Por otro lado, la suma de 30 o más variables de distribución desconocida se convierten en variables aleatorias normales a partir del TEOREMA CENTRAL DEL LIMITE O LEY DE LOS GRANDES NÚMEROS (la media y varianza se calculan como antes).

Por último si tenemos una variable de la que desconocemos su distribución el TEOREMA DE CHEBICHEV nos permite aproximarnos a sus probabilidades.

PROPIEDADES DE E(X), Var(X), APLICACIONES.

E(X±Y) = E(X) ± E(Y).

E(aX) = aE(X)

E(a) = a

Var (X±Y) = Var(X) + Var(Y) ± cov(X,Y).

Var(aX) = a2Var(X)

Var (a) = 0

Var (aX±bY) = a2Var(X) + b2Var(Y) ± 2abCov(X,Y).

Si una empresa tiene unos ingresos que siguen una N(70,4) y unos gastos que siguen una N(65,3) para calcular los beneficios tenemos:

B = I – G = N(5, 5=√25)

E(I-G) = E(I) – E(G) = 70 – 65 = 5

Var(I-G) = Var(I) + Var(G) – 2Cov(I,G) = 16 + 9 – 0 (suponemos siempre por simplicidad que no hay relación entre los ingresos y los gastos, es decir, que son independientes lo que supone que su covarianza – estudiada en estadística bidimensional- es nula).

Si queremos calcular la probabilidad de tener beneficios:

P(B≥0) = 1 – norm (0, 5, 5) = 1 – p(Z≤-1) = 0,8413.

La misma lógica se usaría si aplicamos el teorema central del límite; si una empresa vende cada día de media 40kgs de melocotones con una desviación típica de 5, la probabilidad de que en 50 días venda más de 2100 kgs se calcularía con el teorema central del límite (TCL):

Las ventas totales seguirían una normal de media 45 x 50 = 2000 y de varianza 50 x 25 = 1250. Así, V sería N(2000, √1250 = 35,35).

Para calcular p(V≥2100) haríamos 1 – p(V≤2100) = 1 – normal(2100, 2000; 35,35)

Hemos visto como se podía pasar de una variable binomial o otra de Poisson. Se puede pasar también de una variable binomial a una normal siempre que n sea lo suficientemente grande (más de 50 aunque los autores no se ponen de acuerdo) y a la vez np junto con nq sean mayores que 5 (si no se cumple esto podemos pasar de binomial a Poisson). Es el denominado Teorema de Moivre.

También se puede pasar de Poisson a Normal siempre que λ≥25 (tampoco aquí los autores se ponen de acuerdo).

DESIGUALDAD DE TCHEBICHEV:

Para cualquier distribución desconocida se cumple que:

P( µ - kσ ≤ X ≤ µ + kσ) ≥ 1 – 1/k2

Lo aplicamos al caso del frutero que vendía cada día de media 40 kilogramos de melocotones con una desviación típica de 5.

Para calcular la probabilidad de que un día determinado venda entre 30 y 50 kilogramos de melocotones (observar que el intervalo debe estar centrado en la media que es 40) tenemos que la distribución es desconocida (si fuese normal la operación sería sencilla). En este caso, se puede calcular la desigualdad de Tchebichev:

Si voy al extremo inferior del intervalo (es lo mismo tomar uno u otro) tenemos que:

40 – k5 = 30, de donde k = 2.

Así, la probabilidad mínima será de 1 – 1/4 = 0,75.

En definitiva, la probabilidad de vender entre 30 y 50 kgs es al menos el 75%. En consecuencia, la probabilidad de vender menos de 30 kgs o más de 50 kgs será como mucho del 25%.

Observar que la probabilidad de vender más de 50 kgs será como mucho también del 25% (ignoramos dónde está toda la probabilidad “sobrante”) a no ser que nos digan que la distribución es simétrica en cuyo caso esta probabilidad sería de la mitad, un 12,5%.

 

 

Google AnalyticsUA-44495578-1