ALUMNOS DE MEDICINA, AÑO 2.016 - 2.017.

 

Apuntes de bioestadística 1.doc (apuntes de clase hasta el parcial).
Download

 

Apuntes de bioestadística 2.doc (apuntes después del parcial).
Download

 

Apuntes bio 1-9.doc (resumen hasta el parcial).
Download

 

Introducción bioestadística..doc (bioestadística global).
Download

Introducción a la Bioestadística.

El objetivo de la bioestadística se compone de 4 grandes apartados;

1.- Dada una muestra de datos, conocer su estructura a partir de ciertos indicadores estadísticos (media, varianza, asimetría o curtosis, entre otros).

2.- Estudio de fenómenos aleatorios (probabilidad) y modelización de datos a partir de variables aleatorias (las más importantes son la normal, la binomial y la Poisson).

3.- Inferencia estadística: razonar la estructura de una población a partir de una muestra de la misma. Por ejemplo, nivel de colesterol en vegetarianos a partir de una muestra de los mismos). Recordemos que inferir consiste en pasar de lo “pequeño” a lo “grande”.

4.- Relaciones causa efecto: estudiar la causalidad entre diversas variables. Por ejemplo, tipo de fertilizante y cantidad de cosecha o cantidad de fertilizante y cantidad de cosecha.

Desde luego, existen otros muchos análisis estadísticos que se estudian dentro del área de conocimiento de la epidemiología o del análisis multivariante. Los estudiaremos en un anexo.

Por último, no podemos olvidar los tipos de datos que vamos a estudiar; pueden ser cuantitativos (peso, altura o edad) o cualitativos (raza, ser hombre o mujer, o el nivel de dolor de una enfermedad).

Los datos cuantitativos se agrupan de forma discreta (si son unos pocos, por ejemplo las notas de una clase en forma de suspenso, aprobado, notable o sobresaliente, 0-1-2-3) o continua (es muy difícil que la altura de dos personas coincidan; en ese caso lo mejor es dar un rango de valores, por ejemplo, decir que hay 17 personas entre 165 y 166 centímetros). No obstante, la potencia de los programas informáticos actuales hace que esta separación sea irrelevante, ya que introduciendo cualquier cantidad de datos tenemos directamente todos los indicadores estadísticos con sus gráficos correspondientes.

Los datos cualitativos tienen un estudio mucho más complejo ya que no se pueden hacer operaciones matemáticas con un nombre. En todo caso, pueden ser dicotómicos (si sólo existen dos categorías: hombre – mujer, enfermo – sano), multitómicos (si existen más de dos categorías: sirve cualquier escala como no tener dolor, tener algo de dolor o tener mucho dolor), ordinales (en otras palabras, que se pueden ordenar como el ejemplo anterior) o nominales (no existe orden alguno, por ejemplo, el color del pelo). Observar que en todas las variables ordinales son multitómicas y que el recíproco no es cierto).

INFERENCIA: Intervalos de confianza y contrastes de hipótesis.

PREVIO: VARIABLES ALEATORIAS RELEVANTES.

Ya hemos analizado la variable aleatoria normal (VER SECCIÓN ESTADISTICA).

Hemos visto como para calcular probabilidades se puede tipificar para llegar a la reducida N(0,1) = z.

Por ejemplo, p(z≤1,96) = 0,025, de donde se puede usar la notación Z0,025 = 1,96 para indicar “punto que deja delante un área de 0,025” lo cual nos indica que dejará detrás, claro está, un área de 0,975. No obstante, algunos autores usan la referencia al revés dejando en el subíndice 0,975.

Así mismo, hay que tener en cuenta que debido a la simetría de la normal el punto -1,96 dejará detrás un área de 0,025.

Vamos a las otras variables:

Distribución chicuadrado (Pearson):

Una variable aleatoria chicuadrado o jicuadrado de n grados de libertad consiste en la suma de n variables normales N(0,1) al cuadrado.

X2n = Z21 + ……..+ Zn2 si bien la notación habitual es χ2 con n grados de libertad.

Esta distribución tiene de esperanza n y de varianza 2n.

Su expresión es una campana achatada que comienza desde el 0 como se muestra en el anexo que se usará de modelo para realizar estos desarrollos.

La notación χ212;0,05 indica que punto que deja delante del mismo un área de 0,05 en una jicuadrado con 12 grados de libertad.

En este caso no tiene sentido la simetría debido a que la distribución parte del origen.

Distribución tsutdent:

Descubierta por Gosset, una t-student con n grados de libertad consiste en una z dividida por la raíz cuadrada de una jicuadrado de ngrados de libertad dividida por n. Entenderemos que esta fórmula no es exigible para el examen y que se deberá tener en cuenta que:

E(tn) = 0

Var (tn) = n/(n-2) siempre que n≥3

Si n es muy grande (en general es válido para n≥30) la distribución converge a una normal.

Por lo tanto se mantiene la simetría de la normal y la notación: T25;0,025 sería el punto que en una t-student con 25 grados de libertad deja delante un área de 0,025.

Distribución F Snedecor-Fisher:

Usada para comprobar la igualdad de varianzas o en análisis avanzados (todos los realizados con el ANOVA) sólo diremos que su expresión es una jicuadrado con m grados de libertad dividido por m entre otra jicuadrado con n grados de libertad dividida por n.

Fm,n = (χ2m/m)/(χ2n/n)

Su forma es la de la campana de la jicuadrado y la notación F5,7;0,1 indica punto que deja delante de él un área de 0,1 en una F de Fisher Snedecor con 5 grados de libertad del numerador y 7 grados de libertad del denominador.

1. El contraste de hipótesis.

En inferencia estadística se usa como referencia básica el denominado contraste de hipótesis. Se supone (es como en los juicios) cierto mientras no se demuestre lo contrario.

Supongamos que vemos en un atlas que el peso de los monos de Senegal sigue una distribución N(40, 5) y queremos verificar si dicha distribución es cierta. Para ello nos iríamos de safari a Senegal y tomaríamos una muestra de monos. Es lógico pensar que si su peso medio es cercano a 40 la hipótesis nula será cierta y en caso contrario no lo será. El test se plantea así;

Hipótesis nula;                       H0 µ = 40

Hipótesis alternativa;             H1 µ ≠ 40

Si en una muestra de (n =) 25 monos observamos que el peso medio es de 43 kilogramos y tomamos un error tipo I (ver el siguiente punto) de α = 0,05, se aplica la expresión:

(Med - µ)/(σ/√n) = z; tomamos como límite los puntos que dejan en cada esquina un área de 0,025 (α/2), es decir, -Zα/2 y Zα/2 que correspondería a -1,96 y 1,96.

Como el punto nos queda (43-40)/(5/√25) = 3, estamos en zona de rechazo, es decir, consideramos que el peso de los monos es significativamente distinto de 40 kilogramos.

Hay veces que deseamos comprobar si un valor ha subido, entonces se realiza el denominado CONTRASTE UNILATERAL DERECHO.

Supongamos una granja con unos cerdos que pesan de media 300 kgs. Queremos probar una dieta para ver si los animalitos engordan de forma significativa.

En este caso no os interesa ver si el peso ha variado de 300 kgs, lo que queremos es ver si el peso ha subido de 300 kgs.

Tendríamos;

                        H0 µ = 300

                        H1 µ > 300

Si en una muestra de 100 cerdos que han seguido la nueva dieta el peso medio es de 310 kgs y consideramos que σ = 50 con un α de 0,05, habría que repetir la fórmula anterior teniendo en cuenta que toda la zona de rechazo queda a la derecha: Z0,05 = 1,64.

Como la operación matemática me da (310 – 300)/ (50/√100) = 2 rechazo la hipótesis nula y consideramos con una significación del 5% que el peso de los cerdos aumenta.

Por supuesto, a veces deseamos comprobar si un valor ha bajado, en cuyo caso aplicamos un CONTRASTE UNILATERAL IZQUIERDO.

Supongamos un grupo de enfermos de colesterol con un nivel de 200 al que le aplicamos una dieta para ver si les baja dicho nivel. Así, tenemos que en una muestra de 64 personas el nivel medio queda en 195 con σ = 60 y α = 0,01.

Tenemos:

                        H0  µ = 200

                        H1  µ < 200

Ahora el punto de referencia estaría a la izquierda y sería –Z0,01 = - 2,33.

La operación matemática queda: (195 – 200)/ (60/√64) = -0,66 de donde no rechazo la hipótesis nula, concluyendo así que la dieta no logra reducir el nivel de colesterol.

Debemos tener en cuenta que el espíritu de la investigación hará que el contraste sea bilateral (si deseo comprobar si algo ha cambiado o no), unilateral derecho (si deseo comprobar que ha subido) o unilateral izquierdo (si deseo comprobar que ha bajado).

Por último en la hipótesis nula se da siempre la igualdad.

2. Conceptos básicos.

EL P VALOR.

Sería un poco simplista pensar en el que los problemas de contrastes de hipótesis sean siempre del estilo blanco – negro (o no rechazo la hipótesis nula o la rechazo según donde me caiga el estadístico de contraste que usa como referencia el punto de la tabla).

En ese sentido, mucho cuidado. Nunca debemos decir “acepto la hipótesis nula” (sería equivalente a decir en un juicio que alguien es inocente) si no que lo que haremos será ver si “no rechazo la hipótesis nula” (persona no culpable) o si “rechazo la hipótesis nula” (persona culpable).

Lo reitero: no se pueden encontrar pruebas que nos digan que la hipótesis nula sea cierta. Sólo existen para comprobar que la hipótesis nula es falsa, de la misma forma que en los juicios sólo se demuestra la culpabilidad. De hecho, si seguimos con la analogía, tenemos que en los juicios existe la “verdad real” y la “verdad judicial”. De la misma forma, en los contrastes tenemos la “verdad real” y la “verdad estadística”. Y como todos sabemos, una no coincide necesariamente con la otra.

Volvemos a la idea de “blanco-negro”. Es importante evaluar el grado de aceptación (no rechazo) y rechazo de la hipótesis nula.

Para ello se usa el p-valor que es la probabilidad de que los datos muestrales sean iguales o más extremos que los obtenidos si realmente la hipótesis nula es cierta. Un p-valor de 0,001 indica que hay un uno por mil de probabilidades de que la muestra sea la que ha sido o una más extrema si la hipótesis nula es cierta. Es decir, podemos rechazarla.

No es objetivo del curso saber calcular el pvalor ya que todos los programas informáticos nos lo dan de forma directa, pero sí hay que saber que las reglas son:

Pvalor < 0,01 = α, rechazo la hipótesis nula (test muy significativo).

0,01 ≤ pvalor ≤ 0,05, rechazo la hipótesis nula (test significativo).

0,05 < pvalor ≤ 0,1, “zona de nadie” (ni acepto, ni rechazo).

0,1 < pvalor, no rechazo la hipótesis nula.

De forma simplificada se rechaza si el pvalor es menor que 0,05 y no se rechaza en caso contrario. La igualdad es irrelevante ya que el pvalor tiene tantos decimales que es muy difícil que coincida con alguno de esos valores.

ERRORES.

En el momento de hacer los contrastes podemos cometer errores.

Se llama error tipo α, significación o error de tipo I a la probabilidad de rechazar la hipótesis nula cuando es cierta, técnicamente: p(rechazar H0/ H0 cierta) = α.

Lo contrario de este error sería aceptar la hipótesis nula cuando es cierta, es un concepto llamado especificidad del contraste:

Especificidad = p(aceptar H0/H0 cierta) = 1 – α

El otro tipo de error es el de tipo beta (o tipo II) que sería la probabilidad de aceptar la hipótesis nula cuando es falsa.

Técnicamente:

β = P(aceptar H0/ Ho falsa).

Lo contrario de este error sería rechazar la hipótesis nula cuando es falsa, concepto fundamental en estadística (ya que permite detectar cambios en las procesos) que se llama potencia o sensibilidad del contraste.

Así:

Potencia = p(rechazar H0/H0 falsa) = 1 – β

Resumimos estas ideas así:

Para comprender mejor la diferencia entre los dos errores pensemos en el caso del colesterol (el contraste unilateral izquierdo) cuando una empresa quería comprobar si su dieta o medicina bajaba el colesterol.

La hipótesis nula es siempre cierta mientras no nos digan lo contrario y es la que se usa de referencia;

H0 “El colesterol queda igual con la dieta”

H1 “El colesterol baja con la dieta”

Si rechazo H0 cuando es cierta, pensaré que la dieta es efectiva cuando realmente no lo es. Eso me lleva a una ruina absoluta, ya que estoy comercializando algo que no cumple lo que prometía.

Si acepto H0 cuando es falso, pensaré que mi dieta no es efectiva cuando realmente lo es. Y sí, dejo de ganar dinero ya que no voy a comercializar algo útil. Pero no me puedo arriesgar a tener un error de tipo α ya que es muchísimo más grave. Y es que si me confundo en el análisis de los monos no es muy grave, pero en estudios basados en personas es evidente que la cosa tiene que cambiar

3. Intervalos de confianza.

Un intervalo de confianza es un rango de valores entre los que se encuentra un parámetro poblacional desconocido con un nivel de confianza (¡no de probabilidad! mucho cuidado) 1 – α.

Si hacemos un intervalo de confianza para la media de una población (µ) y nos da que va de 70 a 80 diremos que con una confianza del 95% (α = 0,05 es el valor de referencia) la media de la población se encuentra entre esos valores. Se supone que si hacemos 100 intervalos diferentes a partir de muestras en 95 estará el valor buscado.

Para calcular el intervalo se hace siempre la misma fórmula:

Estimador ±Zα/2 x Error Estándar del Estimador

Lo vamos a ver en tres casos diferentes: la media poblacional, la mediana (recordar que unas veces la media era el mejor indicador de posición central de la muestra y que en otros el mejor era la mediana; se usan siempre en variables cuantitativas) y la proporción (cuando estamos midiendo una variable dicotómica como fumar – no fumar y deseamos evaluar la proporción poblacional a partir de una muestra).

a. El caso de la media poblacional en una distribución normal (variable cuantitativa).

El intervalo será: µ ϵ (med ± Zα/2 EE(med)) siendo EE(med) = σ/√n

Si no conocemos la desviación de la población σ (que es lo más normal ya que de la misma forma que no sabemos µ no tenemos razones para saber σ) tendríamos que aplicar la t-student siendo el intervalo:

µ ϵ (med ± Tn-1; α/2 EE(med)) siendo EE(med) = S/√n

Si en el caso de los monos de Senegal tomamos una muestra de 25 monos con S=5 tomando α = 0,05 (observar que ahora la notación cambia y estamos hablando de error de confianza, no de significación) y con med = 43, el intervalo será:

µ ϵ (43 ± T24;0,025 5/√25)

Con los mismos datos, se cumple que si planteamos la hipótesis nula de media poblacional igual a 40, si acepto H0 40 estará incluido en el intervalo y si rechazo H0 no estará incluido.

b. El caso de la proporción poblacional (variable cualitativa dicotómica).

Si denotamos la proporción poblacional como ∏ y la proporción muestral como p, siguiendo el patrón anterior el intervalo será:

∏ ϵ (p ± Zα/2 EE(p)) siendo EE(p) = √p(1 – p) /n

Si de una muestra de 200 personas fuman 50 (p = 0,25) y queremos estimar la proporción de fumadores con un nivel de confianza del 99% (α = 0,01) el intervalo será

∏ ϵ (0,25 ± Z0,001 (0,25 x 0,75 / 200)1/2) siendo Z0,001 = 2,57 con orden informática, según el programa, semejante a invnormal(0,001) = 2,57.

Estos intervalos suelen ser algo más anchos, es decir, menos precisos.

c. El caso de la mediana.

Medpob ϵ (medianam ± Tn-1; α/2 1,253 S/√n ); obviamente, EE(medianam = 1,253 S/√n)

Es menos preciso que el de la media al tener su error estándar el de la media multiplicado por 2,253.

MUY IMPORTANTE: existen autores que dan otro valor estándar a la media.

Existen intervalos de confianza para la diferencia de medias que sirven para detectar ciertas causalidades; si a un grupo de cerdos le damos una dieta (y calculamos la media de peso y desviación típica de la muestra) y otro grupo de cerdos le damos otra dieta (y hacemos lo mismo) para ver si existen diferencias significativas en el peso tendríamos que hacer el intervalo, de forma que:

 

IC (µx - µy) = (-3, -1) indicaría que la segunda dieta es mejor que la primera con una confianza supuesta del 95%.

IC (µx - µy) = (-1, 2) indicaría que no existen diferencias significativas entre una dieta y otra y finalmente:

IC (µx - µy) = (1, 4) indicaría que la primera dieta es mejor que la segunda con una confianza del 95%.

La clave está en el cero.

 

 NOTA FINAL.- los alumnos interesados en cursos más avanzados (epidemiología) pueden usar el siguiente enlace:

 

EPIDEMIOLOGÍA.docx
Download

 

 

 

 

 

Google AnalyticsUA-44495578-1