5  Contraste de hipótesis

The practical power of a statistical test is the product of its statistical power and the probability of use.

John W. Tukey

5.1 Planteamiento y conceptos básicos

Una hipótesis (paramétrica) es una afirmación que se hace sobre uno o varios de los parámetros de la población. Por ejemplo, si \(p\) es la proporción de personas en la población que padece cierta enfermedad, entonces una posible hipótesis es la afirmación \(p\leq 0.1\), es decir, que el porcentaje de enfermos es inferior al 10%. El objetivo de un contraste es decidir si los datos de una muestra aportan suficiente evidencia empírica para rechazar una hipótesis. La manera correcta de interpretar los resultados es decir que los datos disponibles proporcionan (o no proporcionan) evidencia estadística suficiente en contra de la hipótesis. En todo caso, la conclusión depende de información incompleta y aleatoria, procedente de una o varias muestras, y siempre existe la posibilidad de cometer un error aceptando una hipótesis equivocada.

La hipótesis que se pretende refutar se llama hipótesis nula (se denota \(H_0\)) y la contraria se llama hipótesis alternativa (se denota \(H_1\)). En el ejemplo anterior, supongamos que queremos demostrar estadísticamente que el porcentaje de enfermos es superior al 10%, es decir, queremos encontrar evidencia empírica en contra de que el porcentaje es inferior al 10%. Si este es el caso, entonces la hipótesis nula es \(H_0:\, p\leq 0.1\) y la alternativa es \(H_1:\, p >0.1\). Para llevar a cabo el contraste, contamos con una muestra de v.a.i.i.d. \(X_1,\ldots,X_n\) de tamaño \(n\) de una población \(\mbox{B}(1,p)\), donde \(X_i\) vale 1 si el individuo \(i\) está enfermo, y 0 en caso contrario.

Más formalmente, construir un contraste es dar una regla tal que, dada una muestra, permita decidir si se rechaza o se acepta la hipótesis nula. El subconjunto de muestras para las que se rechaza la hipótesis nula se llama región crítica o también región de rechazo y la denotaremos por \(R\). En general, las regiones críticas se suelen definir en términos de un estadístico \(T\) llamado estadístico del contraste. Por ejemplo \(R=\{ X_1,\ldots,X_n:\, T(X_1,\ldots,X_n)>c\}\) o \(R=\{X_1,\ldots,X_n:\, T(X_1,\ldots,X_n)\leq c\}\).

Continuando con el ejemplo, un posible contraste para \(H_0:\, p \leq 0.1\) podría venir determinado por la región crítica \(R=\{X_1,\ldots,X_n:\, \hat{p} > 0.1 + c\}\), donde \(c>0\). Es decir, rechazamos que la verdadera proporción \(p\) es menor o igual que 0.1 si la proporción estimada \(\hat{p}\) es claramente mayor que 0.1 (mayor que \(0.1+c\)). El problema es cómo seleccionar la constante \(c\). Si \(c\approx 0\), entonces corremos un riesgo muy grande de rechazar \(H_0\) aunque sea cierta. Por el contrario, si \(c\) es grande, eliminamos este peligro pero aumenta la probabilidad de aceptar \(H_0\) cuando en realidad deberíamos rechazarla. En la sección siguiente vamos a formalizar estas cuestiones.

5.2 Tipos de error y función de potencia

Dada una partición del espacio paramétrico \(\Theta_0\cup \Theta_1 = \Theta\), \(\Theta_0\cap \Theta_1 = \emptyset\), podemos expresar en general las hipótesis nula y alternativa como \(H_0:\, \theta\in\Theta_0\) y \(H_1:\, \theta\in\Theta_1\), respectivamente. Al aceptar o rechazar \(H_0\) podemos cometer dos tipos de errores:

  • Error de tipo I: Rechazar \(H_0\) cuando es cierta.
  • Error de tipo II: Aceptar \(H_0\) cuando es falsa.

Dada una región crítica \(R\), la probabilidad de cometer cada uno de los dos tipos de errores depende del valor del parámetro \(\theta\):

  • Si \(\theta\in \Theta_0\), \(\mbox{P}_\theta(R)\) es una probabilidad de error de tipo I.
  • Si \(\theta\in \Theta_1\), \(1-\mbox{P}_\theta(R)\) es una probabilidad de error de tipo II.

Todas las probabilidades de error se pueden calcular si conocemos la probabilidad de rechazar para cada valor del parámetro. Esta probabilidad, como función de \(\theta\), es lo que se llama la función de potencia del contraste. La función de potencia del contraste definido por la región crítica \(R\) se define entonces como \(\beta(\theta) := \mbox{P}_\theta(R)\).

Por las observaciones que ya hemos hecho, es evidente que si \(\theta\in\Theta_0\), conviene que \(\beta(\theta)\) sea próximo a cero, mientras que si \(\theta\in\Theta_1\), es mejor que \(\beta(\theta)\) tome valores próximos a 1.

Cuestiones

Disponemos de una observación \(X\equiv\mbox{B}(5,\theta)\) y queremos contrastar \(H_0:\, \theta\leq 1/2\) mediante la región crítica \(R_1=\{X = 5\}\). Esta situación podría corresponder por ejemplo a una moneda cuya probabilidad de cara \(\theta\) es desconocida. Tiramos la moneda cinco veces y rechazamos \(H_0:\, \theta\leq 1/2\) si las cinco veces nos sale cara. Otra posible región crítica menos conservadora para la misma hipótesis es \(R_2 = \{X\geq 3 \}\). En este segundo caso rechazamos que la probabilidad de cara es menor o igual que 1/2 si al tirar la moneda 5 veces salen al menos tres caras.

Las funciones de potencia de estos contrastes son \[\beta_1(\theta) = \theta^5\] y \[\beta_2(\theta) = {5\choose 3} \theta^3(1-\theta)^2 + {5\choose 4} \theta^4(1-\theta) + \theta^5,\] respectivamente. En la figura siguiente se representa \(\beta_1\) de color rojo y \(\beta_2\) de color azul:

theta <- seq(0, 1, 0.01)
potencia1 <- theta^5
potencia2 <- 1 - pbinom(2, 5, theta)  

datos <- data.frame(theta, potencia1, potencia2)
ggplot(datos) + 
  geom_line(aes(x = theta, y = potencia1), col = 'red', linewidth = 1.05) +
  geom_line(aes(x = theta, y = potencia2), col = 'blue', linewidth = 1.05) +
  geom_vline(xintercept = 0.5, linetype = 2) +
  labs(y = "Potencias")

A la izquierda de la línea vertical las curvas representan las probabilidades de error de tipo I. A la derecha las curvas representan a uno menos las probabilidades de error de tipo II. Esto significa que un test es mejor cuanto menos vale la curva a la izquierda de 0.5 y cuanto más vale a la derecha de 0.5. Si consideramos el test conservador (el rojo) vemos que tiene unas probabilidades de error de tipo I mucho más bajas que el menos conservador (azul). A cambio, sus probabilidades de error de tipo II son mucho más altas. Suele haber ese tipo de compromiso entre unas y otras probabilidades de error. La única forma de disminuir ambas a la vez sería aumentando el tamaño muestral (tirando más veces la moneda).

En general se suele controlar la probabilidad de error de tipo I fijando su valor máximo. Por ello, las hipótesis nula y alternativa se deben fijar de manera que este tipo de error sea el más grave.

El tamaño o nivel de significación de un contraste es la máxima probabilidad de error de tipo I: \[\alpha = \sup_{\theta\in\Theta_0} \beta(\theta).\]

Para el ejemplo anterior, el tamaño de \(R_1\) es \(\alpha_1= \beta_1(1/2)=1/2^5\approx 0.031\) mientras que el de \(R_2\) es \(\alpha_2 = \beta_2(1/2)=1/2\).

Ejemplo

Tenemos una muestra \(X_1,\ldots,X_n\) de v.a.i.i.d. con distribución \(\mbox{N}(\theta, 1)\). Queremos contrastar \(H_0:\, \theta\leq 0\) frente a \(H_1:\, \theta >0\). Consideramos la región crítica \(R=\{\bar{X}>c\}\)

  • Calcula la función de potencia \(\beta(\theta)\) como función de \(c\) y determina el valor que debe tener \(c\) para que el tamaño del contraste sea un valor prefijado \(\alpha \in (0,1)\).
  • ¿Cuál es el supremo de las probabilidades de error de tipo II para el contraste anterior?

5.3 Contrastes de significación

Una estrategia general para diseñar regiones críticas con un tamaño dado \(\alpha\) es la siguiente:

  • Definimos las dos hipótesis \(H_0\) y \(H_1\). Normalmente son de alguna de las formas siguientes:

    • Contrastes bilaterales: \(H_0:\theta=\theta_0\) frente a \(H_1:\theta \neq \theta_0\).
    • Contrastes unilaterales: \(H_0:\theta \geq \theta_0\) frente a \(H_1:\theta < \theta_0\), o el caso simétrico \(H_0:\theta \leq \theta_0\) frente a \(H_1:\theta > \theta_0\).
  • Calculamos una medida de discrepancia entre una estimación de \(\theta\) con los datos disponibles y el valor de \(\theta\) si la hipótesis nula fuese cierta, \(\theta_0\). Muchas veces la discrepancia toma la siguiente forma: \[d(\hat\theta,\theta_0) = \frac{\mbox{distancia entre}\ \hat\theta\ \mbox{y}\ \theta_0}{\mbox{error típico de}\ \hat\theta}\] En el caso en que bajo la nula haya muchos valores posibles del parámetro (como por ejemplo en los test unilaterales) se debe fijar el valor en el que más difícil resulte distinguir la hipótesis nula de la alternativa, ya que es ese valor para el que se maximizará la probabilidad de error de tipo I. En los test unilaterales es el valor que separa las dos hipótesis.

  • Si \(d(\hat\theta,\theta_0)\) es la discrepancia del punto anterior, la región crítica es de la forma \(R=\{d(\hat\theta,\theta_0)>c\}\), para un cierto valor crítico \(c\in\mathbb{R}\). Rechazamos la nula si la discrepancia entre ella y los datos es suficientemente grande.

  • Para determinar \(c\) se fija el nivel de significación \(\alpha\) y se despeja en la ecuación: \[\alpha = \mbox{P}_{\theta_0}(d(\hat\theta,\theta_0)>c),\] donde \(\alpha\in (0,1)\) es el nivel de significación deseado. Para calcular la probabilidad anterior es necesario conocer la distribución de \(d(\hat\theta,\theta_0)\) en el caso en que \(\theta=\theta_0\). Para determinar la región crítica no es necesario conocer la distribución para otros valores \(\theta\neq\theta_0\). Esto solo haría falta si quisiéramos calcular la función de potencia completa.

5.3.1 Contrastes para la media de una población normal

Ejemplo

Se analiza un envío de botellas de aceite envasado con un mecanismo del que se afirma que, en media, rellena las botellas con 100 cl de aceite. Examinada una muestra de 5 botellas se obtiene que el promedio es \(\bar{x}=95\) cl y la varianza es \(s^2=1.1\). Suponemos que la v.a. \(X\), contenido de aceite (en cl) en una botella sigue una distribución \(N(\mu,\sigma^2)\). ¿Hay suficiente evidencia empírica para afirmar que el contenido medio de las botellas no es 100 cl? Para contestar esta pregunta llevamos a cabo el contraste bilateral \[H_0: \mu=100,\ \ \ \mbox{frente a}\ \ \ H_1:\mu\neq 100.\] Otra posibilidad sería preguntarse si existe evidencia empírica suficiente para afirmar que el consumidor recibe, en promedio, menos cantidad de la que indica la etiqueta. En ese caso, el planteamiento correcto sería hacer el contraste unilateral \[H_0: \mu\geq 100,\ \ \ \mbox{frente a}\ \ \ H_1:\mu<100.\]

Contraste bilateral

Analizamos primero el contraste bilateral: \[H_0: \mu= \mu_0 \ \ \ \mbox{frente a}\ \ \ H_1:\mu\neq \mu_0\] (siendo \(\mu_0\) un valor prefijado) a partir de una muestra \(X_1,\ldots,X_n\) extraída de \(N(\mu,\sigma^2)\). Sospecharemos que \(H_0\) es falsa (y, por tanto, \(H_1\) es cierta) cuando la distancia entre \(\bar x\) y \(\mu_0\) sea suficientemente grande. Aplicando el lema de Fisher si \(H_0\) fuera cierta sabemos que \[t = \frac{\bar X-\mu_0}{S/\sqrt{n}}\equiv t_{n-1}.\] De hecho, \(t\) se puede interpretar como la distancia entre \(\bar{x}\) y \(\mu_0\) medida en errores típicos. La región crítica será de la forma \(R=\{|t| > c\}\).

Para determinar \(c\) prefijamos el nivel de significación \(\alpha\in(0,1)\) (por ejemplo, \(\alpha=0.05\)) e imponemos la condición \[\alpha = \mbox{P}_{\mu_0} (|t| > c).\] Deducimos que \(c=t_{n-1;\alpha/2}\).

Contraste unilateral

Análogamente, si el problema es unilateral
\[H_0: \mu\geq \mu_0 \ \ \ \mbox{frente a}\ \ \ H_1:\mu< \mu_0,\] la región critica razonable para rechazar \(H_0\) con un nivel de significación \(\alpha\) es \[\frac{\bar X-\mu_0}{S/\sqrt{n}}<-t_{n-1;\alpha}.\]

Ejemplo (continuación)

En el ejemplo del envasado de aceite, \(\bar x=95\), \(s^2=1.1\), \(n=5\). Por tanto, en el caso bilateral \[\left|\frac{\bar x-\mu_0}{s/\sqrt{n}}\right|=10.66.\] Como \(10.66>t_{4;0.025}=2.776445\), \(H_0:\mu=100\) se rechaza al nivel de significación \(\alpha=0.05\). Dado que \(10.66>t_{4;0.005}=4.604095\), también se rechaza al nivel 0.01.

Sin embargo, si hubiéramos obtenido \(\bar x=98\), \(s^2=1.1\), \(n=5\). Entonces \[\left|\frac{\bar x-\mu_0}{s/\sqrt{n}}\right|= 4.264014,\] y la hipótesis \(H_0\) se rechazaría al nivel \(\alpha=0.05\) pero no al nivel 0.01.

Para el contraste unilateral, si queremos contrastar \[H_0: \mu\geq 100 \ \ \ \mbox{frente a}\ \ \ H_1:\mu< 100,\] entonces el criterio para rechazar \(H_0\) con un nivel de significación \(\alpha\) es \[\frac{\bar x-100}{s/\sqrt{5}}<-t_{4;\alpha}.\] Si fuese \(\bar x=98\). Entonces \(\displaystyle \frac{\bar x-100}{s/\sqrt{5}}=-4.2640\). Como \(-t_{4;0.01}= -3.7469\), la hipótesis nula \(H_0:\mu\geq 100\) se rechaza al nivel \(0.01\) (y también por supuesto, al nivel 0.05, ya que \(-t_{4;0.05}=-2.1318\)).

5.3.2 El contraste para una media con R. El concepto de p-valor

El tiempo (segundos) de duración de un proceso químico realizado 20 veces es

resultados <- c(93, 90, 97, 90, 93, 91, 96, 94, 91, 91, 88, 93, 95, 91, 89, 92,
87, 88, 90, 86)

¿Permiten los datos afirmar que la duración media del proceso es inferior a 95 segundos (\(\alpha=0.05\))? Para responder a la pregunta contrastamos \(H_0:\, \mu\geq 95\) frente a \(H_1:\, \mu<95\), donde \(\mu\) es la duración media del proceso. La región crítica en este caso (véase formulario) es: \[R = \left\{\frac{\bar{x}-\mu_0}{s/\sqrt{n}} < -t_{n-1,\alpha}\right\}.\]

Si suponemos que los datos proceden de una distribución normal, usamos t.test de la siguiente forma:

t.test(resultados, alternative = 'less', mu = 95)
#> 
#>  One Sample t-test
#> 
#> data:  resultados
#> t = -5.7126, df = 19, p-value = 8.306e-06
#> alternative hypothesis: true mean is less than 95
#> 95 percent confidence interval:
#>      -Inf 92.38508
#> sample estimates:
#> mean of x 
#>     91.25

Indicamos como argumentos los datos, la hipótesis alternativa y el valor \(\mu_0\) que separa la nula de la alternativa.

Vemos que \(t=-5.7126\). Este valor habría que compararlo con \(-t_{19;0.05}=-1.729\) para rechazar claramente \(H_0\). Sin embargo, la información que proporciona esta salida evita el uso de las tablas, como vamos a ver a continuación.

El concepto de p-valor

A medida que se disminuye el nivel de significación de un contraste, este resulta más conservador a la hora de rechazar \(H_0\) (ya que se tolera una menor probabilidad de error de tipo I). Llegará un momento en que para una muestra dada ya no será posible rechazar \(H_0\) con ese nivel de seguridad. Dado un contraste se define su p-valor para una muestra dada como el ínfimo de los niveles de significación \(\alpha\) para los cuales se rechaza la hipótesis nula con esa muestra: \[\mbox{p-valor}= \mbox{p-valor}(x_1,\ldots,x_n)=\inf\{\alpha: H_0\ \mbox{es rechazada a nivel} \ \alpha\}.\] Cuanto menor es el p-valor, más evidencia estadística aportan los datos a favor de \(H_1\). Se puede interpretar como la probabilidad si \(H_0\) fuese cierta de obtener un valor tan raro o más que el que se ha obtenido con la muestra disponible.

Los programas informáticos que realizan contrastes de hipótesis directamente nos proporcionan el p-valor del contraste. Comparando este p-valor con el nivel de significación podemos tomar la decisión ya que se debe rechazar \(H_0\) a nivel \(\alpha\) si y solo si el p-valor es menor que \(\alpha\). Así se evita el uso de tablas estadísticas.

En el ejemplo anterior el p-valor es \(8.3\cdot 10^{-6}\approx 0\), por lo que rechazamos para cualquier \(\alpha\). Este valor indica que, para los datos disponibles, el estadístico \(t\) ha tomado un valor extremadamente raro bajo \(H_0\), por lo que \(H_0\) se rechaza.

5.3.3 Ejemplos de otros contrastes

Aquí se puede encontrar un listado de las regiones críticas para los contrastes más importantes. Se basan en las mismas ideas del ejemplo anterior, por lo que no insistiremos de nuevo en ellas. En lo que sigue, presentamos algunos ejemplos de aplicación de estos contrastes. Ilustraremos también el uso del p-valor que proporciona la salida de R.

Comparación de dos medias (muestras independientes)

Se ha considerado la cantidad de calorías y de sodio en salchichas de varias marcas de dos tipos: ternera y pavo. El siguiente código lee y prepara los datos, calcula algunas medidas descriptivas y representa el diagrama de cajas de los contenidos de sodio.

# Lee y prepara los datos
url <- "https://verso.mat.uam.es/~joser.berrendero/datos/salchichas.txt"
salchichas <- read.table(url)
salchichas <- salchichas %>% 
  rename(tipo = V1, calorias = V2, sodio = V3) %>% 
  mutate(tipo = recode(tipo, "1" = "ternera",
                       "2" = "mezcla",
                       "3" = "pavo")) %>% 
  mutate(tipo = as.factor(tipo)) %>% 
  filter(tipo != "mezcla")  # descarta las salchichas elaboradas con mezcla de tipos de carne

# Tamaños muestrales
table(salchichas$tipo)
#> 
#>  mezcla    pavo ternera 
#>       0      17      20

# Medias y desviaciones típicas para cada variable
salchichas %>% 
  group_by(tipo) %>% 
  summarise(across(everything(), list(media = mean, sdev = sd)))
#> # A tibble: 2 x 5
#>   tipo    calorias_media calorias_sdev sodio_media sodio_sdev
#>   <fct>            <dbl>         <dbl>       <dbl>      <dbl>
#> 1 pavo              122.          25.5        459        84.7
#> 2 ternera           157.          22.6        401.      102.

# Diagramas de cajas
ggplot(salchichas) +
  geom_boxplot(aes(x = tipo, y = sodio), fill = 'olivedrab4', col = 'black')

Parece que, en estas muestras, las salchichas de pavo tienen más sodio en media. Pero las dos muestras se solapan bastante. ¿Son las diferencias muestrales significativas? ¿Aportan evidencia estos datos para afirmar que el contenido medio de sodio de las salchichas de pavo es distinto al de las salchichas de ternera?

Suponemos que las dos muestras son independientes y proceden del siguiente modelo:

  • \(X_1,\ldots, X_{n}\) es una muestra de \(\mbox{N}(\mu_1,\sigma^2)\)
  • \(Y_1,\ldots, Y_{m}\) es una muestra de \(\mbox{N}(\mu_2,\sigma^2)\)

Por consiguiente, estamos suponiendo:

  • Las muestras proceden de dos poblaciones normales.
  • Las varianzas son desconocidas pero iguales (homocedasticidad).
  • Las dos muestras son independientes.

Para responder a la pregunta tenemos que contrastar (\(\alpha=0.05\)) \[H_0:\ \mu_1=\mu_2 \ \ \mbox{frente a} \ \ H_1:\, \mu_1\neq \mu_2\] La región crítica de este contraste es: \[R = \left\{ \frac{|\bar{x} - \bar{y}|}{s_p\sqrt{\frac{1}{n} + \frac{1}{m}}} > t_{n+m-2,\alpha/2} \right\},\] donde \(s_p^2\) es el estimador combinado de la varianza, que ya definimos en el capítulo sobre intervalos de confianza: \[s^2_p = \frac{(n - 1)s_1^2 + (m-1)s_2^2}{n + m -2}.\] Con los datos del ejemplo, \[\vert\bar{x} - \bar{y}\vert = \vert 459 - 401.15\vert = 57.85,\] \[s_p^2 = \frac{16(84.74)^2 + 19(102.43)^2}{35} = 8978.288\ \ \mbox{y}\ \ s_p = 94.754.\] Por lo tanto, \[t=\frac{|\bar{x}-\bar{y}|}{s_p\sqrt{\frac{1}{n} + \frac{1}{m}}}=\frac{57.85}{94.754 \sqrt{1/16 + 1/20}} =\frac{57.85}{31.257} = 1.85\] Buscando en las tablas de la distribución t de Student, \[t_{34,0.025} \approx 2.04.\] Como \(1.853 < 2.04\), no podemos rechazar \(H_0\). Las diferencias encontradas en las cantidades medias de sodio de las dos muestras no son significativas al nivel \(\alpha=0.05\).

Para llevar a cabo el contraste con \(R\) usamos el comando t.test:

t.test(sodio~tipo, data = salchichas, var.equal =TRUE)
#> 
#>  Two Sample t-test
#> 
#> data:  sodio by tipo
#> t = 1.8507, df = 35, p-value = 0.07267
#> alternative hypothesis: true difference in means between group pavo and group ternera is not equal to 0
#> 95 percent confidence interval:
#>   -5.608336 121.308336
#> sample estimates:
#>    mean in group pavo mean in group ternera 
#>                459.00                401.15

Dado que el p-valor es 0.07267, no podemos rechazar \(H_0\) para los niveles de significación \(\alpha<0.07267\).

Si buscamos evidencia de que las salchichas de pavo tienen más sodio que las de ternera (contraste unilateral) tenemos que especificar la nueva hipótesis alternativa de la siguiente forma:

t.test(sodio~tipo, data = salchichas, alternative = "greater", var.equal =TRUE)
#> 
#>  Two Sample t-test
#> 
#> data:  sodio by tipo
#> t = 1.8507, df = 35, p-value = 0.03633
#> alternative hypothesis: true difference in means between group pavo and group ternera is greater than 0
#> 95 percent confidence interval:
#>  5.036327      Inf
#> sample estimates:
#>    mean in group pavo mean in group ternera 
#>                459.00                401.15

Las medias \(\mu_1\) y \(\mu_2\) se corresponden con los grupos de acuerdo a cómo están ordenados los niveles del factor. Para cambiar este orden se debe usar el argumento levels del comando factor. Como estamos suponiendo homocedasticidad, lo indicamos mediante el argumento var.equal.

¿Para qué valores de \(\alpha\) se podría rechazar \(H_0\) en este caso? ¿Cuál sería la decisión para \(\alpha = 0.05\)?

La hipótesis de igualdad de varianzas

La hipótesis de homocedasticidad \[H_0:\, \sigma_1 = \sigma_2\ \ \mbox{frente a}\ \ H_1:\sigma_1 \neq \sigma_2,\] también se puede contrastar a partir de los datos.

La idea básica de este contraste es calcular el cociente \(F = s^2_1/s^2_2\). Si \(H_0\) fuese cierta deberíamos observar \(F\approx 1\). La hipótesis nula se rechaza si \(F\) está lejos de la unidad.

Cuestión

Si la hipótesis nula es cierta, ¿qué valores podemos esperar que tome \(F\)? Dicho de otra forma, ¿cuál es la distribución de \(F\) bajo la hipótesis nula?


La región crítica del contraste consiste en rechazar \(H_0\) a nivel \(\alpha\) si \[R = \{F < F_{m-1,n-1,1-\alpha/2}\ \ \ \mbox{ó}\ \ \ F > F_{m-1,n-1,\alpha/2}\},\] donde los valores \(F_{m,n,\alpha}\) se buscan en las tablas de la distribución~\(F\).

Para el ejemplo de las salchichas, podemos llevar a cabo el contraste con R de la forma siguiente:

var.test(sodio~tipo, data = salchichas)
#> 
#>  F test to compare two variances
#> 
#> data:  sodio by tipo
#> F = 0.68435, num df = 16, denom df = 19, p-value = 0.4479
#> alternative hypothesis: true ratio of variances is not equal to 1
#> 95 percent confidence interval:
#>  0.2641594 1.8463840
#> sample estimates:
#> ratio of variances 
#>          0.6843456

Dado que el p-valor es muy grande, la hipótesis de homocedasticidad es aceptable para estos datos.

Comparación de dos medias (datos emparejados)

Se usan cinco dosis de una sustancia ferrosa para determinar si existen diferencias entre llevar a cabo un análisis químico de laboratorio o un análisis de fluorescencia por rayos X para determinar el contenido de hierro. Cada dosis se divide en dos partes iguales a las que se aplica cada uno de los dos procedimientos. Los resultados obtenidos son los siguientes:

Dosis 1 2 3 4 5
Rayos X 2.0 2.0 2.3 2.1 2.4
Análisis Químico 2.2 1.9 2.5 2.3 2.4

Se supone que las poblaciones son normales. ¿Aportan los datos evidencia suficiente a nivel \(\alpha = 0.05\) para afirmar que el contenido medio de hierro detectado cuando se utiliza el análisis químico es diferente del contenido medio detectado cuando se utilizan rayos X?

Definimos los siguientes parámetros:

  • \(\mu_1\) es el contenido medio detectado por rayos \(X\)
  • \(\mu_2\) es el contenido medio detectado por análisis químico.

Cuando las muestras no son independientes, se contrasta \[H_0:\mu=0\ \ \mbox{frente a}\ \ H_1:\mu\neq 0,\] donde \(\mu =\mu_1 - \mu_2\) es el valor esperado de las diferencias \(d_i = x_i - y_i\).

En nuestro ejemplo:

Dosis 1 2 3 4 5
\(x_i\) 2.0 2.0 2.3 2.1 2.4
\(y_i\) 2.2 1.9 2.5 2.3 2.4
Diferencia -0.2 0.1 -0.2 -0.2 0

Con estos datos: \(\bar{d} =-0.1\) y \(S_d =0.1414\).

La región crítica de este contraste es \[R = \left\{\frac{|\bar{d}|}{S_d/\sqrt{n}} > t_{n-1;\alpha/2}\right\}.\] Mirando en las tablas \(t_{4;0.025} = 2.776\). Por otra parte, \[\frac{|\bar{d}|}{S_d/\sqrt{n}}=\frac{0.1}{0.1414/\sqrt{5}}=1.5811.\] Como \(1.5811 < 2.776\), los datos disponibles no permiten afirmar a nivel \(0.05\) que los dos métodos proporcionan cantidades medias de hierro diferentes.

Con R:

rayosx <- c(2, 2, 2.3, 2.1, 2.4)
quimico <- c(2.2, 1.9, 2.5, 2.3, 2.4)
t.test(rayosx, quimico, paired = TRUE)
#> 
#>  Paired t-test
#> 
#> data:  rayosx and quimico
#> t = -1.5811, df = 4, p-value = 0.189
#> alternative hypothesis: true mean difference is not equal to 0
#> 95 percent confidence interval:
#>  -0.27559781  0.07559781
#> sample estimates:
#> mean difference 
#>            -0.1

Obsérvese el argumento paired = TRUE que indica que las muestras no son independientes. El p-valor es 0.189 > 0.05, por lo que a nivel 0.05 no se puede rechazar \(H_0\).

Constraste para una proporción

En un estudio, 1000 personas siguieron una dieta de adelgazamiento durante 3 meses. De las 1000 personas, 791 perdieron más de 3 kg de peso. ¿Permiten los datos afirmar, con el nivel de significación \(\alpha=0.01\), que más del 70% de la población perdería más de 3 kg de peso de seguir la misma dieta durante el mismo tiempo?

En este caso las hipótesis son \[H_0:\, p\leq 0.7\ \ \mbox{frente a}\ \ H_1:\, p > 0.7,\] donde \(p\) es la proporción poblacional que pierde peso.

La región crítica de este contraste es: \[R=\left\{\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}>z_{\alpha}\right\}.\] En este caso, \(n = 1000\), \(p_0 = 0.7\), \(\hat{p} = 0.791\) y \(z_{0.01}=2.33\). Por lo tanto, \[\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}=\frac{0.791-0.7}{\sqrt{\frac{0.7\times 0.3}{1000}}}=6.28\] Podemos rechazar \(H_0\) y afirmar que más del 70% de la población perdería más de 3 kg de peso de seguir la misma dieta durante el mismo tiempo.

Para hacer este contraste con R se puede usar el siguiente código:

prop.test(791, 1000, alternative = "greater", p = 0.7, correct = FALSE)
#> 
#>  1-sample proportions test without continuity correction
#> 
#> data:  791 out of 1000, null probability 0.7
#> X-squared = 39.433, df = 1, p-value = 1.697e-10
#> alternative hypothesis: true p is greater than 0.7
#> 95 percent confidence interval:
#>  0.7690798 1.0000000
#> sample estimates:
#>     p 
#> 0.791

El argumento correct=FALSE se usa para que no aplique una corrección por continuidad al aproximar la distribución binomial por la normal. Usualmente no hay gran diferencia entre aplicar esta corrección (que no hemos explicado aquí) y no aplicarla. El valor X-squared de la salida corresponde a \[X^2=\left(\frac{\hat{p}-p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}}\right)^2\] que se compara con una distribución \(\chi^2_1\) (¿por qué?) para obtener el p-valor.

Cuestiones
  • ¿Es el p-valor menor o mayor que \(0.02\)?
  • Con los mismos datos, ¿podemos afirmar a nivel \(\alpha=0.01\) que menos del 90% de la población perdería más de 3 kg?
  • La misma pregunta si la muestra es de 10 personas y hay 8 de ellas que pierden más de 3 kg.

Comparación de dos proporciones

Se ha llevado a cabo un estudio para determinar si un medicamento dirigido a reducir el nivel de colesterol reduce también la probabilidad de sufrir un infarto. Para ello, a hombres de entre 45 y 55 años se les asignó aleatoriamente uno de los dos tratamientos siguientes:

  • 2051 hombres tomaron un medicamento para reducir el nivel de colesterol
  • 2030 hombres tomaron un placebo

Durante los cinco años que duró el estudio, 56 de los hombres que tomaron el medicamento, y 84 de los que tomaron el placebo, sufrieron infartos. ¿Podemos afirmar a nivel 0.05 que el medicamento es efectivo?

Definimos los parámetros:

  • \(p_1\): Probabilidad de sufrir un infarto si se toma el medicamento.
  • \(p_2\): Probabilidad de sufrir un infarto si se toma el placebo.

Las hipótesis de interés son: \(H_0:\, p_2\leq p_1\) frente a \(H_1:\, p_2 > p_1\).

Estimamos los parámetros a partir de los datos: \[\hat{p}_1=\frac{56}{2051} = 0.0273\ \ \mbox{y}\ \ \hat{p}_2=\frac{84}{2030}=0.0414.\]

A continuación, estimamos la probabilidad de infarto si fuese \(p_1=p_2\) (es decir, cuando \(H_0\) es cierta y la probabilidad de error de tipo I es más alta): \[\bar{p} = \frac{\mbox{Número total de infartos}}{\mbox{Número total de personas}}=\frac{56 + 84}{2051 + 2030}=0.0343.\] La región crítica de este contraste es \[R = \left\{\frac{\hat{p}_2-\hat{p}_1}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}>z_{\alpha}\right\}.\] Con los datos del ejemplo: \[\frac{\hat{p}_2-\hat{p}_1}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}=\frac{0.0141}{\sqrt{0.0343\times 0.9657 \times \left(\frac{1}{2051}+\frac{1}{2030}\right)}}=2.47\] Además, \(z_{0.05}=1.64\). Como \(2.47>1.64\), podemos rechazar \(H_0\) y afirmar que el medicamento es efectivo a nivel \(\alpha=0.05\).

Para llevar a cabo este contraste con R:

x <- c(56, 84)  
n <- c(2051, 2030)
prop.test(x, n, alternative = "less", correct = FALSE)
#> 
#>  2-sample test for equality of proportions without continuity
#>  correction
#> 
#> data:  x out of n
#> X-squared = 6.1013, df = 1, p-value = 0.006754
#> alternative hypothesis: less
#> 95 percent confidence interval:
#>  -1.000000000 -0.004699983
#> sample estimates:
#>     prop 1     prop 2 
#> 0.02730375 0.04137931

El estadístico del contraste que calcula R es \[X^2 = \left(\frac{\hat{p}_1-\hat{p}_2}{\sqrt{\bar{p}(1-\bar{p})\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}\right)^2\] donde \(\bar{p} = (n_1 \hat{p}_1 + n_2\hat{p}_2)/n\) y \(n=n_1+n_2\). De nuevo, se compara con una distribución \(\chi^2_1\) para obtener el p-valor.

Contrastes para la varianza de una población normal

Para terminar esta lista de ejemplos, se deja como ejercicio la resolución del siguiente contraste sobre la varianza:

El calcio se presenta normalmente en la sangre de los mamíferos en concentraciones de alrededor de 6 mg. por cada 100 ml. de sangre. La desviación típica habitual de esta variable es 1 mg. de calcio por cada 100 ml. Una variabilidad mayor que esta puede ocasionar graves trastornos en la coagulación de la sangre. Una serie de nueve pruebas sobre un paciente revelaron una media muestral de 6.2 mg. de calcio por 100 ml. de sangre, y una desviación típica muestral de 2 mg. de calcio por cada 100 ml. de sangre. ¿Hay alguna evidencia, para un nivel \(\alpha=0.05\), de que el nivel medio de calcio para este paciente sea más alto de lo normal? ¿Hay alguna evidencia, para un nivel \(\alpha=0.05\), de que la desviación típica del nivel de calcio sea más alta de lo normal?

5.4 Contraste de razón de verosimilitudes

La función de verosimilitud se puede usar como base de un procedimiento general para diseñar un contraste para una hipótesis nula cualquiera \(H_0:\ \theta\in \Theta_0\) frente a \(H_1:\ \theta\in \Theta_1\), donde \(\Theta_1 = \Theta^c_0\). La idea básica es comparar la máxima verosimilitud que es posible obtener bajo \(H_0\) con la máxima verosimilitud que es posible obtener sin restricciones sobre el parámetro. Al igual que sucede con los estimadores de máxima verosimilitud, los contrastes obtenidos de esta forma son también óptimos en muchas situaciones (véase la sección siguiente para la idea de optimalidad de un contraste).

Definición 5.1 Dada una muestra \(X_1,\ldots,X_n\) con distribución conjunta dada por la función de densidad o probabilidad \(g(x_1,\ldots,x_n; \theta)\), \(\theta\in\Theta\), el estadístico de razón de verosimilitudes se define como: \[\lambda(X_1,\ldots,X_n)= \frac{\sup_{\theta\in\Theta_0}L(\theta)}{\sup_{\theta\in\Theta}L(\theta)} = \frac{\sup_{\theta\in\Theta_0}L(\theta)}{L(\hat \theta)},\] donde \(L(\theta)=g(X_1,\ldots,X_n;\theta)\) es la función de verosimilitud y \(\hat\theta\) es el estimador de máxima verosimilitud de \(\theta\).

El contraste de razón de verosimilitudes para \(H_0:\ \theta\in \Theta_0\) frente a \(H_1:\ \theta\in \Theta_1=\Theta_0^c\) consiste en rechazar \(H_0\) cuando la hipótesis nula es poco verosímil cuando se compara con la máxima verosimilitud posible. La región crítica es \[R = \{\lambda(X_1,\ldots,X_n)\leq c_\alpha\},\] donde \(c_\alpha\) es tal que el nivel de significación del contraste es (al menos asintóticamente) \(\alpha\).

Nótese que en el caso particular de hipótesis nula simple \(H_0:\, \theta=\theta_0\) frente a \(H_1:\ \theta\neq\theta_0\), la razón de verosimilitudes se reduce a \[\lambda(x_1,\ldots,x_n) = \frac{L(\theta_0)}{L(\hat \theta)}.\]

Ejemplo

Sea \(X_1,\ldots, X_n\) una muestra de v.a.i.i.d. con distribución uniforme en \((0,\theta)\). Se desea contrastar \(H_0:\, \theta=\theta_0\) frente a \(H_1:\ \theta\neq\theta_0\). Vamos a determinar la región crítica de tamaño \(\alpha\) del contraste de razón de verosimilitudes para este problema.

Sabemos que el estimador de máxima verosimilitud del parámetro es \(\hat\theta = X_{(n)}\). También sabemos que la función de verosimilitud es \[L(\theta) = \frac{1}{\theta^n} \mathbb{I}_{\{ X_{(n)}\leq \theta\}}.\] Como consecuencia, \[\lambda(X_1,\ldots,X_n)=\left(\frac{X_{(n)}}{\theta_0}\right)^n\mathbb{I}_{\{ X_{(n)}\leq \theta_0\}}.\] Por lo tanto la región crítica es de la forma: \[R = \{\lambda(X_1,\ldots,X_n)\leq c_\alpha\}=\{X_{(n)}\leq k_\alpha\}\cup \{X_{(n)}> \theta_0\}.\] Para determinar \(k_\alpha\) imponemos que el nivel de significación sea igual a \(\alpha\): \[\alpha = \mbox{P}_{\theta_0} (X_{(n)}\leq k_\alpha) = (k_\alpha/\theta_0)^n,\] y despejando tenemos \(k_\alpha = \theta_0\alpha^{1/n}\). Hemos usado la distribución del máximo de variables uniformes que hemos derivado en un capítulo anterior. Como consecuencia, el contraste de razón de verosimilitudes viene dado por la región crítica \[R = \{X_{(n)}\leq \theta_0\alpha^{1/n}\}\cup \{X_{(n)}> \theta_0\}.\]

Ejercicio

Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con distribución de Poisson de parámetro \(\theta\). Determina la región crítica del contraste de razón de verosimilitudes para \(H_0:\, \theta\leq \theta_0\) frente a \(H_1:\, \theta > \theta_0\).

5.4.1 Comportamiento asintótico del estadístico de razón de verosimilitudes

La constante \(c_\alpha\) puede ser difícil de determinar en la práctica ya que a veces es complicado o imposible deducir la distribución de la razón de verosimilitudes bajo la hipótesis nula. Afortunadamente, disponemos de algunos resultados que nos dan la distribución asintótica, lo que permite determinar \(c_\alpha\) de manera aproximada.

Teorema 5.1 Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con función de densidad o de probabilidad \(f(x;\theta)\). Supongamos que se cumplen las condiciones de regularidad R1-R8 del capítulo 3 (que hemos usado para elaborar la teoría asintótica del estimador de máxima verosimilitud). Entonces el estadístico de razón de verosimilitudes \(\lambda = \lambda(X_1,\ldots,X_n)\) para contrastar \(H_0:\, \theta=\theta_0\) verifica \[-2\log\lambda_n \overset{\mbox{d}}{\to} \chi^2_1,\] cuando \(H_0\) es cierta.

Prueba. Usando la misma notación que en el capítulo 3, hacemos un desarrollo de Taylor de la función \(\ell(\theta,x_i)\). Para todo \(i=1,\ldots,n\): \[\ell(\theta_0,x_i)= \ell(\hat \theta_n,x_i) + (\theta_0-\hat\theta_n)\ell'(\hat\theta_n,x_i)+\frac{1}{2}(\theta_0-\hat\theta_n)^2\ell''(\tilde{\theta}_n,x_i),\] donde \(\tilde{\theta}_n\) es un valor del intervalo definido por \(\theta_0\) y \(\hat\theta_n\).

Por otra parte, \[-2\log\lambda = -2\sum_{i=1}^n [\ell(\theta_0,x_i) - \ell(\hat\theta_n,x_i)].\]

Usando el desarrollo y dado que \(\sum_{i=1}^n \ell'(\hat\theta_n,x_i)=0\), \[-2\log\lambda = n(\hat\theta_n -\theta_0)^2\frac{\sum_{i=1}^n -\ell''(\tilde\theta_n,x_i)}{n}.\] Vamos a demostrar que \[\frac{\sum_{i=1}^n -\ell''(\tilde\theta_n,x_i)}{n} \overset{\mbox{p}}{\to} \mbox{E}[-\ell''(\theta_0,X)]= I(\theta_0).\] Para ello se tiene en cuenta que
\[\left|\frac{\sum_{i=1}^n-\ell''(\tilde\theta_n,x_i)}{n}-I(\theta_0)\right|\leq\left|\frac{\sum_{i=1}^n-\ell''(\theta_0,x_i)}{n}-I(\theta_0)\right|+|\tilde{\theta}_n-\theta_0|\frac{\sum_{i=i}^n\left|\ell'''(\theta_n^*;x_i)\right|}{n},\] donde \(\theta_n^*\) es un valor entre \(\tilde{\theta}_n\) y \(\theta_0\). (Para obtener la propiedad anterior, se suma y se resta \(\ell''(\theta_0;x_i)\), se aplica la desigualdad triangular y el teorema del valor medio.) El primer término tiende a cero en probabilidad por la ley de los grandes números. El segundo también tiende a cero (la demostración es exactamente igual a la que se usó para demostrar que el término de resto converge a cero en el teorema que da la distribución asintótica del estimador de máxima verosimilitud).

Por otra parte, sabemos que \(\sqrt{n}(\hat\theta_n-\theta_0)\overset{\mbox{d}}{\to}\mbox{N}(0, I(\theta_0)^{-1})\). Por el lema de Slutsky, \[\sqrt{n}(\hat\theta_n -\theta_0)\left(\frac{\sum_{i=1}^n -\ell''(\tilde\theta_n,x_i)}{n}\right)^{1/2}\overset{\mbox{d}}{\to} \mbox{N}(0,1).\] Finalmente elevamos al cuadrado y aplicamos el teorema de la aplicación continua para obtener el resultado.

Tal vez merece la pena indicar que la distribución asintótica en este caso es \(\chi^2\) en lugar de normal porque el término lineal del desarrollo de Taylor se anula y el término que determina la distribución asintótica es el cuadrático.

Aplicando este teorema, la región crítica del contraste de razón de verosimilitudes para \(H_0:\, \theta = \theta_0\) es aproximadamente \[R=\{-2\log\lambda(X_1,\ldots,X_n)\geq\chi^2_{1,\alpha}\}\] puesto que, si \(c_\alpha = \exp(-\chi^2_{1;\alpha}/2)\), \[\alpha \approx\mbox{P}_{\theta_0}(-2\log\lambda(X_1,\ldots,X_n) \geq \chi^2_{1,\alpha})=\mbox{P}_{\theta_0}(\lambda(X_1,\ldots,X_n) \leq c_\alpha).\]

El teorema anterior admite versiones más generales. Damos a continuación sin demostración una de ellas:

Consideremos en el espacio paramétrico \(\Theta\subset \mathbb{R}^k\) el problema de contrastar \(H_0:\, \theta_i=c_i\) para \(i=1,\ldots,r\) (con \(r\leq k\)) frente a \(H_1:\, \theta_i\neq c_i\) para algún \(i=1,\ldots,r\). Entonces, \(\Theta_0=\{\theta\in \Theta: \theta=(c_1,\ldots,c_r,\theta_{r+1},\ldots,\theta_k)\}\).

Teorema 5.2 Supongamos que

  • El EMV \(\hat{\theta}_n\) es consistente (en probabilidad) del vector de parámetros \(\theta\).

  • Para todo \(x\), la función \(\log f(x;\theta)\) tiene derivadas parciales terceras (respecto a las componentes \(\theta_j\) de \(\theta\)) continuas.

  • En las integrales que involucran a la función \(f(x;\theta)\) se pueden permutar las derivadas con el signo integral.

  • La matriz de información de Fisher \[I(\theta)= -\mbox{E}_{\theta} \left(\frac{\partial^2}{\partial \theta_i\partial\theta_j}\log f(X;\theta)\right)_{1\leq i,j\leq k}\] es invertible para cada \(\theta\).

    Entonces, bajo \(H_0\), \[-2\log\lambda_n\overset{\mbox{d}}{\to} \chi_r^2.\]

5.4.2 Aplicación: un contraste de bondad de ajuste

Sea \(X\) una v.a. discreta que toma los valores \(a_1,\ldots,a_k\). Denotemos \(p_j=\mbox{P}(X=a_j)\). Supongamos que se desea contrastar \[H_0: p_j=p_{j0},\ j=1,\ldots,k\] a partir de una muestra \(x_1,\ldots,x_n\). Obsérvese que, en este caso, con la notación del teorema, \(r=k-1\) porque cuando se fijan \(k-1\) probabilidades \(p_j\), queda fijada la probabilidad restante (ya que tienen que sumar uno).

Aplicando el test de razón de verosimilitudes, \(H_0\) se rechaza al nivel aproximado \(\alpha\) en la región crítica \[R=\{-2\log\lambda_n>\chi^2_{k-1;\alpha}\}.\] En la expresión anterior, el numerador de \(\lambda_n\) es \[p_{10}^{O_1}\ldots p_{k0}^{O_k},\] siendo \(O_j=\#\{i:x_i=a_j\}\) la frecuencia observada del valor \(a_j\) [nótese que, bajo \(H_0\), el vector de frecuencias observadas \((O_1,\ldots,O_k)\) tiene distribución multinomial \({\mathcal M}(n;p_{10},\ldots,p_{k0})\)]. El denominador de \(\lambda_n\) es \[\left( \frac{O_1}{n}\right)^{O_1}\ldots \left(\frac{O_k}{n}\right)^{O_k}.\]

Sustituyendo en \(\lambda_n\) es inmediato ver que el estadístico de contraste se puede expresar en la forma \[-2\log \lambda_n=2\sum_{j=1}^k O_j \log\left(\frac{O_j}{E_j}\right),\] donde \(E_j=np_{j0}\), \(j=1,\ldots,k\) son las frecuencias esperadas (bajo \(H_0\)) de los distintos valores de la variable en una muestra de tamaño \(n\).

Un ejemplo clásico: el experimento de Mendel

En el famoso experimento de Mendel se cruzaron plantas de guisantes con fenotipo rugoso-amarillo con otras de fenotipo liso-verde. En la segunda generación se podían observar cuatro fenotipos (liso-amarillo, rugoso-amarillo, liso-verde, rugoso-verde) cuyas respectivas probabilidades, según la teoría de la herencia mendeliana, debían ser \[p_{10}=\frac{9}{16},\ \ p_{20}= \frac{3}{16},\ \ p_{30}= \frac{3}{16},\ \ p_{40}= \frac{1}{16}.\] Observados \(n=556\) guisantes en la segunda generación del experimento se obtuvieron los siguientes números de guisantes con estos fenotipos: \[O_1=315,\ \ O_2=101,\ \ O_3=108,\ \ O_4=32.\] ¿Proporcionan estos resultados alguna evidencia en contra de la teoría mendeliana?

Aplicamos el test para contrastar \(H_0: p_1=\frac{9}{16},\ldots,p_4=\frac{1}{16}\): \[E_1=556\cdot \frac{9}{16}=312.75,\ E_2=E_3=556\cdot\frac{3}{16}=104.25,\ E_4=556\cdot\frac{1}{16}=34.75\] En definitiva, el test de cociente de verosimilitudes compara las frecuencias observadas \(O_j\) con las esperadas bajo la nula \(E_j\) y rechaza \(H_0\) cuando hay demasiada diferencia entre ellas. Esto se lleva a cabo formalmente mediante el estadístico \[-2\log\lambda_n = 2\sum_{i=1}^k O_i \log \left( \frac{O_i}{E_i} \right) = 0.4754.\] El p-valor (calculado a partir de la distribución \(\chi^2_3\)) es aproximadamente:

1 - pchisq(0.4754, 3)
#> [1] 0.9242617

Por lo tanto, no hay evidencia estadística en contra de \(H_0\).

Hay una controversia clásica en la historia de la ciencia en el sentido de que los resultados de Mendel eran demasiado buenos, es decir, había demasiada concordancia entre las \(O_j\) y las \(E_j\) (por ejemplo, Fisher era de esta opinión según su artículo de 1936 Has Mendel’s work been rediscovered? publicado en The Annals of Science).

Se ha sugerido que este supuesto exceso de concordancia podría deberse a un sesgo de repetición (confirmation bias) producido por la repetición de los resultados hasta que las \(O_j\) concordasen fuertemente con las \(E_j\). También se ha conjeturado que algún ayudante de Mendel pudo actuar con exceso de celo manipulando los resultados. En todo caso, las ideas básicas de Mendel eran acertadas y han tenido una influencia decisiva en biología.

5.5 Contrastes uniformemente más potentes y lema de Neyman-Pearson

Existe una teoría clásica sobre optimalidad de contrastes. Sin entrar aquí en detalles vamos a mencionar algunas definiciones y resultados básicos.

Contrastes consistentes

Se dice que una sucesión de contrastes con un nivel prefijado \(\alpha\) y con funciones de potencia \(\beta_n\) es consistente cuando \[\lim_{n\to\infty}\beta_n(\theta)=1,\ \mbox{para todo}\ \ \theta\in\Theta_1=\Theta\setminus\Theta_0.\] Esto significa que bajo cualquier situación en la que la hipótesis alternativa sea cierta, la probabilidad de rechazar \(H_0\) tiende a uno a medida que el número de datos crece. Eventualmente, somos capaces de detectar con probabilidad arbitrariamente alta cualquier desviación de la hipótesis nula.

Contrastes uniformemente más potentes (UMP)

Se dice que un contraste con función de potencia \(\beta^*\) es uniformemente más potente (UMP) a nivel \(\alpha\) dentro de una clase \({\cal B}_{\alpha}\) de contrastes de nivel menor o igual que \(\alpha\) cuando el propio \(\beta^*\) tiene nivel \(\alpha\) y, además, \[\beta^*(\theta)\geq \beta(\theta),\ \mbox{para todo}\ \ \theta\in\Theta_1,\] siendo \(\beta\) la función de potencia de cualquier otro test de la clase \({\cal B}_{\alpha}\).

Hay muchas situaciones en las que el contraste UMP no existe a menos que nos restrinjamos al conjunto de contrastes insesgados. Definimos este concepto a continuación.

Contrastes insesgados

Se dice que un contraste con función de potencia \(\beta\) es insesgado cuando \[\beta(\theta) \leq \alpha \ \mbox{para todo}\ \ \theta\in\Theta_0 \quad \mbox{y} \quad \beta(\theta) \geq \alpha \ \mbox{para todo}\ \ \theta\in\Theta_1.\] Es decir, un contraste es insesgado cuando la probabilidad de rechazar siempre es mayor bajo la alternativa que bajo la nula. Si pedimos que los contrastes cumplan esta condición evitamos comparar la potencia de contrastes para hipótesis unilaterales con la de contrastes para hipótesis bilaterales, por ejemplo, a la hora de identificar el más potente. Típicamente, un contraste para hipótesis unilaterales no será insesgado si la hipótesis es bilateral.

El siguiente resultado clásico asegura que para contrastar una hipótesis simple frente a una alternativa simple, lo mejor que podemos hacer (el test UMP) es comparar las verosimilitudes bajo las hipótesis nula y alternativa calculando su ratio. Denotemos \(g(x_1,\ldots,x_n;\theta)\) a la función conjunta de la muestra \({\mathbf x}=(x_1,\ldots,x_n)\). Si las observaciones son i.i.d. con densidad \(f(\cdot,\theta)\) tendremos que \(g({\mathbf x})=\prod_{i=1}^n f(x_i;\theta)\), pero esto no es necesario para el resultado que vamos a a estudiar.

Teorema 5.3 (Lema de Neyman-Pearson) Se considera el problema de hipótesis nula y alternativa simples \[H_0: \theta=\theta_0\ \ \mbox{frente a}\ \ H_1:\theta=\theta_1.\] Dado \(\alpha\in(0,1)\), supongamos que la región \[R^*= \left\{ (x_1,\ldots,x_n):\ \frac{g(x_1,\ldots,x_n;\theta_1)}{g(x_1,\ldots,x_n;\theta_0)}> k \right\}\] verifica \(\mbox{P}_{\theta_0}(R^*)=\alpha\). Entonces \[\mbox{P}_{\theta_1}(R^*)\geq \mbox{P}_{\theta_1}(R),\] donde \(R\) es la región crítica de cualquier otro contraste tal que \(\mbox{P}_{\theta_0}(R)\leq\alpha\). En otras palabras, \(R^*\) es el test UMP de nivel \(\alpha\) para el problema considerado.

Prueba. Dado que \(\mbox{P}_{\theta_1}(R^*) = \mbox{P}_{\theta_1}(R^*\cap R^c)+\mbox{P}_{\theta_1}(R^*\cap R)\) y \(\mbox{P}_{\theta_1}(R) = \mbox{P}_{\theta_1}(R\cap R^{*c})+\mbox{P}_{\theta_1}(R\cap R^{*})\), tenemos \[\mbox{P}_{\theta_1}(R^*)-\mbox{P}_{\theta_1}(R)=\int_{R^*\cap R^c}g({\mathbf x};\theta_1)d{\mathbf x}-\int_{R^{*c}\cap R}g({\mathbf x};\theta_1)d{\mathbf x},\] pero, por definición de \(R^*\), \[\int_{R^*\cap R^c}g({\mathbf x};\theta_1)d{\mathbf x}\geq k\int_{R^*\cap R^c}g({\mathbf x};\theta_0)d{\mathbf x}\] y también \[\int_{R^{*c}\cap R}g({\mathbf x};\theta_1)d{\mathbf x}\leq k\int_{R^{*c}\cap R}g({\mathbf x};\theta_0)d{\mathbf x}.\]

Por lo tanto \[\begin{eqnarray*}&&\mbox{P}_{\theta_1}(R^*)-\mbox{P}_{\theta_1}(R)\geq k\left[\int_{R^*\cap R^c}g({\mathbf x};\theta_0)d{\mathbf x}-\int_{R^{*c}\cap R}g({\mathbf x};\theta_0)d{\mathbf x}\right]\\&&=k\left[\mbox{P}_{\theta_0}(R^*)-\mbox{P}_{\theta_0}(R)\right]\geq 0.\hspace{6 cm}\end{eqnarray*}\]

Ejemplo

Sean \(X_1,\ldots,X_n\) v.a.i.i.d. de una población \(\mbox{N}(\mu,1)\). Usa el lema de Neyman-Pearson para determinar el contraste uniformemente más potente para \(H_0:\mu = \mu_0\) frente a \(H_1:\, \mu=\mu_1\).

5.6 Contrastes desde el punto de vista bayesiano

Se desea contrastar \[H_0:\theta\in\Theta_0\ \ \mbox{frente a}\ \ H_1:\theta\in \Theta\setminus\Theta_0.\] Como siempre, la información procede de una muestra \(x_1,\ldots,x_n\).

El elemento fundamental en la inferencia bayesiana es siempre la distribución a posteriori. A partir de ella se pueden calcular las probabilidades a posteriori de ambas hipótesis

\[\mbox{P}\{\theta\in\Theta_0|x_1,\ldots,x_n\}=\pi(H_0|x_1,\ldots,x_n)=\int_{\Theta_0}\pi(\theta|x_1,\ldots,x_n)d\theta\] y \[\mbox{P} \{ \theta\in\Theta_1 | x_1,\ldots,x_n\}=\pi(H_1|x_1,\ldots,x_n)=1-\pi(H_0|x_1,\ldots,x_n),\]

y entonces decidir dependiendo de sus valores. Típicamente se optará por \(H_1\) cuando \[\pi(H_1|x_1,\ldots,x_n)\geq \beta,\] donde \(\beta\in(0,1)\) es un valor que se fija dependiendo de la gravedad que se atribuya al error de tipo I (rechazar \(H_0\) cuando es cierta).

5.7 Ejercicios

Ejercicio 5.1 Un fabricante de barras de cierto material afirma que más del 55% de las barras pueden resistir al menos 230 unidades de presión. En un experimento con 20 barras, se obtuvieron resistencias máximas a las siguientes presiones:

resistencias <- c(230.0004, 234.2818, 230.4031, 226.2253, 231.1844,
  226.8214, 238.9564, 236.7709, 227.0411, 233.1481,
  240.9500, 237.3096, 235.6890, 215.2487, 244.4351,
  211.2601, 235.7786, 227.4435, 227.6600, 226.4903)
  1. Suponiendo que las resistencias siguen una distribución normal, calcula un intervalo de confianza de nivel \(0.95\) para la resistencia media.
  2. Contrasta, con un nivel de significación \(0.1\) si los datos disponibles aportan evidencia de que la afirmación del fabricante es cierta.

Ejercicio 5.2 Tomamos una muestra \(X_1,\ldots X_{100}\) de tamaño \(n=100\) de una v.a. \(X\) con distribución de Bernoulli de parámetro \(p\). Consideramos el contraste de hipótesis que rechaza \(H_0:p=0.5\) en favor de \(H_1:p\neq 0.5\) en la región crítica \(R=\{|\hat{p}-0.5|>0.1\}\), donde \(\hat{p}=\sum_{i=1}^n X_i / n\).

  1. Determina el tamaño (o nivel de significación) aproximado del test.
  2. Calcula la potencia aproximada del test cuando \(p=0.6\).

Ejercicio 5.3 Sean \(X_1,\ldots,X_n\) v.a.i.i.d. cuya distribución \(F_\theta\) es tal que \(F_\theta(x)=F(x-\theta)\), donde \(F\) es continua, estrictamente creciente y \(F(0)=1/2\) (es decir, \(F\) tiene mediana 0 y \(\theta\) es la mediana de \(F_\theta\)). Queremos contrastar \(H_0:\, \theta\leq 0\) frente a \(H_1:\theta> 0\). Para ello utilizamos el contraste definido por la región crítica \(R=\{ T_n > c\}\), donde \(T_n = \#\{i:\, X_i>0\}\) es el número de observaciones positivas en la muestra.

  1. ¿Cuál es la distribución de \(T_n\)? ¿Cuánto valen, en función de \(\theta\), \(\mbox{E}(T_n)\) y \(\mbox{Var}(T_n)\)?
  2. Determina cuánto debe valer el valor crítico \(c\) para que el contraste tenga nivel de significación aproximado \(\alpha\).
  3. Supongamos que la muestra es de tamaño \(n=36\) y procede de una distribución normal de media \(\theta\) y varianza 1. Calcula la función de potencia aproximada del contraste anterior si \(\alpha=0.05\).

5.8 Referencias

Dos buenas referencias para alcanzar una idea intuitiva de los conceptos básicos de los contrastes son Dekking et al. (2005) y Thijssen (2016). Ambos libros incluyen ejemplos de aplicación de los contrastes más importantes.
Más detalles sobre el contraste de razón de verosimilitudes y su comportamiento asintótico se pueden consultar en Casella y Berger (2001) y en Knight (1999).

  • Casella, G., y Berger, R. L. (2001). Statistical inference, second edition. Cengage Learning.
  • Dekking, F. M., Kraaikamp, C., Lopuhaä, H. P. y Meester, L. E. (2005). A Modern Introduction to Probability and Statistics: Understanding why and how. Springer.
  • Knight, K. (1999). Mathematical statistics. CRC Press.
  • Thijssen, J. (2016). A Concise Introduction to Statistical Inference. Chapman and Hall/CRC.