6 Bootstrap

6.1 Bootstrap y el principio de sustitución (plug-in)

El bootstrap es un método muy versátil para aproximar la distribución en el muestreo de un estadístico, y en particular calcular el error típico de un estimador. Bradley Efron lo introdujo en 1979. La potencia del método procede de combinar técnicas de simulación con el principio de sustitución o plug-in. Este principio es muy simple, consiste en reemplazar la verdadera distribución de los datos por la distribución empírica muestral para estimar cualquier cantidad que dependa de $F$ . Por ejemplo, en la media $μ$ de una distribución $F$ se puede escribir $μ = h (F)$ , donde $h (F) = \int x d F (x)$ . Si no conocemos $F$ pero tenemos una muestra de v.a.i.i.d. de $F$ , $X_{1}, \dots, X_{n}$ , la aplicación del principio de sustitución lleva entonces al estimador $\hat{μ} = \int x d F_{n} (x) = \frac{1}{n} \sum_{i = 1}^{n} X_{i} = \bar{X} .$ En la última ecuación hemos usado que la función de distribución empírica es la distribución discreta que asigna probabilidad $1 / n$ a cada dato muestral $X_{i}$ .

La palabra bootstrap alude a una de las aventuras del Barón de Münchausen, escritas en el siglo XVIII por R. E. Raspe, según la cual el Barón cayó a las aguas de un profundo lago y consiguió salir tirando de los cordones de sus botas (de donde procede la expresión en inglés to pull oneself up by one’s own bootstrap) o de su coleta en otras versiones.

Figura 6.1: El barón saliendo del lago. (Foto: Axel Hindemith / Licencia: Creative Commons CC-by-sa-3.0)

Vamos a aplicar ahora el principio de sustitución de forma más ambiciosa, con el objetivo de estimar la distribución de un estadístico de la forma $T (X_{1}, \dots, X_{n}; F) = \sqrt{n} (\hat{θ} - θ)$ . Matemáticamente, podemos denotar $H_{n}$ a la función de distribución correspondiente: $H_{n} (x) = P_{F} (T (X_{1}, \dots, X_{n}; F) \leq x),$ donde la notación $P_{F}$ indica que la probabilidad se calcula suponiendo que las v.a. $X_{i}$ tienen distribución $F$ .

Como hemos dicho, el bootstrap esencialmente consiste en sustituir $F$ por $F_{n}$ , con lo que resulta el estimador bootstrap ideal. La aplicación de esta sustitución lleva al estimador ${\hat{H}}_{n} (x) = P_{F_{n}} (T (X_{1}^{*}, \dots, X_{n}^{*}; F_{n}) \leq x) .$ En la expresión anterior la distribución de las variables con asterisco es la empírica, no la verdadera. La notación es bastante habitual.

En la práctica, es necesario poder calcular ${\hat{H}}_{n} (x)$ de forma efectiva. Obtener una expresión cerrada suele ser imposible en general, pero al sustituir $F$ por $F_{n}$ pasamos del duro mundo real, en el que disponemos de una única muestra de tamaño $n$ , al mundo bootstrap en el que la distribución de la que proceden los datos es totalmente conocida (la función de distribución empírica), por lo que podemos obtener tantas réplicas de $T (X_{1}^{*}, \dots, X_{n}^{*}; F_{n})$ como nuestra capacidad de cálculo permita. Podemos por tanto obtener muestras bootstrap o remuestras $X_{1}^{* b}, \dots, X_{n}^{* b}$ de $F_{n}$ , donde $b = 1, \dots, B$ y $B$ es un número grande pero factible ( $B \approx 1000$ suele bastar). Para ello, basta con muestrear con reemplazamiento entre los datos originales. Para cada una de estas muestras artificiales podemos calcular el estadístico de interés $T^{* (b)} = T^{*} (X_{1}^{* b}, \dots, X_{n}^{* b}; F_{n})$ . El valor de ${\hat{H}}_{n} (x)$ se puede entonces aproximar de la siguiente forma: ${\hat{H}}_{n} (x) \approx \frac{1}{B} \sum_{b = 1}^{B} I_{{T^{* (b)} \leq x}} .$

En resumen, el procedimiento a seguir es:

Se estima $F$ mediante $F_{n}$ . (Principio de sustitución o plug-in.)
Se obtienen $B$ muestras bootstrap $X_{1}^{* b}, \dots, X_{n}^{* b}$ ( $b = 1, \dots, B$ ) procedentes de la distribución $F_{n}$ , sorteando con reemplazamiento entre los datos originales $X_{1}, \dots, X_{n}$ .
Se calcula $T^{* (b)} = T^{*} (X_{1}^{* b}, \dots, X_{n}^{* b}; F_{n})$ ( $b = 1, \dots, B$ ) para cada una de las muestras bootstrap.
Para cada $x$ fijo se calcula la proporción ${\tilde{H}}_{B} (x) = B^{- 1} \sum_{b = 1}^{B} I_{{T^{* (b)} \leq x}}$ .

El proceso anterior implica dos aproximaciones diferentes: $\begin{matrix} (6.1) & H_{n} (x) \approx {\hat{H}}_{n} (x) \approx {\tilde{H}}_{B} (x) . \end{matrix}$ La ley fuerte de los grandes números (aplicada a observaciones de la distribución $F_{n}$ ) garantiza que si $B \to \infty$ el último término converge al segundo. En esta aproximación todo ocurre dentro del mundo bootstrap. Sin embargo, la aproximación entre los dos primeros términos cuando $n \to \infty$ requiere trabajo teórico adicional. Es lo que se llama establecer la consistencia del bootstrap. En términos más intuitivos, hay que demostrar que al aumentar el tamaño muestral el mundo bootstrap se parece lo suficiente al mundo real. Dado que el teorema de Glivenko-Cantelli garantiza la convergencia uniforme de $F_{n}$ a $F$ con probabilidad uno, hay esperanzas fundadadas de que el bootstrap sea consistente.

El mismo algoritmo sirve esencialmente para estimar cualquier aspecto de la distribución, en lugar de la función de distribución completa. Por ejemplo, muchas veces lo que interesa es estimar la varianza o la desviación típica de un estimador $\hat{θ}$ , es decir, determinar su error típico. En este caso el estimador bootstrap ideal de la varianza de $\hat{θ}$ es ${Var}_{F_{n}} ({\hat{θ}}^{*})$ . En la práctica usaremos la correspondiente aproximación basada en $B$ remuestras: ${Var}_{F_{n}} ({\hat{θ}}^{*}) \approx \frac{1}{B - 1} \sum_{j = 1}^{B} ({\hat{θ}}_{j}^{*} - {\bar{θ}}^{*})^{2},$ donde ${\hat{θ}}_{j}^{*}$ es el valor del estimador para la remuestra $j$ , y ${\bar{θ}}^{*} = B^{- 1} \sum_{j = 1}^{B} {\hat{θ}}_{j}^{*}$ es el promedio de todas las versiones bootstrap.

Ejemplo: el error típico de la mediana para datos de la distribución de Cauchy

Supongamos que $X_{1}, \dots, X_{n}$ son v.a.i.i.d. de una distribución de Cauchy centrada en $θ$ y con parámetro de escala igual a uno. La función de densidad es $f (x) = \frac{1}{π} \frac{1}{1 + (x - θ)^{2}}, x \in R .$ La esperanza de esta distribución no existe por lo que para estimar $θ$ es razonable el uso de la mediana. ¿Cuál es el error típico de esta mediana? Vamos a comparar distintos métodos de calcularlo en función de la información que suponemos conocida sobre la distribución. En el código siguiente generamos una muestra original de una distribución de Cauchy con $n = 30$ datos, a la que vamos a aplicar los diferentes métodos.

set.seed(100)

# Parámetros
n <- 30
theta <- 1

# Generamos los datos
muestra_original <- rt(n, 1) + theta   # Cauchy con theta = 0 coincide con t Student con 1 gl
mediana_original <- median(muestra_original)

Imaginemos primero que la distribución es conocida completamente (lo que no es muy realista). En este caso la muestra no hace falta para nada. Para aproximar la desviación típica de la mediana bastaría obtener un número grande de muestras de tamaño 30 de la ditribución de Cauchy con $θ = 1$ , calcular la mediana de cada una de ellas, y la desviación típica de todas las medianas.

B <- 1000
muestras <- matrix(rt(n*B, 1) + theta, nrow = n) # cada columna una muestra
medianas <- apply(muestras, 2, median) # calcula la mediana de cada columna
sd(medianas)
#> [1] 0.2799922

En realidad no podemos suponer que conocemos la distribución. En un contexto paramétrico sí podemos suponer que la distribución es de Cauchy, pero que el valor de $θ$ es desconocido. En esta situación podríamos repetir el esquema anterior pero sustituyendo $θ$ por su estimador (la mediana de la muestra original):

B <- 1000
theta_estimado <- median(muestra_original)
muestras <- matrix(rt(n*B, 1) + theta_estimado, nrow = n) # cada columna una muestra
medianas <- apply(muestras, 2, median) # calcula la mediana de cada columna
sd(medianas)
#> [1] 0.2893767

El resultado obtenido es muy similar. A este procedimiento en el que se asume un modelo paramétrico $F = F_{θ}$ y se reemplaza $F$ por $F_{\hat{θ}}$ se le suele llamar bootstrap paramétrico.

Cuando no estamos dispuestos a asumir un modelo paramétrico, aplicamos el principio de sustitución de la forma como hemos descrito anteriormente y en lugar de generar muestras de la distribución de Cauchy, las generamos de la empírica de la muestra original:

# Generamos las remuestras (matriz n x B, cada columna una remuestra)
muestras_bootstrap <- sample(muestra_original, n*B, rep = TRUE)
muestras_bootstrap <- matrix(muestras_bootstrap, nrow = n)

# Medianas de las remuestras
medianas_bootstrap <- apply(muestras_bootstrap, 2, median)

# Estimador bootstrap del error típico de la mediana
sd_mediana <- sd(medianas_bootstrap)
sd_mediana
#> [1] 0.3355713

Vemos que se obtiene 0.336, que no es muy diferente al obtenido en el caso en que se suponía conocida la distribución o la familia paramétrica, solo unas centésimas de diferencia. Esta es la magia del bootstrap. De hecho, una vez que tenemos todas las medianas artificiales podemos usarlas para aproximar la distribución completa de la mediana muestral, no solo su error típico:

# Histograma de las medianas bootstrap
df <- data.frame(medianas_bootstrap = medianas_bootstrap)
ggplot(df) +
  geom_histogram(aes(x = medianas_bootstrap, y = ..density..),
                 bins = 10, fill = 'olivedrab4', col = 'black') +
  geom_vline(xintercept = mediana_original, size = 1.1)

La alternativa clásica al bootstrap es la teoría asintótica. Recordemos que en la sección 2.6.4 demostramos la fórmula (2.1): $\sqrt{n} (M_{n} - θ) \overset{d}{\to} N (0, \frac{1}{4 f (θ)^{2}}) .$

Para la distribución de Cauchy (centrada en $θ$ y con parámetro de escala igual a 1) tenemos $f (θ) = 1 / π$ . Aplicando la fórmula, podemos aproximar la desviación típica de la mediana muestral mediante $0.5 π / \sqrt{n} \approx 0.29$ , para $n = 30$ . Este valor tampoco está lejos del obtenido mediante bootstrap (0.336), y es prácticamente idéntico al del bootstrap paramétrico. Al igual que este último, también hace uso de la hipótesis paramétrica de que los datos proceden de una distribución de Cauchy pero no usa el valor de $θ$ . Como curiosidad, en este caso se conoce una expresión exacta de la desviación típica de la mediana y se puede aproximar numéricamente por 0.37 (DasGupta (2008) pag. 473).

Superponemos a continuación, la distribución normal aproximada al histograma de medianas bootstrap que habíamos obtenido:

df <- data.frame(medianas_bootstrap = medianas_bootstrap)
ggplot(df) +
  geom_histogram(aes(x = medianas_bootstrap, y = ..density..),
                 bins = 10, fill = 'olivedrab4', col = 'black') +
  geom_vline(xintercept = mediana_original, size = 1.1) +
  geom_function(fun = dnorm,
                args = list(mean = mediana_original, sd = .5*pi/sqrt(n)),
                linetype = 2, size = 1.1)

Este gráfico motiva una reflexión sobre el papel desempeñado por las matemáticas en la inferencia estadística. Su papel clásico era el de proporcionar aproximaciones (TCL) o fórmulas cerradas que hicieran posibles los cálculos. En la actualidad estas aproximaciones son menos necesarias ya que como vemos se pueden sustituir por cálculos intensivos. No obstante, el papel de las matemáticas sigue siendo fundamental para interpretar los resultados, descubrir nuevos métodos y establecer las condiciones bajo las que los métodos funcionan. Por ejemplo, ¿es el bootstrap consistente en este caso? ¿Podemos demostrar que, en algún sentido, la diferencia entre el histograma y la distribución asintótica converge a cero al aumentar el tamaño muestral?

6.2 Consistencia

6.2.1 ¿Qué significa que el bootstrap es consistente?

Como muestra el ejemplo anterior, el bootstrap nos ha permitido reemplazar un TCL para la mediana, que no es trivial de obtener, por cálculos llevados a cabo con el ordenador. Sin embargo, garantizar la validez asintótica del procedimiento no es siempre fácil.

Recordemos que en general queremos garantizar que la primera aproximación de la ecuación (6.1) se cumple para $n$ grande. Una manera de formalizar esta propiedad es considerar alguna distancia entre distribuciones.

Dada una distancia entre distribuciones de probabilidad $ρ$ , se dice que el bootstrap es fuertemente consistente si $ρ (H_{n}, {\hat{H}}_{n}) \to 0$ con probabilidad 1, si $n \to \infty$ . Es débilmente consistente si $ρ (H_{n}, {\hat{H}}_{n}) \overset{p}{\to} 0$ . En los primeros artículos que incluyeron este tipo de resultados se consideraron la distancia de Kolmogorov $ρ (F, G) = ∥ F - G ∥_{\infty} = sup_{x} | F (x) - G (x) |$ y la llamada distancia de Mallows.

Uno de los primeros resultados de validez asintótica del bootstrap se refiere a la estimación de la distribución de la media muestral. Se puede encontrar en (Singh, 1981). y lo enunciamos aquí sin demostración:

Teorema 6.1 Supongamos $E_{F} (X^{2}) < \infty$ y denotemos $μ = E_{F} (X)$ , $H_{n} (x) = P_{F} (\sqrt{n} (\bar{X} - μ) \leq x)$ y ${\hat{H}}_{n} (x) = P_{F_{n}} (\sqrt{n} ({\bar{X}}^{*} - \bar{X}) \leq x)$ . Entonces $∥ H_{n} - {\hat{H}}_{n} ∥_{\infty} \to 0$ , con probabilidad 1.

Resultados muy generales de validez del bootstrap para la mediana se pueden encontrar en Ghosh et al (1984). Enunciamos aquí uno de ellos:

Teorema 6.2 Sea $X_{1} \dots, X_{n}$ una muestra de v.a.i.i.d. de una distribución $F$ tal que $E_{F} | X |^{α} < \infty$ , para algún $α > 0$ . Supongamos que $F$ tiene una única mediana poblacional $θ$ y una función de densidad $f$ continua en un entorno de $θ$ tal que $f (θ) > 0$ . Entonces ${Var}_{F_{n}} (\sqrt{n} (M_{n}^{*} - M_{n})) \overset{c.s.}{\to} \frac{1}{4 f (θ)^{2}} .$

Según el resultado anterior, el estimador bootstrap de la varianza converge con probabilidad uno al valor que obtendríamos usando la distribución asintótica, pero el bootstrap no requiere conocer la función de densidad $f$ .

La distribución de Cauchy verifica la condición del teorema ya que si $α \in (0, 1)$ y $X$ tiene distribución de Cauchy con parámetro de escala uno, entonces $E (| X - θ |^{α}) = 1 / \cos (π α / 2) < \infty$ . Por lo tanto, el teorema anterior justifica los resultados numéricos que obtuvimos en el ejemplo de la sección anterior sobre la distribución de Cauchy.

6.2.2 ¿Cuándo falla el bootstrap?

El método bootstrap no siempre es consistente. La situación típica en la que falla es aquella en la que el estadístico $T (X_{1}, \dots, X_{n}; F)$ no admite un teorema central del límite. Por ejemplo,

$T (X_{1}, \dots, X_{n}; F) = \sqrt{n} (\bar{X} - μ)$ , pero $Var (X) = \infty$ , por lo que no podemos usar el TCL.
$T (X_{1}, \dots, X_{n}; F) = \sqrt{n} (g (\bar{X}) - g (μ))$ , pero $g$ no es derivable en $μ$ , con lo que no es aplicable el método delta.
$T (X_{1}, \dots, X_{n}; F) = \sqrt{n} (F_{n}^{- 1} (p) - F^{- 1} (p))$ , pero $f (F^{- 1} (p)) = 0$ , y no se aplican los resultados asintóticos disponibles para estadísticos de orden.
La distribución de los datos es $F_{θ}$ y el soporte de $F_{θ}$ depende del parámetro.

Vamos a ver un ejemplo de esta última situación. Sean $X_{1}, \dots, X_{n}$ v.a.i.i.d. de una distribución uniforme en el intervalo $(0, θ)$ . El estimador de máxima verosimilitud de $θ$ es $\hat{θ} = X_{(n)}$ , el máximo de las observaciones $X_{1}, \dots, X_{n}$ . Consideramos la distribución asintótica de $T_{n} = n (θ - X_{(n)})$ . Si $x \geq 0$ y $n$ sufientemente grande de manera que $x / n < θ$ , $P_{F} (T_{n} \leq x) = 1 - P_{F} (X_{(n)} \leq θ - x / n) = 1 - {(\frac{θ - x / n}{θ})}^{n} \to 1 - e^{- x / θ},$ si $n \to \infty$ . Supongamos que $θ = 1$ y, por lo tanto, $T_{n} \overset{d}{\to} exp (1)$ . Consideremos ahora la versión bootstrap $T_{n}^{*} = n (X_{(n)} - X_{(n)}^{*})$ . Para $x \geq 0$ se verifica
$P_{F_{n}} (T_{n}^{*} \leq x) \geq P_{F_{n}} (T_{n}^{*} = 0) = P_{F_{n}} (X_{(n)}^{*} = X_{(n)}) = 1 - {(\frac{n - 1}{n})}^{n} \to 1 - e^{- 1} .$ Podemos tomar, por ejemplo, $x = 0.001$ para comprobar que $P_{F} (T_{n} \leq x)$ y $P_{F_{n}} (T_{n}^{*} \leq x)$ no pueden tener el mismo límite.

6.3 Intervalos de confianza bootstrap

Una vez que hemos estimado la distribución en el muestreo de $\sqrt{n} (\hat{θ} - θ)$ , podemos usar la estimación para deducir intervalos de confianza para $θ$ . Existe una literatura muy amplia sobre el cálculo de intervalos de confianza mediante bootstrap. Aquí vamos a revisar brevemente algunos de los métodos más conocidos.

6.3.1 Método basado en la aproximación normal

Este es el método más sencillo de usar bootstrap para calcular un intervalo de confianza. Si la distribución de $\hat{θ}$ es aproximadamente normal con media $θ$ y desviación típica desconocida, basta usar el error típico bootstrap del estimador en la fórmula habitual del intervalo: ${IC}_{1 - α} (θ) = [\hat{θ} \mp z_{α / 2} {et}_{b o o t} (\hat{θ})],$ donde ${et}_{b o o t} (\hat{θ})$ es un estimador bootstrap de la desviación típica (error típico bootstrap) de $\hat{θ}$ .

Ejemplo: distribución de Cauchy (continuación)

En el caso de la muestra de una distribución de Cauchy, cuyo error típico calculamos con bootstrap en un ejemplo anterior, este intervalo quedaría de la siguiente manera:

alfa <- 0.05
z <- qnorm(1 - alfa/2)
c(mediana_original - z*sd_mediana, mediana_original + z*sd_mediana)
#> [1] 0.4382376 1.7536529

Dado que sabemos que el valor del parámetro es $θ = 1$ , en este caso el intervalo contiene al parámetro. Si repetimos todo el procedimiento muchas veces para muestras independientes, aproximadamente el 95% de ellas acabaremos obteniendo un intervalo que contiene a $θ$ .

6.3.2 Remuestreo de una cantidad pivotal

Si la distribución de $\sqrt{n} (\hat{θ} - θ)$ , que estamos denotando por $H_{n} (x)$ , fuese totalmente conocida, entonces se podría obtener un intervalo de confianza para $θ$ de nivel exacto $1 - α$ despejando $θ$ en la ecuación siguiente: $1 - α = P_{F} {H_{n}^{- 1} (α / 2) \leq \sqrt{n} (\hat{θ} - θ) \leq H_{n}^{- 1} (1 - α / 2)} .$ El intervalo de confianza correspondiente es $(\hat{θ} - n^{- 1 / 2} H_{n}^{- 1} (1 - α / 2), \hat{θ} - n^{- 1 / 2} H_{n}^{- 1} (α / 2)) .$ Dado que $H_{n}$ no es conocida, resulta natural reemplazarla por el estimador bootstrap ${\hat{H}}_{n}$ . En la práctica, esto requiere aplicar el siguiente procedimiento

Ordenar todos los valores simulados $\sqrt{n} ({\hat{θ}}^{* b} - \hat{θ})$
Seleccionar los percentiles que dejan una proporción de valores $α / 2$ a su izquierda y a su derecha
Utilizar estos valores en la fórmula anterior en el lugar de $H_{n}^{- 1} (α / 2)$ y $H_{n}^{- 1} (1 - α / 2)$ , respectivamente.

En algunos libros a este método se le llama método bootstrap híbrido.

Ejemplo: distribución de Cauchy (continuación)

En el siguiente ejemplo se aplica el método bootstrap híbrido para calcular un intervalo de confianza (nivel de confianza nominal $1 - α = 0.95$ ) para la mediana de una distribución de Cauchy. Se replica el procedimiento $m = 100$ muestras de tamaño $n = 30$ y se determina el número de ellas en las que el intervalo contiene al verdadero valor del parámetro:

set.seed(100)

# Parámetros
R <- 1000
n <- 30
theta <- 1
m <- 100
alfa <- 0.05

# Cálculo de los intervalos
acierto <- NULL
intervalo <- NULL
for (i in 1:m){
  muestra_original <- rt(n, 1) + theta   
  mediana_original <- median(muestra_original)
  
  muestras_bootstrap <- sample(muestra_original, n*R, rep = TRUE)
  muestras_bootstrap <- matrix(muestras_bootstrap, nrow = n)
  medianas_bootstrap <- apply(muestras_bootstrap, 2, median)
  T_bootstrap <- sqrt(n) * (medianas_bootstrap - mediana_original)
  ic_min <- mediana_original -  quantile(T_bootstrap, 1-alfa/2)/sqrt(n)
  ic_max  <- mediana_original -  quantile(T_bootstrap, alfa/2)/sqrt(n)
  intervalo <- rbind(intervalo, c(ic_min, ic_max))
  acierto <- c(acierto, ic_min < theta & ic_max > theta)
}

# Gráfico
df <- data.frame(ic_min <- intervalo[,1],
                 ic_max <- intervalo[, 2],
                 ind = 1:m,
                 acierto = acierto)
ggplot(df) +
  geom_linerange(aes(xmin = ic_min, xmax = ic_max, y = ind, col = acierto)) +
  scale_color_hue(labels = c("NO", "SÍ")) +
  geom_vline(aes(xintercept = theta), linetype = 2) +
  theme_bw() +
  labs(y = 'Muestras', x = 'Intervalos (nivel 0.95)',
       title = 'IC (método bootstrap híbrido)')

En el gráfico anterior, se han representado gráficamente los intervalos obtenidos. Se usa el color rojizo en el caso de que el intervalo no contiene al parámetro. Esto ha ocurrido en 8 de los 100 intervalos (el nivel teórico es del 5 %).

Existen otros métodos más refinados para obtener intervalos de confianza mediante bootstrap. Una alternativa es basar el intervalo bootstrap en el remuestreo de una versión estudentizada del tipo $(\hat{θ} - θ) / {\hat{σ}}_{n}$ , donde ${\hat{σ}}_{n}$ es un estimador de la desviación típica de $\hat{θ}$ . Nótese que si se usa bootstrap para obtener este estimador serían necesarios dos niveles de remuestreo.

6.3.3 Método del percentil bootstrap

Este método se basa en usar los percentiles de los valores bootstrap generados del estimador para construir el intervalo. Más concretamente,

Generamos ${\hat{θ}}_{1}^{*}, \dots, {\hat{θ}}_{B}^{*}$
Sea ${\hat{θ}}^{*} (α)$ el percentil $α$ de los valores bootstrap, es decir, el valor tal que $# {b : {\hat{θ}}_{b}^{*} \leq {\hat{θ}}^{*} (α)} / B = α$
El intervalo es $[{\hat{θ}}^{*} (α / 2), {\hat{θ}}^{*} (1 - α / 2)]$

Veamos una situación en la que el uso de este método es conveniente: supongamos que existe una transformación monótona creciente $g$ que normaliza y estabiliza la varianza, es decir, tal que $\hat{ϕ} := g (\hat{θ}) ≅ N (ϕ, c^{2}), ϕ = g (θ), c \in R,$ En este caso, un intervalo de confianza aproximado viene dado por $[g^{- 1} (\hat{ϕ} - c z_{α / 2}), g^{- 1} (\hat{ϕ} + c z_{α / 2})]$ . El método del percentil bootstrap es una aproximación a este intervalo que no requiere conocer ni $g$ ni $c$ .

Supongamos que la transformación $g$ también es efectiva para la versión bootstrap del estimador, esto es, $\begin{matrix} (6.2) & {\hat{ϕ}}^{*} := g ({\hat{θ}}^{*}) ≅ N (\hat{ϕ}, c^{2}), \hat{ϕ} = g (\hat{θ}), c \in R . \end{matrix}$ Si aplicamos el método del percentil bootstrap al parámetro transformado $ϕ$ resulta el intervalo $[g ({\hat{θ}}^{*} (α / 2)), g ({\hat{θ}}^{*} (1 - α / 2))] \approx [\hat{ϕ} - c z_{α / 2}, \hat{ϕ} + c z_{α / 2}] .$ Hemos usado que la transformación $g$ es creciente y la ecuación (6.2). Como consecuencia, $[{\hat{θ}}^{*} (α / 2), {\hat{θ}}^{*} (1 - α / 2)] \approx [g^{- 1} (\hat{ϕ} - c z_{α / 2}), g^{- 1} (\hat{ϕ} + c z_{α / 2})] .$

Ejemplo: un intervalo de confianza para el coeficiente de correlación

Este es un ejemplo clásico, en el sentido de que lo eligió Efron para ilustrar su método. Nosotros lo adaptaremos a un conjunto de datos de notas en 2009 y 2010 de una prueba al final de primaria en más de 1000 colegios de la Comunidad de Madrid. El siguiente código carga todos los datos y selecciona 100 de ellos aleatoriamente:

set.seed(100)
n <- 100

colegios <- read_table("http://verso.mat.uam.es/~joser.berrendero/datos/notas.txt", 
                     locale = locale(decimal_mark = ",")) %>% 
  mutate(tipo = factor(tipo)) %>% 
  slice_sample(n = n)   # selecciona n colegios aleatoriamente

El objetivo es calcular un intervalo de confianza del coeficiente de correlación entre las notas de 2009 y 2010 a partir de los 100 colegios seleccionados. La distribución del coeficiente de correlación muestral es bastante asimétrica, por lo que tradicionalmente la inferencia se basa en la transformación $z$ de Fisher, que normaliza y estabiliza la varianza de la distribución del coeficiente: $\hat{ϕ} = g (\hat{ρ}) = \frac{1}{2} \log \frac{1 + \hat{ρ}}{1 - \hat{ρ}}, ϕ = g (ρ), \hat{ϕ} ≅ N (ϕ, σ^{2} = \frac{1}{n - 3}) .$

La correlación y la correlación transformada para los colegios de la muestra son:

datos_xy <- cbind(colegios$nota09, colegios$nota10)
correlacion <- cor(datos_xy)[1,2]
correlacion_fisherz <- 0.5 * log ((1+correlacion)/(1-correlacion)) 

round(c(correlacion, correlacion_fisherz), 2)
#> [1] 0.56 0.63

A continuación, calculamos un número grande de correlaciones bootstrap y representamos la distribución bootstrap de las correlaciones transformadas junto con la aproximación normal. Con ello comprobamos que la aproximación (6.2) se cumple en este caso, es decir, ${\hat{ϕ}}^{*} ≅ N (\hat{ϕ}, σ^{2} = 1 / (n - 3))$ . La línea roja corresponde a la correlación para la muestra original transformada.

R <- 1000     # número de remuestras

corr_bootstrap <- replicate(R, cor(datos_xy[sample(1:n, n, rep=TRUE),])[1,2])
corr_bootstrap_fisherz <- 0.5*log((1+corr_bootstrap)/(1-corr_bootstrap))

df <- data.frame(corr_bootstrap, corr_bootstrap_fisherz)

ggplot(df) +
  geom_histogram(aes(x=corr_bootstrap_fisherz, y=..density..),
                 fill='olivedrab4',
                 col='black',
                 bins = 20) +
  labs(x = 'Correlaciones bootstrap transformadas', y = NULL) + 
  geom_vline(xintercept = correlacion_fisherz, col = 'red') + 
  geom_function(fun = dnorm,
                args = list(mean=correlacion_fisherz, sd = 1/sqrt(n-3)),
                size = 1.2)

Quizá las colas pesan un poco más de lo que deberían pero vamos a considerar suficiente el grado de aproximación. Según hemos observado, en estas circunstancias el intervalo del percentil bootstrap debería ser similar al intervalo de la transformada $z$ de Fisher. El siguiente código calcula ambos:

alpha <- 0.05  # 1 - nivel de confianza

# IC basado en el percentil bootstrap
round(c(quantile(corr_bootstrap, alpha/2), quantile(corr_bootstrap, 1-alpha/2)), 2)
#>  2.5% 97.5% 
#>  0.37  0.70

# IC basado en la transformación z de Fisher
IC_phi <- c(correlacion_fisherz - qnorm(1-alpha/2)/sqrt(n-3),
            correlacion_fisherz + qnorm(1-alpha/2)/sqrt(n-3))
IC_rho <- (exp(2*IC_phi) - 1) / (exp(2*IC_phi) + 1) 
round(IC_rho, 2)
#> [1] 0.40 0.68

Como vemos, ambos intervalos son similares pero el bootstrap presenta la gran ventaja de que no es necesario conocer la transformada ni el valor de la varianza asintótica. El coeficiente para todos los colegios es igual a 0.53 con lo que los intervalos calculados con la muestra de 100 contienen al “verdadero valor del parámetro”.

6.4 Ejercicios

Ejercicio 6.1 Se extrae una remuestra bootstrap de una muestra de $n$ observaciones $X_{1}, \dots, X_{n}$ .

Calcula la probabilidad de que una observación prefijada, $X_{j}$ , no aparezca en la muestra bootstrap.
Calcula el límite de esta probabilidad si $n \to \infty$ .

Ejercicio 6.2 Sea $X_{1}, \dots, X_{n}$ una muestra de $n$ observaciones i.i.d. de una distribución $F$ con esperanza $μ$ y varianza $σ^{2}$ , y sea $X_{1}^{*}, \dots, X_{n}^{*}$ una muestra de $n$ observaciones i.i.d. de la distribución empírica de la muestra original $F_{n}$ . Calcula las siguientes cantidades:

$E_{F_{n}} ({\bar{X}}_{n}^{*}) := E ({\bar{X}}_{n}^{*} | X_{1}, \dots, X_{n})$
$E_{F} ({\bar{X}}_{n}^{*})$
${Var}_{F_{n}} ({\bar{X}}_{n}^{*}) := Var ({\bar{X}}_{n}^{*} | X_{1}, \dots, X_{n})$
${Var}_{F} ({\bar{X}}_{n}^{*})$

Ejercicio 6.3 Dada una muestra de $n$ datos diferentes, calcula en función de $n$ el número de remuestras bootstrap distintas que es posible obtener.

Aplica la expresión obtenida al caso $n = 15$ . ¿Qué implicación práctica tiene el resultado?

Ejercicio 6.4 Sea $X_{1}, \dots, X_{n}$ una muestra de v.a.i.i.d. con distribución uniforme en el intervalo $(0, θ)$ . Sea $\hat{θ} = max {X_{1}, \dots, X_{n}}$ el estimador de máxima verosimilitud de $θ$ . .Sea $X_{1}^{*}, \dots, X_{n}^{*}$ una muestra de v.a.i.i.d. con distribución uniforme en $(0, \hat{θ})$ y sea ${\hat{θ}}^{*} = max {X_{1}^{*}, \dots, X_{n}^{*}}$ . Demuestra que $n (\hat{θ} - {\hat{θ}}^{*}) \overset{d}{\to} exp (1 / θ)$ c.s.

Este ejercicio muestra la validez asintótica del llamado bootstrap paramétrico para el estimador de máxima verosimilitud, en un caso en el que el bootstrap no paramétrico no funciona.

Ejercicio 6.5 Sean $X_{1} \dots, X_{n}$ v.a.i.i.d. de una distribución $F$ y sean $X_{1 : n} \leq \dots \leq X_{n : n}$ los correspondientes estadísticos de orden. Sea $X_{1}^{*} \dots, X_{n}^{*}$ una remuestra bootstrap y sean $X_{1 : n}^{*} \leq \dots \leq X_{n : n}^{*}$ los correspondientes estadísticos de orden.

Para $i, k \in {1, \dots, n}$ , demuestra que $P_{F_{n}} (X_{k : n}^{*} > X_{i : n}) = \sum_{j = 0}^{k - 1} (\binom{n}{j}) {(\frac{i}{n})}^{j} {(1 - \frac{i}{n})}^{n - j} .$
Como consecuencia, demuestra que $P_{F_{n}} (X_{k : n}^{*} = X_{i : n}) = k (\binom{n}{k}) \int_{(i - 1) / n}^{i / n} t^{k - 1} (1 - t)^{n - k} d t .$ Este ejercicio demuestra que para estimar la varianza y la distribución de los estadísticos de orden mediante bootstrap no es necesario el remuestreo. Esto se aplica en particular a la mediana.

(Indicación: consulta las propiedades de la función beta incompleta y su relación con la función de distribución de una v.a. binomial.)

Ejercicio 6.6 Consideremos la siguiente muestra de tamaño $n = 10$ :

muestra <- c(1, 2, 3.5, 4, 7, 7.3, 8.6, 12.4, 13.8, 18.1)

Sea $\hat{θ}$ la media recortada al 40% que se obtiene al eliminar los dos mayores y los dos menores datos y calcular el promedio de los 6 datos restantes. Sea ${\hat{σ}}_{R}$ el estimador bootstrap de la desviación típica de $\hat{θ}$ basado en $R$ remuestras.

Calcula ${\hat{σ}}_{R}$ para $R = 10$ y para $R = 1000$ usando 10 conjuntos independientes de $R$ remuestras. Comenta los resultados.

Ejercicio 6.7 Para la muestra del ejercicio 6.6 se verifica $S^{2} \approx 30.84$ :

muestra <- c(1, 2, 3.5, 4, 7, 7.3, 8.6, 12.4, 13.8, 18.1)
var(muestra)
#> [1] 30.84233

Usa bootstrap para determinar el error típico de este estimador de $σ^{2}$ .
Compara el resultado con el error típico que darías si, por ejemplo, supieras que los datos proceden de una distribución normal.
Calcula un intervalo de confianza para $σ^{2}$ usando el método bootstrap híbrido. Fija $1 - α = 0.95$ .

Ejercicio 6.8 Sea $F$ una distribución con media $μ$ , varianza $σ^{2}$ y coeficiente de asimetría $γ = E_{F} [(X - μ)^{3}] / σ^{3} .$ Genera $R = 1000$ muestras de observaciones i.i.d. $X_{1}, \dots, X_{n}$ con $X_{i} \equiv N (0, 1)$ para $n = 100$ . Para cada una de ellas, calcula tres intervalos de confianza bootstrap de nivel 95% para $γ$ usando el método híbrido, el método normal y el método percentil. Determina el porcentaje de intervalos que contienen al parámetro en cada caso. Repite el ejercicio con muestras procedentes de una distribución exponencial de parámetro $λ = 1$ .

6.5 Referencias

James et al. (2013) presenta una perspectiva aplicada del bootstrap. Para profundizar en las relaciones del bootstrap con otros métodos se puede consultar Efron y Hastie (2016). DasGupta (2008) contiene un buen resumen de las propiedades de consistencia. En general, la comparación teórica de las propiedades de los intervalos es técnicamente complicada y se basa en desarrollos de Edgeworth. La referencia clásica para este tema es Hall (1992). Una monografía clásica sobre bootstrap es Efron y Tibshirani (1994).

DasGupta, A. (2008). Asymptotic theory of statistics and probability. Springer.
Efron, B. y Hastie, T. (2016). Computer Age Statistical Inference. Cambridge University Press.
Efron, B., y Tibshirani, R.J. (1994). An introduction to the bootstrap. CRC press.
Hall, P. (1992). The bootstrap and Edgeworth expansion. Springer.
James, G., Witten, D., Hastie, T. y Tibshirani, R. (2013). An introduction to statistical learning. Springer.