2  Muestreo aleatorio

Another challenge is to educate the growing community of data scientists on what it takes to “learn” general truths from a series of individual observations. (…) It is important that we effectively share this rich statistical thinking.

Emmanuel Candès y Chiara Sabatti

2.1 Sobre la diferencia entre probabilidad y estadística

Un enunciado típico de un problema de probabilidad podría ser parecido a este:

Se sabe que un medicamento es efectivo (de forma que un paciente que lo ha recibido experimenta una mejoría) con probabilidad 0.75. En un ensayo clínico, se administra el medicamento a 200 pacientes. ¿Cuál es la probabilidad de que mejoren más de 155 pacientes entre los 200?

¿Cuál es el “dato” principal de este problema? La información crucial para responder a la pregunta que se plantea es la frase Se sabe que un medicamento es efectivo con probabilidad 0.75. Sin embargo, no parece que en una situación realista se pueda disponer de tal información. ¿Cómo se puede conocer ese dato tan útil? Solo tras administrar el medicamento a todos los individuos enfermos de una población y comprobar que se ha producido una mejoría en el 75% de los casos.

Desde el punto de vista matemático, lo que estamos suponiendo es que se conoce totalmente la distribución que sigue la variable de interés. Si \(X\) es la variable aleatoria que representa el número de pacientes entre los 200 para los que el medicamento es efectivo, entonces la afirmación se sabe que el medicamento es efectivo en el 75% de los casos equivale a afirmar que la distribución de \(X\) es binomial con \(n = 200\) y \(p = 0,75\). [Notación: \(X \equiv \mbox{B}(200, 0.75)\).] Posteriormente, mediante un proceso deductivo y manejando las propiedades de la distribución binomial, podremos responder a la pregunta de con qué probabilidad mejorarán más de 155 pacientes de los 200 a los que se ha administrado el medicamento. La respuesta del problema se puede obtener de la forma siguiente usando el comando pbinomde R:

1 - pbinom(155, 200, 0.75)
#> [1] 0.1852385

Recordamos que pbinom es una implementación de la función de distribución \(F(x)=\mbox{P}(X\leq x)\) para una variable binomial y que lo que nos piden es calcular \(\mbox{P}(X>155) = 1-F(155)\).

La situación inversa es mucho más realista. Normalmente estamos interesados en conocer el porcentaje de casos en los que un medicamento es efectivo a partir de la información obtenida al administrarlo a un subconjunto de la población de enfermos (la muestra). Este es el tipo de problemas que se trata de resolver en estadística:

En un ensayo clínico, se administra un medicamento a 200 pacientes y se observa que mejoran 150 pacientes. ¿Hay evidencia suficiente para afirmar que el medicamento es efectivo en un porcentaje de casos superior al 75%?

Puesto en términos matematicos, si \(X_i\) es la v.a. que toma el valor \(1\) si el medicamento es efectivo en el paciente \(i\) y \(0\) si no lo es, hemos observado un conjunto de 200 v.a. \(X_1,\ldots,X_{200}\) independientes e idénticamente distribuidas con distribución \(\mbox{B}(1,p)\). Se suelen usar letras mayúsculas para denotar las v.a. y letras minúsculas para las 200 observaciones o realizaciones obtenidas tras realizar el experimento (ceros o unos) \(x_1,\ldots,x_{200}\). Sabiendo que hay 150 unos y 50 ceros, ¿qué podemos decir sobre \(p\)? ¿Podemos afirmar que \(p>0.75\)? Si hacemos una afirmación como esa, ¿cuál es el riesgo de equivocarnos? En este caso, a partir de la información sobre 200 casos particulares, tenemos que obtener información general sobre \(p\), un parámetro que afecta a toda la población. Esto es lo que se llama hacer una inferencia sobre \(p\).

Así pues, mientras que en probabilidad los procesos son deductivos (de lo general a lo particular) el objetivo de la estadística es la inferencia (de lo particular a lo general). En el resto de este tema se introducen algunos de los conceptos básicos de la inferencia a partir de una muestra.

2.2 Distribución en el muestreo

2.2.1 Conceptos básicos

Supondremos que los datos disponibles \(x_1,\ldots, x_n\) se obtienen mediante observaciones reiteradas e independientes de una cierta v.a. \(X\). Se dice entonces que los datos constituyen una muestra (observada) de \(X\).

La muestra observada es una realización de una muestra aleatoria \(X_1,\ldots, X_n\) de \(X\). Desde el punto de vista probabilístico, la muestra está constituida por \(n\) variables aleatorias \(X_1,\ldots, X_n\) independientes e idénticamente distribuidas (iid). La distribución común de estas variables es lo que llamamos la población. Es decir, en estas notas el término población es sinónimo de la distribución de probabilidad que siguen los datos.

Se llaman parámetros poblacionales a las características de interés de la distribución de \(X\) (por ejemplo, \(\mu=\mbox{E}(X)\) o \(\sigma = \sqrt{\mbox{Var}(X)}\)). La notación \(\theta\) es bastante habitual para denotar a un parámetro poblacional genérico. Dado que la población es desconocida, también lo son los parámetros poblacionales.

El conjunto de valores que puede tomar un parámetro se llama espacio paramétrico y se suele denotar por \(\Theta\). Por ejemplo, una población normal \(\mbox{N}(\mu,\sigma^2)\) tiene dos parámetros: la media \(\mu\) y la varianza \(\sigma^2\). El espacio paramétrico de \(\mu\) es \(\mathbb{R}\) y el espacio paramétrico de \(\sigma^2\) es \((0,\infty)\), ya que la varianza tiene que ser estrictamente positiva si excluimos casos degenerados. También podemos decir que el parámetro \(\theta=(\mu,\sigma^2)\) es bidimensional y que el espacio paramétrico es \(\Theta = \mathbb{R}\times (0,\infty)\).

Cualquier función (medible) \(T = T(X_1,\ldots,X_n)\) de la muestra se denomina estadístico. Si un estadístico se calcula con el fin de aproximar un parámetro \(\theta\) se le suele llamar estimador. Es casi universal el uso de la notación \(\hat{\theta} = T(X_1,\ldots,X_n)\) en este caso.

Dado que un estadístico \(T=T(X_1,\ldots,X_n)\) es función de variables aleatorias, el propio \(T\) es también una variable aleatoria cuya distribución se denomina distribución en el muestreo de \(T\). Esta distribución determina los valores que podemos esperar que tome \(T\) si dispusiéramos de muchas muestras de la misma población. Tiene sentido preguntarnos por el valor esperado de estos valores, \(\mbox{E}(T)\), o su dispersión medida a través de, por ejemplo, la varianza \(\mbox{Var}(T)\).

En la figura 2.1 se representa esquemáticamente el significado de la distribución en el muestreo de un estadístico \(T(X_1,\ldots,X_n)\). De la misma población (en azul) es posible extraer muchas muestras diferentes, y para cada una de ellas tendremos un valor posiblemente distinto de \(T\). La distribución de todos estos valores (en rojo) es la distribución en el muestreo de \(T\).

Figura 2.1: Población (en azul) y distribución en el muestreo (en rojo).

Es importante observar que la distribución en el muestreo de un estadístico puede ser completamente distinta a la distribución de la que proceden los datos, la población.

Cuestiones

Si \(\hat{\theta} = T(X_1,\ldots,X_n)\), es decir, el estadístico \(T\) se calcula con el fin de estimar un parámetro \(\theta\). ¿Qué valores de \(\mbox{E}(T)\) y de \(\mbox{Var}(T)\) te parecen más convenientes?


2.2.2 Dos ejemplos sobre la distribución en el muestreo

En esta sección veremos dos ejemplos de cómo se puede obtener información sobre la distribución en el muestreo de un estadístico de interés: la varianza muestral cuando la población es normal y la media muestral cuando la población es exponencial.

La varianza muestral en una población normal

Supongamos que la población de la que proceden los datos es normal con media \(\mu=0\), y que estamos interesados en estimar la varianza poblacional \(\sigma^2\) mediante la varianza muestral \(S^2\) que definimos en el capítulo anterior:

\[ \hat{\sigma}^2 = S^2 = \frac{1}{n-1} \sum_{i=1}^n (X_i-\bar{X})^2. \]

A efectos de la simulación supondremos que \(\sigma=1\). En la práctica este valor será siempre desconocido. Para tener una idea de cómo es la distribución en el muestreo de \(S^2\) generaremos 1000 muestras de tamaño \(n=5\) y otras 1000 de tamaño \(n=20\) y representaremos las distribuciones de los 1000 valores resultantes de \(S^2\) en cada caso (usando estimadores de núcleo). Así obtendremos aproximaciones a la función de densidad de la distribución en el muestreo de \(S^2\).


# Parámetros

set.seed(100)  # reproducir resultados
mu = 0   # media
sigma = 1   # valor verdadero del parámetro
R <- 1000   # número de muestras

# Muestras de 5 datos

n1 <- 5     
varianza_n1 <- replicate(R, var(rnorm(n1, mean = mu, sd = sigma)))

# Muestras de 20 datos

n2 <- 20
varianza_n2 <- replicate(R, var(rnorm(n2, mean = mu, sd = sigma)))

# Ordena los datos

tam_muestral <- gl(2, R, labels = c('n=5', 'n=20'))   # genera el factor de tamaño muestral
datos <- data.frame(varianza = c(varianza_n1, varianza_n2),
                 n = tam_muestral)
# Gráfico

ggplot(datos) +
  geom_density(aes(x = varianza, linetype = n), size = 1.1) +
  geom_vline(xintercept = sigma^2) +    # añade línea vertical
  labs(x = 'Varianzas', y = 'Densidad estimada')

Cuestiones

Compara la situaciones correspondientes a \(n=5\) y \(n=20\).

  1. ¿Cuáles parecen ser los valores de \(\mbox{E}(S^2)\)? ¿Son estos valores aceptables?
  2. ¿Coinciden en ambos casos los valores de \(\mbox{Var}(S^2)\)?
  3. ¿Qué observas en cuanto a la forma de las distribuciones?
  4. Modifica el código de manera que \(\sigma = 2\) y vuelve a responder las preguntas anteriores.
  5. Modifica el código de manera que las muestras procedan de una población exponencial de varianza \(\sigma = 1\) y vuelve a responder las preguntas anteriores.

Podemos comprobar algunas de las respuestas a las cuestiones calculando las medias y las varianzas de los resultados de la simulación:

datos %>% 
  group_by(n) %>% 
  summarise(media = mean(varianza),
            varianza = var(varianza))
#> # A tibble: 2 x 3
#>   n     media varianza
#>   <fct> <dbl>    <dbl>
#> 1 n=5   1.01     0.509
#> 2 n=20  0.992    0.103

La media muestral de datos exponenciales

A veces, si la situación es suficientemente simple, se puede calcular exactamente la distribución en el muestreo de un estadístico. Una herramienta útil para ello es la función característica.

Supongamos, por ejemplo, que la distribución del tiempo de espera en la línea de cajas de un supermercado es exponencial de parámetro \(\lambda\). ¿Cuál es la distribución del promedio de los tiempos de espera de \(n\) clientes? Se supone que los clientes se han seleccionado a la misma hora en días diferentes de manera que sus tiempos de espera se pueden suponer independientes e idénticamente distribuidos.

Si \(X\) es una v.a. exponencial de parámetro \(\lambda\), su función característica es \[\varphi_X(t) = \mbox{E}(e^{itX}) = \left(1- \frac{it}{\lambda} \right)^{-1}.\]

Usando las propiedades de la función característica, \[\varphi_{\bar{X}_n}(t) = \mbox{E}(e^{it\bar{X}_n}) = \mbox{E}(e^{it(X_1+\cdots + X_n)/n}) = \varphi_{X}(t/n)^n = \left(1- \frac{it}{n\lambda} \right)^{-n}.\] Esta última expresión corresponde a la función característica de una v.a. gamma de parámetros \(\alpha = n\) y \(\beta = n\lambda\). Como consecuencia \(\bar{X}_n \equiv \gamma(\alpha = n,\beta = n\lambda)\). Aquí, \(\alpha\) es el parámetro que se suele llamar shape y \(\beta\) es el parámetro que se suele llamar rate. La correspondiente función de densidad es \[f(x)=\frac{\beta^\alpha}{\Gamma(\alpha)}x^{\beta-1}e^{-\beta x},\ \ x>0.\]

El código siguiente corresponde a una comprobación empírica de este resultado. Se superpone el histograma de las medias de \(R\) muestras de tamaño \(n\) de una población exponencial, con la densidad teórica gamma que acabamos de calcular:

# Media de n exponenciales
lambda <- 2
R <- 1000
n <- 5
medias <- replicate(R, mean(rexp(n, rate = lambda)))

datos <- data.frame(medias = medias)
ggplot(datos) +
  geom_histogram(aes(x = medias, y = after_stat(density)),
                 bins = 10,
                 col = 'black',
                 fill = 'olivedrab4') +
  geom_function(fun = dgamma,
                args = list(shape = n, rate = n*lambda),
                size = 1.1)

Vemos que el histograma coincide aproximadamente con la densidad teórica. En el código anterior puedes utilizar distintos tamaños muestrales. Si el tamaño muestral \(n\) es pequeño (por ejemplo, \(n=5\)) la distribución es asimétrica a la derecha y no parece adecuado suponer que sea aproximadamente normal. ¿Qué ocurre a medida que \(n\) aumenta? ¿Cuánto valen \(\mbox{E}(\bar{X}_n)\) y \(\mbox{Var}(\bar{X}_n)\)?

2.2.3 Sesgo y varianza de un estimador

Si \(T = \hat{\theta}\) es un estimador, las características de su distribución en el muestreo determinan decisivamente la calidad del estimador.

Una buena propiedad que podemos pedir a un estimador es que no tenga tendencia sistemática a infraestimar o sobreestimar el parámetro.

Definición 2.1 Se dice que un estimador \(\hat{\theta}\) es insesgado o centrado si \(\mbox{E}(\hat{\theta}) = \theta\), para todo \(\theta\in\Theta\).

Si el estimador es insesgado, su valor esperado coincide con el parámetro para cualquier valor de este. En el caso de que esto no ocurra el sesgo se define como \(\mbox{Sesgo}(\hat{\theta}) = \mbox{E}(\hat{\theta}) - \theta\). Si el sesgo es positivo, hay una tendencia sistemática a sobreestimar el parámetro, y lo contrario si es negativo.

Otra buena propiedad que debe tener un estimador es no dar resultados muy diferentes para las distintas posibles muestras. No queremos que al replicar el mismo experimento muchas veces, los resultados sean muy distintos entre sí, porque esto significa que son menos fiables. Matemáticamente, es deseable que la varianza del estimador, \(\mbox{Var}(\hat{\theta})\), sea lo menor posible.

Es muy habitual en muchos procedimientos estadísticos que el sesgo y la varianza sean objetivos contrapuestos de manera que al reducirse el primero aumenta la segunda y viceversa. Normalmente, los métodos dan buenos resultados si el sesgo y la varianza están equilibrados adecuadamente.

Una cantidad que tiene en cuenta simultáneamente el sesgo y la varianza es el error cuadrático medio del estimador, que es la medida más usada de la calidad de una estimación: \[\mbox{ECM}(\hat{\theta}) = \mbox{E}[(\hat{\theta}-\theta)^2].\]

Es muy fácil ver que el ECM es igual al sesgo al cuadrado más la varianza: \[\mbox{ECM}(\hat{\theta}) = \mbox{E}[(\hat{\theta}-\mbox{E}(\hat{\theta}) + \mbox{E}(\hat{\theta})-\theta)^2] = \mbox{Var}(\hat\theta) + \mbox{Sesgo}(\hat\theta)^2 + 2\mbox{E}[(\hat{\theta}-\mbox{E}(\hat{\theta}))(\mbox{E}(\hat{\theta})-\theta)],\] pero el último término se anula (¿por qué?).

Ejemplo: la media muestral

Si la muestra está formada por v.a.i.i.d. con media \(\mbox{E}(X_i)=\mu\) y varianza \(\mbox{Var}(X_i) = \sigma^2<\infty\), entonces la media muestral verifica \(\mbox{E}(\bar{X}_n) = \mu\) y \(\mbox{Var}(\bar{X}_n)=\sigma^2/n\). De hecho, para la primera propiedad no es necesario que las v.a. sean independientes. Para la segunda se usa que la varianza de la suma de v.a. independientes es igual a la suma de las varianzas de las variables.

De acuerdo con las propiedades anteriores \(\bar{X}\) es un estimador insesgado de \(\mu\), y además \(\lim_{n\to\infty} \mbox{Var}(\bar{X})=0\) si la varianza de la población es finita.

Cuestiones

La expresión \(\mbox{E}(\bar{X}_n) = \mu\) relaciona tres conceptos de media similares, pero no iguales: \(\mu\), \(\bar{X}_n\) y \(\mbox{E}(\cdot)\). ¿Entiendes bien las semejanzas y diferencias entre ellos?

2.3 Algunos conceptos de probabilidad

Salvo casos muy sencillos, dado un estadístico, determinar su distribución en el muestreo exacta para cada valor de \(n\) fijo es normalmente un problema matemático intratable. Para resolver esta dificultad se suelen usar dos enfoques alternativos y complementarios:

  • Método de Montecarlo. Para estudiar el comportamiento en muestras pequeñas se llevan a cabo estudios de simulación, es decir, se realizan experimentos utilizando el ordenador. Un ejemplo simple es la simulación de la sección anterior para recabar información sobre la distribución en el muestreo de \(S^2\).
  • Aproximaciones asintóticas. Se analiza matemáticamente el comportamiento límite a medida que el tamaño muestral aumenta. Se espera que lo que ocurre para muestras grandes sea similar a lo que ocurre para muestras moderadas o pequeñas.

El enfoque asintótico resulta muchas veces posible a partir de los teoremas centrales del límite y de las leyes de los grandes números de la teoría de la probabilidad. Estos resultados se refieren a distintos modos de convergencia de una sucesión de variables aleatorias a una variable límite. En esta sección se revisan los conceptos y resultados de cálculo de probabilidades que más se utilizan.

2.3.1 Convergencias estocásticas

Convergencia casi segura

Definición 2.2 Sea \(X_n\) una sucesión de variables aleatorias. Se dice que \(X_n\) converge casi seguro a otra variable aleatoria \(X\) y se denota \(X_n\overset{\mbox{c.s.}}{\to} X\) si \[\mbox{P}\{\omega:\, \lim_{n\to\infty} X_n(\omega) = X(\omega)\} = 1.\]

Con probabilidad uno, la sucesión de los valores \(X_n\) converge a \(X\). Este tipo de convergencia es muy fuerte. En estadística suele ser suficiente para muchos propósitos considerar modos de convergencia menos exigentes.

Un estimador \(\hat\theta\) es fuertemente consistente para \(\theta\) si \(\hat\theta \overset{\mbox{c.s.}}{\to}\theta\). A medida que crece el tamaño muestral un estimador fuertemente consistente se aproxima al parámetro con probabilidad 1.

Convergencia en probabilidad

Definición 2.3 Sea \(X_n\) una sucesión de variables aleatorias. Se dice que \(X_n\) converge en probabilidad a otra variable aleatoria \(X\) y se denota \(X_n\overset{\mbox{p}}{\to} X\) si, para todo \(\epsilon>0\), \[\lim_{n\to\infty}\mbox{P}\{|X_n-X|>\epsilon\} = 0.\]

Es decir, si \(n\) es grande, con probabilidad cercana a uno la diferencia entre \(X_n\) y \(X\) es inferior a cualquier margen de error predeterminado. Con mucha frecuencia en estadística, la variable límite de la sucesión anterior es degenerada (lo que significa que \(\mbox{P}(X=\theta)=1\), para cierto \(\theta\in\mathbb{R}\)). En este caso, podemos escribir directamente \(X_n \overset{\mbox{p}}{\to} \theta\).

Un estimador \(\hat\theta\) es débilmente consistente para \(\theta\) si \(\hat{\theta}\overset{\mbox{p}}{\to}\theta\).

Proposición 2.1 Si tanto el sesgo como la varianza de un estimador convergen a cero cuando \(n\to\infty\), entonces el estimador es débilmente consistente.

Prueba. Es una consecuencia muy simple de la desigualdad de Markov. Dado \(\epsilon>0\), \[\mbox{P}(|\hat\theta - \theta|\geq \epsilon) = \mbox{P}(|\hat\theta - \theta|^2\geq \epsilon^2) \leq \frac{\mbox{E}[(\hat{\theta}-\theta)^2]}{\epsilon^2} = \frac{\mbox{Var}(\hat\theta)}{\epsilon^2} + \frac{\mbox{Sesgo}(\hat\theta)^2}{\epsilon^2}\to 0.\ \ \square\]

Convergencia en distribución

Para que las definiciones anteriores tengan sentido, las variables deben estar todas definidas en el mismo espacio. El siguiente concepto de convergencia es el más importante en estadística y se refiere a la función de distribución de las variables, en lugar de a las variables en sí mismas.

Definición 2.4 Sea \(X_n\) una sucesión de variables aleatorias y sea \(F_n\) la correspondiente sucesión de funciones de distribución. Se dice que \(X_n\) converge en distribución a otra variable aleatoria \(X\) con función de distribución \(F\) y se denota \(X_n\overset{\mbox{d}}{\to} X\) (o también, más propiamente, \(F_n\overset{\mbox{d}}{\to} F\)) si, para todo \(x\in \mbox{Cont}(F)\), se verifica \(\lim_{n\to\infty}F_n(x) = F(x)\), donde \(\mbox{Cont}(F)\) es el conjunto de puntos en los que \(F\) es continua.

La convergencia en distribución de variables aleatorias coincide básicamente con la convergencia puntual de sus funciones de distribución, salvo en los puntos en los que la distribución límite tenga discontinuidades, en los que no se pide nada.

Cuestiones

Es conveniente pensar, por ejemplo, en una sucesión de variables aleatorias con distribución uniforme en el intervalo \((0,1/n)\) para entender por qué en los puntos de discontinuidad no se exige la convergencia puntual.

  • ¿Hacia dónde parece lógico que converja en distribución esta sucesión de distribuciones? Escribe la función de distribución de este límite.
  • Calcula las funciones de distribución \(F_n\). ¿Cuál es el límite puntual de esta sucesión?


En general, se puede demostrar que \(X_n\overset{\mbox{p}}{\to} X\) implica \(X_n\overset{\mbox{d}}{\to} X\), pero que la implicación recíproca no es cierta en general. No obstante, si la distribución límite es degenerada, ambas convergencias son equivalentes, \(X_n\overset{\mbox{p}}{\to} \theta \Leftrightarrow X_n\overset{\mbox{d}}{\to} \theta\).

Cuestiones

Supongamos que \(X_1,X_2,\ldots\) son v.a.i.i.d. con distribución uniforme en el intervalo \((0,\theta)\). Sea \(\hat{\theta}_n = \max\{X_1,\ldots,X_n\}\).

  1. Demuestra que \(\hat{\theta}_n \overset{\mbox{p}}{\to} \theta\).
  2. Estudia hacia dónde converge en distribución la sucesión \(n(\theta - \hat{\theta}_n)\).
  3. Calcula \(\mbox{E}(\hat{\theta}_n) - \theta\).


Un resultado importante en relación con la convergencia en distribución es el teorema de la aplicación continua.

Teorema 2.1 (Aplicación continua) Sea \(X_n\) una sucesión de variables aleatorias tal que \(X_n\overset{\mbox{d}}{\to} X\) y sea \(g:\mathbb{R}\to\mathbb{R}\) una función continua. Entonces, \(g(X_n) \overset{\mbox{d}}{\to} g(X)\).

2.3.2 Ley de los grandes números y teorema central del límite

Ley de los grandes números

Bajo condiciones de regularidad, las leyes de los grandes números permiten establecer la convergencia de promedios de variables aleatorias. El ejemplo más sencillo de este tipo de resultados es el siguiente:

Teorema 2.2 (Ley débil de los grandes números (LDGN)) Sea \(X_n\) una sucesión de v.a.i.i.d. con media \(\mu\). Entonces, \[\bar{X}_n = \frac{X_1+\cdots + X_n}{n} \overset{\mbox{p}}{\to} \mu.\]


La demostración cuando se supone \(\mbox{Var}(X_i) = \sigma^2 <\infty\) se reduce a una aplicación elemental de la desigualdad de Chebychev: \[\mbox{P}(|\bar{X}_n - \mu| > \epsilon) \leq \frac{\mbox{Var}(\bar{X}_n)}{\epsilon^2} = \frac{\sigma^2}{n\epsilon^2} \to 0.\] En el caso de varianza infinita el resultado sigue siendo cierto pero la demostración es bastante más difícil.

Teorema central del límite

El teorema central del límite nos da información acerca de la distribución aproximada de la diferencia entre la media muestral y la media poblacional \(|\bar{X}_n - \mu|\), si el tamaño muestral \(n\) es suficientemente grande.

Teorema 2.3 (Teorema central del límite (TCL)) Sea \(X_n\) una sucesión de v.a.i.i.d. con media \(\mu\) y varianza \(\sigma^2\). Entonces, \[\frac{\bar{X}_n - \mu}{\sigma/\sqrt{n}} \overset{\mbox{d}}{\to} \mbox{N}(0,1).\]


Es fácil ver (ejercicio) que la conclusión del TCL es equivalente a escribir \[\sqrt{n}(\bar{X}_n - \mu) \overset{\mbox{d}}{\to} \mbox{N}(0,\sigma^2).\]

La siguiente aproximación es una consecuencia del TCL: \[\bar{X}_n - \mu \cong \mbox{N}\left(0, \frac{\sigma^2}{n}\right).\]

Por la LDGN, \(\bar{X}_n - \mu\overset{\mbox{p}}{\to} 0\). Al multiplicar por \(\sqrt{n}\), resulta que el límite ya no es cero ni tampoco infinito, sino una distribución no degenerada (normal). En este sentido podemos decir que la velocidad con la que \(\bar{X}_n\) converge a \(\mu\) es la misma con la que \(1/\sqrt{n}\) va a cero. También a veces se dice que la convergencia es “a tasa \(\sqrt{n}\)”. Esta es la velocidad de convergencia usual en estimación paramétrica.

Dos lemas útiles

El lema de Slutsky y el método delta se utilizan para combinar la LDGN y el TCL con el fin de estudiar propiedades asintóticas de estadísticos un poco más complicados que la media.

Proposición 2.2 (Lema de Slutsky) Sean \(X_n\) e \(Y_n\) dos sucesiones de variables aleatorias tales que \(X_n \overset{\mbox{d}}{\to} X\) e \(Y_n\overset{\mbox{d}}{\to} \theta\), donde \(\theta\in\mathbb{R}\). Sea \(g:\mathbb{R}^2\to \mathbb{R}\) una función continua. Entonces, \(g(X_n,Y_n) \overset{\mbox{d}}{\to} g(X,\theta)\).

En este teorema es importante que uno de los dos límites sea degenerado, si no es así el resultado no es cierto en general. La aplicación habitual de este lema permite conocer el límite de sucesiones de sumas \(X_n + Y_n\), productos \(X_nY_n\) o cocientes \(X_n/Y_n\).

Para determinar el comportamiento asintótico de funciones suaves de sucesiones cuyo límite es conocido se usa el llamado método delta:

Proposición 2.3 (Método delta) Sean \(X_n\) una sucesión de variables aleatorias tal que \(n^b(X_n-\theta) \overset{\mbox{d}}{\to} X\) para \(b>0\) y \(\theta\in\mathbb{R}\). Sea \(g:\mathbb{R}\to\mathbb{R}\) una función derivable con derivada continua. Entonces, \[n^b[g(X_n) - g(\theta)] \overset{\mbox{d}}{\to} g'(\theta) X.\]

Prueba. Una primera observación es que, dado que \(n^b(X_n-\theta) \overset{\mbox{d}}{\to} X\), se tiene por el lema de Slutsky, que \(X_n = n^{-b} [n^b(X_n - \theta)] + \theta \overset{\mbox{d}}{\to} \theta\).

Usando el teorema del valor medio, \[g(X_n) = g(\theta) + g'(\tilde{\theta}_n) (X_n-\theta),\]
donde \(\tilde{\theta}_n\) está entre \(X_n\) y \(\theta\). Por tanto, \(|\tilde{\theta}_n-\theta| \leq |X_n - \theta|\), lo que implica que también \(\tilde{\theta}_n\overset{\mbox{d}}{\to} \theta\). Como la derivada es continua, usamos el teorema de la aplicación continua para deducir \(g'(\tilde{\theta}_n) \overset{\mbox{d}}{\to} g'(\theta)\). Finalmente, \[n^b[g(X_n) - g(\theta)] = g'(\tilde{\theta}_n) n^b(X_n - \theta) \overset{\mbox{d}}{\to} g'(\theta) X,\] de nuevo por el lema de Slutsky. \(\square\)

Basta que la función \(g\) sea derivable en \(\theta\) para que el resultado sea cierto, pero entonces la demostración es algo más complicada.

Algunas aplicaciones

  1. Supongamos que \(X_1,X_2,\ldots\) son v.a.i.i.d. con distribución uniforme en el intervalo \((0,\theta)\). Determina el límite en distribución de \(2\bar{X}_n\) y \(\sqrt{n}(2\bar{X}_n - \theta)\). Compara con el comportamiento asintótico de \(\hat{\theta}_n = \max\{X_1,\ldots,X_n\}\).
  2. Supongamos que \(X_1,X_2,\ldots\) son v.a.i.i.d. con distribución \(\mbox{B}(1,p)\). Determina el comportamiento asintótico de:
  • La proporción muestral: \(\hat{p}= (X_1+\cdots + X_n)/n\). (En el caso de poblaciones de Bernoulli, a la media muestral se le suele llamar proporción muestral. Es más frecuente la notación \(\hat{p}\) que \(\bar{X}\) en este caso particular).
  • La proporción muestral estandarizada: \(\frac{\hat{p} - p}{\sqrt{p(1-p)/n}}\).
  • La proporción muestral estandarizada, pero usando en el denominador \(\hat{p}\) en lugar de \(p\): \(\frac{\hat{p} - p}{\sqrt{\hat{p}(1-\hat{p})/n}}\).
  1. Supongamos que \(X_1,X_2,\ldots\) son v.a.i.i.d. con media \(\mu\), varianza \(\sigma^2\) y \(\mbox{E}(X_i^4)<\infty\). Entonces, \(S_n^2 \overset{\mbox{p}}{\to} \sigma^2\) y \(\sqrt{n}(S_n^2 - \sigma^2) \overset{\mbox{d}}{\to} \mbox{N}(0, \sigma^4(\kappa - 1))\), donde \(\kappa = \mbox{E}[(X_i -\mu)^4]/\sigma^4\) es el llamado coeficiente de curtosis. Veamos la demostración de esta propiedad:

Sabemos que la varianza muestral es invariante por traslaciones, por lo tanto si definimos \(H_i = X_i - \mu\), tenemos que \[S^2 = \frac{1}{n-1} \sum_{i=1}^n (H_i - \bar{H})^2 = \frac{n}{n-1}\left(\frac{\sum_{i=1}^n H_i^2}{n} - \bar{H}^2\right) = \frac{n}{n-1}(\bar{U}- \bar{H}^2),\] donde \(U_i = H_i^2= (X_i-\mu)^2\). Si reordenamos adecuadamente los términos, \[\sqrt{n}(S^2 - \sigma^2) = \frac{n}{n-1} \sqrt{n}(\bar{U} - \sigma^2) + \frac{\sqrt{n}}{n-1}\sigma^2 - \frac{n}{n-1}\sqrt{n}\bar{H}^2.\] Por el TCL, el primer término converge en distribución a \(\mbox{N}(0, \sigma^4(\kappa - 1))\), mientras que los dos términos restantes convergen en distribución a cero. Por el lema de Slutsky, se tiene el resultado.

  1. Supongamos que \(X_1,X_2,\ldots\) son v.a.i.i.d. con distribución de Poisson de parámetro \(\lambda\). ¿Cuál es la distribución asintótica de \(\sqrt{n}(\bar{X}_n - \lambda)\)? ¿Cuál es la distribución asintótica de \(\sqrt{n}(2\sqrt{\bar{X}_n} - 2\sqrt{\lambda})\)? (Esto es un ejemplo de lo que se conoce como transformación estabilizadora de la varianza.)

2.4 La media y la varianza muestrales

Dada una muestra de v.a.i.i.d. \(X_1,\ldots,X_n\) de una población (distribución) \(F\), dos parámetros poblacionales fundamentales son la media \(\mu=\mbox{E}(X_i)\) y la varianza \(\sigma^2 = \mbox{Var}(X_i)\). Lógicamente, si no se hace ninguna hipótesis adicional sobre la población, los estimadores habituales de estos parámetros son la media muestral \(\bar{X}\) y la varianza muestral \(S^2\). En esta sección se incluyen las principales propiedades de estos estimadores. Algunas de ellas ya las hemos estudiado como aplicaciones del TCL y de la LDGN.

2.4.1 Resultados generales

Media muestral

Ya hemos demostrado que la media muestral verifica \(\mbox{E}(\bar{X}_n) = \mu\), equivalentemente, la media muestral es un estimador insesgado de la media poblacional. Esperamos que los valores que toma la media muestral por término medio para las posibles diferentes muestras coincida con la media poblacional (es decir, con la media de cada una de las variables aleatorias que se promedian para obtener \(\bar{X}\)).

También sabemos que \(\mbox{Var}(\bar{X}_n)=\sigma^2/n\). La varianza de los valores que toma la media muestral para distintas medias de tamaño \(n\) es inversamente proporcional a \(n\) y directamente proporcional a la varianza de las variables.

En cuanto a su comportamiento asintótico, hemos señalado que \(\bar{X}_n\overset{\mbox{p}}{\to} \mu\) y \(\sqrt{n}(\bar{X}_n -\mu) \overset{\mbox{d}}{\to} \mbox{N}(0,\sigma^2)\). En particular, es de esperar que si \(n\) es grande \(\bar{X}_n -\mu\cong \mbox{N}(0,\sigma^2/n)\), lo que permite encontrar (si conociéramos el valor de \(\sigma^2\)) la probabilidad aproximada de que la diferencia entre la media muestral y la poblacional supere o esté por debajo de cualquier valor.

La figura 2.2 (adaptada de este curso de Claus Wilke) resume la información sobre la distribución en el muestreo de la media muestral:

Figura 2.2: Las propiedades de la distribución en el muestreo de la media muestral.
Ejemplo

Si tenemos una muestra \(X_1,\ldots, X_{30}\) de una distribución exponencial de media 1, podemos esperar \[\mbox{P}(|\bar{X}-1|\leq 0.1) \approx \mbox{P}(|Z|\leq \sqrt{30}(0.1)) = \mbox{P}(|Z|\leq 0.548) \approx 0.416.\] Esto significa que aproximadamente el 42% de las veces que extraigamos una muestra de tamaño 30 de una población exponencial de media 1, la media muestral estará entre 0.9 y 1.1. Nótese que el razonamiento anterior no requiere conocer \(\mu\). En la práctica tampoco en la mayoría de las poblaciones tampoco se conocerá \(\sigma^2\), veremos más adelante cómo tratar este problema.

El siguiente código permite comprobar empíricamente el cálculo anterior simulando muestras exponenciales:

# Parámetros
set.seed(400)
epsilon <- 0.1
R <- 1000
n <- 30
lambda <- 1  # mu = 1/lambda

# Genera datos y calcula medias
muestras <- matrix(rexp(n*R, rate = lambda), nrow = n)
medias <- apply(muestras, 2, mean)

# Proporción de las muestras para las que la media
# muestral dista de la poblacional menos que epsilon:
mean(abs(medias - 1/lambda) < epsilon)   
#> [1] 0.409

A pesar de que la distribución exponencial es bastante asimétrica y de que el tamaño muestral no es muy grande, la aproximación que da el TCL es bastante buena.

De hecho, en el caso concreto de la distribución exponencial podemos calcular la probabilidad exacta ya que hemos visto en un ejemplo anterior que \(\bar{X} \equiv \gamma(\alpha = n,\beta = n\lambda)\). Con los valores de los parámetros del ejemplo,

alpha <- n   # alpha
beta <- n*lambda   # beta
pgamma(1/lambda + epsilon, shape = alpha, rate = beta) - pgamma(1/lambda - epsilon, shape = alpha, rate = beta)
#> [1] 0.4161641

La probabilidad exacta básicamente coincide con la aproximación que proporciona el TCL.

La exponencial es una excepción ya que para la mayoría de las distribuciones no es posible calcular la distribución exacta de la media muestral. Otra excepción importante que vamos a estudiar con detalle es el caso en que la población sea normal.

Varianza muestral

Comenzamos este apartado calculando el valor esperado de \(S^2\). Con la misma notación de la sección anterior, \[S^2 = \frac{n}{n-1}(\bar{U}- \bar{H}^2).\] Ahora, \(\mbox{E}(\bar{U}) = \mbox{E}(U_i) = \sigma^2\). Por otra parte, \[\mbox{E}(\bar{H}^2) = \frac{1}{n^2}\mbox{E}((H_1+\cdots + H_n)^2) = \frac{1}{n^2}\mbox{E}\left(\sum_{i=1}^n H_i^2 + 2\sum_{i<j} H_iH_j\right)= \frac{\sigma^2}{n}.\] En la última igualdad hemos usado \(\mbox{E}(H_i^2) = \sigma^2\) y además que, debido a la independencia, \(\mbox{E}(H_iH_j) = \mbox{E}(H_i)\mbox{E}(H_j)=0\). Finalmente, \[\mbox{E}(S^2) = \frac{n}{n-1}(\sigma^2 - \sigma^2/n) = \sigma^2.\] Como consecuencia \(S^2\) es un estimador insesgado de \(\sigma^2\). En general, \(\mbox{E}(S) \neq \sigma\), ya que la esperanza de la raíz cuadrada no es igual a la raíz de la esperanza, aunque el sesgo de \(S\) es pequeño.

Unos cálculos similares a los anteriores, pero bastante más enrevesados permitirían también dar una expresión explícita de \(\mbox{Var}(S^2)\). Como este resultado no se usa mucho en la práctica estadística, lo vamos a omitir.

En cuanto a los resultados asintóticos, hemos probado \(S^2 \overset{\mbox{p}}{\to}\sigma^2\) y \(\sqrt{n}(S_n^2 - \sigma^2) \overset{\mbox{d}}{\to} \mbox{N}(0, \sigma^4(\kappa - 1))\). En particular, se suele cumplir la aproximación \(\mbox{Var}(S^2)\approx \sigma^4(\kappa - 1))/n\) para valores de \(n\) suficientemente grandes.

Ejemplo

Puede comprobarse que en el caso de una distribución exponencial el valor de la curtosis es \(\kappa = 9\). Esto significa que para muestras de tamaño 30 de una distribución exponencial de media 1 esperamos que se verifique aproximadamente: \[\mbox{Var}(S^2) \approx 8/30 = 0.27\] Veamos si esta aproximación es razonable con las muestras generadas en el ejemplo anterior:

varianzas <- apply(muestras, 2, var)
var(varianzas)
#> [1] 0.2399719

2.4.2 Resultados en poblaciones normales

Si se supone que la población de partida es normal, sí se pueden obtener las distribuciones en el muestreo exactas de \(\bar{X}\) y \(S^2\) para cada \(n\) fijo.

Por ejemplo, bajo normalidad tenemos que para todo \(n\), \(\bar{X}\equiv \mbox{N}(\mu,\sigma^2/n)\). Por lo tanto, \[\frac{\bar{X}-\mu}{\sigma/\sqrt{n}} \equiv \mbox{N}(0,1).\] Tiene interés también conocer la distribución de \(S^2\) y la distribución de la media estandarizada dividiendo por \(S/\sqrt{n}\) en lugar de \(\sigma/\sqrt{n}\) (obsérvese que en la práctica estamos obligados a usar \(S\) porque no conocemos \(\sigma\)). Para estudiar estos dos problemas tenemos que introducir dos distribuciones de probabilidad importantes en el muestreo en poblaciones normales: la distribución \(\chi^2\) y la \(t\) de Student.

La distribución \(\chi^2\)

Las sumas de variables aleatorias normales independientes al cuadrado están relacionadas con la distribución \(\chi^2\).

Definición 2.5 Sean \(Z_1,\ldots,Z_n\), variables aleatorias independientes con distribución normal estándar. Entonces se dice que la variable aleatoria \(Y=Z_1^2 + \cdots + Z_n^2\) tiene distribución \(\chi^2\) con \(n\) grados de libertad. Escribiremos \(Y\equiv \chi^2_n\).

El siguiente código genera 1000 datos de una distribución \(\chi^2_5\) y superpone la correspondiente función de densidad:

# Densidad de la distribución chi2
n <- 1000
gl <- 5
datos <- data.frame(muestra = rchisq(n, df = gl))
ggplot(datos) +
  geom_histogram(aes(x = muestra, y = after_stat(density)), bins = 20,
                 fill = 'olivedrab4', col = 'black') +
  geom_function(fun = dchisq,
                args = list(df = gl),
                size = 1.1) +
  labs(x = NULL, y = NULL)

Como se puede observar, la densidad es asimétrica a la derecha. La asimetría es menor a medida que \(n\) aumenta, dado que la distribución \(\chi^2_n\) se irá pareciendo cada vez más a una distribución normal (¿por qué?).

En realidad la distribución \(\chi^2\) es un caso particular de una distribución muy conocida. Comenzamos considerando el caso \(n=1\). Vamos a estudiar la distribución de \(Y = Z^2\), donde \(Z\) es una normal estándar. Sea \(x > 0\). Entonces, \[F_Y(x) = \mbox{P}(Z^2\leq x) = \mbox{P}(-\sqrt{x}\leq Z \leq \sqrt{x}) = 2\Phi(\sqrt{x}) - 1,\] donde \(\Phi(x) = \mbox{P}(Z\leq x)\) es la función de distribución de una v.a. normal estándar. Como consecuencia, la función de densidad de \(Y\) es \[f_Y(x) = 2 F'(\sqrt{x}) \frac{1}{2\sqrt{x}} = \frac{1}{\sqrt{2\pi}} e^{-x/2}x^{-1/2} = \frac{(1/2)^{1/2}}{\Gamma(1/2)}x^{1/2 -1} e^{-x/2}.\] Comparando con la densidad de una variable gamma, esto significa que la distribución \(\chi^2_1\) coincide con una \(\gamma(\alpha = 1/2, \beta=1/2)\). La función característica de la distribución \(\chi^2_1\) es por lo tanto \(\varphi_Y(t) = (1-2it)^{-1/2}\). Dado que la distribución \(\chi^2_n\) es la suma de \(n\) variables \(\chi^2_1\) independientes, deducimos la siguiente consecuencia de forma inmediata:

Si \(Y\equiv\chi^2_n\), entonces su función característica es \(\varphi_Y(t)=(1-2it)^{-n/2}\). Como consecuencia, la distribución \(\chi^2_n\) coincide con la \(\gamma(\alpha = n/2,\beta = 1/2)\).

Cuestión
  • ¿Cuánto valen la esperanza y la varianza de una distribución \(\chi^2_n\)?

Relación con la varianza muestral

Veamos cuál es la relación de la distribución \(\chi^2_n\) con la de la varianza muestral. Como paso previo, supongamos que la media fuera conocida, entonces como estimador de la varianza usaríamos \[\hat{\sigma}^2 = \frac{1}{n} \sum_{i=1}^n (X_i - \mu)^2 = \frac{\sigma^2}{n} \sum_{i=1}^n \left(\frac{X_i - \mu}{\sigma}\right)^2.\] Esto implica inmediatamente que \(U:= n\hat{\sigma}^2/\sigma^2 \equiv \chi^2_n\).

Consideramos a continuación \[V:=\frac{(n-1)S^2}{\sigma^2}=\sum_{i=1}^n\left(\frac{X_i-\bar{X}}{\sigma}\right)^2.\] La única diferencia respecto al caso anterior es que se resta la media muestral en lugar de la poblacional. Dado que estos valores son similares, la distribución de \((n-1)S^2/\sigma^2\) no será muy diferente de una \(\chi^2_n\) pero, ¿cuál es exactamente?

Para contestar a esta pregunta, estudiamos la relación entre \(U\) y \(V\). Restando y sumando la media muestral, tenemos \[\frac{n\hat{\sigma}^2}{\sigma^2} = \sum_{i=1}^n \left(\frac{X_i - \bar{X} + \bar{X} - \mu}{\sigma}\right)^2 = \frac{(n-1)S^2}{\sigma^2} + \left(\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}\right)^2,\] o equivalentemente \(U = V + Z^2\), donde \(Z = (\bar{X} - \mu)/(\sigma/\sqrt{n})\).

Antes de seguir, tenemos que señalar un resultado muy importante: si la población es normal la media muestral y la varianza muestral \(\bar{X}\) y \(S^2\) son variables independientes. En la sección 2.9 se demuestra esta propiedad usando la función característica.

Ahora \(U\equiv \chi^2_n\), \(Z^2\equiv \chi^2_1\), y además \(V\) y \(Z^2\) son independientes. Como \(U = V + Z^2\) tenemos la siguiente relación entre las funciones características: \[\varphi_U(t) = \varphi_V(t) \varphi_{Z^2}(t) \Leftrightarrow (1-2it)^{-n/2} = \varphi_V(t)(1-2it)^{-1/2}.\] Como consecuencia, \(\varphi_V(t) = (1-2it)^{-(n-1)/2}\), lo que equivale a que \(V\equiv \chi^2_{n-1}\). La diferencia entre las distribuciones obtenidas al restar la verdadera media y al restar la media muestral es perder un grado de libertad, pasando de \(\chi^2_n\) a \(\chi^2_{n-1}\).

Con el siguiente código simulamos muestras normales, calculamos sus varianzas, y comparamos el histograma de las varianzas con la densidad \(\chi^2\) (con los grados de libertad apropiados):

# Varianza de n normales
set.seed(100)   # para replicar resultados
sigma <- 2
R <- 1000
n <- 5
varianzas <- replicate(R, var(rnorm(n, sd = sigma)))

datos <- data.frame(varianzas = (n-1)*varianzas/sigma^2)
ggplot(datos) +
  geom_histogram(aes(x = varianzas, y = after_stat(density)),
                 bins = 10,
                 col = 'black',
                 fill = 'olivedrab4') +
  geom_function(fun = dchisq,
                args = list(df = n-1),
                size = 1.1)

La distribución t de Student

Definición 2.6 Sean \(Z\) e \(Y\) dos variables aleatorias independientes tales que \(Z\) tiene distribución normal estándar e \(Y\) tiene distribución \(\chi^2_n\). Entonces se dice que la variable \[ X= \frac{Z}{\sqrt{Y/n}} \] tiene distribución \(t\) de Student con \(n\) grados de libertad. Escribiremos \(X\equiv t_n\).

En el siguiente gráfico se representan las densidades de v.a. \(t\) de Student con 3 (negro) y 10 (azul) grados de libertad y se comparan con la densidad de una v.a. normal estándar (línea discontinua):

# Para representar funciones sin datos se especifica el rango de valores de x
ggplot(data.frame(x = c(-5, 5)), aes(x)) +
  geom_function(fun = dnorm, linetype = 2) +
  geom_function(fun = dt,
                args = list(df = 3),
                size = 1.1) +
  geom_function(fun = dt,
                args = list(df = 10),
                size = 1.1, col = "blue") 

Las densidades tienen la misma forma que la de la normal estándar, pero asignan mayor probabilidad a valores extremos de manera que es mucho más probable encontrar valores alejados de cero en una distribución t-Student que en una normal. Por ejemplo, es conocida la propiedad de que solo aproximadamente un 5% de las observaciones normales estándar está fuera del intervalo \((-2, 2)\). Para una \(t_5\) la probabilidad de que esto ocurra es del 10%:

2*(1-pt(2, df = 5))
#> [1] 0.1019395

A medida que los grados de libertad aumentan, la distribución \(t\) de Student converge a la normal estándar (¿por qué?)

Dada la definición de la \(t\) de Student y el resultado que hemos probado sobre la varianza, \[\frac{\bar{X}-\mu}{S/\sqrt{n}} = \frac{\frac{\bar{X}-\mu}{\sigma/\sqrt{n}}}{S/\sigma}\equiv t_{n-1}.\] Así pues, la diferencia entre estandarizar \(\bar{X}\) dividiendo por \(\sigma/\sqrt{n}\) y estandarizar dividiendo por \(S/\sqrt{n}\) es que la distribución de la media estandarizada en el segundo caso es \(t_{n-1}\) en lugar de \(\mbox{N}(0,1)\).

El lema de Fisher

El importante teorema que resume todos los resultados de esta sección es conocido como lema de Fisher. Haremos referencia a este resultado muchas veces en lo que resta de curso en el caso de que podamos asumir que la distribución de la que proceden los datos es normal.

Teorema 2.4 (Lema de Fisher) Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con distribución normal de media \(\mu\) y varianza \(\sigma^2\). Entonces:

  1. Los estadísticos \(\bar{X}\) y \(S^2\) son variables aleatorias independientes.
  2. \((n-1)S^2/\sigma^2\) tiene distribución \(\chi^2_{n-1}\).
  3. Al estandarizar \(\bar{X}\) usando \(S/\sqrt{n}\) en lugar de \(\sigma/\sqrt{n}\), se tiene \[\frac{\bar{X} - \mu}{S/\sqrt{n}}\equiv t_{n-1}.\]

2.5 La función de distribución empírica

En esta sección nos planteamos la estimación de una función de distribución \(F\) a partir de v.a.i.i.d. \(X_1,\ldots,X_n\) extraídas de ella. Este es un problema típico de estadística no paramétrica. Frente a los problemas paramétricos clásicos en los que se trata de estimar un número pequeño de parámetros poblacionales, el objetivo aquí es estimar la distribución completa.

Recordando que la función de distribución es \(F(x)=\mbox{P}(X\leq x)\), parece natural construir un estimador de \(F(x)\) reemplazando la probabilidad del suceso \(\{X\leq x\}\) por la proporción de datos muestrales para los que este suceso se verifica, esto es, que son menores o iguales que \(x\). Esta idea conduce a la definición de función de distribución empírica.

Definición 2.7 Dada una muestra de v.a.i.i.d. \(X_1,\ldots,X_n\), se define la función de distribución empírica correspondiente a la muestra como \[F_n(x) = \frac{1}{n} \sum_{i=1}^n \mathbb{I}_{\{X_i\leq x\}},\] donde, recordamos, \(\mathbb{I}_A\) es la función indicatriz que vale 1 si \(A\) se cumple y 0 en caso contrario.

Antes de observar la muestra, \(F_n(x)\) es una variable aleatoria. Para cada realización de la muestra tendremos una realización de la función de distribución empírica. Por ejemplo, si la muestra es \(x_1=3, x_2=5, x_3=6, x_4=7\), la función de distribución empírica se ha representado en la figura que genera el siguiente código:

# Representación de una función de distribución empírica

datos <- data.frame(x = c(3, 5, 6, 7))
ggplot(datos) +
  stat_ecdf(aes(x)) + # Dibuja funciones escalonadas constantes a trozos
  stat_ecdf(aes(x), geom = 'point') # Añade los puntos al gráfico

Cuestiones

La función \(F_n\) es monótona no decreciente y continua por la derecha. Además, \(\lim_{n\to\infty}F_n(x)=1\) y \(\lim_{n\to-\infty}F_n(x)=0\). Como consecuencia, \(F_n\) es una auténtica función de distribución y como tal define una medida de probabilidad. Las siguientes cuestiones permiten reflexionar sobre las propiedades de esta medida.

  1. ¿Cómo se reparte la probabilidad según la distribución definida por \(F_n\)?
  2. Si \(X\) tiene distribución dada por \(F_n\), ¿cuánto vale \(\mbox{E}(X)\)?
  3. Fijamos \(x\), ¿cuál es la distribución de la variable aleatoria \(nF_n(x)\)?
  4. Como consecuencia de la respuesta a la cuestión anterior determina el valor de \(\mbox{E}[F_n(x)]\) y \(\mbox{Var}[F_n(x)]\).

Dado \(\epsilon>0\), usando la desigualdad de Chebychev vemos que \[\mbox{P}(|F_n(x)-F(x)|>\epsilon) \leq \frac{\mbox{Var}[F_n(x)]}{\epsilon^2} \to 0,\] teniendo en cuenta la respuesta a la última de las cuestiones planteadas.

Como consecuencia, para todo \(x\in\mathbb{R}\), \(F_n(x)\overset{\mbox{p}}{\to} F(x)\), es decir \(F_n(x)\) es débilmente consistente para estimar \(F(x)\). De hecho, se verifica un resultado mucho más fuerte: la consistencia es fuerte (la convergencia es casi segura) y además es uniforme.

Teorema 2.5 (Glivenko-Cantelli) Sea \(F_n\) la funcion de distribución empírica correspondiente a una muestra de v.a.i.i.d. \(X_1,\dots,X_n\) con distribución \(F\). Entonces, \[\lim_{n\to\infty} \sup_{x\in\mathbb{R}} |F_n(x) - F(x)| = 0,\ \ \mbox{c.s.}\]


A medida que tenemos más datos procedentes de \(F\), la función de distribución empírica se aproxima uniformemente a \(F\) con probabilidad uno. Esto significa que con un número suficientemente grande de datos podemos reconstruir la verdadera distribución \(F\). Para ilustrar este teorema, en la figura 2.3 se ha representado la verdadera \(F\) junto con las funciones de distribución empírica para muestras de tamaño creciente en el caso de una población normal.

Figura 2.3: Aproximación de la distribución empírica a la distribución verdadera para muestras de tamaño 10, 20 y 100 de una población normal estándar.

Se da la demostración del teorema 2.5 en la sección 2.9.

2.6 Estadísticos de orden y función cuantílica

Los estadísticos de orden de una muestra son los valores muestrales ordenados de menor a mayor. Si la muestra es \(X_1,\ldots,X_n\), los correspondientes estadísticos de orden son \(X_{(1)}\leq X_{(2)} \leq\cdots \leq X_{(n)}\), es decir \(X_{(k)}\) es el valor que ocupa el lugar \(k\) cuando se ordenan las \(n\) observaciones de menor a mayor. En particular, \(X_{(1)}\) es el mínimo de las \(n\) observaciones y \(X_{(n)}\) es el máximo. En algunos libros, cuando se quiere señalar el papel del tamaño muestral en las propiedades del estadístico de orden, se denota \(X_{(k)} \equiv X_{k:n}\).

Es interesante estudiar los estadísticos de orden porque muchos estadísticos importantes son función de ellos. Por ejemplo:

  • El rango muestral: \(R=X_{(n)} - X_{(1)}\).
  • La mediana muestral: \(M_n = X_{((n+1)/2)}\), cuando \(n\) es impar; y \(M_n = (X_{(n/2)} + X_{(n/2+1)})/2\), cuando \(n\) es par.
  • Cuantiles muestrales: pueden definirse de varias formas parecidas, aunque no exactamente equivalentes. Una de ellas es \[ Q_p = c_{n,p} X_{([np])} + (1-c_{n,p})X_{([np] + 1)}, \] donde \(c_{n,p}=1\) si \(np\in\mathbb{N}\) y \(c_{n,p}=0\) si \(np\notin\mathbb{N}\). Más adelante reescribiremos esta definición en términos de la función cuantílica.
  • Rango intercuartílico: \(\mbox{RI} = Q_{0.75} - Q_{0.25}\).

2.6.1 Distribución conjunta

Veamos un ejemplo que justifica la fórmula general. Supongamos que \(n=3\) y que observamos una muestra \(X_1,X_2,X_3\) de v.a.i.i.d. con densidad \(f\). ¿Cuál es la densidad del vector \((X_{(1)},X_{(2)},X_{(3)})\) en el punto \((2,3,4)\)? Lo que nos tenemos que preguntar es qué muestras son las que dan lugar a este vector. Puede ser, por ejemplo, \((X_1,X_2,X_3)=(2,3,4)\) (a esta muestra le corresponde la densidad conjunta \(f(2)f(3)f(4)\)) pero también \((X_1,X_2,X_3)=(4,3,2)\) (con la misma densidad conjunta \(f(2)f(3)f(4)\)). En general, \((X_1,X_2,X_3)\) puede ser cualquiera de las 3! permutaciones de los valores 2,3,4, cada una de ellas con densidad \(f(2)f(3)f(4)\). Esto significa que la densidad de \((X_{(1)},X_{(2)},X_{(3)})\) en el punto \((2,3,4)\) es \(3!f(2)f(3)f(4)\). Estas consideraciones llevan al siguiente resultado general:

Si \(X_1,\ldots,X_n\) son v.a.i.i.d. con función de densidad \(f\), entonces la función de densidad conjunta del vector \(Y = (X_{(1)}, X_{(2)},\ldots,X_{(n)})\) es \[f(y_1,\ldots,y_n) = n! f(y_1)\cdots f(y_n), \ \ \mbox{si}\ \ y_1< \cdots < y_n,\] y \(0\) en caso contrario.

2.6.2 Distribuciones marginales

Si \(X_1,\ldots,X_n\) son v.a.i.i.d. con función de distribución \(F\), vamos a determinar la distribución de \(X_{(k)}\). Para ello, dado \(x\in\mathbb{R}\) definimos la v.a. auxiliar \(Y\), el número de observaciones muestrales menores o iguales que \(x\). Esta variable tiene distribución \(\mbox{B}(n,F(x))\). Entonces,

\[\mbox{P}(X_{(k)}\leq x) = \mbox{P}(Y\geq k) = \sum_{j=k}^n {{n}\choose{j}}F(x)^j (1-F(x))^{n-j}.\]

En el caso de que \(F\) tenga densidad \(f\), derivando la expresión anterior y arreglando los términos resultantes se obtiene:

\[f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} f(x) F(x)^{k-1} (1-F(x))^{n-k}.\]

Ejemplo: distribución uniforme en \((0,1)\)

En el caso en que las v.a. tengan distribución uniforme en el intervalo \((0,1)\), entonces \(F(x) = x\), si \(x\in (0,1)\), y \(f(x) = 1\), si \(x\in (0,1)\). Por lo tanto, \[f_{X_{(k)}}(x) = \frac{n!}{(k-1)!(n-k)!} x^{k-1}(1-x)^{n-k}, \ \ \ \mbox{si}\ \ x\in(0,1).\] Esta función de densidad corresponde a la distribución beta de parámetros \(\alpha = k\) y \(\beta = n-k+1\). Es decir, hemos demostrado que para una muestra de \(n\) v.a.i.i.d. con distribución uniforme en \((0,1)\), se cumple \(X_{(k)}\equiv\mbox{Beta}(\alpha = k,\beta=n-k+1)\). En particular, tenemos \[\mbox{E}(X_{(k)}) = \frac{\alpha}{\alpha + \beta} = \frac{k}{n+1}, \ \ \ \mbox{Var}(X_{(k)}) = \frac{\alpha\beta}{(\alpha + \beta)^2(\alpha + \beta +1)} = \frac{k(n-k+1)}{(n+1)^2(n+2)}.\]

Cuestión

Supongamos que \(n\) es impar y sea \(\theta>0\), ¿cuál es la distribución de la mediana de \(n\) v.a.i.i.d. con distribución uniforme en \((0,\theta)\)? ¿Cuánto valen la media y la varianza de la mediana muestral?

2.6.3 Función cuantílica

Esencialmente, la función cuantílica de una v.a. es la inversa de su función de distribución. Ahora bien, como la función de distribución puede no ser continua o puede haber intervalos en los que es constante, hay que tener un poco de cuidado con la definición.

La figura 2.4 muestra las dos situaciones conflictivas que hay que resolver. Cuando la función de distribución no es continua (izquierda) para algunos valores de \(t\in (0,1)\) puede no existir \(x\) tal que \(F(x) = t\). Si no es estrictamente creciente (derecha) para algunos valores de \(t\in (0,1)\) puede haber infinitos valores de \(x\) tales que \(F(x) = t\). En ambos casos hay que tomar una decisión sobre lo que entendemos por \(F^{-1}(t)\).

Figura 2.4: Situaciones en las que hay que tener cuidado al definir la inversa de una función de distribución

La definición usual de la función cuantílica en \(t\in (0,1)\) es la siguiente: \[F^{-1}(t) = \inf \{x\in\mathbb{R}:\, F(x)\geq t\}.\] Los cuantiles se pueden definir en términos de la función cuantílica. Se llama cuantil poblacional de orden \(p\in (0,1)\) al valor \(F^{−1}(p)\).

Un estimador natural del cuantil poblacional de orden \(p\) es el análogo cuantil muestral de orden \(p\) definido a partir de la distribución empírica, es decir, \(F_n^{-1}(p)\). El caso de la mediana corresponde a \(p=1/2\). En este caso \(F_n^{-1}(1/2) = X_{n/2}\) si \(n\) es par, y \(F_n^{-1}(1/2) = X_{(n+1)/2}\) si \(n\) es impar. En general, \[F_n^{-1}(p) = Q_p = c_{n,p} X_{([np])} + (1-c_{n,p})X_{([np] + 1)},\] donde \(c_{n,p}=1\) si \(np\in\mathbb{N}\) y \(c_{n,p}=0\) si \(np\notin\mathbb{N}\).

Si para todo \(\epsilon>0\) se cumple \(p<F(F^{-1}(p)+\epsilon)\), entonces \(F_n^{-1}(p) \overset{\mbox{c.s.}}{\to} F^{-1}(p)\). (¿Qué situaciones excluye la hipótesis?)

2.6.4 Distribución asintótica de la mediana

Terminamos la sección sobre estadísticos de orden comentando cuál es el comportamiento asintótico de la mediana. Supondremos que \(F\) es derivable con derivada continua y estrictamente positiva en el valor de la mediana \(\theta = F^{-1}(0.5)\). Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con distribución \(F\) y sea ahora \(M_n\) la mediana muestral de \(X_1,\ldots,X_n\). Se puede demostrar (véase la sección 2.9 para una idea de la demostración):

\[\sqrt{n}(M_n - \theta) \overset{\mbox{d}}{\to} \mbox{N}\Big(0,\frac{1}{4f(\theta)^2}\Big). \tag{2.1}\]

Ejemplo: la distribución uniforme

Como consecuencia de la ecuación (2.1) la varianza de la mediana en el caso uniforme es aproximadamente \(1/(4n)\). La siguiente simulación confirma el resultado con un número de datos no tan grande:

set.seed(100)
R <- 1000
n <- 20

medianas <- replicate(R, median(runif(n)))

var(medianas)
#> [1] 0.01108514
1/(4*n)
#> [1] 0.0125


datos <- data.frame(medianas = medianas) 
ggplot(datos) +
  geom_histogram(aes(x = medianas, y = after_stat(density)),
                 bins = 10,                        
                 col = 'black',               
                 fill = 'olivedrab4') + 
  geom_function(fun = dnorm,
                xlim = c(0, 1),
                args = list(mean = 0.5, sd = 0.5/sqrt(n)),
                size=1.2) +
  labs(x = "Medianas", y = NULL)

Con 20 datos la fórmula asintótica aproxima ya razonablemente bien el valor de la varianza de la mediana.

Ejemplo: la distribución normal

Si \(F\) corresponde a \(\mbox{N}(\mu,\sigma^2)\) tenemos que \(\theta = \mu\) y \(f(\mu) = 1/(\sigma\sqrt{2\pi})\). Como consecuencia, \[\mbox{Var}(M_n) \approx \frac{\pi}{2}\frac{\sigma^2}{n} \approx 1.57 \frac{\sigma^2}{n}.\] La varianza de la mediana en una población normal es aproximadamente la de la media multiplicada por \(1.57\). Esto tiene importantes consecuencias en la estimación de \(\mu\) y es a su vez consecuencia de que la mediana hace un uso menos eficiente de la información muestral.

En el siguiente experimento simulamos 1000 muestras de tamaño 20 de una población normal estándar, calculamos las correspondientes medias y medianas, y comparamos sus varianzas.

set.seed(100)
R <- 1000
n <- 20

muestras <- matrix(rnorm(n*R), n, R)
medianas <- apply(muestras, 2, median)
medias <- apply(muestras, 2, mean)
var(medianas) / var(medias)
#> [1] 1.562789

datos <- data.frame(datos = c(medias, medianas),
                 Medida = gl(2, R, labels = c('Medias', 'Medianas')))
ggplot(datos) +
  geom_density(aes(x = datos, linetype = Medida), size = 1.2) +
  labs(x = "Medias y medianas", y = NULL)

Cuestión

Calcula el valor aproximado de la varianza de la mediana para muestras de 50 datos procedentes de una distribución \(t\) de Student con \(g\) grados de libertad, para \(g=3, 4,\ldots, 15\).

2.7 Ejercicios

Ejercicio 2.1 Se dispone de una muestra \(X_1,\ldots,X_n\) de v.a.i.i.d. con distribución exponencial de parámetro \(\lambda\) (es decir, su función de distribución es \(F(t) = 1 - e^{-\lambda t}\)) para \(t \geq 0\) y se desea estimar el momento de orden 3, \(\alpha_3 = \mbox{E}(X^3)\), de esta distribución. Define un estimador natural para \(\alpha_3\) y calcula su error cuadrático medio. Indicación: Si \(X\sim\exp(\lambda)\), entonces \(\mbox{E}(X^n)=n!/\lambda^n\) para todo entero positivo \(n\).

Ejercicio 2.2 Se desea estimar la prevalencia (proporción \(p\) de enfermos en la población) de cierto trastorno gástrico. Como la aparición de la enfermedad está relacionada con la edad, se divide la población en dos clases o estratos: (1) menores de 30 años (que constituyen el 40% de la población) y (2) mayores de 30 años (el 60% restante). Se toma una muestra de 60 individuos del estrato (1) y otra de 90 individuos del estrato (2). En total, tenemos lo que se denomina una muestra estratificada de tamaño \(n=150\) individuos. Para cada uno de ellos se observa si tienen o no la enfermedad.

  1. A partir de \(\hat{p}_1\), la proporción muestral de individuos enfermos en el estrato (1), y \(\hat{p}_2\), la proporción muestral de individuos enfermos en el estrato (2), formula un estimador insesgado de la prevalencia \(p\) en la población.
  2. En función de \(p_1\) y \(p_2\) (las prevalencias correspondientes a cada uno de los dos estratos) calcula la varianza del estimador propuesto en el apartado anterior.
  3. Si \(p_1=p_2\), ¿se incrementa la eficiencia por el hecho de usar una muestra estratificada en lugar de una muestra de v.a.i.i.d. de tamaño 150, extraída sin tener en cuenta los estratos (una muestra aleatoria simple)?
  4. Supongamos que diez de cada cien personas mayores de 30 años tiene la enfermedad (es decir \(p_2=0.1\)). Representa gráficamente las varianzas de los estimadores correspondientes a la muestra no estratificada y a la muestra estratificada como función de \(p_1\). ¿Para qué valores de \(p_1\) es mejor utilizar muestreo estratificado en lugar de muestreo aleatorio simple?

Ejercicio 2.3 Consideremos una v.a. \(X\) procedente de la distribución contaminada \[ F\sim (1-\epsilon)\mbox{N}(\mu,\sigma^2)+\epsilon\mbox{N}(\mu,c^2\sigma^2). \] Esto significa que, con probabilidad \(1-\epsilon\), \(X\) se distribuye \(\mbox{N}(\mu,\sigma^2)\) y con probabilidad \(\epsilon\) se distribuye \(\mbox{N}(\mu,c^2\sigma^2)\). Estas mixturas son muy utilizadas para modelizar la aparición de datos atípicos en estudios de robustez.

  1. Calcula la esperanza y la varianza de \(X\).
  2. Sea \(\overline{X}_1\) la media muestral calculada a partir de \(n\) v.a.i.i.d. de una distribución normal \(\mbox{N}(\mu,\sigma^2)\) y \(\overline{X}_2\) la media muestral calculada a partir de \(n\) v.a.i.i.d. de la distribución contaminada. Calcula la eficiencia relativa (el cociente entre las varianzas) entre las dos medias e interpreta intuitivamente el resultado obtenido.
  3. Repite el ejercicio sustituyendo las medias muestrales por medianas y aplicando aproximaciones asintóticas.

Ejercicio 2.4 Sea \(X_n\) una v.a. con distribución \(\chi^2_n\).

  1. Representa en un mismo gráfico la función de densidad de \(X_n\) con \(n=4,8,20,30\).
  2. Determina hacia dónde convergen en distribución las sucesiones \(\sqrt{n/2}(X_n/n-1)\) y \(\sqrt{2X_n}-\sqrt{2n}\).
  3. Sea \(Y\sim \chi^2_{200}\). Calcula aproximadamente \(\mbox{P}\{Y\leq 190\}\) usando las tablas de la \(N(0,1)\).

Ejercicio 2.5 Sean \(X_1,\ldots,X_{10}\) v.a.i.i.d. de una población normal de media \(\mu\) y varianza \(\sigma^2\). Sea \(S^2\) la correspondiente varianza muestral. Calcula \(\mbox{P}(\sigma^2<S^2 < 1.5\sigma^2)\), la probabilidad de que \(S^2\) no infraestime \(\sigma^2\), ni la sobreestime en más de 1.5 veces su valor. Repite el ejercicio si tuviéramos una muestra de 50 observaciones en lugar de 10.

Ejercicio 2.6 Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con distribución exponencial de parámetro \(1/\theta\). Definamos \(X_{(0)} = 0\), y \(Y_j = X_{(j)}-X_{(j-1)}\), si \(j=1,\ldots,n\). Las variables \(Y_j\) se denominan en inglés spacings, las longitudes de los intervalos que definen los datos muestrales.

  1. Demuestra que las v.a. \(Y_1,\ldots,Y_n\) son independientes con \(Y_j\equiv \mbox{exp}(\gamma_j)\), donde \(\gamma_j = (n-j+1)/\theta\). (Los spacings de una muestra exponencial son independientes y de nuevo tienen distribución exponencial.)
  2. Como consecuencia, calcula la esperanza y la varianza de los estadísticos de orden de una distribución exponencial.
  3. Supongamos que para estimar la media \(\theta\) a partir de una muestra de tamaño 20 se desea utilizar \(\hat{\theta}=c X_{(16)}\). Encuentra el valor que debe tomar la constante \(c\) para que el estimador sea insesgado y calcula la varianza del estimador correspondiente a este valor de \(c\).

Ejercicio 2.7 Representa en dos gráficos diferentes la función de densidad \(f\) y la función de distribución \(F\) de una v.a. con distribución beta de parámetros \(a=3\), \(b=6\). A continuación, genera una muestra de tamaño 20 de la misma distribución, calcula la correspondiente función de distribución empírica \(F_n\) y un estimador del núcleo de la densidad \(\hat f\) y representalos sobrepuestos en cada uno de los gráficos anteriores. Verifica empíricamente el grado de aproximación alcanzado en las estimaciones de \(F\) y \(f\), mediante un experimento de simulación basado en 200 muestras de tamaño 20. Considerando, por ejemplo, la estimación de \(F\), se trata de simular 200 muestras de tamaño 20; para cada una de ellas evaluar el error (medido en la norma del supremo) cometido al aproximar \(F\) por \(F_n\). Por último, calcula el promedio de los 200 errores obtenidos. Análogamente para la estimación de \(f\).

Ejercicio 2.8 Sea \(\overline{X}_n\) la media muestral calculada con las \(n\) primeras observaciones de una sucesión de v.a.i.i.d. procedentes de una población con esperanza \(\mu\) y varianza \(\sigma^2\). Determina hacia dónde convergen en distribución las siguientes sucesiones:

  1. \(\sqrt{n}(\overline{X}_n^2-\mu^2)\)
  2. \(n(\overline{X}_n-\mu)^2\)
  3. \(\sqrt{n}(\overline{X}_n-\mu)^2\).

2.8 Referencias

Muchos libros de estadística contienen una introducción de lo que podríamos llamar probabilidad para usuarios como la que hemos incluido aquí. Una buena referencia para consultar resultados de probabilidad es el enciclopédico libro de DasGupta (2008), orientado a establecer resultados asintóticos en estadística. La teoría clásica de distribución en el muestreo y de muestreo en poblaciones normales se puede consultar en Casella y Berger (2001) y en Rice (2007). Shao (2003) presenta un tratamiento completamente riguroso de las propiedades de la función de distribución empírica, la mediana y los estadísticos de orden, aunque es un libro de lectura más exigente.

  • Casella, G., y Berger, R. L. (2001). Statistical inference, second edition. Cengage Learning.
  • DasGupta, A. (2008). Asymptotic theory of statistics and probability. Springer.
  • Rice, J. A. (2007). Mathematical statistics and data analysis. Duxbury
  • Shao, J. (2003). Mathematical statistics. Springer

2.9 Apéndices del tema 2

2.9.1 Demostración del teorema de Glivenko-Cantelli

Denotamos por \(F(x-)\) al límite por la izquierda de \(F\) en \(x\). También denotamos

\[\|F_n - F\|_\infty = \sup_{x\in\mathbb{R}} |F_n(x) - F(x)|.\]

Para todo \(\epsilon>0\), existe una partición \(-\infty = t_0<t_1<\cdots<t_N =\infty\), tal que \[F(t_k-)-F(t_{k-1})<\epsilon, \ \ k=1,\ldots,N-1.\] (Obsérvese que si \(F\) tiene algún salto mayor que \(\epsilon\), el punto en el que está localizado el salto tiene que estar en la partición). Definamos \[\Delta_n \doteq\max\{|F_n(t_k-)-F(t_k-)|,\, |F_n(t_{k-1})-F(t_{k-1})|\}.\] Entonces, por la ley fuerte de los grandes números, \(\Delta_n\to 0\) c.s. (ya que \(\Delta_n\) es el máximo de un número finito de sucesiones, todas las cuales convergen a 0 c.s.)

Dado \(x\in\mathbb{R}\), \(x\in [t_{k-1},t_k)\), para algún \(k\). Entonces, \[F_n(x)-F(x) \leq F_n(t_k-)-F(t_{k-1})<F_n(t_k-)-F(t_k-)+\epsilon <\Delta_n +\epsilon.\] y \[F_n(x)-F(x) \geq F_n(t_{k-1})-F(t_k-)>F_n(t_{k-1})-F(t_{k-1})-\epsilon >-\Delta_n -\epsilon.\]

Como consecuencia de las dos últimas cadenas de desigualdades, \(\|F_n - F\|_\infty \leq \Delta_n +\epsilon\). Por lo tanto, para todo \(\epsilon>0\), con probabilidad 1 (puesto que \(\Delta_n\to 0\) c.s.) ocurre que \[0\leq \lim\inf \|F_n-F\|_\infty\leq \lim\sup \|F_n-F\|_\infty \leq \epsilon\] lo que implica que \(\lim_{n\to\infty}\|F_n-F\|_\infty = 0\) c.s.

2.9.2 Demostración del lema de Fisher

Para terminar la demostración basta probar que \(\overline{X}\) es independiente del vector \((X_1-\overline{X},\ldots,X_n-\overline{X})\). Para demostrar esta independencia se va a factorizar la función característica conjunta en el producto de las dos marginales. Si \(\varphi(s;t_1,\ldots,t_n)\) es la función característica del vector \((\overline{X},X_1-\overline{X},\ldots,X_n-\overline{X})\), entonces, \[\varphi(s;t_1,\ldots,t_n)=\mbox{E}[\exp\{is\overline{X}+ i\sum_{j=1}^n t_j(X_j-\overline{X})\}].\] Reordenando términos, tenemos que \[s\overline{X} + \sum_{j=1}^n t_j(X_j-\overline{X}) = \sum_{j=1}^n \big[\frac{s}{n}+(t_j-\bar{t})\big] X_j \doteq \sum_{j=1}^n a_j X_j.\] Nótese que \(\sum_{j=1}^n a_j =s\) y \(\sum_{j=1}^n a_j^2 = s^2/n+\sum_{j=1}^n (t_j-\bar{t})^2\). Por lo tanto, \[\begin{eqnarray*} \varphi(s;t_1,\ldots,t_n) & = & \mbox{E}[\exp\{i\sum_{j=1}^n a_jX_j\}]= \varphi_{X_1,\ldots,X_n} (a_1,\ldots,a_n) = \prod_{j=1}^n \exp\{i\mu a_j -\frac{\sigma^2}{2} a_j^2\} \\ & = & \exp\{i\mu \sum_{j=1}^n a_j -\frac{\sigma^2}{2}\sum_{j=1}^n a_j^2\} = \exp\{i\mu s - \frac{\sigma^2}{2}\big[s^2/n+\sum_{j=1}^n (t_j-\bar{t})^2\big]\}\\ & = & \exp\{i\mu s -\frac{\sigma^2}{2n} s^2\} \exp\{-\frac{\sigma^2}{2}\sum_{j=1}^n(t_j-\bar{t})^2\} \\ &=& \varphi_{\overline{X}}(s) \varphi_{X_1-\overline{X},\ldots,X_n-\overline{X}} (t_1,\ldots,t_n), \end{eqnarray*}\] ya que, para obtener la función característica de \((X_1-\overline{X},\ldots,X_n-\overline{X})\), basta hacer \(s=0\) en \(\varphi(s;t_1,\ldots,t_n)\).

2.9.3 Justificación de la distribución asintótica de la mediana

Mediana de variables uniformes en \((0,1)\)

Consideramos v.a.i.i.d. \(U_1,\ldots,U_n\) uniformes en el intervalo \((0,1)\). En este caso la mediana de la población es \(0.5\). Para simplificar la notación (aunque no supone ninguna pérdida de generalidad) supondremos que \(n=2m\) es par y consideramos \(M_n = F_n^{-1}(1/2) = U_{(m)}\).

Nuestro objetivo es estudiar el comportamiento de \(\sqrt{n}(M_n - 0.5)\), resultado análogo al teorema central del límite para la media. Vamos a dar una aproximación basada a su vez en la aproximación de la distribución binomial a la normal y que se puede hacer rigurosa usando un TCL para v.a. independientes pero no idénticamente distribuidas.

Tenemos que estudiar el comportamiento límite de la función de distribución siguiente: \[\mbox{P}(\sqrt{n}(M_n - 0.5) \leq x) = \mbox{P}(M_n \leq 0.5 + x/\sqrt{n}) = \mbox{P}(S_n \geq m),\] donde \(S_n\) es el número de observaciones \(U_i\) tales que \(U_i \leq 0.5 + x/\sqrt{n}\). La última igualdad requiere solo una breve reflexión. Si llamamos \(p_n=0.5 + x/\sqrt{n}\), se verifica que \(S_n\) tiene una distribución binomial \(\mbox{B}(n, p_n)\). Aplicando la aproximación de la binomial por la normal que se deduce a partir del teorema central del límite, si \(n\) es grande \[\mbox{P}(S_n \geq m) \approx \mbox{P}\Big(Z \geq (m - np_n)/\sqrt{np_n(1-p_n)}\Big)\approx \mbox{P}(Z \geq -2x) = \mbox{P}(Z \leq 2x),\] donde \(Z\) es una v.a. con distribución normal estándar, ya que \[\lim_{n\to\infty} \frac{m - np_n}{\sqrt{np_n(1-p_n)}} = -2x.\] Las aproximaciones anteriores se pueden justificar rigurosamente, lo que permite demostrar \[\sqrt{n}(M_n - 0.5) \overset{\mbox{d}}{\to} \mbox{N}(0, 1/4).\]

Mediana de variables con función de distribución \(F\)

Supondremos ahora que \(F\) es derivable (la derivada es la función de densidad) y que la derivada es continua y estrictamente positiva en \(\theta = F^{-1}(0.5)\). Recordamos que la derivada de \(F\) es la función de densidad \(F' = f\) y que la derivada de \(F^{-1}\) evaluada en 1/2 es \((F^{-1})'(1/2) = 1/ f(F^{-1}(1/2)) = 1/f(\theta)\).

Sean \(X_1,\ldots,X_n\) v.a.i.i.d. con distribución \(F\) y sea ahora \(M_n\) la mediana muestral de \(X_1,\ldots,X_n\). Bajo las condiciones anteriores, una propiedad muy conocida es que \(F(X_1),\ldots,F(X_n)\) son una muestra de v.a.i.i.d. con distribución uniforme en \((0,1)\) cuya mediana es \(F(M_n)\) (puesto que \(F\) es no decreciente). Como consecuencia, \[\sqrt{n}(F(M_n) - 0.5) \overset{\mbox{d}}{\to} \mbox{N}(0, 1/4).\] Finalmente, aplicamos el método delta (lo que podemos hacer por las propiedades de derivabilidad que suponemos sobre \(F\)), \[\sqrt{n}(M_n - \theta) \overset{\mbox{d}}{\to} (F^{-1})' (0.5)\cdot\mbox{N}(0, 1/4)\equiv \frac{1}{f(\theta)}\cdot\mbox{N}(0, 1/4)\equiv \mbox{N}\Big(0,\frac{1}{4f(\theta)^2}\Big).\]