¿Cuándo hay relación entre la media muestral y la varianza muestral? (Primera parte)
Sobre la covarianza entre la media y la varianza muestrales
Estimación
Fecha de publicación
23 de julio de 2024
Introducción y antecedentes
Saber cuál es la posición de un conjunto de datos, ¿aporta información sobre su dispersión?
Sea \(X_1, \ldots, X_n\) una muestra de observaciones independientes de una población \(F\). Consideramos la media muestral \(\bar{X}=n^{-1}\sum_{i=1}^n X_i\) y la varianza muestral \(S^2 = (n-1)^{-1}\sum_{i=1}^n (X_i-\bar{X})^2\). Si alguien nos dijera el valor de \(\bar{X}\), ¿nos daría eso alguna información sobre cuánto vale \(S^2\)? La respuesta depende de cómo es la distribución de la que proceden los datos.
Fisher (1915) observó que en poblaciones normales \(\bar{X}\) y \(S^2\) son variables aleatorias independientes. Esta es una propiedad fundamental de la teoría del muestreo en poblaciones normales y en muchos textos se denomina lema de Fisher. Como consecuencia, si la población es normal, conocer la media muestral no aporta ninguna información sobre el valor de la varianza muestral. Sin embargo, esta situación es excepcional, la distribución normal es la única para la que eso pasa. Lukacs (1942) demostró que \(\bar{X}\) y \(S^2\) son independientes si y solo si la distribución de \(X_1,\ldots,X_n\) es normal. Cuando \(F\) no es normal, tiene por lo tanto sentido que nos preguntemos sobre el grado de dependencia entre \(\bar{X}\) y \(S^2\) y, en particular, si son o no incorreladas.
Resulta que la fórmula para la covarianza entre \(\bar{X}\) y \(S^2\) que vamos a demostrar en esta entrada es notablemente simple y elegante, proporcionando una respuesta completa a esta pregunta:
\(\bar{X}\) y \(S^2\) son incorreladas 1 si y solo si la distribución de \(X_1,\ldots,X_n\) es simétrica.
La covarianza entre \(\bar{X}\) y \(S^2\)
La fórmula depende de manera muy simple del coeficiente de asimetría. Dada una variable aleatoria \(X\) con distribución \(F\), media \(\mu\) y varianza \(\sigma^2\), el coeficiente de asimetría de \(X\) es \[\gamma = \text{E}\left[\left(\frac{X-\mu}{\sigma}\right)^3\right].\]
Con esta notación, el resultado es el siguiente:
La covarianza entre \(\bar{X}\) y \(S^2\) viene dada por
Statistical theory provides beautiful formulas when they involve the first three moments (with a special prize for the insufficiently known formula \(\mbox{Cov}(\bar{X}, S^2) = \mbox{E}[(X-\mu)^3]/n\)).
Una demostración de (1) se puede encontrar en Zhang (2007). La demostración que aparece al final de esta entrada es una versión de la suya un poco más compacta. Puede ser un buen ejercicio porque requiere un manejo adecuado de los sumatorios que aparecen y un uso hábil de la propiedad según la cual la esperanza de productos de variables aleatorias independientes es el producto de las esperanzas.
Como observa Zhang (2007), la fórmula (1) produce un buen número de ejemplos de variables aleatorias incorreladas pero no independientes que aparecen naturalmente en problemas de estimación: basta con considerar medias y varianzas de muestras extraídas de poblaciones simétricas que no sean normales. Por ejemplo, la media y la varianza muestrales de observaciones con distribución t de Student (más de 4 grados de libertad, para que la curtosis sea finita) son incorreladas pero no independientes. Veamos un ejemplo con muestras de la distribución t de Student con 5 grados de libertad:
library(ggplot2)R <-1000n <-10gl <-5set.seed(123)datos <-matrix(rt(n*R, gl), n) # cada columna es una muestramedias <-apply(datos, 2, mean)varianzas <-apply(datos, 2, var)ggplot(data.frame(medias = medias, varianzas = varianzas)) +geom_point(aes(x = medias, y = varianzas)) +labs(x ="Medias", y ="Varianzas")
Medias y varianzas de muestras de tamaño 10 de una distribución t de Student con 5 grados de libertad
En el gráfico parece que valores extremos de la media incrementan la posibilidad de que los valores de la varianza sean también muy grandes, por lo que no son independientes. La simetría de la nube de puntos es la que hace que la covarianza sea cero.
¿Y qué pasa con la correlación?
Para determinar el grado de relación lineal entre \(\bar{X}\) y \(S^2\) es mejor y más habitual usar la correlación entre ellas que su covarianza, pero como la fórmula de la correlación permite contar otra pequeña historia, lo dejo para una segunda parte.
La demostración
Veamos cómo se demuestra (1). Denotamos por \(Y_i = X_i-\mu\) a las variables centradas restándoles la media, con lo que \(\mbox{Cov}(\bar{X},S^2)=\mbox{E}(\bar{Y}S^2_Y)\). Ahora, \[\mbox{E}(\bar{Y}S^2_Y) = \frac{n}{n-1}\left[ \mbox{E}\left(\bar{Y}\frac{\sum_{i=1}^n Y^2_i}{n}\right)-\mbox{E}(\bar{Y}^3) \right]:=\frac{n}{n-1}(A-B).\] Tenemos que \[A=\frac{1}{n^2} \mbox{E}\left(\sum_{i=1}^n\sum_{j=1}^nY_iY_j^2\right )=\frac{1}{n}\mbox{E}(Y_i^3) = \frac{1}{n}\sigma^3\gamma,\] donde hemos usado la independencia y el hecho de que la esperanza de \(Y_i\) es cero, con lo que las únicas esperanzas que no se anulan son las que corresponden a los términos con \(i=j\). Por las mismas razones, \[B = \frac{1}{n^3}\mbox{E}\left(\sum_{i=1}^n\sum_{j=1}^n\sum_{k=1}^nY_iY_jY_k\right)=\frac{1}{n^2}\mbox{E}(Y_i^3)=\frac{1}{n^2}\sigma^3\gamma.\] Finalmente, \[\mbox{Cov}(\bar{X},S^2)=\frac{n}{n-1}(A-B)=\frac{\sigma^3\gamma}{n}.\]
Notas
Estrictamente hablando, para que tenga sentido hablar de correlación entre \(\bar{X}\) y \(S^2\) hay que suponer que el coeficiente de curtosis es finito, puesto que la varianza de \(S^2\) solo es finita si el coeficiente de curtosis lo es.↩︎