Se sugiere una forma de presentar en clase la distribución condicionada de un vector normal por otro, cuando ambos son conjuntamente normales.
Esencialmente, la demostración es la misma que la que aparece en los textos clásicos de Johnson y Wichern (2002) o Mardia et al (1979), nada nuevo realmente, pero creo que presentada de esta forma queda mucho más natural y clara, y además no requiere casi hacer ninguna cuenta (solo una muy fácil para la matriz de covarianzas).

El resultado
Sea \(X\) un vector con distribución normal multivariante \(\mbox{N}_{p+q}(\mu,\Sigma)\). Dividimos las componentes de \(X\) en dos grupos, \(X=(X'_1,\, X'_2)'\), el primer vector \(X_1\) formado por las \(q\) primeras y el segundo \(X_2\) formado por las \(p\) últimas. Consideramos las correspondientes particiones tanto del vector de medias como de la matriz de covarianzas:
\[\mu = (\mu'_1, \mu'_2)',\ \ \Sigma = \left(\begin{array}{c|c} \Sigma_{11} & \Sigma_{12} \\ \hline \Sigma_{21} & \Sigma_{22}\end{array} \right).\]
Suponemos que existe \(\Sigma_{11}^{-1}\). Queremos probar el siguiente famoso y muy relevante resultado:
\[X_2 | (X_1=x_1)\, \overset{d}{\equiv}\, \mbox{N}_{p}(\mu_{2|1},\, \Sigma_{22|1}),\] donde \[\begin{align*} \mu_{2|1} &:= \mu_2 + \Sigma_{21}\Sigma_{11}^{-1}(x_1-\mu_1),\\ \Sigma_{22|1} &:= \Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}. \end{align*}\]
Uso la notación \(X\, \overset{d}{\equiv} Y\,\) o \(X\, \overset{d}{\equiv} F\,\) para indicar que las variables \(X\) e \(Y\) se distribuyen igual o que la distribución de \(X\) es \(F\), respectivamente.
La demostración
Suponemos que \(\mu=0\) por simplicidad. Si no fuese así se puede aplicar exactamente el mismo razonamiento a los vectores centrados \(X_1-\mu_1\) y \(X_2-\mu_2\).
Supongamos que queremos predecir \(X_2\) a partir de \(X_1\). Dado que las únicas relaciones que hay entre vectores conjuntamente normales son lineales (son independientes si y solo si la matriz de covarianzas cruzadas es la matriz de ceros) parece natural considerar una predicción de la forma \(MX_1\) para una matriz \(M\) adecuada. Consideramos la siguiente descomposición de \(X_2\) en parte explicada por \(X_1\) y parte no explicada: \[X_2 = MX_1 + (X_2-MX_1):=MX_1 + \varepsilon.\]
Para aprovechar toda la información imponemos que la parte residual no contenga ninguna información de \(X_1\), es decir, que \(\varepsilon\) y \(X_1\) sean independientes. Como todos los vectores involucrados son conjuntamente normales (por ser funciones lineales de vectores normales) la independencia equivale a que las covarianzas cruzadas valgan cero: \[\mbox{E}[(X_2-MX_1)X_1'] = 0\Leftrightarrow \Sigma_{21} = M\Sigma_{11}\Leftrightarrow M = \Sigma_{21}\Sigma_{11}^{-1}.\]
Para esta elección de \(M\) tenemos entonces que \(\varepsilon\) es un vector normal independiente de \(X_1\) con \(\mbox{E}(\varepsilon)=0\), ya que \(\mu=0\), y \[\begin{align*} \mbox{Cov}(\varepsilon ) &= \mbox{E}[(X_2-MX_1)(X_2-MX_1)']\\ &=\mbox{E}[(X_2-\Sigma_{21}\Sigma_{11}^{-1}X_1)(X'_2-X_1'\Sigma_{11}^{-1}\Sigma_{12})] =\\ &=\Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}-\Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12} + \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{11}\Sigma_{11}^{-1}\Sigma_{12}\\ &=\Sigma_{22} - \Sigma_{21}\Sigma_{11}^{-1}\Sigma_{12}= \Sigma_{22|1}. \end{align*}\] (Hemos usado que \(\Sigma'_{12}=\Sigma_{21}\).)
Finalmente, dado \(X_1=x_1\), los vectores \(\varepsilon\) y \(X_2\) solo difieren en una constante y por ello \[\varepsilon \, \overset{d}{\equiv}\, \varepsilon | (X_1 = x_1)\, \, \overset{d}{\equiv}\, (X_2-Mx_1) | (X_1 = x_1) \, \overset{d}{\equiv}\,\mbox{N}_p(0,\Sigma_{22|1})\] equivale a \[X_2 | (X_1 = x_1) \, \overset{d}{\equiv}\,\mbox{N}_p(Mx_1,\Sigma_{22|1})\, \overset{d}{\equiv}\, \mbox{N}_p(\mu_{2|1},\Sigma_{22|1}),\] que es lo que queríamos demostrar.
El caso \(p=q=1\)
La primera vez que uno ve las fórmulas anteriores parecen un poco extrañas. Por eso yo en clase discuto inmediatamente después el caso \(p=q=1\). En esta situación tenemos de partida un vector normal bidimensional: \[\begin{pmatrix} X\\Y\end{pmatrix} \overset{d}{\equiv}\, \mbox{N}_2 \left(\begin{pmatrix} \mu_x\\\mu_y\end{pmatrix}, \begin{pmatrix} \sigma^2_x & \sigma_{xy}\\ \sigma_{yx} & \sigma_x^2\end{pmatrix}\right).\] Sea \(\rho = \sigma_{xy}/(\sigma_x\sigma_y)\) el coeficiente de correlación entre \(X\) e \(Y\). Aplicando las fórmulas, la distribución condicionada \(Y | X = x\) es normal con parámetros: \[\begin{align*} \mbox{E}(Y|X=x) &= \mu_y +\frac{\sigma_{xy}}{\sigma^2_x}(x-\mu_x),\\ \mbox{Var}(Y|X=x) &= \sigma^2_y - \frac{\sigma^2_{xy}}{\sigma^2_x} = \sigma^2_y(1-\rho^2). \end{align*}\]
Si en la ecuación de la esperanza condicionada sustituimos los parámetros poblacionales por sus análogos muestrales resulta la recta de mínimos cuadrados, con la que los estudiantes están familiarizados. Aparece ahora esta recta sin acudir al criterio de mínimos cuadrados (o al de máxima verosimilitud) sino como estimador de momentos de la esperanza condicionada en un vector normal bidimensional.
Por su parte, la fórmula de la varianza condicionada también merece comentario ya que implica \[\rho^2 = 1 - \frac{\mbox{Var}(Y|X=x)}{\mbox{Var}(Y)},\] lo que permite interpretar el coeficiente de correlación al cuadrado como la proporción de la variabilidad de \(Y\) que \(X\) es capaz de explicar.
Apéndice
Puede que la equivalencia del final de la demostración no sea del todo satisfactoria para los amantes del rigor, aunque los textos clásicos que he mencionado también la usan sin más explicaciones. En este apéndice incluyo un resultado técnico que la garantiza.
Supongamos que es posible descomponer \(X_2\) en una parte que es función de \(X_1\) (la parte de \(X_2\) que es explicada por \(X_1\)) y otra que es independiente de \(X_1\) (el residuo). Parece intuitivo que si condicionamos a un valor concreto de \(X_1\), la primera parte se comporte como una constante mientras que la parte residual sea la que determine la distribución condicionada. Esto es lo que afirma el lema siguiente:
Lema 1 Sean \(X_1\), \(X_2\) y \(\varepsilon\) tres vectores aleatorios tales que \(X_1\) es independiente de \(\varepsilon\) y existe una función medible \(f\) tal que \[X_2 \overset{d}{\equiv} f(X_1) + \varepsilon.\] Entonces, la distribución condicionada \(X_2 | X_1 = x_1\) coincide con la distribución del vector \(f(x_1) +\varepsilon.\) En particular, tomando esperanzas y covarianzas, \[\begin{align*} \mbox{E}(X_2 | X_1 = x_1) &= f(x_1) + \mbox{E}(\varepsilon),\\ \mbox{Cov}(X_2 | X_1 = x_1) &= \mbox{Cov}(\varepsilon). \end{align*}\]
Si \(\mbox{E}(\varepsilon)=0\), entonces \(f(x_1)\) es la esperanza condicionada de \(X_2\) dado que \(X_1=x_1\), es decir, la mejor predicción de \(X_2\) a partir del conocimiento de \(X_1\). Esto resulta intuitivamente claro dado que el residuo \(\varepsilon\) ya no contiene información de \(X_1\). Además, \(\mbox{Cov}(\varepsilon)\) representa la parte de la covarianza de \(X_2\) que \(X_1\) no puede explicar.
Una demostración rigurosa del lema -que es delicada, como todas las que involucran a las distribuciones condicionadas- se puede encontrar en Wilson et al (2021), pag. 5.
Referencias
- Mardia, K. V., Kent, J. T., y Bibby, J.M. (1979). Multivariate analysis. John Wiley & Sons.
- Johnson, R. A., y Wichern, D. W. (2002). Applied multivariate statistical analysis. Prentice-Hall.
- Wilson, J. T., Borovitskiy, V., Terenin, A., Mostowsky, P. and Deisenroth, M. P. (2021). Pathwise conditioning of Gaussian processes. Journal of Machine Learning Research, 22, 1-47.