En un estudio sobre el efecto del hábito de fumar en la agregación de plaquetas en la sangre (que puede dar lugar a la formación de coágulos) se extrajeron muestras de sangre de 11 individuos antes y después de fumar un cigarrillo, y se midió el máximo porcentaje de plaquetas agregadas. Los resultados fueron: \[ \begin{array}{c|ccccccccccc} \mbox{Individuo} & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 \\ \hline \mbox{Antes} & 25 & 25 & 27 & 44 & 30 & 67 & 53 & 53 & 52 & 60 & 28 \\ \mbox{Después} & 27 & 29 & 37 & 56 & 46 & 82 & 57 & 80 & 61 & 59 & 43 \end{array} \] Bajo hipótesis de normalidad, calcula un intervalo de confianza de nivel 0.95 para la diferencia media \(\mu\) del máximo porcentaje de plaquetas agregadas antes y después de fumar un cigarrillo. ¿Qué conclusión se obtiene del resultado obtenido?

Indicación: Se trata de un caso de datos emparejados. Un procedimiento habitual en este caso, consiste en suponer que la variable \(D\), definida como la diferencia entre el máximo porcentaje de plaquetas agregadas antes y después de fumar un cigarrillo, sigue una distribución \(N(\mu,\sigma)\), con \(\sigma\) desconocido.


Solución:

Sean \(X\) e \(Y\) el máximo porcentaje de plaquetas agregadas antes y después, respectivamente, de fumar un cigarrillo. Denotamos sus medias poblacionales por \(\mu_1=\mathbb E(X)\) y \(\mu_2=\mathbb E(Y)\). Nos p iden construir un intervalo de confianza de nivel 0.95 para la diferencia media \(\mu = \mu_1-\mu_2\).

No hace falta suponer normalidad de las variables \(X\) e \(Y\) por separado. Estas dos variables no son independientes porque ambas se miden en el mismo individuo de la muestra, de hecho, lo que tenemos es una muestra de datos bivariados \((x_1,y_1),\ldots,(x_{11},y_{11})\) observada en \(n=11\) individuos. A los datos con este tipo de dependencia se los llama datos emparejados o pareados. Serían también datos emparejados, por ejemplo, observar la misma medida biométrica en dos miembros de una misma familia.

Para resolver este tipo de problemas un procedimiento estándar es suponer que la diferencia \(D=X-Y\) sigue una distribución normal \(N(\mu,\sigma)\). Entonces \[ \mbox{IC}_{95\%}(\mu) = \left( \bar d \mp t_{n-1;0.025} \frac{s_d}{\sqrt{n}}\right), \] donde \(\bar d=-10.27273\) y \(s_d=7.976101\) son respectivamente la media y la desviación típica muestrales de las diferencias \[ \begin{array}{c|rrrrrrrrrrr} \mbox{Individuo} & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 & 10 & 11 \\ \hline \mbox{Diferencias} & -2 & -4 & -10 & -12 & -16 & -15 & -4 & -27 & -9 & 1 & -15 \\ \end{array} \] Por tanto, \[ \mbox{IC}_{95\%}(\mu) = \left( -10.273 \mp 2.228 \frac{7.976}{\sqrt{11}} \right) = \left( -10.273 \mp 5.358 \right) = (-15.631,-4.915). \] Con R

X = c(25, 25, 27, 44, 30, 67, 53, 53, 52, 60, 28)
Y = c(27, 29, 37, 56, 46, 82, 57, 80, 61, 59, 43)
t.test(X,Y,paired=TRUE)
## 
##  Paired t-test
## 
## data:  X and Y
## t = -4.2716, df = 10, p-value = 0.001633
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -15.63114  -4.91431
## sample estimates:
## mean of the differences 
##               -10.27273