Se ha comprobado que la probabilidad de curación espontánea (sin medicación alguna) de cierta enfermedad es de 0.4. Un laboratorio ha obtenido un nuevo medicamento para tratar la enfermedad y quiere demostrar que cura la enfermedad en más de un 40% de los casos. Para ello se aplica el tratamiento a 100 pacientes que sufren la enfermedad y se observa cuántos de ellos se curan.
a) Si se han curado 50 personas de las 100, a nivel \(\alpha=0.05\), ¿puede afirmarse que el medicamento tiene una probabilidad de curar la enfermedad por encima de 0.4? Calcula el \(p\)-valor del contraste.
b) ¿Cuántas personas de las 100 deberían curarse como mínimo para poder afirmar al nivel \(\alpha=0.001\) que la probabilidad de curación con el nuevo tratamiento supera el 40%?
c) Supongamos que la probabilidad de curación con el tratamiento fuese realmente de 0.5 y que se realiza el test de nivel 0.05 con 100 personas. ¿Cuál sería la probabilidad de error, es decir, la probabilidad de rechazar el medicamento como inútil?.
Solución: Consideramos la v.a. con distribución Bernoulli(\(p\)) \[ X = \left\{ \begin{array}{ll} 1 & \mbox{si un paciente tratado con el nuevo medicamento se cura de la enfermedad;} \\ 0 & \mbox{si el paciente no se cura con el nuevo medicamento.} \end{array} \right. \] Que el nuevo medicamento sea eficaz equivale a decir que \(p>0.4\).
a) Para una cierta muestra observada \(x_1,\ldots,x_{100}\), tenemos que \(\sum_{i=1}^{100} = 50\), luego \(\bar x = 0.5\).
A nivel de significación \(\alpha=0.05\), planteamos el contraste \[ \begin{array}{ll} H_0: & p\leq 0.4 \\ H_1: & p>0.4, \end{array} \] cuya región de rechazo es \(R = \{z>z_{\alpha}\}\), siendo en este caso \[ z = \frac{\bar x - 0.4}{\sqrt{\frac{\bar x(1-\bar x)}{n}}} = 2.041 \] el estadístico del contraste y \(z_{\alpha}= z_{0.05} \simeq 1.645\). Por tanto, rechazamos \(H_0\) a un nivel de significación del 5%.
Podemos calcular el p-valor del contraste con R:
z = (0.5-0.4)*sqrt(100/(0.4*0.6))
pnorm(z,lower.tail=FALSE)
## [1] 0.02061342
Es decir, que la hipótesis de que el medicamento es más eficaz que la curación espontánea no es significativa a un nivel del 1%.
Podemos resolver el contraste con R:
prop.test(50,100,p=0.4,alternative = "greater",correct=FALSE)
##
## 1-sample proportions test without continuity correction
##
## data: 50 out of 100, null probability 0.4
## X-squared = 4.1667, df = 1, p-value = 0.02061
## alternative hypothesis: true p is greater than 0.4
## 95 percent confidence interval:
## 0.4188478 1.0000000
## sample estimates:
## p
## 0.5
Expliquemos el argumento correct=FALSEde prop.test. La aproximación de la binomial por la normal proporcionada por el teorema central del límite (TCL), \(B(n,p) \simeq N(np,\sqrt{np(1-p)})\), es tanto mejor cuanto mayor es \(n\). Para un \(n\) no demasiado grande la aproximación de una distribución discreta por una continua puede no resultar satisfactoria.
La corrección por continuidad añade un término extra al estadístico del contraste \(z\) para corregir el error cometido al aproximar una distribución discreta (binomial) por una distribución continua (normal). La corrección ajusta la probabilidad del error de tipo I (que se “infla” al emplear la aproximación normal cuando el tamaño muestral es pequeño). Por ejemplo, en el caso del contraste \(H_0:p=p_0\), la región de rechazo es \(R=\{ |z|>z_{\alpha/2} \}\) donde el estadístico del contraste es \[ \begin{array}{cc} \mbox{sin corrección por continuidad} & \mbox{con corrección por continuidad} \\ \displaystyle z = \frac{\bar x - p_0}{\sqrt{\frac{p_0(1-p_0)}{n}}} & \displaystyle z = \frac{|\bar x - p_0|-\frac{1}{2n}}{\sqrt{\frac{p_0(1-p_0)}{n}}} \end{array} \] La idea de la corrección por continuidad está basada en que, como \(\sum_{=1}^n X_i\sim B(n,p)\), se cumple que, para cualquier entero \(c\geq 0\), \[ \mathbb P\left\{\sum_{=1}^n X_i\leq c\right\} = \mathbb P\left\{\sum_{=1}^n X_i < c+1 \right\} \] y ambas probabilidades, para \(n\) suficientemente grande están bien aproximadas simultáneamente por \(\mathbb P\{ N(np,\sqrt{p(1-p)})\leq c+1/2 \}\). De cualquier manera, en la práctica, se acepta cualquiera de las dos opciones (con o sin corrección de continuidad): a nivel de estadística práctica la corrección se utiliza más y a nivel de estadística matemática no se utiliza prácticamente nunca.
b) A nivel \(\alpha=0.001\) afirmaríamos que el tratamiento es eficaz si \[ \sum_{i=1}^{100} x_i > 100\left( 0.4 + z_{0.001}\sqrt{\frac{0.4 \cdot 0.6}{100}}\right) = 55.1. \]
c) Suponemos que \(X\sim\mbox{Bernoulli}(p=0.5)\). Primero calculamos la probabilidad de “no error”, es decir, de rechazar \(H_0:p\leq 0.4\): \[ \mathbb P_{p=0.5}(R) = \mathbb P_{p=0.5} \left\{ \bar X - 0.4 > z_{0.05} \sqrt{\frac{0.4 \cdot 0.6}{100}} \right\} = \mathbb P_{p=0.5} \{ \bar X>0.4806 \}. \] Estandarizamos \(\bar X\) usando \(p=5\) y aproximamos la media muestral estandarizada por una \(Z\sim N(0,1)\) (TCL) para obtener \[ \mathbb P_{p=0.5}(R) = \mathbb P_{p=0.5} \left\{ \frac{\bar X-0.5}{\sqrt{\frac{0.5^2}{100}}} > \frac{0.4806-0.5}{0.05} \right\} \simeq \mathbb P \{ Z > -0.388 \} = 0.65. \] Finalmente la probabilidad de error pedida sería \(1-\mathbb P_{p=0.5}(R)= 0.35\).
Observación: La probabilidad \(\mathbb P_{p=0.5}(R)\) es la función de potencia \(\beta(p)\) del contraste de hipótesis evaluada en \(p=0.5\). Cambiando el valor de \(p\) podríamos aproximar el resto de valores de esta función: \[ \beta(p) = \mathbb P_{p}(R) \simeq \mathbb P \left\{ Z > \frac{0.4806-p}{\sqrt{\frac{p(1-p)}{100}}} \right\} \] y dibujar la función de potencia
p = seq(0.01,0.99,0.01)
potencia = pnorm(10*(0.4806-p)/sqrt(p*(1-p)),lower.tail=FALSE)
plot(p,potencia,type="l",lwd=2)