¿Qué es un intervalo de confianza (IC)?
IC para la media:
Población normal, varianza conocida
Población normal, varianza desconocida
Otras poblaciones: IC para una proporción
El método de la cantidad pivotal
Algunas cantidades pivotales en poblaciones normales
Cantidades pivotales asintóticas basadas en el EMV
Intervalos desde el punto de vista bayesiano
X1,…,Xn son vaiid N(μ,σ2) con σ2 es conocida
ˉX≡N(μ,σ2n), y, estandarizando, ˉX−μσ/√n≡N(0,1) Se cumple
Pμ{−zα/2<ˉX−μσ/√n<zα/2}=1−α, donde zα denota el cuantil 1−α de la normal estándar. Despejando μ,
Pμ{ˉX−zα/2σ√n<μ<ˉX+zα/2σ√n}=1−α
IC1−α(μ)=(ˉx−zα/2σ√n,ˉx+zα/2σ√n)
Margen de error:
E=zα/2σ√n
El margen de error depende de:
El tamaño muestral. Para un nivel de confianza fijo, a mayor tamaño muestral menor margen de error
El nivel de confianza. Si fijamos el tamaño muestral, a mayor nivel de confianza mayor es también el margen de error
La homogeneidad de la población. Cuanto menor sea la desviación típica menor es el margen de error para un tamaño muestral y nivel de confianza dados
Extraemos m=100 muestras de tamaño n=30 de una población normal estándar y determinamos el número de ellas en las que el correspondiente intervalo de nivel 0.95 (calculado con la fórmula que hemos visto) contiene al verdadero valor del parámetro.
Se sustituye σ por S en la estandarización de la media
Por el lema de Fisher, ˉX−μS/√n≡tn−1
IC1−α(μ)=(ˉx−tn−1;α/2s√n, ˉx+tn−1;α/2s√n)
La notación tn−1;α/2 representa el valor que deja a su derecha una probabilidad α/2 en la distribución t de Student con n−1 grados de libertad (o sea, el cuantil 1−α/2 de la distribución).
Se mide el tiempo de duración (en segundos) de un proceso químico realizado 20 veces en condiciones similares, obteniéndose los siguientes resultados (suponemos que los datos proceden de una distribución normal)
resultados <- c(93, 90, 97, 90, 93, 91, 96, 94, 91, 91, 88, 93, 95, 91, 89, 92,87, 88, 90, 86)mean(resultados)
## [1] 91.25
Usamos el comando t.test
:
t.test(resultados)$conf.int # 95% es el nivel por defecto
## [1] 89.87604 92.62396## attr(,"conf.level")## [1] 0.95
t.test(resultados, conf.level = 0.9)$conf.int # nivel 90%
## [1] 90.11492 92.38508## attr(,"conf.level")## [1] 0.9
Aunque la población no sea normal podemos aplicar el TCL: ˉX−μσ/√n→dN(0,1)
Sustituyendo σ por un estimador consistente ˆσ y usando el lema de Slutsky ˉX−μˆσ/√n→dN(0,1) De la propiedad anterior se obtiene el siguiente intervalo de confianza para μ con nivel aproximado 1−α,
IC1−α(μ)≈(ˉx−zα/2ˆσ√n,ˉx+zα/2ˆσ√n)
Sean X1,…,Xn vaiid B(1,p)
Si denotamos ˆp=ˉX, por el TCL ˆp−p√p(1−p)n→dN(0,1), y reemplazando p por su estimador natural ˆp en el denominador,
IC1−α(p)≈(ˆp−zα/2√ˆp(1−ˆp)n,ˆp+zα/2√ˆp(1−ˆp)n)
Se estima la proporción p de piezas defectuosas en la producción de una fábrica con una muestra de 200 piezas de las cuales 8 resultan ser defectuosas. Calcula un intervalo de confianza de nivel 0.95 para p.
Sustituyendo en la fórmula IC0.95(p)≈(8200±1.96√0.04⋅0.96200)=(0.04±0.02716) Supongamos que se desea obtener un intervalo con un error de como mucho 0.01. ¿Qué tamaño muestral habría que elegir? Nuestro objetivo es conseguir E=1.96√ˆp(1−ˆp)n≤0.01
Dos posibilidades:
Usar la información disponible como muestra piloto: n≈1475
Asumir el peor de los casos que es p=1/2: n≈9604
Tamaño muestral n=1100 y nivel de confianza 1−α=0.9545. Para este nivel resulta zα/2=2:
alpha <- 1-0.9545qnorm(1-alpha/2)
## [1] 2.000002
El intervalo es de la forma [ˆp∓2√ˆp(1−ˆp)/n]. El margen de error de la ficha corresponde al caso más desfavorable, p=1/2:
n <- 1100error <- 2*sqrt(1/(4*n))error
## [1] 0.03015113
Las cantidades pivotales son funciones T(X1,…,Xn;θ) que dependen de la muestra y del parámetro y tales que su distribución es totalmente conocida para todo θ
Si identificamos una cantidad pivotal, podemos encontrar (en el caso discreto, al menos aproximadamente) dos cuantiles q1(α) y q2(α) tales que 1−α=Pθ(q1(α)<T(X1,…,Xn;θ)<q2(α))
Podemos despejar θ para obtener una región de confianza. Si T es monótona en θ, esta región es un IC
Ejemplo: Si X1,…,Xn son vaiid de una distribución U(0,θ):
Comprueba que T=X(n)/θ es una cantidad pivotal
Determina dos cuantiles a y b tales que P(a≤T≤b)=1−α, y tales que además el intervalo (a,b) tenga la menor longitud posible.
Determina un intervalo de confianza para θ de nivel 1−α a partir de los valores a y b.
Dos muestras independientes de vaiid:
Se supone homocedasticidad: las varianzas de ambas poblaciones son iguales.
El objetivo es encontrar una cantidad pivotal para μ1−μ2
Como las muestras son independientes: (ˉX−ˉY)−(μ1−μ2)σ√1n1+1n2≡N(0,1) Las dos varianzas muestrales estiman el mismo parámetro. ¿Cómo los combinamos?
S2p=(n1−1)S21+(n2−1)S22n1+n2−2
Demuestra que E(S2p)=σ2
Demuestra que (n1+n2−2)S2p/σ2≡χ2n1+n2−2
Demuestra que, como consecuencia, (ˉX−ˉY)−(μ1−μ2)Sp√1n1+1n2≡tn1+n2−2
A un grupo de 20 pollos se les suministró pienso con harina de maíz de una nueva variedad transgénica. A otro grupo de 20 pollos (grupo de control) se le alimentó con un pienso que no contenía la variedad mejorada. Ganancias de peso de los pollos (en gramos) al cabo de 21 días de alimentación:
maiz.normal <- c(380, 321, 366, 356, 283, 349, 402, 462, 356, 410, 329, 399, 350, 384, 316, 272, 345, 455, 360, 431)maiz.transgenico <- c(361, 447, 401, 375, 434, 403, 393, 426, 406, 318, 467, 407, 427, 420, 477, 392, 430, 339, 410, 326)
Tal y como tenemos los datos aún no están ordenados del todo. Recordamos que debemos tener:
Todos los datos del mismo análisis en el mismo data.frame
Cada fila del fichero corresponde a un individuo
Cada columna del fichero corresponde a una variable
Para ordenar los datos y representar diagramas de cajas:
peso <- c(maiz.normal, maiz.transgenico)tipo <- gl(2, 20, labels = c('normal', 'transgénico')) # genera un factor con dos nivelesdatos_maiz <- data.frame(peso, tipo)ggplot(datos_maiz) + geom_boxplot(aes(x=tipo, y=peso), fill='olivedrab4')
Los pollos alimentados con un pienso normal tienden a ganar menos peso que los alimentados con transgénico
Calculamos el IC para μ1−μ2, donde μ1 es la ganancia media de peso con pienso normal y μ2 es la ganancia media de peso con pienso transgénico:
t.test(peso ~ tipo, data=datos_maiz, var.equal=TRUE)$conf.int
## [1] -66.700161 -6.599839## attr(,"conf.level")## [1] 0.95
El hecho de que todos los valores del intervalo sean negativos apoya la afirmación de que μ1<μ2.
Se observa una muestra (X1,Y1),…,(Xn,Yn) de datos normales bidimensionales y no es posible suponer que las variables X e Y son independientes.
Se trabaja con las diferencias D1,…,Dn, donde Di=Xi−Yi: μ=E(Di)=E(Xi)−E(Yi)=μ1−μ2
El intervalo de confianza para la diferencia de medias se construye a partir del intervalo para μ.
Tomamos medidas de la concentración de zinc en la superficie y en el fondo (en mg/l) de seis puntos de un río. ¿Es la concentración media igual en la superficie y en el fondo?
Como cada medida en profundidad y fondo corresponde al mismo punto del río no podemos suponer independencia.
Esto se indica usando el argumento paired = TRUE
en el comando t.test
:
fondo <- c(0.41, 0.24, 0.39, 0.41, 0.60, 0.61)superficie <- c(0.43, 0.27, 0.57, 0.53, 0.71, 0.72)t.test(fondo, superficie, paired = TRUE)$conf.int
## [1] -0.15822795 -0.03177205## attr(,"conf.level")## [1] 0.95
(n−1)S2/σ2 es una cantidad pivotal para σ2
Si χ2n−1,α es el cuantil 1−α de la la distribución χ2n−1, entonces 1−α=P(χ2n−1,1−α/2<(n−1)S2σ2<χ2n−1,α/2)
De aquí se deduce fácilmente un IC para σ2 (ejercicio)
La distribución no es simétrica por lo que los cuantiles necesarios no solo difieren en el signo como en los IC anteriores
Hay infinitos pares de cuantiles que podríamos usar. Los que se usan habitualmente (los anteriores) no proporcionan el IC más corto
Dos muestras independientes de vaiid:
La cantidad pivotal para σ21/σ22 depende de una nueva distribución
Sean Y1 e Y2 dos v.a. independientes con distribuciones χ2n1 y χ2n2, respectivamente. Se dice que la variable Y=Y1/n1Y2/n2 tiene distribución F con n1 y n2 grados de libertad. (Notación: Y≡Fn1,n2).
¿Qué relación hay entre la distribución F y la t de Student?
Demuestra que Fn1,n2;α=1/Fn2,n1;1−α (con la notación habitual)
ggplot(data.frame(x = c(0, 6)), aes(x)) + geom_function(fun = 'df', args = list(df1 = 5, df2= 20), size = 1.05) + geom_function(fun = 'df', args = list(df1 = 20, df2= 20), col = 'blue', linetype = 2, size = 1.05) + geom_function(fun = 'df', args = list(df1 = 20, df2= 5), col = 'red', linetype = 3, size = 1.05)
Sean S21 y S22 las varianzas muestrales de cada una de las dos muestras. Entonces F=S21/σ21S22/σ22=S21/S22σ21/σ22≡Fn1−1,n2−1
Por lo tanto, F es una cantidad pivotal para el cociente de las varianzas, lo que da el IC (ejercicio) IC1−α(σ21/σ22)=[S21S22Fn2−1,n1−1;1−α/2, S21S22Fn2−1,n1−1;α/2]
Para calcular este intervalo con R
se usa el comando var.test
:
# Generación de datosset.seed(123)n <- 100sigma1 <- sqrt(2)sigma2 <- 1x <- rnorm(n, sd = sigma1) y <- rnorm(n, sd = sigma2)# Calculo de intervalosvar.test(x, y)$conf.int # Por defecto 95% es el nivel de confianza
## [1] 1.199136 2.648760## attr(,"conf.level")## [1] 0.95
var.test(x, y, conf.level = 0.99)$conf.int # Nivel 99%
## [1] 1.057455 3.003648## attr(,"conf.level")## [1] 0.99
Si X1,…,Xn son vaiid de una distribución F∈{Fθ:θ∈Θ⊂R}, bajo condiciones de regularidad tenemos √nI(θ)(ˆθ−θ)→dN(0,1)
Entonces, √nI(θ)(ˆθ−θ) es una cantidad pivotal asintótica.
Si podemos despejar el parámetro en la expresión 1−α≈P(−zα/2≤√nI(θ)(ˆθ−θ)≤zα/2) tendremos un IC para θ de nivel aproximado 1−α.
También podemos construir un intervalo de confianza asintótico si encontramos un estimador consistente de la información de Fisher, ^I(θ): √n^I(θ)(ˆθ−θ)→dN(0,1) En este caso IC1−α(θ)≈[ˆθ−(n^I(θ))−1/2zα/2, ˆθ+(n^I(θ))−1/2zα/2]
Sean X1,…,Xn vaiid con distribución exponencial de parámetro θ, f(x;θ)=θe−θx, si x>0
Calcula el EMV y la información de Fisher de cada observación
Deduce tres IC asintóticos para θ siguiendo cada uno de los métodos siguientes:
Despejando θ en 1−α≈P(−zα/2≤√nI(θ)(ˆθ−θ)≤zα/2)
Estimando la información de Fisher consistentemente
Determinando (con el método delta) una función estabilizadora de la varianza g tal que √n(g(ˆθ)−g(θ))→dN(0,1)
Se define una región creíble de nivel 1−ϵ para θ como un subconjunto A⊂Θ tal que P(θ∈A|x1,…,xn)=∫Aπ(θ|x1,…,xn)dθ=1−ϵ
Ejemplo
Se desea obtener un intervalo creíble para el parámetro λ de una distribución de Poisson a partir de una muestra x1,…,xn, suponiendo que λ∼γ(α,β), siendo α∈N conocido f(x;α,β)=βαΓ(α)xα−1e−βx, x>0
La distribución a posteriori de λ es γ(α′=nˉx+α,β′=n+β)
La distribución a posteriori de 2(n+β)λ es γ(nˉx+α,1/2)≡χ22(nˉx+α)
Un intervalo creíble de nivel 1−ϵ para λ es A=(χ22(nˉx+α);1−ϵ/22(n+β),χ22(nˉx+α);ϵ/22(n+β))
¿Qué es un intervalo de confianza (IC)?
IC para la media:
Población normal, varianza conocida
Población normal, varianza desconocida
Otras poblaciones: IC para una proporción
El método de la cantidad pivotal
Algunas cantidades pivotales en poblaciones normales
Cantidades pivotales asintóticas basadas en el EMV
Intervalos desde el punto de vista bayesiano
Keyboard shortcuts
↑, ←, Pg Up, k | Go to previous slide |
↓, →, Pg Dn, Space, j | Go to next slide |
Home | Go to first slide |
End | Go to last slide |
Number + Return | Go to specific slide |
b / m / f | Toggle blackout / mirrored / fullscreen mode |
c | Clone slideshow |
p | Toggle presenter mode |
t | Restart the presentation timer |
?, h | Toggle this help |
Esc | Back to slideshow |