Loading [MathJax]/jax/output/CommonHTML/jax.js
+ - 0:00:00
Notes for current slide
Notes for next slide

TEMA 4: Intervalos de confianza

José R. Berrendero

Departamento de Matemáticas, Universidad Autónoma de Madrid

1 / 28

Temas a tratar

  • ¿Qué es un intervalo de confianza (IC)?

  • IC para la media:

    • Población normal, varianza conocida

    • Población normal, varianza desconocida

    • Otras poblaciones: IC para una proporción

  • El método de la cantidad pivotal

  • Algunas cantidades pivotales en poblaciones normales

  • Cantidades pivotales asintóticas basadas en el EMV

  • Intervalos desde el punto de vista bayesiano

2 / 28

¿Qué es un intervalo de confianza?

  • Objetivo: obtener un intervalo tal que podemos confiar en que contiene al verdadero valor de un parámetro desconocido
  • Sean a(X1,,Xn) y b(X1,,Xn) tales que, para α(0,1), Pθ{a(X1,,Xn)<θ<b(X1,,Xn)}=1α, para todo  θ
  • Para una realización concreta de la muestra, x1,,xn, se dice que IC1α(θ):=[a(x1,,xn), b(x1,,xn)] es un intervalo de confianza (IC) para θ con nivel de confianza 1α
3 / 28

IC para la media

Población normal, varianza conocida

X1,,Xn son vaiid N(μ,σ2) con σ2 es conocida

ˉXN(μ,σ2n),  y, estandarizando,  ˉXμσ/nN(0,1) Se cumple

Pμ{zα/2<ˉXμσ/n<zα/2}=1α, donde zα denota el cuantil 1α de la normal estándar. Despejando μ,

Pμ{ˉXzα/2σn<μ<ˉX+zα/2σn}=1α

4 / 28

IC para la media

Población normal, varianza conocida

IC1α(μ)=(ˉxzα/2σn,ˉx+zα/2σn)

Margen de error:

E=zα/2σn

El margen de error depende de:

  • El tamaño muestral. Para un nivel de confianza fijo, a mayor tamaño muestral menor margen de error

  • El nivel de confianza. Si fijamos el tamaño muestral, a mayor nivel de confianza mayor es también el margen de error

  • La homogeneidad de la población. Cuanto menor sea la desviación típica menor es el margen de error para un tamaño muestral y nivel de confianza dados

5 / 28

Interpretación frecuentista

Extraemos m=100 muestras de tamaño n=30 de una población normal estándar y determinamos el número de ellas en las que el correspondiente intervalo de nivel 0.95 (calculado con la fórmula que hemos visto) contiene al verdadero valor del parámetro.

6 / 28

IC para la media

Población normal, varianza desconocida

Se sustituye σ por S en la estandarización de la media

Por el lema de Fisher, ˉXμS/ntn1

IC1α(μ)=(ˉxtn1;α/2sn,  ˉx+tn1;α/2sn)

La notación tn1;α/2 representa el valor que deja a su derecha una probabilidad α/2 en la distribución t de Student con n1 grados de libertad (o sea, el cuantil 1α/2 de la distribución).

7 / 28

Ejemplo

Se mide el tiempo de duración (en segundos) de un proceso químico realizado 20 veces en condiciones similares, obteniéndose los siguientes resultados (suponemos que los datos proceden de una distribución normal)

resultados <- c(93, 90, 97, 90, 93, 91, 96, 94, 91, 91, 88, 93, 95, 91, 89, 92,
87, 88, 90, 86)
mean(resultados)
## [1] 91.25

Usamos el comando t.test:

t.test(resultados)$conf.int # 95% es el nivel por defecto
## [1] 89.87604 92.62396
## attr(,"conf.level")
## [1] 0.95
t.test(resultados, conf.level = 0.9)$conf.int # nivel 90%
## [1] 90.11492 92.38508
## attr(,"conf.level")
## [1] 0.9
8 / 28

IC para la media

Otras poblaciones, varianza desconocida

Aunque la población no sea normal podemos aplicar el TCL: ˉXμσ/ndN(0,1)

Sustituyendo σ por un estimador consistente ˆσ y usando el lema de Slutsky ˉXμˆσ/ndN(0,1) De la propiedad anterior se obtiene el siguiente intervalo de confianza para μ con nivel aproximado 1α,

IC1α(μ)(ˉxzα/2ˆσn,ˉx+zα/2ˆσn)

9 / 28

IC para una proporción

Sean X1,,Xn vaiid B(1,p)

Si denotamos ˆp=ˉX, por el TCL ˆppp(1p)ndN(0,1), y reemplazando p por su estimador natural ˆp en el denominador,

IC1α(p)(ˆpzα/2ˆp(1ˆp)n,ˆp+zα/2ˆp(1ˆp)n)

10 / 28

Ejemplo

Se estima la proporción p de piezas defectuosas en la producción de una fábrica con una muestra de 200 piezas de las cuales 8 resultan ser defectuosas. Calcula un intervalo de confianza de nivel 0.95 para p.

Sustituyendo en la fórmula IC0.95(p)(8200±1.960.040.96200)=(0.04±0.02716) Supongamos que se desea obtener un intervalo con un error de como mucho 0.01. ¿Qué tamaño muestral habría que elegir? Nuestro objetivo es conseguir E=1.96ˆp(1ˆp)n0.01

Dos posibilidades:

  • Usar la información disponible como muestra piloto: n1475

  • Asumir el peor de los casos que es p=1/2: n9604

11 / 28

Una ficha técnica

Tamaño muestral n=1100 y nivel de confianza 1α=0.9545. Para este nivel resulta zα/2=2:

alpha <- 1-0.9545
qnorm(1-alpha/2)
## [1] 2.000002

El intervalo es de la forma [ˆp2ˆp(1ˆp)/n]. El margen de error de la ficha corresponde al caso más desfavorable, p=1/2:

n <- 1100
error <- 2*sqrt(1/(4*n))
error
## [1] 0.03015113
12 / 28

El método de la cantidad pivotal

  • Las cantidades pivotales son funciones T(X1,,Xn;θ) que dependen de la muestra y del parámetro y tales que su distribución es totalmente conocida para todo θ

  • Si identificamos una cantidad pivotal, podemos encontrar (en el caso discreto, al menos aproximadamente) dos cuantiles q1(α) y q2(α) tales que 1α=Pθ(q1(α)<T(X1,,Xn;θ)<q2(α))

  • Podemos despejar θ para obtener una región de confianza. Si T es monótona en θ, esta región es un IC

  • Ejemplo: Si X1,,Xn son vaiid de una distribución U(0,θ):

    • Comprueba que T=X(n)/θ es una cantidad pivotal

    • Determina dos cuantiles a y b tales que P(aTb)=1α, y tales que además el intervalo (a,b) tenga la menor longitud posible.

    • Determina un intervalo de confianza para θ de nivel 1α a partir de los valores a y b.

13 / 28

Diferencia de dos medias

Dos muestras independientes

Dos muestras independientes de vaiid:

  • X1,,Xn1 de una distribución N(μ1,σ2)
  • Y1,,Yn2 de una distribución N(μ2,σ2)

Se supone homocedasticidad: las varianzas de ambas poblaciones son iguales.

El objetivo es encontrar una cantidad pivotal para μ1μ2

Como las muestras son independientes: (ˉXˉY)(μ1μ2)σ1n1+1n2N(0,1) Las dos varianzas muestrales estiman el mismo parámetro. ¿Cómo los combinamos?

14 / 28

Estimación de la varianza

S2p=(n11)S21+(n21)S22n1+n22

  1. Demuestra que E(S2p)=σ2

  2. Demuestra que (n1+n22)S2p/σ2χ2n1+n22

  3. Demuestra que, como consecuencia, (ˉXˉY)(μ1μ2)Sp1n1+1n2tn1+n22

  4. De la cantidad pivotal para μ1μ2 anterior deducir el intervalo de confianza: IC1α(μ1μ2)=[(ˉXˉY)tn1+n22;α/2Sp1n1+1n2]
15 / 28

Ejemplo

A un grupo de 20 pollos se les suministró pienso con harina de maíz de una nueva variedad transgénica. A otro grupo de 20 pollos (grupo de control) se le alimentó con un pienso que no contenía la variedad mejorada. Ganancias de peso de los pollos (en gramos) al cabo de 21 días de alimentación:

maiz.normal <- c(380, 321, 366, 356, 283, 349, 402, 462, 356, 410, 329, 399,
350, 384, 316, 272, 345, 455, 360, 431)
maiz.transgenico <- c(361, 447, 401, 375, 434, 403, 393, 426, 406, 318, 467,
407, 427, 420, 477, 392, 430, 339, 410, 326)

Tal y como tenemos los datos aún no están ordenados del todo. Recordamos que debemos tener:

  • Todos los datos del mismo análisis en el mismo data.frame

  • Cada fila del fichero corresponde a un individuo

  • Cada columna del fichero corresponde a una variable

16 / 28

Ejemplo

Para ordenar los datos y representar diagramas de cajas:

peso <- c(maiz.normal, maiz.transgenico)
tipo <- gl(2, 20, labels = c('normal', 'transgénico')) # genera un factor con dos niveles
datos_maiz <- data.frame(peso, tipo)
ggplot(datos_maiz) +
geom_boxplot(aes(x=tipo, y=peso), fill='olivedrab4')

17 / 28

Ejemplo

Los pollos alimentados con un pienso normal tienden a ganar menos peso que los alimentados con transgénico

Calculamos el IC para μ1μ2, donde μ1 es la ganancia media de peso con pienso normal y μ2 es la ganancia media de peso con pienso transgénico:

t.test(peso ~ tipo, data=datos_maiz, var.equal=TRUE)$conf.int
## [1] -66.700161 -6.599839
## attr(,"conf.level")
## [1] 0.95

El hecho de que todos los valores del intervalo sean negativos apoya la afirmación de que μ1<μ2.

18 / 28

Diferencia de dos medias

Datos emparejados

Se observa una muestra (X1,Y1),,(Xn,Yn) de datos normales bidimensionales y no es posible suponer que las variables X e Y son independientes.

Se trabaja con las diferencias D1,,Dn, donde Di=XiYi: μ=E(Di)=E(Xi)E(Yi)=μ1μ2

El intervalo de confianza para la diferencia de medias se construye a partir del intervalo para μ.

19 / 28

Ejemplo

Tomamos medidas de la concentración de zinc en la superficie y en el fondo (en mg/l) de seis puntos de un río. ¿Es la concentración media igual en la superficie y en el fondo?

Como cada medida en profundidad y fondo corresponde al mismo punto del río no podemos suponer independencia.

Esto se indica usando el argumento paired = TRUE en el comando t.test:

fondo <- c(0.41, 0.24, 0.39, 0.41, 0.60, 0.61)
superficie <- c(0.43, 0.27, 0.57, 0.53, 0.71, 0.72)
t.test(fondo, superficie, paired = TRUE)$conf.int
## [1] -0.15822795 -0.03177205
## attr(,"conf.level")
## [1] 0.95
20 / 28

IC para la varianza

  • Si X1,,Xn son vaiid con distribución N(μ,σ2), por el lema de Fisher, (n1)S2σ2χ2n1
  • (n1)S2/σ2 es una cantidad pivotal para σ2

  • Si χ2n1,α es el cuantil 1α de la la distribución χ2n1, entonces 1α=P(χ2n1,1α/2<(n1)S2σ2<χ2n1,α/2)

  • De aquí se deduce fácilmente un IC para σ2 (ejercicio)

  • La distribución no es simétrica por lo que los cuantiles necesarios no solo difieren en el signo como en los IC anteriores

  • Hay infinitos pares de cuantiles que podríamos usar. Los que se usan habitualmente (los anteriores) no proporcionan el IC más corto

21 / 28

IC para el cociente de varianzas

Dos muestras independientes de vaiid:

  • X1,,Xn1 de una distribución N(μ1,σ21)
  • Y1,,Yn2 de una distribución N(μ2,σ22)

La cantidad pivotal para σ21/σ22 depende de una nueva distribución

Distribución F

Sean Y1 e Y2 dos v.a. independientes con distribuciones χ2n1 y χ2n2, respectivamente. Se dice que la variable Y=Y1/n1Y2/n2 tiene distribución F con n1 y n2 grados de libertad. (Notación: YFn1,n2).

  • ¿Qué relación hay entre la distribución F y la t de Student?

  • Demuestra que Fn1,n2;α=1/Fn2,n1;1α (con la notación habitual)

22 / 28

IC para el cociente de varianzas

ggplot(data.frame(x = c(0, 6)), aes(x)) +
geom_function(fun = 'df', args = list(df1 = 5, df2= 20), size = 1.05) +
geom_function(fun = 'df', args = list(df1 = 20, df2= 20), col = 'blue', linetype = 2, size = 1.05) +
geom_function(fun = 'df', args = list(df1 = 20, df2= 5), col = 'red', linetype = 3, size = 1.05)

23 / 28

IC para el cociente de varianzas

Sean S21 y S22 las varianzas muestrales de cada una de las dos muestras. Entonces F=S21/σ21S22/σ22=S21/S22σ21/σ22Fn11,n21

Por lo tanto, F es una cantidad pivotal para el cociente de las varianzas, lo que da el IC (ejercicio) IC1α(σ21/σ22)=[S21S22Fn21,n11;1α/2,  S21S22Fn21,n11;α/2]

24 / 28

Ejemplo

Para calcular este intervalo con R se usa el comando var.test:

# Generación de datos
set.seed(123)
n <- 100
sigma1 <- sqrt(2)
sigma2 <- 1
x <- rnorm(n, sd = sigma1)
y <- rnorm(n, sd = sigma2)
# Calculo de intervalos
var.test(x, y)$conf.int # Por defecto 95% es el nivel de confianza
## [1] 1.199136 2.648760
## attr(,"conf.level")
## [1] 0.95
var.test(x, y, conf.level = 0.99)$conf.int # Nivel 99%
## [1] 1.057455 3.003648
## attr(,"conf.level")
## [1] 0.99
25 / 28

Pivotes asintóticos basados en el EMV

  • Si X1,,Xn son vaiid de una distribución F{Fθ:θΘR}, bajo condiciones de regularidad tenemos nI(θ)(ˆθθ)dN(0,1)

  • Entonces, nI(θ)(ˆθθ) es una cantidad pivotal asintótica.

  • Si podemos despejar el parámetro en la expresión 1αP(zα/2nI(θ)(ˆθθ)zα/2) tendremos un IC para θ de nivel aproximado 1α.

  • También podemos construir un intervalo de confianza asintótico si encontramos un estimador consistente de la información de Fisher, ^I(θ): n^I(θ)(ˆθθ)dN(0,1) En este caso IC1α(θ)[ˆθ(n^I(θ))1/2zα/2, ˆθ+(n^I(θ))1/2zα/2]

26 / 28

Ejemplo

Sean X1,,Xn vaiid con distribución exponencial de parámetro θ, f(x;θ)=θeθx, si x>0

  • Calcula el EMV y la información de Fisher de cada observación

  • Deduce tres IC asintóticos para θ siguiendo cada uno de los métodos siguientes:

    • Despejando θ en 1αP(zα/2nI(θ)(ˆθθ)zα/2)

    • Estimando la información de Fisher consistentemente

    • Determinando (con el método delta) una función estabilizadora de la varianza g tal que n(g(ˆθ)g(θ))dN(0,1)

  • Comprueba que los tres intervalos coinciden si despreciamos todos los términos O(1/n) o menores
27 / 28

Intervalos en el enfoque bayesiano

Se define una región creíble de nivel 1ϵ para θ como un subconjunto AΘ tal que P(θA|x1,,xn)=Aπ(θ|x1,,xn)dθ=1ϵ

Ejemplo

Se desea obtener un intervalo creíble para el parámetro λ de una distribución de Poisson a partir de una muestra x1,,xn, suponiendo que λγ(α,β), siendo αN conocido f(x;α,β)=βαΓ(α)xα1eβx,   x>0

  • La distribución a posteriori de λ es γ(α=nˉx+α,β=n+β)

  • La distribución a posteriori de 2(n+β)λ es γ(nˉx+α,1/2)χ22(nˉx+α)

  • Un intervalo creíble de nivel 1ϵ para λ es A=(χ22(nˉx+α);1ϵ/22(n+β),χ22(nˉx+α);ϵ/22(n+β))

28 / 28

Temas a tratar

  • ¿Qué es un intervalo de confianza (IC)?

  • IC para la media:

    • Población normal, varianza conocida

    • Población normal, varianza desconocida

    • Otras poblaciones: IC para una proporción

  • El método de la cantidad pivotal

  • Algunas cantidades pivotales en poblaciones normales

  • Cantidades pivotales asintóticas basadas en el EMV

  • Intervalos desde el punto de vista bayesiano

2 / 28
Paused

Help

Keyboard shortcuts

, , Pg Up, k Go to previous slide
, , Pg Dn, Space, j Go to next slide
Home Go to first slide
End Go to last slide
Number + Return Go to specific slide
b / m / f Toggle blackout / mirrored / fullscreen mode
c Clone slideshow
p Toggle presenter mode
t Restart the presentation timer
?, h Toggle this help
Esc Back to slideshow