Fundamentos de estadística

Autor/a

José Ramón Berrendero

The science and technology of obtaining useful information from data, taking its variability into account.

Definición de estadística en la página del Rousseeuw Prize for Statistics

Prefacio

La estadística es parte esencial de la colección de técnicas y disciplinas que forman la actual ciencia de datos. Proporciona el fundamento necesario para ajustar modelos a los datos e inferir conclusiones generales en un ambiente de incertidumbre. El objetivo principal de estas notas es explicar los conceptos principales sobre los que descansan las técnicas estadísticas. He adoptado una vía intermedia en el sentido de que, al contrario que en libros más centrados en las aplicaciones, no he eludido las derivaciones matemáticas y las fórmulas si me parece que aportan profundidad y precisión a la idea que se trata de comunicar. Por otra parte, también he intentado evitar que los detalles matemáticos oculten las ideas estadísticas. En un primer contacto con la estadística un exceso de rigor matemático puede ser contraproducente y dificulta apreciar aspectos valiosos de la materia.

Tras un primer capítulo sobre visualización de datos, se consideran tanto técnicas paramétricas como no paramétricas. Dentro de la estadística paramétrica se tratan los métodos más conocidos en estimación puntual, construcción de intervalos de confianza y contraste de hipótesis. Se consideran principalmente los métodos frecuentistas, si bien los conceptos más relevantes de la estadística bayesiana también se introducen brevemente. Dentro de la estadística no paramétrica se consideran los estimadores de núcleo de la función de densidad, la función de distribución empírica, el bootstrap y los estadísticos de orden. El énfasis es conceptual, es decir, el objetivo es introducir las ideas de la forma más clara posible. Por ello, en la mayor parte de las notas se trabaja con modelos muy sencillos, con solo uno o dos parámetros.

Se presuponen conocidos los modelos probabilísticos más importantes. También se presuponen conocimientos estándar de álgebra lineal y cálculo en una o varias variables. No se hace uso de teoría de la medida salvo la mínima dosis necesaria para poder hablar de convergencias estocásticas. La función característica se usa puntualmente como herramienta para deducir las distribuciones de algunos estimadores.

Un objetivo secundario de estas notas es mostrar el uso de software estadístico en el que estén implementados los diferentes métodos. Para ello se utiliza el software R y el conjunto de paquetes incluidos en el llamado tidyverse. Hay multitud de recursos que se pueden usar para aprender los aspectos básicos de R, que aquí se suponen conocidos. Por el contrario, sí se introduce en el primer capítulo el uso de los paquetes dplyr y ggplot, pues forman parte casi inseparable de la aplicación de las principales técnicas descriptivas.

El texto se mezcla de forma intencionada con el código de R. El objetivo principal no es que el lector se familiarice con el software sino sobre todo aclarar las dudas que los conceptos teóricos puedan generar. Desde este punto de vista, el código es interesante porque, en primer lugar, elimina cualquier ambigüedad que pueda haber resistido a la explicación de la teoría y, en segundo lugar, permite comprobar empíricamente su validez. Esto es especialmente relevante en el caso de los resultados asintóticos. A veces una pequeña simulación es la mejor manera de comprender las implicaciones y el significado estadístico de una fórmula matemática. Se ha mantenido el código que genera muchas de las figuras con el fin de informar de los detalles de R para quienes resulte de interés, pero no es necesario leer el código -o comprenderlo en su totalidad- para seguir las notas.

Contenidos

  1. Descripción de datos
  2. Muestreo aleatorio
  3. Estimación puntual
  4. Intervalos de confianza
  5. Contrastes de hipótesis
  6. Bootstrap
  7. Estimación no paramétrica de la función de densidad

Los contenidos de un curso típico de fundamentos de estadística corresponden a los capítulos 1 a 5. Se pueden cubrir en un cuatrimestre (15 semanas, 4 horas por semana) seleccionando las demostraciones de mayor interés o eliminando algunos detalles. Los capítulos 6 y 7 tratan temas complementarios, un poco más avanzados. Algunos elementos de estos capítulos se pueden seleccionar para ampliar los contenidos del curso.

Esta es la versión más reciente de unas notas en proceso permanente de revisión. Se agradece cualquier comentario o crítica a través de un correo electrónico al autor.

Listado de paquetes de R necesarios

Para poder ejecutar el código es necesario instalar y cargar los siguientes paquetes de R:

# Carga paquetes necesarios ---------------------------------------------


library(cowplot)
library(GGally)
library(ggridges)
library(patchwork)
library(tidyverse)

Agradecimientos

Este es el resultado de la experiencia acumulada al impartir varias asignaturas sobre técnicas estadísticas, en especial, la asignatura Estadística I del Grado en Matemáticas de la Universidad Autónoma de Madrid, cuyos apuntes constituyen la primera versión. A lo largo de este tiempo he tomado ejemplos de diversas fuentes, que no aparecen explícitamente mencionadas. Se trata de ejemplos, ejercicios o resultados relativamente estándar que aparecen en muchos libros de texto. Sí que he tratado de identificar a través de un enlace aquellas figuras o gráficos que he tomado directamente de otra página web.

Quería agradecer a dos compañeros, Amparo Baíllo y Antonio Cuevas, el haberme facilitado sus notas que me han servido como base para algunas secciones.

La foto de portada es de Burak The Weekender.

Las notas se han escrito utilizando el sistema Quarto de publicación científica y técnica.

Licencia

Licencia de Creative Commons
Este libro se publica bajo una licencia de Creative Commons Reconocimiento-NoComercial-CompartirIgual 4.0 Internacional.