En esta entrada se reseñan muy brevemente algunos de los artículos que me he encontrado en arXiv desde febrero de 2023 y me han llamado la atención. Se une a los tres anteriores paseos aleatorios por arXiv del blog:
He tratado de ordenar los artículos comenzando por aquellos que pueden tener un interés más general para terminar con artículos sobre temas más específicos.
Artículos divulgativos o sobre temas que pueden ser de interés general
Si una pareja tiene dos hijos y sabemos que uno de ellos es un niño, ¿cuál es la probabilidad de que el otro hijo también sea un niño? (Respuesta: 1/3). En Variations on the two-child problem los autores consideran esta y otras variantes sutiles de la pregunta: Si una pareja tiene dos hijos y sabemos que uno de ellos es un niño que se llama Antonio, ¿cuál es la probabilidad de que el otro hijo también sea un niño? (Respuesta: aproximadamente 1/2).
Ajustar un modelo a unos datos impone un punto de vista: se destacan algunos aspectos de los datos y se ignoran otros. En Performance is not enough: the story of Rashomon’s quartet se ajustan cuatro modelos muy distintos (regresión lineal, árbol de regresión, bosque aleatorio y red neuronal) al mismo conjunto de datos generados sintéticamente. Todos los modelos tienen similar capacidad predictiva, pero cada uno cuenta una historia diferente. En una línea similar de razonamiento, Causal inference is not a statistical problem introduce cuatro conjuntos de datos generados a través de diferentes mecanismos causales y en los que diferentes medidas estadísticas coinciden. Puede ayudar a comprender aspectos del importante problema de las relaciones entre causalidad y correlación.
Se conoce como ley de Lindy la propiedad según la cual la esperanza de vida de algo (por ejemplo, una tecnología o una idea) es proporcional al tiempo que ha estado vigente. Una mayor longevidad implica mayores expectativas futuras de duración. El lector que quiera más información sobre cuándo es esperable que esta propiedad se cumpla puede leer The Lindy Effect.
Se puede aprender sobre los diferentes métodos para construir intervalos de confianza para una diferencia de proporciones leyendo Optimal confidence interval for the difference of proportions.
En On the term randomization test se hace un recorrido histórico por lo que significa llevar a cabo un contraste de aleatorización. Hay cierta ambigüedad porque Pearson (1937) se refiere a llevar a cabo una asignación aleatoria de los tratamientos a las unidades experimentales, mientras que otros autores como Eden y Yates (1933) se refieren a la aleatorización de los datos (como, por ejemplo, en los contrastes de permutaciones).
Libros, apuntes o revisiones de distintos temas
El análisis de datos funcionales incorpora una colección de técnicas estadísticas para analizar muestras de funciones (o imágenes) que cada vez son más frecuentes en la práctica. Functional Data Analysis: An Introduction and Recent Developments proporciona una revisión reciente (diciembre, 2023) sobre el tema. El enfoque es eminentemente aplicado e incluye notas sobre implementaciones de las distintas técnicas.
Los métodos que se revisan en Manifold learning: what, how, and why se encaminan a detectar estructuras de baja dimensión en un conjunto de datos de dimensión alta y están relacionados con métodos no lineales de reducción de la dimensión.
Para aquellos interesados en estudiar en profundidad la base matemática de lo que se conoce como análisis de datos topológico puede ser útil el libro Algebraic Topology for Data Scientists.
An introduction to graph theory es un extenso libro que se utiliza para introducir la teoría de grafos en una asignatura de Drexel University.
High-Dimensional Statistics son unas notas sobre el análisis de datos de alta dimensión para una asignatura del MIT. Teórico y avanzado, con muchos resultados sobre regresión y estimación de matrices.
Mathematical Introduction to Deep Learning: Methods, Implementations, and Theory es un libro sobre las propiedades de los algoritmos y los métodos de optimización utilizados en los modelos de aprendizaje profundo. Bastante técnico.
En The Matérn Model: A Journey through Statistics, Numerical Analysis and Machine Learning se puede encontrar una revisión histórica sobre el interés, aplicaciones y principales propiedades de los modelos de Matérn.
Me he encontrado también este libro de Análisis Matemático en dos volúmenes: Mathematical Analysis Volume I y Mathematical Analysis Volume II.
Artículos sobre temas estadísticos más específicos que me interesan personalmente
High-dimensional analysis of double descent es un nuevo análisis del fenómeno de doble descenso que se produce en modelos sobreparametrizados (con más parámetros que observaciones). Esto significa que aumentar el número de parámetros implica en algunos casos una regularización implícita que mejora el error cuadrático medio de predicción. Estos beneficios del sobreajuste tienen algo de fascinante ya que aparentemente van contra la teoría clásica sobre el tema, según la cual el sobreajuste perjudica la capacidad predictiva. Más propiedades relacionadas se pueden encontrar en Algebraic and Statistical Properties of the Ordinary Least Squares Interpolator
El valor de Shapley se introdujo en teoría de juegos como una medida de la importancia de cada jugador en una coalición que coopera para alcanzar un objetivo. Más recientemente, se ha usado en estadística como medida de la importancia de cada variable explicativa para predecir otra variable respuesta objetivo, de una forma independiente del modelo que se vaya a utilizar (model agnostic). Sin embargo, el valor de Shapley resulta de imponer una serie de axiomas sobre el juego que no siempre son razonables cuando se aplican al problema de predicción. En Feature Importance: A Closer Look at Shapley Values and LOCO se critican los axiomas que conducen al valor de Shapley en el contexto de selección de variables, y se proporcionan argumentos en favor de otra medida, el LOCO (Leave Out Covariates). El cálculo efectivo de los valores de Shapley puede ser complicado. En A Comparative Study of Methods for Estimating Conditional Shapley Values and When to Use Them se hacen algunas contribuciones para facilitar su uso en la práctica. También Efficient Shapley Performance Attribution for Least-Squares Regression proporciona métodos para calcularlo en regresión lineal.
El estadístico de Chatterjee es un nuevo coeficiente de determinación que ha generado bastante atención desde que se propuso en 2019, ya que tiene muy buenas propiedades teóricas para medir la capacidad que tiene una variable de predecir otra. En On the failure of the bootstrap for Chatterjee’s rank correlation se demuestra que el bootstrap usual falla cuando se aplica al coeficiente de Chatterjee, a pesar de que este tiene una distribución asintótica normal. Sin embargo, A Simple Bootstrap for Chatterjee’s Rank Correlation viene al rescate demostrando que una versión más suave del bootstrap (\(m\) out of \(n\)) sí es válida.
El artículo PCA, SVD and centering lleva a cabo un análisis detallado del efecto que tiene centrar los datos en el análisis de componentes principales.