A continuación sigue una selección personal y un poco caótica de artículos encontrados en arXiv en los ultimos meses.
Estimating the Spectral Density at Frequencies Near Zero. La estimación de la densidad espectral se suele basar en suavizados tipo kernel del periodograma que tienen mal comportamiento cerca de la frontera. Aquí se proponen algunas mejoras para resolver este problema.
Secretary Problems: The Power of a Single Sample. Variantes del clásico problema probabilístico del secretario cuando se dispone de información adicional.
An unexpected stochastic dominance: Pareto distributions, catastrophes, and risk exchange. La distribución de Pareto se usa como modelo de posibles grandes pérdidas de un activo (como ocurre en el caso de catástrofes naturales). Con este modelo, diversificar una cartera de activos es peor que no hacerlo. Más precisamente, se demuestra que una única observación de una variable aleatoria de Pareto con infinita media y varianza es dominada estocásticamente por la media de variables de Pareto independientes e idénticamente distribuidas.
Embedding Functional Data: Multidimensional Scaling and Manifold Learning. Se extienden técnicas multivariantes como el escalado multidimensional (MDS) al caso de datos funcionales.
Quantiles, Ranks and Signs in Metric Spaces. Se proponen extensiones de los conceptos de cuantiles, rangos y signos para datos pertenecientes a un espacio métrico (funciones, por ejemplo). En esta situación no se dispone de un orden natural por lo que se suele usar alguna medida de profundidad (es decir, una ordenación de los datos desde los más profundos -más en el centro- a los más superficiales) para definir los cuantiles. Aquí se usa un concepto de función de distribución para espacios métricos propuesto en un artículo anterior.
Azadkia-Chatterjee’s correlation coefficient adapts to manifold data Examina el comportamiento del coeficiente de Chatterjee cuando los datos pertenecen a una variedad diferenciable. En particular, se demuestra que la varianza asintótica bajo independencia depende de la variedad solo a través de su dimensión.
Finite-sample Rousseeuw-Croux scale estimators. Una simulación para investigar la eficiencia en muestras finitas de estos estimadores robustos de dispersión. Me trae recuerdos de hace ya demasiados años, porque en mi tesis también estudié algunas propiedades de los mismos estimadores.
La fórmula de Wallis y la integral de la densidad de la normal. Varias demostraciones de ambas fórmulas y algunas relaciones entre ellas.
Triangles, Fractals and Spaghetti. Si partimos un espagueti en tres trozos de longitud aleatoria, ¿cuál es la probabilidad de que podemos formar un triángulo con ellos? Si \(\ell_1\), \(\ell_2\) y \(\ell_3\) son las longitudes de los tres trozos se tiene que cumplir \(\ell_i < 1/2\) para \(i=1,2,3\).
Sparse PCA: a Geometric Approach. Aquí se plantea el problema de encontrar las componentes principales (combinaciones lineales de las variables de máxima varianza) con la restricción de que solo puede intervenir un número máximo prefijado de variables. Una alternativa a los modelos penalizados tipo lasso.
Dimension free ridge regression. Análisis del sesgo y la varianza del estimador de regresión ridge cuando los regresores son de muy alta dimensión o incluso pertenecientes a un espacio de Hilbert de dimensión infinita.
A short proof of the strong three dimensional Gaussian product inequality. Se demuestra la desigualdad del producto gaussiano para \(n=3\): si \((X_1,X_2,X_3)\) es un vector normal tridimensional de media cero y \(p_1,p_2,p_3\) son números pares, entonces \[\mbox{E}(X_1^{p_1}X_2^{p_3}X_3^{p_3})\geq \mbox{E}(X_1^{p_1})\mbox{E}(X_2^{p_2})\mbox{E}(X_3^{p_3})\] Usa la fórmula de Wick: si \((X_1,\ldots,X_n)\) es un vector normal de media cero, entonces \[\mbox{E}(X_1\cdots X_n)=\sum \prod_k \mbox{E}(X_{i_k}X_{j_k}),\] donde la suma es sobre todas las particiones de \(\{1,\ldots,n\}\) en pares disjuntos \((i_k,j_k)\).
When More Is Less: Pitfalls of significance testing. Sobre los efectos que puede tener la selección de modelos sobre la inferencia en los parámetros del modelo seleccionado. Un problema que no se suele considerar explícitamente.
Shapley curves, a smoothing perspective. En la teoría de juegos cooperativos el valor de Shapley es un método justo de repartir los beneficios obtenidos entre los miembros de una coalición. Justo significa que verifica una serie de axiomas deseables. El concepto se ha usado más recientemente para medir la contribución de una variable al resultado del ajuste de un modelo en problemas de selección de variables. Este artículo es una contribución en esta línea.
Sobre la varianza de los estimadores de regresión de componentes principales. Al usar componentes principales para reducir la dimensión en un problema de regresión, se argumenta que no siempre conviene seleccionar las componentes correspondientes a los mayores autovalores.
¿Cuál es la probabilidad de que al menos tres senadores cumplan años el mismo día? Una discusión de este problema llevada a cabo por un conocido probabilista. Incluye un comentario sobre los errores cometidos por ChatGPT al resolverlo.
On relationships between Chatterjee’s and Spearman’s correlation coefficients. Sigue aumentando la literatura sobre el coeficiente de Chatterjee. En este caso se estudian algunas relaciones con el clásico coeficiente de Spearman.