Clasificación de datos funcionales

Mi charla en el I Joint Workshop on Functional Data Analysis and Nonparametric Statistics

Investigación
Datos funcionales
Clasificación
Fecha de publicación

12 de junio de 2023

La semana pasada participé en el I Joint Workshop on Functional Data Analysis and Nonparametric Statistics, que es el encuentro conjunto de los grupos de trabajo de datos funcionales y estadística no paramétrica de la SEIO. Allí tuve la ocasión de compartir parte del trabajo que he realizado (junto con mis coautores Beatriz Bueno-Larraz, Antonio Cuevas y José Luis Torrecilla) sobre clasificación de datos funcionales.

La estadística con datos funcionales reúne una colección de técnicas para analizar datos consistentes en curvas, en lugar de escalares o vectores. En el problema de clasificación supervisada, se dispone de dos muestras de curvas bien clasificadas en dos categorías (muestras de entrenamiento) y el problema es clasificar una nueva función de la que se ignora a qué categoría pertenece. Por ejemplo, se puede disponer de una base de datos de electrocardiogramas de individuos sanos y enfermos, y se trata de construir a partir de ella una regla de clasificación que permita decidir si un nuevo electro corresponde a un individuo sano o enfermo.

En la figura 1 las curvas naranjas corresponden a trayectorias de un movimiento browniano con media cero mientras que las azules corresponden a trayectorias de un movimiento browniano con una media lineal a trozos. Si ahora nos dan una nueva trayectoria el problema consiste en decidir de cuál de los dos modelos procede.

Figura 1: Muestras de entrenamiento en un problema de clasificación con datos funcionales

En la charla se describe sobre todo el papel que desempeñan los espacios de Hilbert con núcleo reproductor (RKHS) en este problema y se incide especialmente en los métodos de selección de variables, en los que las curvas se sustituyen por unos pocos puntos bien seleccionados de forma que no se pierda mucha información, o incluso se incremente la probabilidad de clasificar correctamente. Esto es posible porque al seleccionar los puntos se elimina ruido o información redundante que puede perjudicar a la regla de clasificación. En el ejemplo de la figura 1 se puede clasificar de forma óptima una trayectoria de la que solo sabemos los valores que toma en los puntos 1/2, 3/4 y 1, que son los puntos en los que cambia la pendiente de la media de las curvas azules. Por lo tanto se puede sustituir la curva completa por un vector de dimensión 3 sin perder información a efectos de clasificar.

Dejo en este enlace la presentación que usé para dar la charla.

No hay resultados