El análisis cluster o análisis de conglomerados (Cluster Analysis, CA) es un método de
reconocimiento de patrones que encuentra agrupamientos naturales de muestras a partir de una serie de variables. Es una técnica no supervisada, pues no se conoce a priori las
categorías o clases en las que se pueden agrupar las muestras.
Cada muestra se trata
como un punto en un espacio n-dimensional (una dimensión por cada variable). Se mide la distancia
entre los puntos en el espacio creado por las n variables. Las muestras que
pertenezcan a una misma categoría aparecerán
próximas en el espacio n-dimensional, mientras que las que sean distintas
aparecerán separadas. Los agrupamientos naturales encontrados pueden servir
para seleccionar las variables que permitan diseñar las reglas necesarias para
clasificar futuros casos de categoría desconocida.
Se suele usar la distancia de Mahalanobis, o bien la
distancia Euclídea si los datos han sido previamente autoescalados.
Los CA jerárquicos (los más comunes) pueden ser aglomerativos o divisivos. En los primeros se parte de n
grupos, tantos como puntos había en el espacio patrón y se van uniendo hasta
llegar a un cluster común que engloba todas las muestras, procediendo en cada
nivel a fusionar aquellos dos grupos que sean más similares. En los divisivos se parte de un grupo
formado por todos los casos en el nivel K=0, en el siguiente nivel K=1 se
obtienen dos grupos repartiendo los objetos en base a maximizar sus
divergencias. Se va procediendo de esta forma sucesivamente hasta conseguir n
clusters correspondientes a todos los puntos del espacio.
El análisis cluster se visualiza muy bien en lo que se denomina un dendograma, representación de los cluster que se forman en función de la distancia.
Recordando los datos que usamos para el ejemplo del PCA.
Aunque se sospecha que las clases pueden ser A y B, no se tiene en cuenta esta información. Al hacer el análisis cluster nos queda el siguiente dendograma:
Las muestras 1 y 2 son las más próximas entre sí y las primeras que se unen formando un cluster. Luego lo harán la 9 y 8. Después la 4 y 5; la 3 con el cluster de la 4 y la 5; la 6 y 7; el cluster 1-2 con el 3-4-5. Y así hasta que todos se unan en un solo cluster. Si nos fijamos en el dendograma, para una distancia Euclídea de 3 se observan dos clusters (uno para las muestras de la 1 a la 5 y otro de la 6 a la 10), es decir, se observam similitudes entre muestras de la misma categoría, o lo que es lo mismo, se observa separación natural entre las categorías al considerar estas variables.
Generalmente se eliminan variables correlacionadas antes de hacer este tipo de análisis.
Existen otros tipos de análisis cluster, los no jerárquicos (método de las K medias, agrupamiento borroso), pero eso es otra historia. Aquí he preferido hablar del más común.
Para saber más recomiendo el Handbook of Chemometrics and Qualimetrics de Massart, capítulo 30.
No hay comentarios:
Publicar un comentario
Haz tu comentario... quedará pendiente de moderación