"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

sábado, 17 de septiembre de 2011

Análisis Cluster


El análisis cluster o análisis de conglomerados (Cluster Analysis, CA) es un método de reconocimiento de patrones que encuentra agrupamientos naturales de muestras a partir de una serie de variables. Es una técnica  no supervisada, pues no se conoce a priori las categorías o clases en las que se pueden agrupar  las muestras.
Cada muestra se trata como un punto en un espacio n-dimensional (una dimensión por cada variable). Se mide la distancia entre los puntos en el espacio creado por las n variables. Las muestras que pertenezcan a una misma categoría  aparecerán próximas en el espacio n-dimensional, mientras que las que sean distintas aparecerán separadas. Los agrupamientos naturales encontrados pueden servir para seleccionar las variables que permitan diseñar las reglas necesarias para clasificar futuros casos de categoría desconocida.
Se suele usar la distancia de Mahalanobis, o bien la distancia Euclídea si los datos han sido previamente autoescalados.
Los CA jerárquicos (los más comunes) pueden ser aglomerativos o divisivos. En los primeros se parte de n grupos, tantos como puntos había en el espacio patrón y se van uniendo hasta llegar a un cluster común que engloba todas las muestras, procediendo en cada nivel a fusionar aquellos dos grupos que sean más similares. En los divisivos se parte de un grupo formado por todos los casos en el nivel K=0, en el siguiente nivel K=1 se obtienen dos grupos repartiendo los objetos en base a maximizar sus divergencias. Se va procediendo de esta forma sucesivamente hasta conseguir n clusters correspondientes a todos los puntos del espacio. 
El análisis cluster se visualiza muy bien en lo que se denomina un dendograma, representación de los cluster que se forman en función de la distancia.
Recordando los datos que usamos para el ejemplo del PCA.


Aunque se sospecha que las clases pueden ser A y B, no se tiene en cuenta esta información. Al hacer el análisis cluster nos queda el siguiente dendograma:


Las muestras 1 y 2 son las más próximas entre sí y las primeras que se unen formando un cluster. Luego lo harán la 9 y 8. Después la 4 y 5; la 3 con el cluster de la 4 y la 5; la 6 y 7; el cluster 1-2 con el 3-4-5. Y así hasta que todos se unan en un solo cluster. Si nos fijamos en el dendograma, para una distancia Euclídea de 3 se observan dos clusters (uno para las muestras de la 1 a la 5 y otro de la 6 a la 10), es decir, se observam similitudes entre muestras de la misma categoría, o lo que es lo mismo, se observa separación natural entre las categorías al considerar estas variables.
Generalmente se eliminan variables correlacionadas antes de hacer este tipo de análisis.

Existen otros tipos de análisis cluster, los no jerárquicos (método de las K medias, agrupamiento borroso), pero eso es otra historia. Aquí he preferido hablar del más común.

Para saber más recomiendo el Handbook of Chemometrics and Qualimetrics de Massart, capítulo 30.


No hay comentarios:

Publicar un comentario

Haz tu comentario... quedará pendiente de moderación