El análisis de componentes principales (principal component analysis, PCA) es un método de reconocimiento de patrones que obtiene combinaciones lineales de las variables originales que definen a un conjunto de puntos. Estas nuevas variables, denominadas componentes principales (PCs), se obtienen de forma que el primer PC explica el mayor porcentaje posible de la varianza de los datos originales y cada nuevo PC representará la mayor cantidad posible de la variabilidad residual. De esta forma puede emplearse el PCA para reducir el número de variables necesarias para describir un conjunto de datos (empleando solo los primeros PCs) y poder obtener representaciones gráficas donde se visualice la tendencia de los datos.
Para entender mejor esto, supongamos un conjunto de datos pertenecientes a dos categorías distintas (A y B) que queda definido mediante tres variables.
El PCA obtendrá tres PCs, el primero de ellos explicará la mayor parte de la varianza del conjunto de datos. Es decir, si las tres variable originales presentan diferencias para las dos categorías, la primera combinación lineal obtenida presentará también dichas diferencias. En este caso ficticio el primer PC explica un 98.3% de la variabilidad original y se puede observar la separación natural de las dos categorías.
Además, el PCA permite saber que variables contribuyen más a dicha separación natural, las más correlacionadas con los primeros PCs. En este caso, las tres variables están muy correlacionadas con PC1.
En el área de Química Ánalítica se emplea el PCA para reducir el número de variables que definen a un conjunto de muestras, por ejemplo concentración en determinadas sustancias, que reciben el nombre de descriptores químicos. Téngase en cuenta que podemos partir de más de tres variables (incluso cientos de ellas), con lo que puede resultar muy difícil observar tendencias en los datos originales. Esto se facilita al reducir las variables a los dos o tres primeros PCs. Un ejemplo de su empleo puede encontrarse en una entrada antigua del blog .
Para una información más técnica sobre este método, se puede consultar el texto Principal Component Analysis (Jolliffe). También se puede consultar mi tesis doctoral (Capítulo 2).
Actualización del blog
Recomiendo entrada sobre uso del PCA en estudios medioambientales
He dejado además una entrada sobre el uso del PCA en estudios medioambientales que a mi juicio es interesante.
ResponderEliminarexcelente!
EliminarGracias
Eliminar