El lunes 17 de octubre tuve la fortuna de asistir como público a una tesis doctoral sobre temática analítico-medioambiental. En la misma vi un uso del análisis en componentes principales que no había contemplado antes. De hecho, lo discutí con la hoy doctora y me lo supo explicar muy bien.
Ya he explicado como se realiza el análisis de componentes principales y he dejado algún ejemplo de su uso. Recordando, el PCA es un método en el que la información contenida en una serie de variables, se condensa en unas cuantas variables que son combinaciones lineales de las originales, pudiendo reducirse la dimensionalidad de los datos.
Hasta ahora yo lo he usado para previsualizar datos en problemas de clasificación. Es decir, si se tienen varias clases de objetos (tipos de vino, orígenes, sistemas de alimentación, variedades de té, etc) definidos por un número elevado de variables, extrayendo los dos o tres primeros componentes principales (que explican un elevado porcentaje de la varianza original de los datos) se pueden obtener representaciones en dos o tres dimensiones donde se vea la tendencia de los datos.
Por otro lado, cuando se dispone de un número muy elevado de variables, se pueden usar los PCs para realizar cálculos posteriores con ellos, de modo que no sea necesario el manejo de tantas variables. Este es el ejemplo típico de reducción de variables.
Fuera de sala le pedí que me explicase por qué hacía el PCA de esa forma. Tirando de algo de lógica, además de referirme a la bibliografía, la ahora doctora contestó a mi pregunta y de su explicación extraje mi conclusión que, continuando con el ejemplo del punto cercano al mar, tratare de resumir.
Claro que sí, un punto cercano al mar está muy influenciado por el mar y su comportamiento. La variación de las condiciones atmosféricas del mar es lo que más influye en la composición del agua de lluvia y por tanto, la fuente que mayor variabilidad introduce. Por ese motivo, es normal que los parámetros relacionados con la fuente marina tengan un mayor peso en el primer componente principal, que es el que mayor varianza explica. Y esto es independiente a la contribución de cualquier otra fuente que también pueda ser recogida en dicho PC. Además, es posible que fuentes menos influyentes vayan apareciendo en los PCs sucesivos (explicando menos varianza).
Todo es cuestión de perspectiva, y agradezco a Rocío el haber sabido darme una nueva perspectiva sobre el PCA.
Recomiendo la lectura de una publicación de la doctora: Assessment of the sequential principal component analysis chemometric tool to identify the soluble atmospheric pollutants in rainwater, publicado en Analytical and Bioanalytical Chemistry.
En cuanto esté disponible la versión digital de la tesis, pondré un enlace a la misma.
PD. La foto es de un día de lluvia en Santiago de Compostela, en la Iglesia de Santa María do Sar. La pongo por no meter solo letra.
PD. La foto es de un día de lluvia en Santiago de Compostela, en la Iglesia de Santa María do Sar. La pongo por no meter solo letra.
El título de la tesis es "Caracterización físico-química de las precipitaciones atmosféricas en la zona de influencia mareal del río Guadalquivir". Cuando esté digitalizada pondré el enlace
ResponderEliminar