El lunes 17 de octubre tuve la fortuna de asistir como público a una tesis doctoral sobre temática analítico-medioambiental. En la misma vi un uso del análisis en componentes principales que no había contemplado antes. De hecho, lo discutí con la hoy doctora y me lo supo explicar muy bien.
Ya he explicado como se realiza el análisis de componentes principales y he dejado algún ejemplo de su uso. Recordando, el PCA es un método en el que la información contenida en una serie de variables, se condensa en unas cuantas variables que son combinaciones lineales de las originales, pudiendo reducirse la dimensionalidad de los datos.
Hasta ahora yo lo he usado para previsualizar datos en problemas de clasificación. Es decir, si se tienen varias clases de objetos (tipos de vino, orígenes, sistemas de alimentación, variedades de té, etc) definidos por un número elevado de variables, extrayendo los dos o tres primeros componentes principales (que explican un elevado porcentaje de la varianza original de los datos) se pueden obtener representaciones en dos o tres dimensiones donde se vea la tendencia de los datos.
Por otro lado, cuando se dispone de un número muy elevado de variables, se pueden usar los PCs para realizar cálculos posteriores con ellos, de modo que no sea necesario el manejo de tantas variables. Este es el ejemplo típico de reducción de variables.
En la tesis de Rocío, cuyo título no tuve el cuidado de apuntar (pero cuando esté digitalizada la enlazaré desde un comentario a esta entrada), se emplea el PCA con el fin de ver la influencia de diversos factores o fuentes en la concentración de una serie de parámetros químicos hallados en el agua de lluvia de diversos puntos de muestreo (a orillas del Guadalquivir). Las fuentes eran la contribución industrial, el tráfico rodado, las prácticas agrícolas, la influencia del la proximidad al mar, entre otras. La entonces doctoranda realiza un PCA con los datos de un punto de muestreo y comienza a hablar de las contribuciones de ciertas fuentes en los PCs, de acuerdo con el peso de variables relacionadas con las mismas. Por ejemplo, en los puntos cercanos al mar, el PC1 tiene una gran contribución de cloruro, sodio y magnesio además de elevada conductividad eléctrica. Luego en el PC1 predomina esta fuente. El PC2 tiene gran influencia por parte de una fuente agrícola (fosfatos), etc.
Fuera de sala le pedí que me explicase por qué hacía el PCA de esa forma. Tirando de algo de lógica, además de referirme a la bibliografía, la ahora doctora contestó a mi pregunta y de su explicación extraje mi conclusión que, continuando con el ejemplo del punto cercano al mar, tratare de resumir.
Fuera de sala le pedí que me explicase por qué hacía el PCA de esa forma. Tirando de algo de lógica, además de referirme a la bibliografía, la ahora doctora contestó a mi pregunta y de su explicación extraje mi conclusión que, continuando con el ejemplo del punto cercano al mar, tratare de resumir.
Claro que sí, un punto cercano al mar está muy influenciado por el mar y su comportamiento. La variación de las condiciones atmosféricas del mar es lo que más influye en la composición del agua de lluvia y por tanto, la fuente que mayor variabilidad introduce. Por ese motivo, es normal que los parámetros relacionados con la fuente marina tengan un mayor peso en el primer componente principal, que es el que mayor varianza explica. Y esto es independiente a la contribución de cualquier otra fuente que también pueda ser recogida en dicho PC. Además, es posible que fuentes menos influyentes vayan apareciendo en los PCs sucesivos (explicando menos varianza).
Todo es cuestión de perspectiva, y agradezco a Rocío el haber sabido darme una nueva perspectiva sobre el PCA.
Recomiendo la lectura de una publicación de la doctora: Assessment of the sequential principal component analysis chemometric tool to identify the soluble atmospheric pollutants in rainwater, publicado en Analytical and Bioanalytical Chemistry.
En cuanto esté disponible la versión digital de la tesis, pondré un enlace a la misma.
PD. La foto es de un día de lluvia en Santiago de Compostela, en la Iglesia de Santa María do Sar. La pongo por no meter solo letra.
PD. La foto es de un día de lluvia en Santiago de Compostela, en la Iglesia de Santa María do Sar. La pongo por no meter solo letra.
El título de la tesis es "Caracterización físico-química de las precipitaciones atmosféricas en la zona de influencia mareal del río Guadalquivir". Cuando esté digitalizada pondré el enlace
ResponderEliminar