"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

jueves, 28 de julio de 2011

Diferenciación de vinos blancos españoles (con D.O.) a partir de su aroma

Este trabajo es antiguo, de 2008, pero quiero recordarlo ahora porque tengo entre manos una segunda parte que ya comentaré cuando lo acepten. Además, ahora también participo con mis amigos en un blog que está muy relacionado con esta entrada, pero que no es de corte científico. El trabajo completo, para suscriptores, se puede encontrar en Analytical and Bioanalytical Chemistry.
Se consideraron cuatro Denominaciones de Origen, Condado de Huelva, Penedés, Ribeiro y Rueda. Los vinos de Condado de Huelva eran monovarietales de Zalema y los de Rueda de Verdejo. Con estos cuatro tipos nos aseguramos que la geografía y el variado clima españoles están representados en los grupos considerados. Al trabajar con compuestos volátiles, se usan descriptores químicos muy relacionados con lo que el consumidor percibe y que, dependen sobre todo de la variedad de uva y su madurez (muy influenciada por el clima).
Los volátiles se determinaron mediante microextracción en fase solida del espacio de cabeza (HS-SPME) de las muestras. Cierta cantidad de vino, con un patrón interno añadido, se introduce en un vial cerrado dejando un poco de aire en la parte superior del mismo (espacio de cabeza). Se calienta la muestra durante un tiempo para que el espacio de cabeza se haga rico en componentes volátiles. Luego se introduce una fibra impregnada en un polímero. Los compuestos se adsorben sobre el polímero. Esa fibra se introduce en el portal de inyección de un cromatógrafo de gases y los compuestos, debido a la temperatura elevada del inyector, se desprenden y son arrastrados por el gas portador al cromatógrafo, donde se separan y cuantifican. Para más información sobre HS-SPME, consultar en la documentación que ofrece SUPELCO, propuesta por uno de los suministradores de fibras. Para empezar, recomiendo este.
Entre los componentes estudiados encontramos alcoholes superiores y ésteres (responsables de ciertos aromas afrutados), principalmente. Se confirmó la presencia de los mismos mediante la comparación de  sus espectros de masas con los de patrones.
Las técnicas de reconocimiento de patrones aplicadas fueron análisis de componentes principales, análisis discriminante lineal y redes neuronales artificiales de perceptrones multicapa. El PCA permite ver ciertas tendencias. Solo se observa una buena separación de los vinos de Rueda. Ribeiro y Penedés se mezclan entre sí, pero todos se separan más o menos claramente de los de Condado de Huelva. Esto se puede explicar debido a los contenidos más altos de acetatos de etilo, isoamilo, hexilo y 2-feniletilo de los vinos Rueda y los menores contenidos en hexanoato, decanoato y laurato de etilo que presentan los del Condado.
El LDA se llevó a cabo añadiendo al modelo las variables más discriminantes de manera sucesiva (ya hablaremos de ello en otra ocasión). Las variables seleccionadas por el modelo debido a su poder discriminante fueron acetato de etilo, hexanoato de etilo, acetato de hexilo, octanoato de etilo, decanoato de etilo, laurato de etilo,  miristato de etilo, palmitato de etilo, acetato de isoamilo, octanoato de isoamilo, 3-metil-butanol y 2-feniletanol. En principio parece que la separación es buena, con un 100% de capacidad de reconocimiento (ver imagen), pero cuando se valida el modelo con el método de leave-one-out se obtienen capacidades de predicción del 81 % para Penedés, 91% para Ribeiro y 95% para Condado de Huelva. Los de Rueda se diferencian bien.

Visto que el modelo lineal no es del todo satisfactorio, se propone un modelo basado en redes neuronales artificiales de perceptrones multicapa. El conjunto de datos se dividen en subconjuntos de entrenamiento (para crear el modelo), verificación (para evitar sobreentrenamiento) y test (para calcular el rendimiento del modelo). Se parte de las variables seleccionadas por el LDA y se usa un algoritmo que seleccionará a las de mayor poder diferenciador. El modelo retiene a las variables acetato de etilo, hexanoato de etilo, acetato de hexilo, 2-feniletanol, decanoato de etilo y miristato de etilo. Se obtuvo un 100% de predicción para todas las clases al aplicar el modelo sobre el subconjunto de test.
Para las MLP-NN recomiendo el libro de Bishop, Neural Networks for Pattern Recognition.

Actualización del blog

martes, 19 de julio de 2011

Análisis de componentes principales

El análisis de componentes principales (principal component analysis, PCA) es un método de reconocimiento de patrones que obtiene combinaciones lineales de las variables originales que definen a un conjunto de puntos. Estas nuevas variables, denominadas componentes principales (PCs), se obtienen de forma que el primer PC explica el mayor porcentaje posible de la varianza de los datos originales y cada nuevo PC representará la mayor cantidad posible de la variabilidad residual. De esta forma puede emplearse el PCA para reducir el número de variables necesarias para describir un conjunto de datos (empleando solo los primeros PCs) y poder obtener representaciones gráficas donde se visualice la tendencia de los datos.

Para entender mejor esto, supongamos un conjunto de datos pertenecientes a dos categorías distintas (A y B) que queda definido mediante tres variables.


El PCA obtendrá tres PCs, el primero de ellos explicará la mayor parte de la varianza del conjunto de datos. Es decir, si las tres variable originales presentan diferencias para las dos categorías, la primera combinación lineal obtenida presentará también dichas diferencias. En este caso ficticio el primer PC explica un 98.3% de la variabilidad original y se puede observar la separación natural de las dos categorías.



Además, el PCA permite saber que variables contribuyen más a dicha separación natural, las más correlacionadas con los primeros PCs. En este caso, las tres variables están muy correlacionadas con PC1.

En el área de Química Ánalítica se emplea el PCA para reducir el número de variables que definen a un conjunto de muestras, por ejemplo concentración en determinadas sustancias, que reciben el nombre de descriptores químicos. Téngase en cuenta que podemos partir de más de tres variables (incluso cientos de ellas), con lo que puede resultar muy difícil observar tendencias en los datos originales. Esto se facilita al reducir las variables a los dos o tres primeros PCs. Un ejemplo de su empleo puede encontrarse en una entrada antigua del blog . 
Para una información más técnica sobre este método, se puede consultar el texto Principal Component Analysis (Jolliffe). También se puede consultar mi tesis doctoral (Capítulo 2).

Actualización del blog