"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

sábado, 17 de septiembre de 2011

Análisis Cluster


El análisis cluster o análisis de conglomerados (Cluster Analysis, CA) es un método de reconocimiento de patrones que encuentra agrupamientos naturales de muestras a partir de una serie de variables. Es una técnica  no supervisada, pues no se conoce a priori las categorías o clases en las que se pueden agrupar  las muestras.
Cada muestra se trata como un punto en un espacio n-dimensional (una dimensión por cada variable). Se mide la distancia entre los puntos en el espacio creado por las n variables. Las muestras que pertenezcan a una misma categoría  aparecerán próximas en el espacio n-dimensional, mientras que las que sean distintas aparecerán separadas. Los agrupamientos naturales encontrados pueden servir para seleccionar las variables que permitan diseñar las reglas necesarias para clasificar futuros casos de categoría desconocida.
Se suele usar la distancia de Mahalanobis, o bien la distancia Euclídea si los datos han sido previamente autoescalados.
Los CA jerárquicos (los más comunes) pueden ser aglomerativos o divisivos. En los primeros se parte de n grupos, tantos como puntos había en el espacio patrón y se van uniendo hasta llegar a un cluster común que engloba todas las muestras, procediendo en cada nivel a fusionar aquellos dos grupos que sean más similares. En los divisivos se parte de un grupo formado por todos los casos en el nivel K=0, en el siguiente nivel K=1 se obtienen dos grupos repartiendo los objetos en base a maximizar sus divergencias. Se va procediendo de esta forma sucesivamente hasta conseguir n clusters correspondientes a todos los puntos del espacio. 
El análisis cluster se visualiza muy bien en lo que se denomina un dendograma, representación de los cluster que se forman en función de la distancia.
Recordando los datos que usamos para el ejemplo del PCA.


Aunque se sospecha que las clases pueden ser A y B, no se tiene en cuenta esta información. Al hacer el análisis cluster nos queda el siguiente dendograma:


Las muestras 1 y 2 son las más próximas entre sí y las primeras que se unen formando un cluster. Luego lo harán la 9 y 8. Después la 4 y 5; la 3 con el cluster de la 4 y la 5; la 6 y 7; el cluster 1-2 con el 3-4-5. Y así hasta que todos se unan en un solo cluster. Si nos fijamos en el dendograma, para una distancia Euclídea de 3 se observan dos clusters (uno para las muestras de la 1 a la 5 y otro de la 6 a la 10), es decir, se observam similitudes entre muestras de la misma categoría, o lo que es lo mismo, se observa separación natural entre las categorías al considerar estas variables.
Generalmente se eliminan variables correlacionadas antes de hacer este tipo de análisis.

Existen otros tipos de análisis cluster, los no jerárquicos (método de las K medias, agrupamiento borroso), pero eso es otra historia. Aquí he preferido hablar del más común.

Para saber más recomiendo el Handbook of Chemometrics and Qualimetrics de Massart, capítulo 30.


viernes, 9 de septiembre de 2011

¿Por qué estudias Química?

Podría escribir un ensayo sobre las virtudes de la Química y su importancia.  Pero a estas horas no os voy a contar mi historia. Para explicar la importancia de la química ya os dejé el enlace al vídeo de la ACS.
Buscando por la red me encuentro con estas palabras:



Probablemente nunca tenga la respuesta a todo lo que ocurre en el mundo que me rodea, pero hoy sé que la esencia de todo ello lo constituye la química.

...y eso es, maestra, lo que me gusta, lo impredecible de la naturaleza y la explicación de todo un mundo basado en fundamentos sólidos, conocimientos científicos y estudios de investigación por medio de una gran ciencia, denominada simplemente química



Pertenecen a un ensayo de Mariana Elorza en la revista Enlace Químico, de la Facultad de Química de la Universidad de Guanajuato. Lástima que pararon en 2008, según parece.

Personalmente me suscribo a eso que dice.

Pero he de ser sincero...

Yo empecé a estudiar Química porque no se me daba bien y la suspendía en el instituto. De hecho aún pienso que no se me da bien, pero por eso la sigo estudiando, y me gusta. 






Divulgación en química: algunos ejemplos de prácticas.

Aquí os dejo una propuesta de prácticas de química con fines divulgativos, para enseñar a los chavales de instituto. Me han gustado porque la mayoría se puede realizar en casa, con materiales cotidianos. Además, Silvia es una gran amiga y valga esta entrada de saludo a toda la familia.
Os dejo el enlace en Google Docs, porque el iframe me retrasa mucho la carga

lunes, 5 de septiembre de 2011

¿Sabes de donde es esta cerveza?

La cerveza es una bebida alcohólica (y hoy no alcohólica también) conocida desde antiguo. No me voy a poner a hablar de su historia, que de eso seguro que hay mucho escrito (ya os haré un enlace a una tesis doctoral del año 2002, cuando esté digitalizada). Es evidente que el consumo y por tanto la producción de cerveza se ha incrementado notablemente. Para datos sobre consumo y producción, y sobre muchas cosas más (composición, control de calidad, efectos sobre el organismo) podéis ojear Beer in health and disease prevention (editado por V. R. Preedy). Aquí os he dejado el enlace a Google Books, el texto completo está en  Elsevier
Entre los muchos parámetros a controlar durante su elaboración y tras ella, podemos citar algunos ejemplos como el pH, extracto real, contenido en amino ácidos, contenido polifenólico, color, aroma, sabor, contenido aniónico y en metales. Todos ellos pueden dar una idea de la composición (compleja) de esta bebida y conforman la calidad de la misma. Ya hemos visto ejemplos de parámetros de control empleados para la caracterización de productos como el jamón o   el vino y, de hecho, podría citar varios ejemplos para la cerveza (aquí uno). Pero todos los ejemplos que conozco están encaminados a diferenciar tipos de cerveza, en algún caso, incluso con técnicas demasiado costosas. De el uso de alguno de los parámetros anteriores como descriptores químicos que, salvo los metales, no son muy costosos en su análisis, ya hablaré más adelante. En cuanto a la diferenciación geográfica, sólo se han visto algunos ejemplos a nivel local de cervezas Españolas, de diferentes fábricas o de cervezas checas y no checas. No existían trabajos que abordasen la diferenciación geográfica de cervezas de diversos países.

¿Pero, es tan importante esto?

En el caso de la Unión Europea pienso que sí. La cerveza en Europa es un producto que está empezando a incluirse en listas de productos registrados con Indicación Geográfica Protegida. Hasta el momento solo hay algunas cervezas alemanas (10), checas (9) y británicas (2) incluidas en la base de datos DOOR de la Comisión Europea de Agricultura y Desarrollo Rural. Esto es como una Denominación de origen en vinos, lo que implica beneficios económicos. Este campo promete, y quizá debería explorarse por parte de fabricantes de otros países. Por tanto, considero importante encontrar herramientas que permitan diferenciar geográficamente cervezas.

Y, como muestra, un botón.

En el trabajo Recognition of the geographical origin of beer based on support vector machines applied to chemical descriptors, publicado en Food Control se parten de muestras de cerveza lager, pilsner y sin alcohol de tres países europeos: España, Portugal y Alemania. Empleando el contenido en aluminio, bario, boro, calcio, hierro, magnesio, manganeso, fósforo, potasio, sodio, estroncio, zinc, cloruro, fosfatos, sulfato, amino ácidos totales, polifenoles, pH, extracto real y absorbancia a 430 nm se ha obtenido un modelo de clasificación adecuado para  diferenciar estos orígenes.
Aplicando un test no paramétrico (Kruskal-Wallis) se obseba que calcio, manganeso, zinc, cloruro, sulfato, amino ácidos y pH, no presentan diferencias estadísticas entre los grupos considerados. Por otra parte, aplicando LDA a los parámetros restantes, eliminando sucesivamente las variables menos discriminates, se consigue diferenciar estos orígenes reteniendo hierro, fósforo, potasio, fosfato y polifenoles totales como los descriptores más discriminantes.
Finalmente se construye un modelo basado en máquinas de vectores soporte lineales, de las que ya hablaré otro día. Este modelo predice el origen de las cervezas con un 99.3% de eficacia.