"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

jueves, 24 de agosto de 2017

Linealidad: método del Lack-of-fit

Lo prometido es deuda y he aquí una de las técnicas prometidas en la entrada anterior para el estudio de linealidad. Aunque realmente me gusta dejar claro que esta prueba tiene como cometido principalmente comprobar cuanto error puede aportar a las predicciones la falta de ajuste del modelo. Para hablar de linealidad creo que es preferible comprobar a cada nivel de concentración, porque un modelo que puede parecer globalmente lineal puede no serlo para ciertos niveles de concentración. Pero esa es mi opinión, y por suerte la de muchos.

Debéis disculparme que para esta entrada me ponga en plan técnico más que divulgativo, pero esta entrada tiene fines docentes, y prefiero escribirlo de esta forma.

Partimos de un conjunto de ni puntos de calibración (xi, yi) que presentan una relación lineal aparente, donde se considera que los cada valor de xi está exento de error  y los valores de yi están sujetos a errores de medida pero son homocedásticos. Los valores xi deben aparecer replicados, con lo que estarán agrupados en j (1 a nj) niveles con k (1 a nk) replicados en cada nivel, con lo que ni = nj·nk. Los datos pueden ajustarse a un modelo con c parámetros de ajuste (en regresión lineal c = 2) dando lugar a una ecuación del tipo (1). Siendo y la variable dependiente,  x la variable independiente, b1 la pendiente de la recta de regresión y b0 la ordenada en el origen. La función se obtiene fácilmente mediante el método de mínimos cuadrados minimizando la suma de cuadrados de residuales (2), que considerando la replicación se puede escribir como (3), con grados de libertad  (4).



La prueba  F de falta de ajuste o de Lack-of-fit se basa en un análisis de la varianza (ANOVA) de residuales en el que la suma de residuales, SSE, se descompone en componentes de falta de ajuste. SLF, y error puro SPE, (5) y (6) comprobando la influencia del primero en el error de los residuales. En (7) y (8) se muestra la descomposición de los grados de libertad de cada término.


Los cuadrados medios o varianzas pueden obtenerse fácilmente dividiendo las sumas de cuadrados entre sus correspondientes grados de libertad. De este modo se puede tener la siguiente tabla de ANOVA de falta de ajuste.

Tabla de ANOVA de falta de ajuste (Lack-of-fit)
La prueba de falta de ajuste consiste en calcular un valor F como el cociente entre la varianza (o cuadrado medio) de falta de ajuste y la varianza de error puro.

La hipótesis nula ha de ser entonces que no existe falta de ajuste, el modelo ajusta de forma adecuada a los datos. Si el valor de F calculado es menor que un F tabulado para α = 0.05 (95% de nivel de confianza), nj-c grados de libertad para el numerador y ni-nj grados de libertad para el denominador, se acepta la hipótesis nula. En caso contrario se rechaza y se dice que existe falta de ajuste.

Aunque os parezca tedioso, el cálculo es muy simple y se puede hacer en hoja de cálculo:

1) Obtener SSE a partir de cálculos de regresión o según la fórmula tabla.
2) Obtener SPE según la fórmula de la tabla.
3) Obtener SLF despejando en (5).
4) Dividir entre los grados de libertad indicados en la tabla para obtener MSLF y MSPE.
5) Obtener el F calculado según (9)
6) Comparar con el valor tabulado de F.

Una ventaja de este método es que está implementado en muchos entornos y software como Minitab, R, Statistica, entre otros.

Espero sea de utilidad. Más adelante hablaré del método %RE-plot, propuesto por nosotros, como ya he indicado.

CONTINUARA

miércoles, 9 de agosto de 2017

Lo que hace mi Facultad... Química Verde

La química verde o sostenible tiene en la Universidad de Sevilla unos representantes de referencia. Hablo de los integrantes del grupo de investigación  Organometálicos y Catálisis Homogénea (FQM-223) del Departamento de Química Inorgánica, dirigido por mi compañero y amigo el Catedrático Agustín Galindo del Pozo. Llevan tiempo investigando en el campo de las reacciones de oxidación selectivas catalizadas por compuestos organometálicos utilizando medios de reacción menos contaminantes que los disolventes comunes procedentes del petroleo. Para ello se emplean  líquidos iónicos (ILs), que suelen ser sales de compuestos orgánicos, líquidas a temperatura ambiente, no volátiles y con alta capacidad para disolver  al catalizador. Estos disolventes se pueden reciclar con cierta facilidad, lo que minimiza el impacto del sistema de reacción en el medioambiente. Además se utilizan oxidantes que no dejan restos contaminantes, como el agua oxigenada.

Como se lee en una nota de prensa del Portal de Comunicación de nuestra Universidad, el trabajo de este grupo ha dado lugar a la elaboración de la Tesis Doctoral ‘Procesos de oxidación selectiva catalizados por oxidoperoxidocomplejos de molibdeno usando criterios de química sostenible’, defendida por Carlos Jesús Carrasco, con calificación sobresaliente cum laude. Mi enhorabuena a Carlos, que ha sido un magnifico alumno mío y es una gran persona.

Titular aparecido en le versión digital del diario 20 Minutos en el que se hace eco de la noticia

En el desarrollo de esta tesis han  diseñado y estudiado varios complejos de molibdeno utilizando disolventes (tipo ILs) y reactivos sostenibles y respetuosos con el medioambiente. Como explica Carlos en la nota de prensa; Finalmente, en todos los casos, se han planteado la separación y el reciclado del sistema de reacción, que es una de las condiciones básicas para que un proceso alternativo sea económico y aceptable desde el punto de vista del desarrollo sostenible”. Todo ello ha llevado a la publicación de dos artículos científicos en revistas de reconocido prestigio.  
Resumen del artículo publicado en Catalysis Communications tal y como aparece en la página de la revista 

Enhorabuena grupo, el trabajo bien hecho conlleva su recompensa

Referencias

C. J. Carrasco, F. Montilla, A. Galindo. Molybdenum-catalyzed asymmetric sulfoxidation with hydrogen peroxide and subsequent kinetic resolution, using an imidazolium-based dicarboxylate compound as chiral inductor Catalysis Communications, 2016, 84, 134-136.

C. J. Carrasco, F. Montilla, E. Álvarez, C. Mealli, G. Manca, A. Galindo.  Experimental and theoretical insights into the oxodiperoxomolybdenum-catalysed sulphide oxidation using hydrogen peroxide in ionic liquidsDalton Transactions,  2014, 43, 13711-13730. 

sábado, 5 de agosto de 2017

Sobre linealidad en el rango de calibración analítica

Desde hace unos días he mencionado varias veces un trabajo sobre linealidad en el rango de calibración analítica [1]. Creo que es necesario explicar algunas cuestiones sobre este parámetro de calidad de un método. Una comparación detallada de los distintos métodos para evaluar la linealidad se puede encontrar en un trabajo previo [2] de uno de los autores, Francisco Raposo, y, de hecho, fue el punto de partida para despertar mi interés en este tema. Tengo que agradecer al Dr. Raposo por las discusiones previas que me llevó a plantearme este trabajo y fructificó en una colaboración, por haber insistido en intentarlo en una gran revista como Talanta y por haberse encargado él de la última parte de la revisión (muy luchada) en estos momentos en los que me daba por vencido. El tiempo nos dirá si nuestra propuesta es útil o no.

Cuando somos estudiantes y comenzamos a realizar ajustes lineales en nuestras prácticas de laboratorio nos gusta mucho que el coeficiente de correlación (r) o el de determinación (r^2) sean próximos a la unidad. Si eso es así, nuestra respuesta es lineal... Falso, simplemente si nos aceramos a la unidad podemos asegurar que el modelo empleado para ajustarse a nuestros datos es bueno, pero no que sea el mejor. Este parámetro informa sobre como es de pequeña la suma de cuadrados de residuales, pero no indica como se distribuyen los mismos. Por eso no se recomienda el empleo del coeficiente de correlación o determinación como sinónimo de linealidad. Habría que observar la distribución de los residuales.

Este valor de r^2 puede darse por válido en una práctica, pero sería un error. Si se observa con detalle, los puntos se distribuyen de forma no lineal

Otro parámetro muy usado, que yo he usado mucho para no recurrir al valor de r, es el de linealidad on-line [3], que se calcula como 100 menos la desviación estándar relativa de la pendiente. La desviación estándar de la pendiente aumenta cuando aumenta el error estándar de residuales, con lo que estamos en una caso parecido a hablar de coeficientes de correlación, es decir, te da cuenta del porcentaje de ajuste de acuerdo al error de la pendiente, pero no te dice como se distribuyen los puntos alrededor de la recta de calibración. 

Fórmula de la linealidad on-line

¿Cuál es la solución? Como siempre digo a mis alumnos, lo primero que ha de hacerse cuando se tienen datos en el laboratorio es pintarlos en un papel. Hay que hacer una gráfica, siendo a veces la inspección visual lo que da idea, si los datos se distribuyen bien alrededor de la función ajustada, de si el modelo elegido es el adecuado. Supongamos el modelo lineal, a veces es difícil ver la distribución sobre la misma recta y es preferible usar un gráfico de residuales. Este tipo de gráficos es muy interesante, porque puede indicar que la función elegida no es adecuada simplemente con observar la distribución de los residuales. También puede indicar que la distribución no es homocedástica, lo que implicaría el uso  de un modelo ponderado. Pero si tenemos un gráfico de residuales ¿cómo establecemos el límite que pueda indicar  que un punto está fuera de la tendencia de los demás. Para eso es interesante trabajar con residuos estandarizados. Hay muchas formas de estandarizar, pero nosotros proponemos los residuos Studentizados. Si un residuo supera el valor de 1.96 (aproximamos a 2), se considera que el valor es sospechoso se denomina valor extremo (outlier) si supera el 3. Para aceptar un modelo no debe haber valores sospechosos a lo largo del rango de calibración.

Gráficos de residuales Studentizados correspondiente a la recta anterior. Aunque todos están dentro de los límites se observa una distribución de los mismos que indican la idoneidad de un modelo no lineal

Otra opción es el gráfico de linealidad o de factor de respuesta, que se hizo conocido gracias a Huber [4]. Desde mi punto de vista, este método da cuenta del la variación del factor de respuesta (señal debida al analito dividida entre su cantidad o concentración) a lo largo del rango de calibración, pero poco más. Huber establece unos límites del 5% por encima y por debajo de la mediana de los factores de respuesta y establece la linealidad en el rango en que los puntos se mantienen entre esos límites. Esto funciona generalmente bien en métodos cromatográficos, pero no es así en métodos espectroscópicos. Además no tiene en cuenta que las desviaciones de los factores de respuesta pueden ser muy grandes si trabajamos a concentraciones muy pequeñas. no obstante es un método muy útil para observar cambios en la respuesta del método. 

Se puede observar que el gráfico de factor de respuesta (C) falla en este caso 

El método del lack-of-fit (falta de ajuste)  no lo incluimos en el trabajo. Podéis ver una explicación del mismo en aquellos apuntes de Excel que compartí hace años. Aunque esta entrada en el blog es una declaración de intenciones y quiero trabajar en un par de entradas más sobre linealidad. En la primera describiré exclusivamente el método de lack-of-fit y en la segunda el procedimiento que hemos denominado %RE-plot, el gráfico de errores relativos recalculados.


CONTINUARA...


Referencias

[1] J. M. Jurado, A. Alcázar, R. Muñiz-Valencia, S. G. Ceballos-Magaña, F. Raposo, Some practical considerations for linearity assessment of calibration curves as function of concentration levels according to the fitness-for-purpose approach, Talanta, 2017, 172, 221-229.
[3] L. Cuadros Rodríguez , A. M. García-Campaña , C. Jiménez, M Román, Estimation of performance characteristics of an analytical method using the data set of the calibration experiment, Analytical Letters, 1993, 26,1243-1258.
[4] L. Huber, Validation of analytical methods: review and strategy, LC-GC Europe,1998, 11,  96-105.

martes, 1 de agosto de 2017

Seleccionando datos se construyen teorías

"En el arte de la deducción es fundamental saber discernir, entre diversos datos, cuales son vitales y cuales son accidentales. De lo contrario, la atención y la energía se disipan en lugar de concentrarse."

Esta cita, también extraída del libro de relatos de Sherlock Holmes que ya hemos manejado en varias ocasiones [1], aparece en la historia El misterio de Reigate, inicialmente publicada por Sir Arthur Conan Doyle bajo el título The Adveture of the Reigate Squire en junio de 1893 en la revista The Strand Magazine [2]. Para el que prefiera la cita original: "It is of the highest importance in the art of detection to be able to recognise out of a number of facts which are incidental and which vital. Otherwise your energy and attention must be dissipated instead of being concentrated". Lógicamente nuestro detective se está refiriendo a hechos relacionados con la deducción detectivesca, no a datos numéricos. Pero en la investigación científica también se usa la deducción y todo esto se traslada fácilmente de un campo a otro.

Ilustración, obra de Sidney Paget, de la historia The Adventure of Reigate Squire publicada en The Strand Magazine en junio de 1893.   Imagen de dominio público.

Mi reflexión tras leer la cita es en el fondo algo evidente,  no todo dato científico es, o debe ser, susceptible de ser usado. Todo depende de  la calidad de los mismos, de su forma de obtención, de su carácter peculiar motivado por alguna variable incontrolada o por su propia naturaleza... Y es que hay que tener claro que no todo dato que presente ciertas discrepancias en un entorno científico es debido a su obtención, a veces el dato es el que es. En esta entrada pretendo establecer tres ejemplos que den evidencia de que no todos los datos primarios sirven para establecer modelos o teorías. Y me vais a perdonar que use ejemplos de primera mano, extraídos de  trabajos propios o cercanos. Toda excusa es buena para divulgar la ciencia que se hace en nuestro entorno.

En primer lugar voy a poner un ejemplo muy simple pero muy necesario en el análisis instrumental. Los químicos analíticos preferimos normalmente sistemas de medida en el que una señal producida por una especie química sea linealmente proporcional a su concentración para poder establecer una relación matemática lineal (recta de calibrado) que permita interpolar la señal de una muestra y obtener la concentración de especie en la misma. Es por lo tanto importante que se estudie la linealidad de los datos, es decir, establecer los niveles de concentración en los que la relación señal-cantidad puede considerarse lineal. Recientemente hemos publicado un trabajo [3] en el que se insta a estudiar la linealidad desde un punto de vista práctico. Existen pruebas estadísticas, como el método del lack-of-fit, entre otros, y métodos gráficos, que es por los que nos declinamos. Lo primero es representar los datos y observar su disposición y calidad. A simple vista es posible detectar desviaciones que nos harán acortar el  rango de trabajo. Las tendencias se ven mejor en un gráfico de residuales (preferiblemente estandarizados). También se puede usar un gráfico de factores de respuesta, aunque tiene ciertas limitaciones en técnicas sensibles como las espectroscopias atómicas. Y nuestra propuesta, el gráfico de errores relativos de concentraciones recalculadas. No os asustéis que es muy simple. Se calcula la ecuación de ajuste y se sustituye en la misma la señal correspondiente a cada concentración preparada. Eso da una concentración calculada que difiere más o menos de la preparada. Esa diferencia se divide entre la concentración preparada y se multiplica por cien, considerándose un error relativo. Si todo va bien, estas diferencias relativas no deberían ser superiores al 15%. Nosotros incluimos una función que ajusta este límite dependiendo del rango de concentración en el que trabajemos. Pero en el fondo es muy simple.

Ghraphical abstract del trabajo publicado en la revista Talanta
Con los gráficos propuestos se puede detectar fácilmente los rangos de concentración en los que se puede trabajar considerando respuesta lineal, aumentando así la calidad de las determinaciones. Es decir, hay puntos que se han medido que deben ser eliminados para poder establecer la función de ajuste con una calidad aceptable. Este ejemplo muestra una forma de establecer criterios de aceptación.

En segundo lugar voy a hablar de un ejemplo precioso sobre como la aparición de datos discrepantes (de origen real, no se duda de su medida) pueden enmascarar conclusiones importantes. El trabajo al que me refiero [4] lo realizó el equipo de mi amigo y compañero el Profesor Antonio José Fernandez Espinosa, y versa sobre la identificación de fuentes de contaminación en aguas de lluvia. Se determinan una serie de contaminantes atmosféricos en agua de lluvia, principalmente metales y aniones, que suelen relacionarse con fuentes de contaminación como lluvia ácida, tráfico, combustión industrial, fertilizantes, entre otras. Cuando se parten de los datos en bruto pueden aparecer muestras con valores elevados en algún parámetro, debido principalmente a algún fenómeno puntual. Cuando se crea un sistema que agrupa variables influyentes entre sí, como el análisis de componentes principales (PCA) que proponen los autores, estos datos discrepantes distorsionan los agrupamientos entre variables, haciendo imposible la detección de las fuentes responsables de dichos agrupamientos. Entiéndase que una fuente de contaminación hará aumentar una serie de valores para algunas especies, cuyas concentraciones estarán muy correlacionadas entre si y por eso se agrupan en el PCA. Una muestra de valores anómalos provoca una falsa correlación entre variables y puede confundirse algún agrupamiento. Por lo tanto hay que eliminar ciertas muestras para poder obtener conclusiones. Así, en este trabajo se eliminan los valores anómalos de forma secuencial hasta que queda un modelo donde si es posible detectar fuentes de contaminación.

Captura de una página de la publicación donde se observa la distorsión que pueden ocasionar en la correlación entre variables algunas muestras con valores discrepantes 

El tercer ejemplo se encuentra en un trabajo [5] que realicé en colaboración con mi amigo y paisano el Dr. Francisco Gutiérrez Reguera a partir de los datos de su tesis doctoral. Se trata de un estudio de el origen geográfico de aguas minerales embotelladas. Se dispone de muestras de agua de los sistemas montañosos Cordillera Costero-Catalana, Macizo Galaico, Sistemas Béticos, Sistema Central y Sistema Ibérico. Se analizaron metales, aniones y parámetros como pH,  conductividad y potencial redox entre otros. A partir de estas variables se intentan diferenciar las aguas de acuerdo a  las zonas donde se encuentran  los manantiales. Las muestras de la Cordillera Costero-Catalana son muy diferentes a las demás, y un primer modelo las separa muy bien, dejando al resto de grupos mezclados. Para poder crear un modelo global (que basamos en redes neuronales artificiales, ANN) habría que eliminar esas muestras y crear un submodelo que permita diferenciar los grupos restantes. Ese es el interés de la publicación, la definición de un modelo iterativo en el que una muestra desconocida se introduzca en en un modelo principal. En el caso en que la muestra se clasifique como perteneciente a la Cordillera Costero-Catalana se elimina y no se introduce en el submodelo que permite la clasificación de las cuatro zonas restantes. Para construirlo se debe entonces seleccionar las variables adecuadas para el modelo principal usando todas las muestras de entrenamiento (lo cual hacemos con un análisis discriminante lineal, LDA) y construimos la ANN. El submodelo se crea igualmente seleccionando variables con LDA pero solo con muestras de las cuatro cordilleras restantes. Así, mediante esta selección de datos primarios, se puede llegar a predecir el origen de muestras con un 90% de eficacia.

Captura de la hoja del trabajo en Neural Computing and Applications en la que aparecen el esquema del modelo de clasificación (derecha)
Como conclusión a esta entrada, creo que es necesario decir que, lógicamente no es necesario usar todos los datos primarios para establecer modelos o teorías. Depende de lo que uno busque, se puede seleccionar. Eso sí, hay que revisarlos todos, porque será necesario saber discernir los que tienen utilidad y los que no. Lo importante a la hora de seleccionar bien los datos primarios es hacerlo partir de criterios sólidos, claros y públicos.


Referencias

[1] A. Conan Doyle, El misterio de Reigate. Sherlock Holmes. Relatos 1, PENGUIN CLÁSICOS,  Barcelona, 2016, p. 296. ISBN: 978-84-9105-010-1. (Traducción: Esther Tusquets). 
[2] A. Conan Doyle, The Adventure of the Reigate Squire, The Strand Magazine, June, 1893, pp. 601-613.
[3] J. M. Jurado, A. Alcázar, R. Muñiz, S. G. Ceballos, F. Raposo,  Some practical considerations for linearity assessment of calibration curves as function of concentration levels according to the fitness-for-purpose approach, Talanta, 2017, 172, 221-229.
[4] R. Montoya-Mayor, A. J. Fernandez-Espinosa, M. Ternero-Rodriguez, Assessment of the sequential principal component analysis chemometric tool to identify the soluble atmospheric pollutants in rainwater, Analytical and Bioanalytical Chemistry, 2011, 399, 6, 2031-2041.
[5] F. Gutiérrez-Reguera, J. M. Jurado, R. Montoya-Mayor, M. Ternero-Rodríguez, Geographical classification of Spanish bottled mineral waters by means of iterative models based on linear discriminant analysis and artificial neural networks, Neural Computing and Applications, 2016. DOI: 10.1007/s00521-016-2459-5