"En ninguna parte alguien concedería que la ciencia y la poesía puedan estar unidas. Se olvidaron que la ciencia surgió de la poesía, y no tuvieron en cuenta que una oscilación del péndulo podría reunirlas beneficiosamente a las dos, a un nivel superior y para ventaja mutua"-Wolfgang Goethe-

martes, 1 de agosto de 2017

Seleccionando datos se construyen teorías

"En el arte de la deducción es fundamental saber discernir, entre diversos datos, cuales son vitales y cuales son accidentales. De lo contrario, la atención y la energía se disipan en lugar de concentrarse."

Esta cita, también extraída del libro de relatos de Sherlock Holmes que ya hemos manejado en varias ocasiones [1], aparece en la historia El misterio de Reigate, inicialmente publicada por Sir Arthur Conan Doyle bajo el título The Adveture of the Reigate Squire en junio de 1893 en la revista The Strand Magazine [2]. Para el que prefiera la cita original: "It is of the highest importance in the art of detection to be able to recognise out of a number of facts which are incidental and which vital. Otherwise your energy and attention must be dissipated instead of being concentrated". Lógicamente nuestro detective se está refiriendo a hechos relacionados con la deducción detectivesca, no a datos numéricos. Pero en la investigación científica también se usa la deducción y todo esto se traslada fácilmente de un campo a otro.

Ilustración, obra de Sidney Paget, de la historia The Adventure of Reigate Squire publicada en The Strand Magazine en junio de 1893.   Imagen de dominio público.

Mi reflexión tras leer la cita es en el fondo algo evidente,  no todo dato científico es, o debe ser, susceptible de ser usado. Todo depende de  la calidad de los mismos, de su forma de obtención, de su carácter peculiar motivado por alguna variable incontrolada o por su propia naturaleza... Y es que hay que tener claro que no todo dato que presente ciertas discrepancias en un entorno científico es debido a su obtención, a veces el dato es el que es. En esta entrada pretendo establecer tres ejemplos que den evidencia de que no todos los datos primarios sirven para establecer modelos o teorías. Y me vais a perdonar que use ejemplos de primera mano, extraídos de  trabajos propios o cercanos. Toda excusa es buena para divulgar la ciencia que se hace en nuestro entorno.

En primer lugar voy a poner un ejemplo muy simple pero muy necesario en el análisis instrumental. Los químicos analíticos preferimos normalmente sistemas de medida en el que una señal producida por una especie química sea linealmente proporcional a su concentración para poder establecer una relación matemática lineal (recta de calibrado) que permita interpolar la señal de una muestra y obtener la concentración de especie en la misma. Es por lo tanto importante que se estudie la linealidad de los datos, es decir, establecer los niveles de concentración en los que la relación señal-cantidad puede considerarse lineal. Recientemente hemos publicado un trabajo [3] en el que se insta a estudiar la linealidad desde un punto de vista práctico. Existen pruebas estadísticas, como el método del lack-of-fit, entre otros, y métodos gráficos, que es por los que nos declinamos. Lo primero es representar los datos y observar su disposición y calidad. A simple vista es posible detectar desviaciones que nos harán acortar el  rango de trabajo. Las tendencias se ven mejor en un gráfico de residuales (preferiblemente estandarizados). También se puede usar un gráfico de factores de respuesta, aunque tiene ciertas limitaciones en técnicas sensibles como las espectroscopias atómicas. Y nuestra propuesta, el gráfico de errores relativos de concentraciones recalculadas. No os asustéis que es muy simple. Se calcula la ecuación de ajuste y se sustituye en la misma la señal correspondiente a cada concentración preparada. Eso da una concentración calculada que difiere más o menos de la preparada. Esa diferencia se divide entre la concentración preparada y se multiplica por cien, considerándose un error relativo. Si todo va bien, estas diferencias relativas no deberían ser superiores al 15%. Nosotros incluimos una función que ajusta este límite dependiendo del rango de concentración en el que trabajemos. Pero en el fondo es muy simple.

Ghraphical abstract del trabajo publicado en la revista Talanta
Con los gráficos propuestos se puede detectar fácilmente los rangos de concentración en los que se puede trabajar considerando respuesta lineal, aumentando así la calidad de las determinaciones. Es decir, hay puntos que se han medido que deben ser eliminados para poder establecer la función de ajuste con una calidad aceptable. Este ejemplo muestra una forma de establecer criterios de aceptación.

En segundo lugar voy a hablar de un ejemplo precioso sobre como la aparición de datos discrepantes (de origen real, no se duda de su medida) pueden enmascarar conclusiones importantes. El trabajo al que me refiero [4] lo realizó el equipo de mi amigo y compañero el Profesor Antonio José Fernandez Espinosa, y versa sobre la identificación de fuentes de contaminación en aguas de lluvia. Se determinan una serie de contaminantes atmosféricos en agua de lluvia, principalmente metales y aniones, que suelen relacionarse con fuentes de contaminación como lluvia ácida, tráfico, combustión industrial, fertilizantes, entre otras. Cuando se parten de los datos en bruto pueden aparecer muestras con valores elevados en algún parámetro, debido principalmente a algún fenómeno puntual. Cuando se crea un sistema que agrupa variables influyentes entre sí, como el análisis de componentes principales (PCA) que proponen los autores, estos datos discrepantes distorsionan los agrupamientos entre variables, haciendo imposible la detección de las fuentes responsables de dichos agrupamientos. Entiéndase que una fuente de contaminación hará aumentar una serie de valores para algunas especies, cuyas concentraciones estarán muy correlacionadas entre si y por eso se agrupan en el PCA. Una muestra de valores anómalos provoca una falsa correlación entre variables y puede confundirse algún agrupamiento. Por lo tanto hay que eliminar ciertas muestras para poder obtener conclusiones. Así, en este trabajo se eliminan los valores anómalos de forma secuencial hasta que queda un modelo donde si es posible detectar fuentes de contaminación.

Captura de una página de la publicación donde se observa la distorsión que pueden ocasionar en la correlación entre variables algunas muestras con valores discrepantes 

El tercer ejemplo se encuentra en un trabajo [5] que realicé en colaboración con mi amigo y paisano el Dr. Francisco Gutiérrez Reguera a partir de los datos de su tesis doctoral. Se trata de un estudio de el origen geográfico de aguas minerales embotelladas. Se dispone de muestras de agua de los sistemas montañosos Cordillera Costero-Catalana, Macizo Galaico, Sistemas Béticos, Sistema Central y Sistema Ibérico. Se analizaron metales, aniones y parámetros como pH,  conductividad y potencial redox entre otros. A partir de estas variables se intentan diferenciar las aguas de acuerdo a  las zonas donde se encuentran  los manantiales. Las muestras de la Cordillera Costero-Catalana son muy diferentes a las demás, y un primer modelo las separa muy bien, dejando al resto de grupos mezclados. Para poder crear un modelo global (que basamos en redes neuronales artificiales, ANN) habría que eliminar esas muestras y crear un submodelo que permita diferenciar los grupos restantes. Ese es el interés de la publicación, la definición de un modelo iterativo en el que una muestra desconocida se introduzca en en un modelo principal. En el caso en que la muestra se clasifique como perteneciente a la Cordillera Costero-Catalana se elimina y no se introduce en el submodelo que permite la clasificación de las cuatro zonas restantes. Para construirlo se debe entonces seleccionar las variables adecuadas para el modelo principal usando todas las muestras de entrenamiento (lo cual hacemos con un análisis discriminante lineal, LDA) y construimos la ANN. El submodelo se crea igualmente seleccionando variables con LDA pero solo con muestras de las cuatro cordilleras restantes. Así, mediante esta selección de datos primarios, se puede llegar a predecir el origen de muestras con un 90% de eficacia.

Captura de la hoja del trabajo en Neural Computing and Applications en la que aparecen el esquema del modelo de clasificación (derecha)
Como conclusión a esta entrada, creo que es necesario decir que, lógicamente no es necesario usar todos los datos primarios para establecer modelos o teorías. Depende de lo que uno busque, se puede seleccionar. Eso sí, hay que revisarlos todos, porque será necesario saber discernir los que tienen utilidad y los que no. Lo importante a la hora de seleccionar bien los datos primarios es hacerlo partir de criterios sólidos, claros y públicos.


Referencias

[1] A. Conan Doyle, El misterio de Reigate. Sherlock Holmes. Relatos 1, PENGUIN CLÁSICOS,  Barcelona, 2016, p. 296. ISBN: 978-84-9105-010-1. (Traducción: Esther Tusquets). 
[2] A. Conan Doyle, The Adventure of the Reigate Squire, The Strand Magazine, June, 1893, pp. 601-613.
[3] J. M. Jurado, A. Alcázar, R. Muñiz, S. G. Ceballos, F. Raposo,  Some practical considerations for linearity assessment of calibration curves as function of concentration levels according to the fitness-for-purpose approach, Talanta, 2017, 172, 221-229.
[4] R. Montoya-Mayor, A. J. Fernandez-Espinosa, M. Ternero-Rodriguez, Assessment of the sequential principal component analysis chemometric tool to identify the soluble atmospheric pollutants in rainwater, Analytical and Bioanalytical Chemistry, 2011, 399, 6, 2031-2041.
[5] F. Gutiérrez-Reguera, J. M. Jurado, R. Montoya-Mayor, M. Ternero-Rodríguez, Geographical classification of Spanish bottled mineral waters by means of iterative models based on linear discriminant analysis and artificial neural networks, Neural Computing and Applications, 2016. DOI: 10.1007/s00521-016-2459-5


No hay comentarios:

Publicar un comentario

Haz tu comentario... quedará pendiente de moderación