COVID-19: ¿podemos confiar siempre en los datos que nos aportan los científicos?

La irrupción de la epidemia del coronavirus en las últimas semanas ha hecho que los expertos científicos, así como la información estadística, adquieran una mayor relevancia de la habitual.

datos coronavirus
istockphoto

Manuel Terrádez Gurrea, analista de datos del sector financiero y colaborador docente en el Máster en Business Intelligence y Big Data de la Universidad Abierta de Cataluña, nos habla en este artículo de la ciencia de los datos y los datos de la ciencia.

 

Se pueden destacar dos características de la información oficial emitida hasta ahora durante la crisis del coronavirus: desde el inicio se ha defendido que las decisiones se toman basándose en el criterio marcado por los expertos científicos, en este caso los sanitarios; y cada día se actualizan las cifras de incidencia (contagiados, fallecidos y recuperados) por causa del virus.

Los datos de la ciencia, o la información de los científicos

La cuestión es:  ¿tienen los científicos un criterio único e infalible? Pese a que la mayoría de la población pueda pensar que sí, en cualquier ciencia aplicada las decisiones se toman en entorno de incertidumbre, y por tanto caben los errores, incluso de forma frecuente. Además, los problemas a los que se enfrenta la sociedad habitualmente son complejos y por tanto caben múltiples interpretaciones: dos expertos igualmente competentes y preparados pueden tener visiones distintas, y en consecuencia, apostar por estrategias distintas para abordar las situaciones que se les presenten.

Por otro lado, los datos con los que se cuenta son, muchas veces, poco fiables.

Empezando por las cifras de mortalidad, cuestión capital en esta crisis, para comparar la del virus con otros parecidos como el de la gripe. Los datos de causas de muerte los proporciona un organismo oficial y de garantías como el INE, con lo cual la independencia y la fiabilidad están garantizadas. Pues bien, cuando se trabaja a fondo con ellos (como por ejemplo aquí), se descubre que no son tan fiables como cabría esperar. Y no es por culpa del INE, por supuesto, sino que el problema está en el inicio de la cadena: en la toma de los datos. Es una cuestión importante, porque hasta que no se profundiza en la forma de obtención de unos datos, lo cual no siempre es posible, no resulta sencillo conocer su fiabilidad.

Por supuesto, esta circunstancia se da en múltiples ámbitos. Suelo citar un artículo que pone en duda la validez de la mayoría de estudios relacionados con nutrición por, entre otras carencias, la falta de fiabilidad de los datos en los que se basan. De ahí que muchas veces la gente acabe confundida porque un día le dicen que cierto alimento es muy recomendable, y al día siguiente que no lo es tanto. Tendemos a pensar que detrás hay motivos oscuros (manipulación de datos o investigaciones financiadas por partes interesadas), pero en la mayoría de casos lo que subyace es simplemente un problema de base, en la toma (o el almacenamiento, o el tratamiento) de los datos.

En conclusión, sin buenos datos es imposible obtener buenos resultados, por muy brillantes que sean los algoritmos que se utilicen para realizar los modelos.

La ciencia de los datos aplicada a la incidencia del virus

Sobre este aspecto, como ya hemos comentado, diariamente se actualizan las cifras básicas de incidencia, por país o por comunidad autónoma. Sin embargo, pocas veces se aportan datos relativos en lugar de absolutos (como por ejemplo sí hacen aquí), que nos permiten poner en contexto los números al compararlos con la población total.

Así mismo, se habla en términos muy generales de las consecuencias del virus: por ejemplo, todos sabemos que afecta más a los mayores pero, ¿cuánto más: el doble, diez veces más…? Porque no es lo mismo. Cierto es que al tratarse de un virus reciente, es complicado disponer de certezas en lo que respecta a estas cuestiones, pero tampoco ayuda el que no se ofrezcan habitualmente datos por franjas de edad, si bien es algo que en los últimos días ha mejorado.

Por supuesto, nadie habla en términos de probabilidades, que es una de las claves cuando se tratan temas de riesgos, ni utilizando conceptos habituales del análisis de supervivencia y de los ámbitos médico o biológico como sensibilidad, prevalencia, riesgo relativo, etc.

Al menos sí se ha hablado mucho de la “curva” de crecimiento, y de su comportamiento “logarítmico”, comparando las de diversos países o diversas comunidades autónomas, y es algo que es sin duda positivo. Tampoco resulta sencilla la comparabilidad de datos de distintos países, porque los criterios que toman unos y otros para contabilizar los casos pueden ser muy dispares.

Por supuesto, esto no implica que no haya organismos o personas individuales que no estén transmitiendo una información mucho más precisa y elaborada, pero hay que buscarla, no es información que llegue por medios de comunicación masivos.

En conclusión, casi siempre es mejor tomar decisiones basadas en datos, aunque éstos no sean del todo precisos, que hacerlo basándose puramente en opiniones no contrastadas, pero ello no nos debe hacer perder de vista el pensamiento crítico, en este terreno como en cualquier otro.

Continúa leyendo