La difícil lectura de los datos oficiales de la epidemia

José E. Boscá, José Cano, Rafael Doménech y Javier Ferri

Esta nota es un resumen adaptado, con alguna información extra, de la sección relacionada con la evolución de la epidemia del Boletín de Seguimiento no.9 de Fedea.

En los últimos meses hemos escrito en este blog algunas notas que se centran o utilizan series de datos oficiales de la epidemia. El lector interesado puede encontrar algunos precedentes aquí, aquí, aquí o aquí. En este post actualizamos la información sobre las series más relevantes de datos epidemiológicos, y comentamos algunos aspectos que, como economistas acostumbrados a tratar con datos económicos, nos sorprenden y preocupan. La información que ofrecemos está basada en datos oficiales, incluidos en los informes sobre la enfermedad del coronavirus que el Ministerio de Sanidad (www.mscbs.gob.es) y el Instituto de Salud Carlos III (ISCIII) (cnecovid.isciii.es) – avalado también por el Ministerio de Sanidad - publican periódicamente. El intervalo temporal abarca desde el inicio de la pandemia hasta el 4 de febrero de 2021.

1. El extraño caso de las CC.AA y sus provincias

En el Gráfico 1 se recogen las diferencias en el número de contagiados totales en España, según agregación por CC.AA o por provincias, a partir de dos ficheros que colgó el ISCIII en su web el día 5 de febrero desagregados por Comunidades Autónomas y por provincias. Los datos se suman para el conjunto de España en ambos casos. Así, los dos ficheros coinciden en que el 4 de febrero se habían contagiado 2.913.479 personas en España. Sin embargo, la distribución en el tiempo de los totales por CC.AA y por provincias es sorprendentemente bastante distinta, con diferencias que en algunos subperiodos superan los 25.000 infectados, algo de difícil justificación.

Gráfico 1: Diferencias en número de contagiados entre el total de CC.AA y Provincias (número de contagiados)

 Fuente: ISCIII y elaboración propia.

2. La aparición misteriosa de contagiados en el pasado

Otro hecho misterioso consiste en la aparición de nuevos contagiados en los meses pasados conforme transcurre el tiempo. Y no son de una magnitud menor. Por ejemplo, hemos tomado la información de contagiados por CC.AA que publicó el ISCIII con fecha 13 de octubre de 2020, donde se contabilizaban los contagiados en todos los días anteriores al 10 de Octubre desde el inicio de la pandemia. Luego hemos comparado esta información con la que ofrecía el ISCIII a fecha 5 de febrero de 2021 para el mismo periodo anterior. La diferencia se representa en el Gráfico 2. Entre el 1 de enero de 2020 y el 30 de junio ‘aparecieron’ 31.000 nuevos casos, que no estaban computados a mitad de octubre. Entre el 1 de Julio y el 8 de octubre, emergieron 54.000 nuevos casos. Como una curiosidad, según la última información publicada el 5 de febrero de 2021 por el ISCIII, en enero de 2020 se reportaron 635 contagios, y hasta el 8 de marzo de 2020 se habían producido ya más de 12.500 contagios. Como contraste, y con la información disponible hasta el 9 de marzo de 2020, se habían reportado hasta el 8 de marzo de 2020 sólo 999 casos.

En principio, la actualización y mejora de los datos más recientes no debe ser causa de sorpresa sino consecuencia de la incorporación con unos días de retraso de la información no disponible en el momento de publicación de los avances. El problema es cuando estos cambios ocurren sobre los datos publicados hace meses o incluso un año. Es este caso, los cambios cuestionan la calidad de la información publicada originalmente.

Gráfico 2: Diferencias en número de contagiados hasta octubre, según información con el fichero 5/febrero/2021 o con el fichero 13/octubre/2020 (número de contagiados)

 Fuente: ISCIII y elaboración propia.

Los problemas de datos con los contagiados se extienden también a los fallecidos, hospitalizados y casos que han ingresado en UCI. El Gráfico 3 representa la diferencia, en tantos por cien, entre los casos UCI que se ofrecían en octubre de 2020 y los más recientes del fichero del 5 de febrero de 2021. Las disparidades, positivas y negativas, están alrededor del 20 por cien.

Gráfico 3: Diferencias en número de ingresados en UCI hasta octubre, según información con el fichero 5/febrero/2021 o con el fichero 13/octubre/2020 (en %)

Fuente: ISCIII y elaboración propia.

3. La escurridiza incidencia acumulada

En las noticias de TV y otros medios de comunicación nos hemos acostumbrado a seguir a diario el dato sobre la incidencia acumulada por 100.000 habitantes a 14 días (IA). Esta información procede de los boletines diarios sobre la enfermedad SARS-CoV-2 que publica el Ministerio de Sanidad. Como se ha indicado, el ISCIII publica también el número de contagiados diarios, de los que resulta sencillo calcular también la incidencia acumulada a 14 días. Esta serie es en principio más fiable en cuanto se realiza la asignación correcta entre el momento en el que se realiza el test PCR y la detección del contagio.

En el Gráfico 4 representamos las series de IA del Ministerio y la comparamos con la calculada a partir de la serie del ISCIII. Existe un claro desajuste entre ambas. Para el caso de toda España, observamos que la IA del Ministerio infravalora la ‘verdadera’ IA en las fases de crecimiento del número de contagios, mientas que en el descenso ambas series se unen. Esta diferencia alcanzó un máximo de 240 durante la tercera ola, el 17 de enero de 2021. Es decir, la IA reportada por los medios de comunicación era significativamente menor que la verdadera IA publicada unos días después, pero desconocida para la opinión pública.

El porqué sucede esto en los periodos de auge de la enfermedad y no en las moderaciones es, en principio, una incógnita sujeta a conjeturas, para personas que, como nosotros, no conocemos los detalles del proceso administrativo de recogida, gestión, limpieza y publicación de datos. El caso de Cataluña es paradigmático de este comportamiento del conjunto de España. En la Comunidad Valenciana, la diferencia entre ambas series de IA llegó a ser de más de 850 contagiados por 100.000 habitantes durante varios días a mediados de enero de 2021. El caso de Cantabria sigue una pauta diferente, con un desfase entre ambas series mantenido tanto en las fases ascendentes como descendentes de las olas. En muchas CC.AA. las diferencias entre ambas series son de una magnitud y desfase suficientemente grandes como para obtener resultados poco robustos cuando, por ejemplo, se trata de evaluar los efectos de las restricciones de movilidad o a la actividad de algunos sectores sobre el control de la pandemia.

Gráfico 4: Incidencia Acumulada a 14 días. Actualizaciones diarias Ministerio vs. datos corregidos por ISCIII

Fuente: Ministerio de Sanidad, ISCIII y elaboración propia.

4. La estremecedora cifra del 8 a 1

Hay un dato que, pese a lo llamativo, está pasando desapercibido. Cuando dividimos el total de fallecidos por Covid entre el total de enfermos que han pasado por UCI obtenemos una cifra cercana a 3, y bastante constante entre las distintas olas. De hecho, durante la primera ola, la ratio de fallecidos sobre ingresados en UCI fue de 3, para reducirse a 2,7 en la segunda y tercera ola. Si suponemos, siendo pesimistas, que de los ingresados por Covid en UCI termina falleciendo un tercio, eso significa que por cada fallecido por Covid en una UCI hay 8 contagiados que fallecen fuera de las UCIs.

¿Dónde están muriendo estas personas y qué perfil tienen? Una pista es que, entre los mayores de 80 años, el número de decesos por cada ingresado en UCI fue de 21 a 1 en la primera ola, de 23 a 1 en la segunda ola y de 32 a 1 en la tercera ola (1). La historia terminará reconociendo la deuda que tenemos contraída con nuestros mayores.

5. El perfil distorsionado de las olas

También nos hemos acostumbrado a ver publicado en varios medios la serie suavizada de nuevos casos de contagios, en la que aparece la tercera ola como la más intensa de las vividas, con diferencia. Sobre las series oficiales efectuamos una corrección, como explicamos aquí, a partir de las pruebas de detección realizadas y de diferentes estudios de seroprevalencia. El Gráfico 5 muestra los perfiles oficiales de las olas (azul) y los estimados (naranja) con nuestra corrección. Un elemento de confianza en nuestra corrección es que la correlación retardada siete días entre los casos corregidos y los nuevos hospitalizados a lo largo de toda la pandemia es 0,95 mientras que la misma correlación con los casos oficiales sería de 0,42. Puede observarse que, a diferencia de los datos oficiales, nuestra estimación apunta a que el pico de esta última ola ha sido aproximadamente la mitad de elevado que en la primera ola.

Gráfico 5: Casos detectados y casos corregidos (contagiados estimados). España. Media móvil 7 días.

Fuente: Ministerio de Sanidad, ISCIII y elaboración propia.

La conclusión de todo lo anterior es clara: un año después del inicio de la pandemia en España siguen existiendo graves problemas de inconsistencias en los datos publicados que plantean preguntas para las que no existe una respuesta directa, y que afectan a la calidad y credibilidad de la información transmitida a la opinión pública. En absoluto pensamos que ello sea resultado de una intención por ocultar la gravedad de la situación sanitaria. Nuestro objetivo es mostrar la importancia que tiene dedicar esfuerzos a mejorar la calidad de los datos y su homogeneidad en el tiempo, y a ofrecer explicaciones técnicas detalladas de los cambios que se introducen. Realmente es difícil pensar que con estos datos los investigadores de distintas disciplinas puedan estar en las mejores condiciones para hacer un análisis robusto de la pandemia en nuestro país.

(1) Agradecemos a Ángel Meneses su ayuda en este punto.

Hay 3 comentarios
  • Gracias Javier por éste artículo.

    Llevo meses buscando/esperando una información así.

    Es desolador el punto 4 de tu artículo.

    Sobre el gráfico del punto 5 me atrevo a señalar un dato que avala tu estimación de contagios para la primera ola. La cifra diaria de fallecidos declarada encaja en la comparación entre la primera y la tercera ola.

    Sobre tu pensamiento de que no hay intención de ocultar... yo hace años que deje de ser bienpensado con la clase política de este país.

  • El día 4 de junio del 2020 el informe diario del Ministerio a la OMS reduce el número de fallecidos desde 29858 a 27940. Es decir, resucitan 1878 personas. El día 5 la cifra de fallecidos se reduce nuevamente en 807.
    Con estas cifras dejábamos de detentar el peor dato mundial.
    Hay un dicho entre financieros y estadísticos USA que dice así "You want a number? Don't worry, I'll give you one".

Los comentarios están cerrados.