Correlaciones provinciales del COVID-19

admin 8 comentarios

De Daniel Oto Peralías

La incidencia del COVID-19 varía mucho entre las provincias españolas. Tomando como referencia los datos a 1 de abril, la tasa de casos acumulados por 100.000 hab. de Soria, la provincia con mayor incidencia, era 20 veces superior a la de Almería, la de menor incidencia (a 15 de abril, este cociente había aumentado a 21.3). El Gráfico 1 muestra el valor de la tasa de casos acumulados para cada provincia, mientras que el Mapa 1 lo presenta geográficamente. Ante estas elevadas diferencias provinciales, cabe preguntarse qué factores las pueden explicar. ¿Son las provincias con mayor tasa de COVID-19 las más pobladas? ¿Las que reciben a más turistas? ¿Las más frías? El objetivo de esta entrada es analizar las relaciones a nivel provincial entre la incidencia del COVID y diversos factores meteorológicos, geográficos y socioeconómicos (un estudio sobre el efecto del confinamiento en la propagación del virus puede verse aquí). Huelga decir que lo que muestro a continuación son correlaciones y me limitaré a interpretarlas como tales.

Variables meteorológicas y geográficas

El Gráfico 2 representa la relación entre los casos de COVID-19 y diversas variables geográficas y meteorológicas. Uso la transformación logarítmica de la tasa de COVID-19, que es más apropiada para llevar a cabo el análisis. Se puede observar que las provincias más al norte, frías, con mayor altitud media, llanas, sin costa y cercanas a Madrid presentan una mayor incidencia del COVID-19. La correlación es particularmente fuerte en el caso de la temperatura. La Tabla 1, que contiene los coeficientes de estas relaciones bivariantes, muestra que el R2 de dicha variable es el doble de la que le sigue en poder explicativo. La temperatura media registrada en febrero y marzo de este año explica nada menos que el 62% de la variación en la tasa de COVID. Otra relación interesante es la que se observa con el logaritmo (log.) de la distancia a Madrid. Las provincias más cercanas a Madrid tienen en promedio una tasa de casos acumulados mayor -sin embargo, esta correlación desaparece al controlar por la temperatura.

La correlación negativa entre casos de COVID-19 y temperatura es consistente con la observada en un estudio de ciudades chinas (aquí) y con resultados preliminares a nivel de comunidades autónomas en España (aquí). ¿Es esta correlación provincial robusta cuando se tienen en cuenta otras variables geográficas? La columna 1 de la Tabla 2 muestra que ese es, de hecho, el caso: cuando se incluyen conjuntamente las variables temperatura, precipitaciones, altitud (media y coeficiente de variación), carácter insular y costero y distancia a Madrid, solo la primera resulta estadísticamente significativa (distancia a Madrid lo es solo marginalmente). Esta primera regresión contiene algunas variables relacionadas entre sí, generando multicolinealidad. Una manera de elegir las variables a incluir es a través del método stepwise, el cual selecciona de manera progresiva un modelo en base a la significatividad de las variables. Dicho método da como resultado en la columna 2 un modelo que solo incluye la temperatura, lo que sugiere que es el factor más relevante. Las dos últimas columnas muestran que la correlación de esta variable con los casos de COVID-19 no se debilita si eliminamos a Canarias y que incluso se mantiene cuando se explota únicamente la variación dentro de cada comunidad autónoma.

Variables socioeconómicas

El Gráfico 3 representa la relación entre los casos de COVID-19 y un conjunto de variables socio-económicas, a saber, la población y densidad de población en 2019 (ambas en log.), el PIB per cápita en 2017 (log.), la concentración de la población (el porcentaje de población que vive en el 10% más poblado del territorio), la contaminación del aire en 2018 (medido como la media de partículas inferiores a 10 y 2.5 µm), el porcentaje de población mayor de 64 años en 2019, el porcentaje de empleo en diferentes ramas de actividad en 2017, el número de pasajeros de aerolíneas en febrero y marzo de 2020 y dicho número relativo a la población (ambos en log.).

Lo primero que quizás llama la atención es que las correlaciones son menos fuertes que en el caso de las variables geográficas y meteorológicas. En algunos casos el signo de la correlación es contra-intuitivo, aunque hay que tener en cuenta que son relaciones bivariantes y es difícil interpretarlas por sí solas, sin considerar el efecto de otros factores. La columna 5 de la Tabla 2 aplica el método stepwise para seleccionar el modelo, siendo las variables elegidas el PIB per cápita, el porcentaje de población mayor de 64 años y el porcentaje de empleo en las ramas de actividad G a J (que incluyen al comercio y la hostelería). Los coeficientes indican que las provincias más ricas, más envejecidas y con menor importancia relativa del comercio y la hostelería tienen en promedio más casos de COVID-19. Cuando se incluye la temperatura como control básico, el modelo resultante contiene solo la densidad de población -además de la temperatura (columna 6). Este modelo parsimonioso de dos variables explica el 67% de la variación en los casos de COVID-19.

Hasta ahora me he centrado en la tasa de contagios, pero los resultados son cualitativamente similares si se usa la tasa de muertes por 100,000 hab., lo cual no es sorprendente ya que la correlación entre ambas tasas es muy alta (p=0.9). Igualmente, los resultados son muy similares si se utilizan datos de casos acumulados a fecha de 14 de abril, lo que nuevamente no puede sorprender pues la correlación entre las tasas a 1 y 14 de abril es de 0.98.

Para concluir, más sobre la correlación entre temperatura y casos de COVID-19

La relación negativa con la temperatura resulta “esperanzadora” debido a la cercanía del verano. Dado el interés de esta correlación, voy a extenderme brevemente sobre su robustez. El Gráfico 4 (izquierda) representa la relación entre el incremento de casos de COVID-19 desde el 15 de marzo al 1 de abril y la temperatura, controlando por los casos de COVID al inicio del periodo (es decir, el 15 de marzo). Se observa que la relación negativa permanece inalterada, lo que indica que en las provincias donde la temperatura ha sido más alta desde el 16 al 31 de marzo, el crecimiento de los contagios ha sido menor (teniendo en cuenta el nivel inicial de contagios). Pese a este resultado confirmatorio, queda por analizar un hecho importante: si las provincias en las que ha aumentado más la temperatura han experimentado un menor incremento de contagios. Para ello, analizo la relación entre el incremento de casos de COVID desde el 15 de marzo al 1 de abril y el cambio de temperatura media entre la primera y segunda quincena de marzo, controlando de nuevo por los casos a 15 de marzo. El Gráfico 5 (izq.) muestra, al contrario que antes, que no existe relación. Es decir, las provincias donde ha aumentado relativamente más la temperatura durante la segunda quincena de marzo no han experimentado un menor incremento de casos.

Este último resultado, si bien arroja dudas sobre el papel que puede jugar la llegada del calor del verano en la contención de la epidemia, no lo descarta. Ello es por varias razones, entre las que se encuentran que los datos con los que contamos son escasos y cubren un periodo corto de tiempo, y que la variación de temperatura en cada provincia ha sido pequeña (en comparación con la variación que supondrá la llegada del verano). En conclusión, este resultado ambiguo de la temperatura es consistente con la visión de los expertos en el campo, los cuales apuntan a que el calor, aunque pueda reducir la eficiencia con la que se transmite, no detendrá al coronavirus.

Nota: los datos usados en la entrada se encuentran disponibles para su descarga aquí.

Hay 8 comentarios
  • Yo creo que aunque el calor no detenga al COVID, como se ve en los países que ahora es verano, baja claramente la tasa de reproducción. Por lo que con temperaturas altas ni los brotes son tan brutales en caso de no hacer nada, ni hacen falta medidas tan extrictas para llegar a una tasa menor a 1.
    Eso sí, siendo pesimistas, esto nos indica que en muchas zonas el periodo noviembre-marzo de 2020-21 puede ser otra vez de confinamiento duro.

  • Me parece muy interesante y bien construido. Por eso creo que habria que ampliarlo y contrastar la correlación con la temperatura en otros países, y acumularla
    ¿Funciona igual en Italia, Portugal y Grecia? ¿Y en el Reino Unido, Dinamarca, Países nórdicos…?.

    • Muchas gracias Ramón. Efectivamente, sería muy interesante hacer un análisis comparado con otros países europeos.

  • Me parece evidente que el único dato claro es que en España y en todo el mundo la pandemia actúa de un modo absolutamente arbitrario, sin ningún tipo de patrón epidemiológico conocido ni clásico. La ausencia escandalosa de estudios epidemiológicos oficiales, que serían claves para detener la pandemia, confirma que no se quiere saber ni que se sepa cómo actúa realmente el mal llamado coronavirus. Parece que tiene más carga política que viral, que sí explicaría fácilmente su arbitraria expansión. Hay reciente un estudio por su cuenta de un cardiólogo gallego, muy celebrado, que intenta explicar la desigual distribución geográfica según el momento en que se tomaron medidas de confinamiento en distintos países. Ignora la patente realidad de que en España se tomaron las medidas de confinamiento a la vez pero la distribución geográfica de la epidemia es completamente desigual, lo que invalida sus razonamientos. Es también evidente que los pacientes son tratados medicamente, pero nadie dice cuál es el tratamiento. El tratamiento médico que se aplica a los pacientes, con el caos hospitalario que haya o no haya, sí explica la letalidad. Ya reconocen que están aplicando tratamientos contraindicados, como el Interferon, y que en muchos casos la ventilación que suministran está contraindicada. Si los síntomas -fiebre, tos, etc- se trataran como siempre se ha hecho no habría esta letalidad. Los nuevos protocolos impuestos desde arriba son la clave decisiva.

  • El dato clave epidemiológico es este: ¡0,4 DE LETALIDAD!

    IFEMA: ” de 3.781 pacientes ingresados, han fallecido 15 (el 0,4%) y vamos por unas 3.200 altas hasta hoy”

    Comparada con una letalidad del más del 10% en toda España.

    ¿Cómo es posible este auténtico milagro en el hospital con más pacientes de España? IFEMA es un hospital improvisado y con pocos medios. No se ven los grandes aparatos de respiración. Los médicos de IFEMA son mayoritariamente los internistas, medicina general, de los centros de salud de siempre, que han tenido que llevar allí. Será que no han aplicado ventilación forzada a los pacientes. Quizás los médicos internistas hayan hecho lo de siempre cuando un paciente tiene gripe y tos. No habrán aplicado los nuevos protocolos.

    En vez de llevar a los pacientes al hospital de IFEMA donde no hay apenas letalidad, han decidido cerrarlo en una semana.

    ¿No sería lo lógico, y lo moral, aplicar el protocolo IFEMA en todos lados, en vez de los protocolos del ministerio que “no recomiendan” pero autorizan más de veinte tratamientos distintos, que son aplicables a otras enfermedades, y que les están administrando a personas con fiebre y tos, etiquetándolas con el nada científico “síntomas compatibles con el coronavirus”?

  • Hola Daniel
    El trabajo es interesante. Me sorprende pero que no escuentres resultados usando la polución (PM2.5 y PM10) como regresor.
    En un comentario anterior (RAMON) se sugiere la comparación entre países, pues en Italia – haciendo e analisis por provincia – han detectado que el n indicador clave es la justamente la polución PM2.5
    Cabe decir que allí no puedes correr la regresión por temperaturas por la modalidades específicas de contagio en Italia. El sur más caluroso básicamente no se ha contagiado, así que la correlación con temperatura seria espuria.

  • Muy buen post Daniel Oto Peralías.

    @Ramon –> Efectivamente funciona igual en Italia.
    @Benedetto –> La contaminación tampoco aparece relevante en Italia.

    Estoy trabajando en un documento sobre ello y ya os puedo avanzar que las temperaturas son el predictor más relevante de lejos (para el caso de las regiones Italianas). Y esto no es incompatible con que el virus se haya propagado a regiones cálidas, ya que la temperatura simplemente afectaría a la eficiencia de transmisión.

    Aunque también es importante tener en cuenta que este tipo de análisis son susceptibles a a la falacia ecológica, si que parece que hay algo en este link.

Los comentarios están cerrados.