- Nada es Gratis - https://nadaesgratis.es -

Correlaciones provinciales del COVID-19

De Daniel Oto Peralías

La incidencia del COVID-19 varía mucho entre las provincias españolas. Tomando como referencia los datos a 1 de abril, la tasa de casos acumulados por 100.000 hab. de Soria, la provincia con mayor incidencia, era 20 veces superior a la de Almería, la de menor incidencia (a 15 de abril, este cociente había aumentado a 21.3). El Gráfico 1 muestra el valor de la tasa de casos acumulados para cada provincia, mientras que el Mapa 1 lo presenta geográficamente. Ante estas elevadas diferencias provinciales, cabe preguntarse qué factores las pueden explicar. ¿Son las provincias con mayor tasa de COVID-19 las más pobladas? ¿Las que reciben a más turistas? ¿Las más frías? El objetivo de esta entrada es analizar las relaciones a nivel provincial entre la incidencia del COVID y diversos factores meteorológicos, geográficos y socioeconómicos (un estudio sobre el efecto del confinamiento en la propagación del virus puede verse aquí). Huelga decir que lo que muestro a continuación son correlaciones y me limitaré a interpretarlas como tales.

Variables meteorológicas y geográficas

El Gráfico 2 representa la relación entre los casos de COVID-19 y diversas variables geográficas y meteorológicas. Uso la transformación logarítmica de la tasa de COVID-19, que es más apropiada para llevar a cabo el análisis. Se puede observar que las provincias más al norte, frías, con mayor altitud media, llanas, sin costa y cercanas a Madrid presentan una mayor incidencia del COVID-19. La correlación es particularmente fuerte en el caso de la temperatura. La Tabla 1, que contiene los coeficientes de estas relaciones bivariantes, muestra que el R2 de dicha variable es el doble de la que le sigue en poder explicativo. La temperatura media registrada en febrero y marzo de este año explica nada menos que el 62% de la variación en la tasa de COVID. Otra relación interesante es la que se observa con el logaritmo (log.) de la distancia a Madrid. Las provincias más cercanas a Madrid tienen en promedio una tasa de casos acumulados mayor -sin embargo, esta correlación desaparece al controlar por la temperatura.

La correlación negativa entre casos de COVID-19 y temperatura es consistente con la observada en un estudio de ciudades chinas (aquí) y con resultados preliminares a nivel de comunidades autónomas en España (aquí). ¿Es esta correlación provincial robusta cuando se tienen en cuenta otras variables geográficas? La columna 1 de la Tabla 2 muestra que ese es, de hecho, el caso: cuando se incluyen conjuntamente las variables temperatura, precipitaciones, altitud (media y coeficiente de variación), carácter insular y costero y distancia a Madrid, solo la primera resulta estadísticamente significativa (distancia a Madrid lo es solo marginalmente). Esta primera regresión contiene algunas variables relacionadas entre sí, generando multicolinealidad. Una manera de elegir las variables a incluir es a través del método stepwise, el cual selecciona de manera progresiva un modelo en base a la significatividad de las variables. Dicho método da como resultado en la columna 2 un modelo que solo incluye la temperatura, lo que sugiere que es el factor más relevante. Las dos últimas columnas muestran que la correlación de esta variable con los casos de COVID-19 no se debilita si eliminamos a Canarias y que incluso se mantiene cuando se explota únicamente la variación dentro de cada comunidad autónoma.

Variables socioeconómicas

El Gráfico 3 representa la relación entre los casos de COVID-19 y un conjunto de variables socio-económicas, a saber, la población y densidad de población en 2019 (ambas en log.), el PIB per cápita en 2017 (log.), la concentración de la población (el porcentaje de población que vive en el 10% más poblado del territorio), la contaminación del aire en 2018 (medido como la media de partículas inferiores a 10 y 2.5 µm), el porcentaje de población mayor de 64 años en 2019, el porcentaje de empleo en diferentes ramas de actividad en 2017, el número de pasajeros de aerolíneas en febrero y marzo de 2020 y dicho número relativo a la población (ambos en log.).

Lo primero que quizás llama la atención es que las correlaciones son menos fuertes que en el caso de las variables geográficas y meteorológicas. En algunos casos el signo de la correlación es contra-intuitivo, aunque hay que tener en cuenta que son relaciones bivariantes y es difícil interpretarlas por sí solas, sin considerar el efecto de otros factores. La columna 5 de la Tabla 2 aplica el método stepwise para seleccionar el modelo, siendo las variables elegidas el PIB per cápita, el porcentaje de población mayor de 64 años y el porcentaje de empleo en las ramas de actividad G a J (que incluyen al comercio y la hostelería). Los coeficientes indican que las provincias más ricas, más envejecidas y con menor importancia relativa del comercio y la hostelería tienen en promedio más casos de COVID-19. Cuando se incluye la temperatura como control básico, el modelo resultante contiene solo la densidad de población -además de la temperatura (columna 6). Este modelo parsimonioso de dos variables explica el 67% de la variación en los casos de COVID-19.

Hasta ahora me he centrado en la tasa de contagios, pero los resultados son cualitativamente similares si se usa la tasa de muertes por 100,000 hab., lo cual no es sorprendente ya que la correlación entre ambas tasas es muy alta (p=0.9). Igualmente, los resultados son muy similares si se utilizan datos de casos acumulados a fecha de 14 de abril, lo que nuevamente no puede sorprender pues la correlación entre las tasas a 1 y 14 de abril es de 0.98.

Para concluir, más sobre la correlación entre temperatura y casos de COVID-19

La relación negativa con la temperatura resulta “esperanzadora” debido a la cercanía del verano. Dado el interés de esta correlación, voy a extenderme brevemente sobre su robustez. El Gráfico 4 (izquierda) representa la relación entre el incremento de casos de COVID-19 desde el 15 de marzo al 1 de abril y la temperatura, controlando por los casos de COVID al inicio del periodo (es decir, el 15 de marzo). Se observa que la relación negativa permanece inalterada, lo que indica que en las provincias donde la temperatura ha sido más alta desde el 16 al 31 de marzo, el crecimiento de los contagios ha sido menor (teniendo en cuenta el nivel inicial de contagios). Pese a este resultado confirmatorio, queda por analizar un hecho importante: si las provincias en las que ha aumentado más la temperatura han experimentado un menor incremento de contagios. Para ello, analizo la relación entre el incremento de casos de COVID desde el 15 de marzo al 1 de abril y el cambio de temperatura media entre la primera y segunda quincena de marzo, controlando de nuevo por los casos a 15 de marzo. El Gráfico 5 (izq.) muestra, al contrario que antes, que no existe relación. Es decir, las provincias donde ha aumentado relativamente más la temperatura durante la segunda quincena de marzo no han experimentado un menor incremento de casos.

Este último resultado, si bien arroja dudas sobre el papel que puede jugar la llegada del calor del verano en la contención de la epidemia, no lo descarta. Ello es por varias razones, entre las que se encuentran que los datos con los que contamos son escasos y cubren un periodo corto de tiempo, y que la variación de temperatura en cada provincia ha sido pequeña (en comparación con la variación que supondrá la llegada del verano). En conclusión, este resultado ambiguo de la temperatura es consistente con la visión de los expertos en el campo, los cuales apuntan a que el calor, aunque pueda reducir la eficiencia con la que se transmite, no detendrá al coronavirus.

--

Nota: los datos usados en la entrada se encuentran disponibles para su descarga aquí.