Los números de la pandemia (aka la chapucilla europea)

En mi anterior entrada comparé algunas de las diferentes medidas de IA14 (incidencia acumulada a 14 días por 100 000 habitantes) del coronavirus en España. Una de las cosas que me llamó la atención fue que la IA14 que daba el Centro Europeo para la Prevención y Control de Enfermedades (ECDC) era para algunas CC. AA. sensiblemente mayor que la que daba el Ministerio de Sanidad.

En mi candidez, pensé que tal vez era que como publicaban los datos de la semana natural más tarde (los jueves) estaban más consolidados que los que publicaba el Ministerio de Sanidad (los lunes). Sin embargo, al mirar las fuentes de datos del EDCD, indica directamente la página del Ministerio de Sanidad. Además, en sus explicaciones el ECDC aclara que dan «14-day notification rate of reported COVID-19 cases per 100 000 population», es decir, que no daban la IA14 por fecha de diagnóstico o síntomas como el Ministerio de Sanidad sino por notificación, la diferencia del total notificados un día con los notificados 14 días antes, sin importar la fecha de diagnóstico. Aún así, no me coincidía con la la medida MS-acum que también había calculado. Haciendo unas comprobaciones más, me di cuenta que no utilizaban los informes del lunes, que son los que deberían corresponder a la semana natural, sino los del martes, que entiendo que son los últimos disponibles cuando el ECDC hace la recopilación de información. Además, comprobé que para calcular la tasa por habitante usaban la población de las regiones europeas que publica eurostat.

Con este conocimiento, ya el martes pasado hice un cálculo de lo que debería dar entonces la IA14 del ECDC que publican los jueves y que puse en mi Twitter:

Al publicar este jueves el ECDC los datos de IA14 por regiones europeas comprobé que los cálculos coincidían precisamente para todas las CC. AA. menos una, Castilla y León, que se desviaba la IA14 por menos de 2, una desviación poca significativa (M. Sanidad es la IA14 calculada con la diferencia de casos de los informes del Ministerio de Sanidad):

                         ECDC    M. Sanidad
Galicia             134.496551    134.496551
Asturias            175.111646    175.111646
Cantabria           109.001944    109.001944
País Vasco          279.951145    279.951145
Navarra             763.601899    763.601899
La Rioja            387.153149    387.153149
Aragón              374.000633    374.000633
Madrid              566.666501    566.666501
Castilla y León     438.919099    440.414282
Castilla-La Mancha  363.412629    363.412629
Extremadura         235.962396    235.962396
Cataluña            298.753798    298.753798
C. Valenciana       120.804773    120.804773
Baleares            146.942485    146.942485
Andalucía           214.822950    214.822950
Murcia              359.221141    359.221141
Ceuta               339.506537    339.506537
Melilla             571.502793    571.502793
Canarias             86.773263     86.773263

Pero claro, aunque esa desviación sea insignificante, 438.919099 para el ECDC y 440.414282 por mi cálculo, me llamó la atención. Comparé entonces la serie de Castilla y León del EDCD con la calculada a partir de los informes del Ministerio de Sanidad desde julio (en junio había también diferencias, pero ya eso para otra indagación):

                 ECDC    M. Sanidad
2020-07-05   10.217080     10.217080
2020-07-12    5.856131      5.856131
2020-07-19    7.185182      7.185182
2020-07-26   11.878393     11.878393
2020-08-02   28.948393     28.948393
2020-08-09   78.164813     78.164813
2020-08-16  127.796562    127.796562
2020-08-23  167.211231    167.211231
2020-08-30  229.593564    229.593564
2020-09-06  272.164729    272.164729
2020-09-13  314.985092    314.985092
2020-09-20  380.856183    380.856183
2020-09-27  434.973479    434.973479
2020-10-04  436.925523    436.925523
2020-10-11  438.919099    440.414282

La serie coincidía perfectamente salvo el último valor. Así que el problema solo era el último valor y para Castilla y León. Por lo que fui a los informes de Sanidad. El del 29 de septiembre:

Y el del 13 de octubre:

Para Castilla y León, el primer informe da un total de 47 305 casos y el segundo 57 909 casos, es decir, una diferencia de 10 604 casos para los 14 días. Si la IA14 del ECDC del 438.919099 se divide por 100 000 y se multiplica por la población de Castilla y León según eurostat (2 407 733), da justamente que según el ECDC en estos catorce días hubo 10 568 casos notificados nuevos. Si estos 10 568 casos notificados nuevos según el ECDC sumamos los 47 305 casos del primer informe del Ministerio de Sanidad, se obtienen 57 873 casos. ¡Eureka! ¡Ya está claro qué ha pasado! ¿No? 😉 Que sí, solo hay que fijarse la tabla de datos del segundo informe. ¿No está claro ya? Para dejarlo aún más claro pondré aquí el detalle fundamental de esa tabla:

¿Ahora ya sí? Pues sí, los del ECDC tomaron mal los datos de Castilla y León, en vez de coger los 57 909 casos correctos, apuntaron 57 873 casos: los miles son correctos (57), pero el resto es incorrecto (873) porque no corresponde a Castilla y León sino a Castilla-La Mancha (con 49 873 casos), que está justo arriba de Castilla y León en la tabla del Ministerio de Sanidad. Y este error solo puede ser por una toma manual de datos, ya que no ha habido intercambio de datos porque la IA14 de Castilla-La Mancha calculada coincide con la del ECDC, y el único error es el de Castilla y León.

Así que en una sociedad como la europea tecnológicamente avanzada, el ECDC para calcular las incidencias de las regiones de España tiene que recurrir a unos PDF que publica el Ministerio de Sanidad, que un tipo del ECDC lee semanalmente y apunta manualmente para su base de datos, y claro, que en este proceso se pueden producir errores. Y esta vez el error ha sido nimio, pero es ilustrativo para ver cómo se hacen las cosas, que desde España no son capaces de enviar una hoja de cálculo con los datos oficiales al ECDC para evitar estos errores. Y es que además estas IA14 son importantes, porque forman parte de los indicadores que se usan para elaborar el mapa semanal para las restricciones de movimiento entre países europeos, tal cual, esta es la tabla de indicadores con el valor 438.9190994 erróneo para Castilla y León:

Esta tabla de indicadores publicada por el ECDC el jueves también sirve para comprobar algunos de los cálculos mostrados en esta entrada: los 10 568 casos notificados nuevos según eurostat y que la población usada para calcular las tasas de Castilla y León es 2 407 733.

2 opiniones en “Los números de la pandemia (aka la chapucilla europea)”

  1. La verdad no se quien tiene más delito. Porque desde España los datos se publican en tablas de texto descargables de la web. Asi que no se de quién es la culpa, si de nosotros por no mandarlas, o de los europeos por no descargarlas (esto último lo puedo disculpa por el posible retraso de la información publicada vs. la enviada directamente desde el ministerio)

Comentarios cerrados.