En mi anterior entrada comparé algunas de las diferentes medidas de IA14 (incidencia acumulada a 14 días por 100 000 habitantes) del coronavirus en España. Una de las cosas que me llamó la atención fue que la IA14 que daba el Centro Europeo para la Prevención y Control de Enfermedades (ECDC) era para algunas CC. AA. sensiblemente mayor que la que daba el Ministerio de Sanidad.
En mi candidez, pensé que tal vez era que como publicaban los datos de la semana natural más tarde (los jueves) estaban más consolidados que los que publicaba el Ministerio de Sanidad (los lunes). Sin embargo, al mirar las fuentes de datos del EDCD, indica directamente la página del Ministerio de Sanidad. Además, en sus explicaciones el ECDC aclara que dan «14-day notification rate of reported COVID-19 cases per 100 000 population», es decir, que no daban la IA14 por fecha de diagnóstico o síntomas como el Ministerio de Sanidad sino por notificación, la diferencia del total notificados un día con los notificados 14 días antes, sin importar la fecha de diagnóstico. Aún así, no me coincidía con la la medida MS-acum
que también había calculado. Haciendo unas comprobaciones más, me di cuenta que no utilizaban los informes del lunes, que son los que deberían corresponder a la semana natural, sino los del martes, que entiendo que son los últimos disponibles cuando el ECDC hace la recopilación de información. Además, comprobé que para calcular la tasa por habitante usaban la población de las regiones europeas que publica eurostat.
Con este conocimiento, ya el martes pasado hice un cálculo de lo que debería dar entonces la IA14 del ECDC que publican los jueves y que puse en mi Twitter:
Al publicar este jueves el ECDC los datos de IA14 por regiones europeas comprobé que los cálculos coincidían precisamente para todas las CC. AA. menos una, Castilla y León, que se desviaba la IA14 por menos de 2, una desviación poca significativa (M. Sanidad es la IA14 calculada con la diferencia de casos de los informes del Ministerio de Sanidad):
ECDC M. Sanidad
Galicia 134.496551 134.496551
Asturias 175.111646 175.111646
Cantabria 109.001944 109.001944
País Vasco 279.951145 279.951145
Navarra 763.601899 763.601899
La Rioja 387.153149 387.153149
Aragón 374.000633 374.000633
Madrid 566.666501 566.666501
Castilla y León 438.919099 440.414282
Castilla-La Mancha 363.412629 363.412629
Extremadura 235.962396 235.962396
Cataluña 298.753798 298.753798
C. Valenciana 120.804773 120.804773
Baleares 146.942485 146.942485
Andalucía 214.822950 214.822950
Murcia 359.221141 359.221141
Ceuta 339.506537 339.506537
Melilla 571.502793 571.502793
Canarias 86.773263 86.773263
Pero claro, aunque esa desviación sea insignificante, 438.919099 para el ECDC y 440.414282 por mi cálculo, me llamó la atención. Comparé entonces la serie de Castilla y León del EDCD con la calculada a partir de los informes del Ministerio de Sanidad desde julio (en junio había también diferencias, pero ya eso para otra indagación):
ECDC M. Sanidad
2020-07-05 10.217080 10.217080
2020-07-12 5.856131 5.856131
2020-07-19 7.185182 7.185182
2020-07-26 11.878393 11.878393
2020-08-02 28.948393 28.948393
2020-08-09 78.164813 78.164813
2020-08-16 127.796562 127.796562
2020-08-23 167.211231 167.211231
2020-08-30 229.593564 229.593564
2020-09-06 272.164729 272.164729
2020-09-13 314.985092 314.985092
2020-09-20 380.856183 380.856183
2020-09-27 434.973479 434.973479
2020-10-04 436.925523 436.925523
2020-10-11 438.919099 440.414282
La serie coincidía perfectamente salvo el último valor. Así que el problema solo era el último valor y para Castilla y León. Por lo que fui a los informes de Sanidad. El del 29 de septiembre:
Y el del 13 de octubre:
Para Castilla y León, el primer informe da un total de 47 305 casos y el segundo 57 909 casos, es decir, una diferencia de 10 604 casos para los 14 días. Si la IA14 del ECDC del 438.919099 se divide por 100 000 y se multiplica por la población de Castilla y León según eurostat (2 407 733), da justamente que según el ECDC en estos catorce días hubo 10 568 casos notificados nuevos. Si estos 10 568 casos notificados nuevos según el ECDC sumamos los 47 305 casos del primer informe del Ministerio de Sanidad, se obtienen 57 873 casos. ¡Eureka! ¡Ya está claro qué ha pasado! ¿No? 😉 Que sí, solo hay que fijarse la tabla de datos del segundo informe. ¿No está claro ya? Para dejarlo aún más claro pondré aquí el detalle fundamental de esa tabla:
¿Ahora ya sí? Pues sí, los del ECDC tomaron mal los datos de Castilla y León, en vez de coger los 57 909 casos correctos, apuntaron 57 873 casos: los miles son correctos (57), pero el resto es incorrecto (873) porque no corresponde a Castilla y León sino a Castilla-La Mancha (con 49 873 casos), que está justo arriba de Castilla y León en la tabla del Ministerio de Sanidad. Y este error solo puede ser por una toma manual de datos, ya que no ha habido intercambio de datos porque la IA14 de Castilla-La Mancha calculada coincide con la del ECDC, y el único error es el de Castilla y León.
Así que en una sociedad como la europea tecnológicamente avanzada, el ECDC para calcular las incidencias de las regiones de España tiene que recurrir a unos PDF que publica el Ministerio de Sanidad, que un tipo del ECDC lee semanalmente y apunta manualmente para su base de datos, y claro, que en este proceso se pueden producir errores. Y esta vez el error ha sido nimio, pero es ilustrativo para ver cómo se hacen las cosas, que desde España no son capaces de enviar una hoja de cálculo con los datos oficiales al ECDC para evitar estos errores. Y es que además estas IA14 son importantes, porque forman parte de los indicadores que se usan para elaborar el mapa semanal para las restricciones de movimiento entre países europeos, tal cual, esta es la tabla de indicadores con el valor 438.9190994 erróneo para Castilla y León:
Esta tabla de indicadores publicada por el ECDC el jueves también sirve para comprobar algunos de los cálculos mostrados en esta entrada: los 10 568 casos notificados nuevos según eurostat y que la población usada para calcular las tasas de Castilla y León es 2 407 733.
Jolín, vaya trabajazo. Por cierto, el blog no es solo para boomers.
La verdad no se quien tiene más delito. Porque desde España los datos se publican en tablas de texto descargables de la web. Asi que no se de quién es la culpa, si de nosotros por no mandarlas, o de los europeos por no descargarlas (esto último lo puedo disculpa por el posible retraso de la información publicada vs. la enviada directamente desde el ministerio)