Un seguimiento estadístico y pronósticos del COVID-19 en nuestro país (22-Mayo)

Aprovechando los días de, primero vacaciones (encerrado) y luego trabajo en casa (empezando ahora) he estado dando seguimiento a como vamos en la lucha contra el COVID-19 (COV-SARS-2). Lo primero en el dia, el parte de las 11 a.m., luego tener los datos en Cubadebate

Día a dia, llevar los datos a Excel. Bueno, realmente lo hice retroactivamente a partir del día 30 de Marzo.

En fin, quiero mostrarles los datos graficados, y dos formas de hacer predicciones para los proximos días y el desarrollo general de la enfermedad en el país.

Este trabajo se esta realizando en el país, en diversas manera por equipos dedicados, algunos de estos deben tener los datos más precisos, en cantidad y estructura relacional. Esperemos sus resultados en unos días. Esto es algo complicado. No es igual un modelos que describe una enfermedad infecciosa sin control, que cuando se empiezan a poner controles y medidas variables, con la efectividad dependiendo de muchos factores (aquí entran las interacciones y la disciplina de la población, el alcance y efectividad de las pesquizas, la propension general y precondiciones como estructura de edades y enfermedades subyacentes)

Metodología

Los datos los fui tabulando segun la informacón publicada en Cubadebate, la explicita y la que podía inferirse. Siempre quedan algunas dudas de si las tomé correctamente, a parte de que faltan algunos datos. De cada uno extraje si se publica o se puede calcular:

• Tiempo antes de aislamiento
• Cantidad de contactos que se aislaron
• Si es caso primario, secundario o terciario.

Clasificación según descripción en los partes

Caso Primario: casos descritos como “venidos del extrajero“, o “contacto con extranjero” que ya no estaban en el país para el momento del aislamiento
Caso Secundario: casos descritos como contacto con casos Primarios o “contacto con viajero
Caso Terciario: casos descritos como”contactos de casos confirmados
Caso “Cuarto nivel”: casos no determinados

Los casos secundarios y terciarios son los que presentan algún error, y mas los terciarios, pues su cantidad se infiere de la forma de presentar los datos, del leguaje. Solo puedo llegar al terciario, estimado por el lenguaje del parte, más no se puede inferir, por ello unos valores estimados para hacer predicciones solo puedo llevarlos hasta 3 semanas luego del primer caso confirmado, para no introducir mas incertidumbre.

Casos primarios: 159
Casos secundarios: 71
Casos terciarios: 103 (aquí surge la duda con algunos, que no se si serian 3ros o 2dos)
Casos “cuarto”: 5

La suma me da 338 asi que de alguna manera me salté 58 casos (algo así como el equivalente a 2 dias) cuando los contabilizaba. Esto es un 14%, pero para lo que empleo esta contabilidad creo que los que hya puede sere suficiente. El problema es como se distribuye ese 14%, pero supongo el error que induscan sea cosa de un 10% máximo.

Estimo que casos secundarios son menos pues muchos provienen de viajeros, extranjeros y similares que usualemente mantienen menor cantidad de contactos que los nacionales “normales” (ya saben, “el mio!!, muas! muas! + abrazos”)

Seguimiento de los datos

Dándole uso al Excel

Los datos aqui sin son tal como los dan dia a dia, aqui no son por conteo de cada uno en la información (donde me salté una cantidad como dije antes)

Los datos en rojo fueron interpolados/extrapolados, pues esos días estos no aparecen en los que Cubadebate publicó.

Gráficas

Estas son las grafics de los datos reportados y de su variación diaria (Delta)

Las gráficas contienen los siguientes datos:
• Datos reportados diarios
• Predicción a 5 días, con límite superior y límite inferior
• Tendencia

Pero ojo!, las epidemias no son fenómenos de comportamiento simple, aún dejándolas a su desarrollo rampante sin control ni medidas. Así que una “predicción” no es tan sencillo como puede parecer aquí. Las curvas no son solo cuesta arriba o abajo todo el tiempo. Esto lo veremos más abajo.

Presento las gráficas y un pronostico para los proximos 5 dias.

En vigilancia

Ingresados

Sospechosos
Aqui tuve que interpolar unos dias que en los datos reportados este valor no aparecía, hay otros dias mas recientes que todavia tengo que estimar pues no dan este dato, al menos en TV o en cubadebate. Tendere que ver la pagina del Ministerio de Salud Publica.

Confirmados

Este es un analisis entre el pronostico y el real. La gran variabilidad empieza el dia que empiezan las pruebas rápidas a mayor cantidad de personas. Ya luego con la entrada de mas laboratorios al analisis de muestras se ha estabilizado la entrega de resultados. Ya otros picos son momentos que empiezan a reportarse enfermos de eventos de contagio grandes, se ven los de Ciego, el de Santa Clara y ahora el del Cotorro.

Ese gran error ha sido en los dias previos a la puesta en funciones de otros laboratorios, a mi parecer, como se estaban realizando gran cantidad de pruebas, las muestras se estaba acumulando y la variabilidad en la cantidad de resultados tambien era mayor, como se ha visto en las graficas. Pero ya mas estable la cosa, el pronosticos esta con mucha mas precision, a veces de solo +-2 confirmados.

Confirmados diarios

Este numero es importante. Es de los que hacen “curvas”. Se debe analizar su media en varios dias y su tendencia.

Enfermos ACTIVOS (conocidos)

Este numero es muy importante. Mucho mas que un acumulado, que realmente para el estado actual y futuro no aporta mucho. Este =numer es el de enfermos conocidos, es decir, el de confirmados menos los curados (altas) y fallecidos. Este es el número que hace la famosa curva (que veremos mas abajo). Es el primer numero que el sistema de salud debe seguir, pues es el que dice como y cuando puede llegarse a una situacion de que la capacidad de atencion se vea desbordada.

Cuidados Intensivos

Este es el otro numero importante, por la misma razon que el anterior. Que capacidad de atencion en UCI exista define las decisiones que se deban tomar si este numero la sobrepasa.

Fallecidos

Las gráficas más tristes

Letalidad Bruta

La letalidad bruta es el porciento de fallecidos de los casos confirmados. La letalidad real es menor, pues sería el porciento de los casos reales, lo que muchos lo pasan sin síntomas o muy ligeros y pueden no confirmarse nunca (pero si ser infecciosos!!! mantener aislamiento social!! quédate en casa y hasta allí mantener la distancia si es posible!). Con suerte y esperemos (dedos cruzados) que estos sean los menos, y se logre encontrar a la mayor cantidad de casos reales posible.

Altas

Modelaje matemático de epidemias

El modelaje matemático de epidemias consiste en el uso del lenguaje y herramientas matemáticas para explicar y predecir el comportamiento de agentes infecciosos y potencialmente dañinos a poblaciones humanas o animales.

En un modelo determinista la enfermedad puede infectar a los individuos de manera aleatoria. Sin embargo, la ley de los grandes números nos asegura que el número de infecciones se va haciendo cada vez más predecible conforme el tamaño de la población aumenta. Debido a esto los modelos deterministas son usados para tratar enfermedades que afectan a poblaciones grandes y a menudo surgen representados a través de ecuaciones diferenciales.

S – Individuos susceptibles.
I – Individuos infectados.
R – Individuos recobrados .
β – Tasa de contagios (probabilidad de que una persona enferme al estar en contacto con un infectado).
1/γ – Tiempo promedio de infección (para un solo individuo).
μ – Tasa promedio de defunciones (probabilidad de que un individuo infectado muera debido a la enfermedad).

Modelo SIR

El modelo SIR es uno de los modelos epidemiológicos más simples capaces de capturar muchas de las características típicas de los brotes epidémicos. El nombre del modelo proviene de las iniciales S (población susceptible), I (población infectada) y R (población recuperada). El modelo relaciona las variaciones las tres poblaciones (Susceptible, Infectada y Recuperada) a través de la tasa de infección y el período infeccioso promedio.


Un ejemplo de modelo SIRS (Azul = Población susceptible, Verde= Población infectada y Rojo = Población recuperada).

La mayor parte de modelos epidemiológicos se basan en dividir a la población sujeta a la infección en un pequeño número de grupos compartimentados, cada uno de estos grupos está formados por individuos idénticos en términos de su estatus con respecto a la infección en cuestión. En el modelo SIR, existen tres grupos compartimentados:

Población susceptible (S), individuos sin inmunidad al agente infeccioso, y que por tanto puede ser infectada si es expuesta al agente infeccioso.
Población infectada (I), indiviuos que están infectados en un momento dado y pueden transmitir la infección a individuos de la población suscpetible con la que entran en contacto.
Población recuperada (R), individuos que son inmunes a la infección, y consecuentemente no afectan a la transmisión cuando entran en contacto con otros individuos.

El flujo de transiciones de un grupo a otro se da como sigue:

S->I->R

La población total es N = S + I + R . Hecha esta compartimentación se hace necesario especificar ecuaciones que describan la variación temporal del número de individuos en cada compartimento. El grafo de la solución I ( t ) debería ser semejante con la progresión observada del número de personas infectadas. El número de individuos en cada compartimentos deben ser números enteros, aunque dado el gran tamaño de la población N las variables S, I, R pueden ser tratadas como variables continuas, y el modelo SIR viene dado por las siguientes ecuaciones diferenciales:

Dada una población fija N=S(t)+I(t)+R(t), se obtienen las siguientes ecuaciones diferenciales que describen el modelo:

o más ampliamente:

Aquí, la tasa de transmisión β y la tasa de recuperación γ (de tal manera que el período medio de recuperación es 1/γ ). Este modelo SIR básico tiene una larga historia1​ y actualmente se ha generalizado tanto que puede hallarse incluso en libros de introductorios de cálculo como una aplicación de las ecuaciones diferenciales

Modelo SIER
Este modelo es una extension del anterior, incluye los casos Expuestos. Quiero intentar modificar la hoja de Excel del modelo SIR para trasnformarla en un SIER.

Aquí los Supceptibles los tomaría como la población en observación/vigilanca. Los Expuestos serian entonces los que están ingresados.

O los Supceptibles los tomaría como los ingresados y los Expuestos los que se les hace la prueba.

Es algo a evaluar, aqune me parece que los correcto es el primer caso.

Otra version más avanzada del modelo tiene en cuenta la posible inmunidad adquirida y aún otra incluye a los recien nacidos

Ajustando el modelo a los datos (datos de cierre 21 de Mayo) en elaboración

OJO! esto es estimación de un modelo que no tiene en cuenta medidas de contencion, si no que la enfermedas campea a sus anchas sin control. Medidas tomadas, su cumpliminto y efectividad hacen que los estimados bajen (o suban si no se cumplen).

Al modelo le estoy dando los datos de cada dia, pero la estimacion partes del ultimo dato. Simplemente minimizar la diferencia entre el modelo y los datos

Los datos que se conocen de fallecidos por COVID-19 son los mas precisos de todos, pues son los que se confirman reales, mientras que confirmados y enfermos conocidos son eso, los conocidos dentro de los que estan realmente contagiados, y teniendo ademas los asintomaticos, menos preciso es el dato.

Los numeros de esta estimación no tienen que corresponder con la realidad puntual de uno o varios dias. Puede verse, para simplificar, como la media de los valores de esos dias. Y volver a recordar, que los datos publicados de enfermos llevan alrededor de 7-10 dias de retrazo con la realidad, debido al timepo entre sintomas/aislamiento-pruebas-resultados-publicación.

Ajuste por Fallecidos
Población total contagiada: 2080. Poblacion total que enfermó al final de la pandemia
Población total fallecida: 87. Total de Fallecidos al final de la pandemia
Máx. población infectada simultánea: 942. Máxima cantidad de personas enfermas en un momento dado. Esto son los ACTIVOS
Máx. contagios diarios: 113. Maximos contagios diarios. Podria mirarse como los nuevos confirmados, pero restando unos dias.
Máx. recuperaciones diarias: 64. Maxima cantidad de los que se curan en un dia.
Máx. fallecimientos diarios: 3. Cantidad de fallecidos pico en un dia (recordar que esto es una curva, hay valores superiores e inferiores, pueden mirarlos como un promedio esos dias, fijarse ne la grafica).

Pico de enfermos: 15-16 de Abril (por la demora, se veria en numeros reportados a partir del 24-27 de Abril, cosa que se confirma por los datos)

El pico real de enfermos ocurre un tiempo antes del que se conoce luego por las pruebas, pues hay una diferecnia de dias entre el contagio, los sintomasy aislamiento, la prueba, el resultado y el reporte. Va a unos 7-10 días o más, asi que a los estimados aqui dados pueden sumar este tiempo y sería más o menos el cuando se conocería la información. Es decir, por ejemplo para el caso de ajuste por fallecidos, el pico teórico de enfermos ya pasó el dia 15-16 de Abril, pero se debe ver reflejado en los datos reportados a partir de dia 24-27. Como se ve en los datos graficados y pronosticos anteriores.

Asi se ajusta el modelo a los datos de fallecidos totales

Y queda asi entonces al de fallecimientos

Entonces todos los datos relevantes, comparados con el modelo, los vemos asi:

El pico de fallecidos debe ocurrir cosa de una semana o algo más tarde que el de enfermos, lo que confirma un poco lo explicado antes. Aqui vemos los datos de casos acumulados, casos activos y altas con un ajuste por fallecidos.

En esta grafica se muestra una curva suave de juste a los datos de fallecimientos, para ilustrar lo que se menciono antes, y podenmos ver como el pico serian efectivamente unos 3 en un dia. Ocurre el dia 20/4 – 23/4. Con un ajuste de media corrida de 7 dias, el pico de fallecimientos los pone el dia 24/4 (con 3) unos 7-10 dias despues del pico de enfermos.

Ahora, ajustar por fallecidos o fallecimientos podemos ver como la cantidad de positivos acumulada y de enfermos activos en un momento dado esta por debajo del modelo. Esto puede tomarse en cierta medida como lo que no se conoce, es decir, lo enfermos que no se tienen controlados, sintomaticos o asintomaticos. Estimaciones de estudios publicados lo ponen en un 20% hasta un 80% mayor en ambos casos. E interesantemente vemos como aqui el número cuando comparamos entre la curva teórica estimada de ACTIVOS y los datos de los activos conocidos va en cosa de un 38%. Sin embargo, los procedimientos y protocolos que aplicamos aqui, como aislar e ingresar a los contactos y la vigilancia epidemiologica, permiten encontrar mas rapida directamente a los contagiados sin tener que hacer grandes cantidads de pruebas exploratorias.

En mi opinion, con este ajuste, vemos que en el peor caso habriamos tenido un 10% de contagiados por encima de los conocidos, unos 100 para el momento del pico.

Tengamos en cuenta los nuevos casos sin origen conocido. Con el ajuste hecho por el dato mas confiable, y viendo que la curva de enfermos activos ya cae hace dias por debajo del estimado, es que las medidas o funcionan a pesar de todo, o la cantidad de activos esta muy por encima debido a los asintomáticos y este ya se explico antes. Aún así, no sera como dice la grafica del modelo, pues medidas de mitigacion se toman (a pesar de las colas).

Una estimación reportada el dia de hoy (5 de Mayo) pone el pico conocido (datos REPORTADOS) el 24 de Abril, lo que confirma los analisis previos que he estado haciendo. Con los datos hasta el dia 15 de Abril salia el pico maximo real para el 20 (informativo el 27-28 Abril), al final resultó entre el 17-20.

Actualizacion 22-MAyo: pico real 16-17 Abril, informativo 24-26 Abril

Veamos ahora ajustando el modelo a los datos de enfermos activos

Grafica de fallecidos totales:

Y queda asi entonces al de fallecimientos:

Entonces todos los datos relevantes, comparados con el modelo, los vemos asi:

Aqui vemos como la curva de fallecidos queda por encima del modelo, es decir, tendriamos más fallecidos que lo que estima el modelo. Siendo los datos de los fallecidos por la enfermedad los mas reales, en mi opinion esto es una muestra de como no se puede hacer los cálculos con los datos conocidos para estimar la realidad, a menos que se pueda estimar en algun margen la parte que no se conoce.

Recordar que esto son estimaciones propias, a partir de los datos publicados, y tratando de inferir otros. Solo datos bien detallados, de la mayor cantidad de personas, sus contactos, relaciones, etc, pueden dar estimaciones mas precisas. Además, cada medida tomada, en dependencia de su cumplimiento y efectividad afecta la estimación.

Estimao que una vez queeden muchos menos vigilados/ingresados/sospechosos y con la nueva cantidfad de kits pruebas que se han recibido, se pase a ir evaluando y probando grupos y zonas con mas incidencia.

23 respuestas a «Un seguimiento estadístico y pronósticos del COVID-19 en nuestro país (22-Mayo)»

    1. Amigo, mis saludos. Soy del criterio de que el evento del Cotorro echa por tierra cualquier pronóstico previo. Ya la previsión de que para la primera semana de mayo (esta que estamos cursando) se produciría el dichoso “pico”, se desvanece con lo sucedido.

      1. para nada se desvanece, ese evento es un “outlier”, un dato salido puntual del comportamiento que lleva la epidemia

        mira las graficas del SIR.
        mira la grafica de fallecimientos, la amarilla a trazos, fijate en el modelo ajustado (la solida) y la tendencia (la finita a puntos). ves el pico entre el 18 y 22
        mira la anaranjada solida. ese es el modelos segun los datos. ves el pico los dias 18-22?
        luego mira grafica roja a trazos, que es la de enfermos activos coocidos. ves el pico el dia 25-26 de Abril? debes tener en cuenta que hay un tiempo entre que la gente se contagia y que uno se entera por las pruebas, de unos 7 dias como media.
        en casos diarios confirmados, por la curva ajustada a los datos, el pico fue los dias 14-16 de abril

        ya hoy mas tarde actualizo los datos, cuando los tenga todos que me flatan un par en espera que los publiquen, no copie en la conferencia de hoy

        1. sí, de acuerdo que es un outlier, pero me baso en que hay que ver si ese evento no genera más contagios de lo que previsiblemente se esperaba matemáticamente (por decirlo de algún modo). por supuesto, que es muy complicado, por no decir, imposible, conocer con exactitud los casos realmente contagiados, como bien se ha dicho en muchas oportunidades, es una enfermedad en la que los contagios muchas veces no son visibles, pero en mi (muy) modesta opinión, un evento así, aunque sea ciertamente un outlier, genera la posibilidad latente de más contagios y por tanto, afectar el comportamiento “esperado”. me refiero a eso.

          1. eso es cierto, pero si los contagios fueron localizados en su mayoria alli, y se aislaron todos los posibles contactos y mas alla. luego vemos que se dedicaron muchas pruebas a este grupo de manera rapida, y se descartaron muchos. asi queda que los mas probable es que pocos infectados pueden haberse perdido. de todas maneras no sabemos si los positivos llevanban tiempo alli, o llegaron poco antes, o si fue uno que infecto a varios

            enuna de las graficas, la de error de pronostios contra positivos acumulado se en otros eventos, como
            -el de ciego
            -como se estaban acumulando pruebas y al entrar par de laboratorios en funciones hubo un salto grande,
            -el evento de Santa Clara
            -el del cotorro
            y otros, son esos momento en que el real se va por encima del pronostico y luego se reajusta

        2. los resultados del modelo SIR fueron elaborados igualmente con excel? porque he buscado y buscado y no he encontrado cómo hacer la simulación. encontré un video y lo apliqué y los resultados … ALARMANTES! supongo (y estoy casi 100% seguro) que la razón haya sido una mala estimación de los parámetros del modelo. si lo desea, puedo enviarle el archivo.
          Salu2.

  1. hola! qué interesante. hace días que busco en internet cosas para poder hacer mis propios pronósticos en excel y me alegra haber llegado hasta aquí (de pura casualidad). es posible disponer del archivo excel con el que has hecho todo esto?! mi pronostico es una simple curva, ajustada a una ecuación polinómica de grado 5, que hasta el momento se ha ajustado bastante a los datos de casos confirmados (solo casos confirmados).

    1. No puede usar un polinomio. Se adapta a los datos pero no sirve para hacer un pronosticó más largo o una modelación de epidemia. Uno de sus problemas es que se va a infinito lo q es irreal en este tipo de cosas

      Deja buscar la pagim donde sacan los datos para dartela, ahí hay para sacarlos en dos formatos, JSON y CVS.
      https://www.cusobu.nat.cu/
      aqui los puede descargar, pero usualemtnellevan 1 dia de retraso

      El Excel llevo desde inicio de abríl. Tengo dos gráficas mas, sobre edades de fallecidos y sus problemas médicos previos, pero como lo he hecho retroactivo me he saltado datos, así q no es 100% preciso.

      1. sí, por eso mismo en mi comentario puse algo así como: “simple curva ajustada a una ecuación polinómica …” en mi caso, lo curioso es que no va al infinito, sino que marca una inflexión, o dicho mejor, el dichoso “pico”, para mañana, es decir, se vería a partir del viernes. pero como quiera que sea me ha ayudado a “pronosticar” al menos, cuántos casos diarios se confirman por día. pero me gustaría el archivo excel, … de ser posible, claro. yo busqué en youtube varios videos sobre la simulación del modelo SIR en excel. hice uno… pero los resultados fueron MUY alarmantes. me imagino que sobre todo, por los parámetros que puse y es que mi desconocimiento no me permitió estimarlos. por eso me gustaría ver lo que has hecho. repito: de ser posible. de cualquier manera, GRACIAS por responder a mi comentario. salu2

  2. Uf!, bastante tiempo libre, jeje. Una sugerencia, si te remites al sitio oficial del Ministerio de Salud Pública (https://salud.msp.gob.cu/) podrías obtener los partes diarios de todos los días desde que se reportaron los tres primeros casos el día 11 de marzo, a lo mejor esto te ayuda con los baches en algunos datos que planteas tener.

    1. pues aunque parezca no hay mucho libre, mucho por hacer. ademas esto es solo un momento para lo datos primarios y luego el conteo y distribucion de los casos. solo ayer vine a calcular una cosas y preparAr la graficas
      por ahi empece , pero o el sitio estaba fuera de linea muchas veces, otras no coincidia la info con la de cubadebate. asi que me fui por una sola via y que me funcionara

      tambien parece que en los listados a veces no estaban todos, o es que lo cogia en un momento qu aun no se habian puesto completo

      1. Sí, es verdad que a veces no salen todos los casos, pero luego los actualizan, luego están los del día 20 o 21, no recuerdo bien, donde se saltaron 4 casos y luego aclararon de forma breve. Creo que sobre los recuperados podrían aportar más, para ver quienes responden mejor a los tratamientos. En cuanto a tu trabajo, muy bueno. Una pregunta, con que herramienta hiciste las gráficas y las proyecciones?

      2. Otra cosa, en Cubadebate, en la información de ayer 7 de abril, al final ponen la siguiente nota: * Cubadebate utiliza los partes diarios publicados por el Ministerio de Salud Pública para elaborar sus notas de actualización sobre la situación de la COVID-19 en el país. Por eso te decia lo del Sitio del MISAP.

  3. Waoh!!! profe tremendo análisis, para trabajo de Minería de Datos esta genial? Ha trabajado con KNIME alguna vez? tiene mucho algoritmos para analisis de datos, preprocesamiento y obtención de resutados

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *