Otra vez ha vuelto a ocurrir: ha habido elecciones y los pronósticos han errado generalizadamente. Por recopilar los últimos fallos, recordaremos que las encuestas pronosticaron una victoria del PP más reducida junto con un sorpasso de Unidos Podemos al PSOE. Las encuestas del BrExit daban ventaja al BRemain. Así como las encuestas del referéndum colombiano sobre el proceso de paz daban una clara victoria del «Sí» al procés. Y para rematar, en las pasadas elecciones en EUA el consenso era que iba a ganar Clinton. Es curioso que todas las encuestas favorecieran al establishment con respecto al resultado final, salvo en el caso español: «Spain is different».
Estos suceso han provocado la desazón entre la masa enfurecida tuitera que comenzó indiscriminadamente a hacer unfollows a sus estadísticos más faveados, salvando solo de la quema a Joaquín Leguina. Creo que este es un buen momento para recapacitar sobre qué nos indican las encuestas, los pronósticos y para qué nos pueden ser útiles.
Empezando con las encuestas, lo primero que hay que tener en cuenta es que todas las encuestas tienen un margen de error. Aunque el margen de error que se da de las encuestas es el margen de error estadístico, el que corresponde a que estamos usando una muestra de tamaño limitado para estimar una proporción de algo en una población mucho mayor. Ese margen de error estadístico se puede estimar que es ≈ 0,98 ÷ √n, donde n es el tamaño de la muestra, el número de entrevistas realizadas en la encuesta. Este error se calcula para el peor caso —cuando la proporción que se quiere estimar es del 50 %— y considerando una confianza del 95 %, es decir, que solo en el 5 % de las veces que se haga la encuesta el valor real va a estar fuera del intervalo dado por el valor estimado y el margen de error. Y aún en los casos del 5 %, el valor real no andará muy lejos del extremo. Pues bien, para las muestras habituales de las encuestas, los errores serían del 3,1 % si la encuesta tiene 1.000 entrevistas, 2,2 % para 2.000 entrevistas y 1,5 % para 4.000 entrevistas.
Se puede colegir entonces que en casos de elecciones muy reñidas —como aquellas que se realicen a partir de ahora en las que Rajoy no sea candidato—, el margen de error es grande, porque además ese margen de error que gana/pierde un partido lo puede perder/ganar el otro partido. Así en el caso más extremo, una encuesta de 1.000 entrevistas nos puede dar una diferencia del 6 % entre dos partidos y esa diferencia entraría dentro del margen de error estadístico de la encuesta.
Pero desgraciadamente, la ficha técnica de las encuestas solo dan sus márgenes de error estadístico, aunque las encuestas están sujetas a otras posibles causas de errores que son más difíciles de estimar y que las empresas demoscópicas esconden debajo de la alfombra. Estos errores provienen de diferentes causas, ya sea relacionadas con la dificultad de que la muestra que se elige para hacer la encuesta sea aleatoria o la fiabilidad de las respuestas que se obtengan.
Los fundamentos matemáticos de las encuestas es que las muestras sean completamente aleatorias con respecto a la población total. Es suponer que la población que se quiere encuestar es como una gran cantidad de bolas que están en una bolsa de la que vamos a extraer una muestra de bolas al azar. Pero la población real no está en un gran bolsa donde podamos coger aleatoriamente una persona, y ya se recurra a entrevistas personales, telefónicas o por internet, es complicado conseguir muestras realmente aleatorias de la población. Así que en vez de muestras completamente aleatorias se recurre a una mezcla entre obtener una muestra aleatoria y una representativa de la población. Se parte de cómo está distribuida la población por diferentes grupos —por región de residencia, sexo, edad, raza, etc.— y se asegura que la muestra final sea una imagen que represente de esa forma la población. Por eso no es de extrañar que al llamar a una casa para hacer una encuesta pregunten por alguien de determinadas características como la edad. Un ejemplo del problema de la aleatoriedad es que en EUA se quejaban las empresas demoscópicas de que debido a que ya es común que en los teléfonos aparezca el número desde el que se está llamando, hay un sector importante de la población que por sistema no contesta las llamadas de números desconocidos, por lo que ese sector pasa a ser una incógnita y las muestras de las entrevistas dejan de ser aleatorias con respecto a la población total.
Otro problema es la fiabilidad de la respuesta, ya sea porque hay gente que desconfía de los encuestadores; o que prefiere quedar «bien» dando la respuesta que piensa que complacerá al entrevistador; o que no medita mucho la respuesta y dice lo que primero se le ocurre; o que llegado el día de la elección cambia de parecer y vota distinto o simplemente se queda en casa; o que contesta el «No Sabe / No Contesta», ya sea porque no lo tiene claro o porque no quiere contestar.
Para corregir estos problemas de muestreo y de fiabilidad de las respuestas, los estadísticos recurren a la tan famosa «cocina». Pero, ¡ay!, cocinas hay muchas y a priori todas perfectamente válidas. Por ejemplo, se pueden utilizar diferentes métodos para dar mayor relevancia a las entrevistas de determinados grupos: en España los más mayores suelen ser más remisos a contestar, por lo que a los que sí contestan se les puede dar mayor relevancia para compensarlo; o hacer lo mismo según el recuerdo de voto de las elecciones anteriores. Recientemente el New York Times dio las respuestas de una encuesta a reconocidos estadísticos para que las analizaran y calcularan sus resultados. Pues resultó que los estadísticos dieron diferentes resultados, sin que a priori se pudiera decir que un resultado fuera mejor que otro. La cocina es necesaria pero la cocina también es muy subjetiva. Las cocinas suelen funcionar mejor cuando no ha habido cambios significativos en el panorama político, porque los ajustes que se han hecho de los modelos, tras comparar las encuestas pasadas con los resultados electorales, son más robustos. Sin embargo, la cocina puede fallar estrepitosamente tras crisis políticas, donde el electorado se realinea de forma diferente y los ajustes antiguos pueden dejar de tener validez.
Pero esa incertidumbre del cocinado no aumenta el margen de error que se da con la encuesta. Sospechamos dos razones para que no aumenten el margen de error: primera, porque es difícil estimar; segunda, porque si ya el margen de error estadístico es sustancial, una estimación de otros errores podría dar un error mucho mayor, que haría preguntarse si la encuesta está dando realmente un valor interesante.
Después de dicho esto, si se miran las últimas encuestas a nivel nacional para las elecciones presidenciales de EUA, muchas de esas encuestas entran dentro del margen error estadístico correspondiente al número de muestras que utilizaban. Esto en principio podría indicar que las encuestas no han fallado tanto como pudiera parecer. Pero para ser verdad debería haber encuestas que se hubieran equivocado por exceso de estimación a un partido y otras por defecto. Pero es que la mayoría han dado una diferencia de votos entre Clinton y Trump mayor que el real —se está dando por ahora una victoria en voto popular de Clinton +0,5 %—, lo que indica que aunque cada encuesta individualmente pudiera estar dentro de su margen de error, en conjunto han sufrido claramente alguna clase de error sistemático que las ha llevado a infravalorar el voto trumpista.
Y al estar la mayoría de las encuestas equivocadas por el mismo lado, los promedios de encuestas también fallaron. La técnica del promedio de encuestas se basa en que el error de cada encuesta se compensaría calculando un promedio de todas. Un promedio que puede ser más o menos sofisticado, según si incluya correcciones de las tendencias observadas en las encuestas o diferente ponderación de cada encuesta. Para que el promedio sea para tener en consideración, debe haber una suficiente variedad de encuestas de calidad pero que usen metodología diferente y diversa. Sin embargo es bastante discutible cuando esto se puede conseguir y sobre todo estar seguro a priori. Y desde luego el promedio de encuestas no va a ser capaz de resolver cuando hay un error sistemático generalizado. Y lo que tampoco se suele analizar es si tiene sentido promediar alegremente encuestas que quizás están dando resultados incompatibles entre ellas. Es como el famoso chiste que dice que «un estadístico podría meter su cabeza en un horno y sus pies en hielo y decir que en promedio se encuentra bien».
Otro tema fueron las encuestas en los estados, donde el error de las encuestas ya no se puede justificar por el margen de error estadístico, y que fueron determinantes para que los modelos no dieran posibilidades de victoria a Trump en el colegio electoral. Porque este año hemos contado con varios modelos basados en las encuestas que pronosticaban quién iba a ser el próximo presidente de EUA. Los modelos fallaron, porque todos auguraban la victoria de Clinton con probabilidades desde el 70 % al 99 %. Claramente esta probabilidad «tan alta» venía dada porque en principio las encuestas eran favorables a Clinton. Pero me gustaría un poco discutir que cuando un modelo da un 70 % de victoria a Clinton y un 30 % a Trump, ¿qué significa?
La interpretación probabilística naïve es que si se repitieran las elecciones, en un 70 % de veces ganaría Clinton y en un 30 % Trump. Esta claro que esta interpretación es errónea, porque si las circunstancias se repitieran en las exacta mismas condiciones —para ello deberíamos pedir prestado el coche de Emmett Brown—, Trump volvería a ganar siempre. Quizás la analogía está más relacionada con los modelos meteorológicos que dan una probabilidad determinada de que llueva al de unos días. Porque lo que están midiendo los modelos es tanto nuestro conocimiento del problema como nuestra incertidumbre. La idea es explorar todas las posibles situaciones que son compatibles con los datos con los que se cuentan, y de ahí sacar probabilidades. Lo que miden los modelos está mucho relacionado con la incertidumbre y la certidumbre que tenemos, y a veces el asignar una probabilidad puede ser confusa.
Imaginemos que pidamos a un BEBED (*) que nos haga un modelo para prever la situación en la que tenemos cinco bolas rojas y cinco bolas azules en una bolsa opaca. Y que sin mirar y tras revolver la bolsa, vamos a sacar una bola. ¿Qué probabilidad hay de sacar una bola azul? Claramente dirá 50 %.
Ahora le decimos que esta vez en la bolsa tenemos una bola solita, que solo puede ser una bola roja o azul, y también le pedimos que nos dé una probabilidad. Como no le damos ningún dato sobre la situación su modelo considerará que solo hay dos alternativas, y como no tiene ninguna información extra, ambas son igualmente probables, por lo que también nos dirá que la probabilidad de que la bola sea azul es del 50 %. Sin embargo, si nuestro BEBED fuera Clark Kent, quizás podría usar su visión de rayos X para determinar la composición del tinte de la bola y averiguar su color. Porque la bola ya está allí, el problema es que la falta de información no permite deducir de qué color es la bola de la bolsa. Y creo que este es precisamente el significado de la probabilidad de los modelos de pronóstico electoral: no miden solo nuestro conocimiento del problema, como es el caso de cuando queremos sacar una bola de la bolsa con diez bolas, sino nuestro desconocimiento del problema que lo rellenamos con la información que disponemos, como en el caso de la única bola en la bolsa.
Pero cuando se destinan muchos recursos para desarrollar un modelo, para comprar equipos para hacer las simulaciones del modelo y realizar encuestas con los que alimentar el modelo, al que paga no le suele dejar muy contento que se le responda que «no tengo ni idea de qué va a pasar», que es lo que quiere decir si se da aproximadamente un 50 % de probabilidades de ganar cuando solo hay dos posibilidades. Y mi impresión es que para conseguir una respuesta más satisfactoria, los modelos de los pronósticos electorales se creen por conveniencia que el error de las encuestas es solo el error estadístico, y solo de forma muy conservadora incluyen las posibles fuentes de errores sistemáticos. Como en el caso de la cocina, el estimar posibles fuentes de errores para un modelo es una tarea bastante arbitraria porque muchas veces se basa más en intuiciones que en datos contrastados… y las intuiciones también fallan.
Por otra parte, ¿cambia mucho decir que un candidato tiene 33 % de ganar que un 66 %? Quizás si se consigue un modelo muy fiable, serviría para ganar en las casas de apuestas después de muchas elecciones. Pero desde el punto de vista práctico, con ninguna de las dos probabilidades se puede descartar la victoria del candidato. Pero incluso aunque se le diera un 16 %, son las mismas probabilidades de que toque la bala en un juego de la ruleta rusa, y nadie por eso diría que la ruleta rusa es un juego seguro.
Entonces, ¿sirven de algo las encuestas, los promedios y modelos? En mi opinión sí sirven, pero no hay que pedirles más de lo que pueden dar y hay que ser muy escrupulosos con todas las fuentes de error que tienen. Si la diferencia estimada entre las candidaturas es muy grande, entonces quizás sí se puede estar confiado de la victoria, pero solo en ese caso. Otra utilidad es conocer la evolución: la evolución de las encuestas o promedios, si se usan las mismas técnicas de análisis y siempre que haya cambios claros —variaciones mayores que los márgenes de error estadístico—, indicarían si la campaña está siendo efectiva o no. De la misma forma usar un buen modelo sirve para ayudar a determinar si el objetivo que se busca —por ejemplo ganar el colegio electoral— está más cerca o no.
Encuentro muy significativo lo que pasó con el modelo del New York Times durante la noche electoral. Cuando solo se disponían datos de las encuestas, daba más de un 80 % de victoria para Clinton. Durante el recuento, el modelo estimaba el resultado final de cada estado, que podía ser diferente del porcentaje correspondiente a los votos escrutados hasta entonces en el estado correspondiente. Así poco antes de las cuatro de la mañana, cuando el porcentaje escrutado de Pensilvania, Michigan y Wisconsin iba por mitad, la probabilidad de victoria pasó a ser del 80 % para Trump, que sirvió para que LPD fuera el primer medio mundial en declarar la victoria indiscutible de Trump. Darse cuenta que tanto al principio del recuento como a mitad del recuento la probabilidad de victoria era del 80 %, pero mientras el primer 80 % se basaba en datos con mucha incertidumbre —las encuestas— el segundo estaba basado en datos mucho más fiables —el recuento—. Ambos 80 %, aunque numéricamente fueran iguales, no eran equiparables.
Para finalizar, comparemos la última predicción basada en datos que hizo Nate Silver el mismo día de las elecciones presidenciales en EUA con el artículo de opinión que escribió Michael Moore en julio. Silver dio un poco menos del 30 % de victoria para Trump basado en su modelo demoscópico mientras Moore aseguró la victoria de Trump. Podría parecer que se ha demostrado que Silver estaba equivocado y Moore en lo cierto. La predicción de Silver se basó en un modelo del que Silver ha ido comentando algunos de sus fundamentos, aunque no era público. Que el modelo de Silver no haya sido suficientemente acertado al dar mayor probabilidades a Clinton, no significa que haya sido erróneo, teniendo en cuenta con los datos con los que podía contar y de cómo valoremos ese casi 30 % de victoria de Trump. Moore daba un 100 % a Trump, con argumentos que se podrían considerar mayormente cumplidos: el voto del Rust Belt Brexit, el hombre blanco enfadado, que Trump no iba a necesitar Florida para ganar, etc. Pero si vemos los resultados, tampoco ha sido tan clara la victoria de Trump, y ha sido la victoria de por 1-2 % en los estados de Wisconsin, Pensilvania, Michigan y Florida lo que ha dado la victoria a Trump. Un margen muy estrecho para que nadie antes de la elecciones pudiera asegurar fuera de toda duda el resultado final. Además de que los argumentos de Moore estaban basados fundamentalmente en el Rust Belt, que Clinton podría haber compensado con las victorias en Florida y Carolina del Norte, estados con una demografía muy diferente al Rust Belt. Lo cierto es que el único pronóstico acertado hubiera sido un 50 % de victoria para cada candidato, a falta de disponer de herramientas más precisas para sondear la sociedad. Con esto no quiero quitar mérito al artículo de Moore, porque no creo que fuera su intención la de pronosticar un resultado electoral, sino llamar la atención de que la victoria de Trump era muy posible, y cómo la podía conseguir, tal como se ha confirmado. Y en este sentido, tan acertado ha sido el artículo de Moore con la victoria de Trump, como lo hubiera sido con la hipotética victoria de Clinton por un puñado de votos más: exactamente, 108.576 votos.
(*) Bienquisto experto basado en datos.