¿Habría sido Trump presidente si todo el censo de electores hubiese votado en 2017?

Esta pregunta se la hizo The Economist, pero los expertos se dieron cuenta pronto que era más difícil de resolver de lo que parece a simple vista. La búsqueda de la respuesta se convierte en un apasionante ejemplo de Ciencia de Datos con 2000 líneas de código. Al final, una serie de complejos modelos estadísticos dio una respuesta bastante convincente.

1_vfo3-1dVN-cYOBU9jAGz3A.jpeg

¿Qué habría pasado si…?

Desde 2015, The Economist publica un suplemento especial llamado “The World if”;

  • ¿Y si el Imperio Otomano nunca se hubiera derrumbado?
  • ¿Y si la clonación humana se convirtiera en algo corriente?
  • ¿Y si el mundo tuviera fronteras abiertas?

El objetivo es plantearse cómo sería el mundo si otras cosas hubiesen ocurrido.

Este año su equipo de analistas se propuso utilizar todo el conocimiento en programación, ciencia de datos y estadística para dar una respuesta bien fundamentada a la siguiente pregunta:

¿Qué habría pasado en las últimas elecciones presidenciales estadounidenses si el voto fuera obligatorio, como sucede en otros países?

Esto desencadenó una investigación de meses de duración que fue mucho más difícil de lo que anticipaba el equipo. Al principio, encontraron que algunos estudios ya habían propuesto respuestas a esta pregunta, pero todos la definieron de manera ligeramente diferente y/o sin proporcionar suficientes datos.

Así que los analistas decidieron buscar la respuesta por ellos mismos. Pronto descubrieron que ninguna de las herramientas computacionales más comúnmente utilizadas funcionaría. Obviamente, no bastaba con un simple resumen estadístico y un análisis de regresión (aunque plantearon usar las encuestas públicas para hacer predicciones para los ciudadanos individuales), ya que EEUU no elige a su presidente por voto popular. Incluso corroboraron que los más populares algoritmos de machine learning tampoco eran lo suficientemente adecuados para esta tarea.

1_qb94hyA9RvACjoDmVR1k3w.png
Al final, había que estimar cómo las variables demográficas, como la raza y la educación, interactúan con la geografía y el comportamiento electoral. Este es un ejemplo de los resultados del modelo desarrollado

Algunos modelos sí son útiles

En última instancia, lo que necesitaban era crear una técnica que permitiese hacer predicciones para cada estado, bajo diferentes grados de participación de votantes, para averiguar el ganador electoral en cada estado, bajo un sistema de votación obligatorio. El método tendría que tener en cuenta muchos factores, como por ejemplo el aumento de la participación de las minorías, que votan con menos frecuencia pero se inclinan hacia la izquierda, y la mayor participación de los blancos sin titulaciones universitarias, que se inclinan hacia la derecha. También había que responder a la pregunta crucial de si un votante y un no votante con el mismo perfil demográfico votarían de manera similar (en su mayor parte, sí lo hacen). Surgieron más preguntas en el camino.

La solución estaba cerca, pero The Economist nunca la había intentado antes: emplear un método estadístico, muy popular entre científicos sociales, llamado “regresión multinivel y post-estratificación” (multi-level regression and post-stratification, MRP). Se trata de combinar las encuestas nacionales con información sobre los votantes individuales, para así hacer predicciones a diferentes niveles geográficos. Gracias a los politólogos estadounidenses, todos los datos necesarios están fácilmente disponibles y el método cuenta con una buena documentación. En aras de la transparencia y la clarificación metodológica, The Economist ha esbozado su enfoque que os mostramos a continuación.

1_M1EToT74HXvEvVj4EfEF5A.png
El MRP permitió predecir cuántos votos adicionales habrían ganado Clinton y Trump de los no votantes, en diferentes grupos demográficos. Se muestra un prototipo gráfico que desglosa las diferencias por estado

Problemas de inducción

Para utilizar MRP, primero se empieza con datos de encuestas sobre los hábitos de votación de un número suficientemente grande de personas. En este caso, estos datos provienen de una encuesta nacional de 64,600 estadounidenses llamada “Estudio Cooperativo de Elecciones del Congreso” (Co-operative Congressional Election Study, CCES), que se lleva a cabo cada dos años y es dirigido por investigadores de la Universidad de Harvard. Los analistas de The Economist centraron su atención en las elecciones de 2016, en las que los pequeños cambios en la participación habrían marcado una gran diferencia:

¡Hillary Clinton perdió las elecciones por 78,000 votos que Trump logró en tres condados de Michigan, Wisconsin y Pennsylvania!

La CCES proporciona datos demográficos detallados sobre todos sus entrevistados. Podemos decir, por ejemplo, que el 75% de sus encuestados adultos son blancos, el 12% son negros y algo menos del 51% son mujeres. Pero también podemos combinar categorías. El 52% son blancos y no tienen título universitario, según la CCES, mientras que el 10% son hombres menores de 30 años. Este tipo de combinaciones sería útil más tarde. El CCES también incluye datos sobre si los estadounidenses votaron y, de ser así, a quién prefirieron para presidente. En los datos, los partidarios de la Sra. Clinton representan el 48% de todos los encuestados, mientras que los partidarios del Sr. Trump se sitúan en el 46% (ambos son los mismos porcentajes que los candidatos ganaron en 2016).

Los investigadores a cargo de este estudio dieron el paso adicional de validar la participación de los encuestados con el registro real de si votaron o no. De esta manera, se pudo predecir apropiadamente cuáles son los estadounidenses que probablemente fueron votantes reales. A nadie que haya dicho que votó, pero que en realidad no lo haya hecho, se le trata como un votante de verdad.

cces
Ejemplo de los datos del CCES formateados para el análisis

Sólo con el CCES se podía evaluar la relación entre la demografía, la participación y la elección del voto. Pero debido al pequeño tamaño de la muestra en algunos estados seleccionados -sólo 115 habitantes de Alaska llenaron la encuesta- no se pudieron hacer proyecciones confiables a nivel estatal. Para hacerlo, era necesario saber exactamente qué tipos de votantes viven en cada estado y en qué número; los estados con más estadounidenses no blancos serán más favorables a la Sra. Clinton, por ejemplo, mientras que los que tienen más blancos sin educación universitaria se inclinarán hacia el Sr. Trump. Afortunadamente, la Oficina del Censo de los Estados Unidos proporciona esta información a través de la Encuesta de la Comunidad Estadounidense (ACS, por sus siglas en inglés), que se lleva a cabo cada año y que incluye entrevistas con millones de estadounidenses en todo el país.

The Economist revisó los datos de la Oficina del Censo con una muestra representativa al azar de 175,000 personas encuestadas por la ACS. Los investigadores calcularon cómo de común es cada grupo demográfico en cada estado. Se pudo averiguar, por ejemplo, que aproximadamente 1.5 millones (8.4%) de todos los censados en Florida son mayores de 65 años, mujeres y o no tienen educación alguna o tienen un diploma de secundaria. Otro ejemplo: alrededor del 13% de todos los tejanos son blancos de mediana edad sin título universitario. De esta manera, la población objetivo del estudio ya contenía los mismos datos demográficos presentes en el CCES, necesarios para realizar modelos de predicción. Pero también se disponía ya de los números más precisos disponibles sobre qué tipos de personas viven en cada estado. Como podéis observar, tener una buena colección de datos es fundamental para poder realizar Ciencoa de Datos.

1_NHj_JZpus7ycXSZjiieeBg.png
Ejemplo de datos de la ACS después de haber sido transformados para que coincidan con los datos de la CCES.

¿Qué harías si tuvieras todos los datos?

Terminada la discusión de datos, podríamos pasar a la formación de un modelo de regresión multinivel sobre la relación entre la demografía y la preferencia de los candidatos (según la CCES). Hay varios paquetes de R (un lenguaje de programación estadística) que permiten la formación de complejos modelos. Los investigadores afirman haberlos probado todos. A continuación se muestra cómo se ve el código que escribieron para un paquete en particular, llamado “rstanarm”, que permite interactuar con un lenguaje separado para las estadísticas bayesianas llamado Stan.

1_5WLrD2lBQqE_hYCKHX0CXA.png

Después de miles de iteraciones, el modelo aprende gradualmente las relaciones entre la demografía y el comportamiento político. Podemos usar esas relaciones para predecir los hábitos de votación de cada grupo demográfico en cada estado (por la ACS). Por ejemplo, se predice que las mencionadas mujeres de Florida votarán por Donald Trump por encima de Hillary Clinton en cinco puntos porcentuales. Calcularon lo mismo para cada una de las decenas de miles de grupos demográficos de nuestros datos.

Una vez simularon todo lo anterior, el siguiente paso era calcular las estimaciones para cada estado. Esto se hace sumando (o “post-estratificando”) el número previsto de votantes de Clinton en cada grupo y en cada estado. Se obtiene lau cuota de voto en cada estado dividiendo el número de votantes que favorecen a la Sra. Clinton por el número total de ciudadanos adultos que viven allí. Lo mismo se hace con el Sr. Trump. Dado que sólo preocupan los votos para la Sra. Clinton y el Sr. Trump (los terceros partidos fueron excluidos del análisis por razones computacionales y porque tendrían muy poca diferencia). Los votos electorales se asignan a cualquiera de los candidatos que se proyecte que obtenga más del 50% de los votos en un determinado estado. Las probabilidades de victoria se obtienen simulando el resultado de cada estado miles de veces, teniendo en cuenta los errores de las predicciones hechas por un modelo similar que construimos para hacer predicciones ex post facto de los resultados reales de las elecciones presidenciales de 2016.

Los resultados se presentan en detalle en este artículo. El modelo indica que si la votación hubiese sido obligatoria, Hillary Clinton habría ganado las elecciones de 2016 por amplia mayoría. De hecho, el estudio de The Economist certifica que la intención de voto era favorable a la Sra. Clinton también.

1_iOEdFOL2fu4m4iG4ZO3whg.png
Captura del gráfico principal de resultados

Algunas recomendaciones

De principio a fin, el enfoque de esta investigación no fue fácil. Aunque los procesos se parecían a los de un artículo típico de investigación en ciencias sociales, el marco de tiempo era mucho más comprimido: las demandas periodísticas exigían que el trabajo se completara en un plazo aproximado de un mes y medio. Si alguien quiere repetir el método descrito anteriormente, puede que quiera tener algunas cosas en mente.
En primer lugar, la familiarización con conceptos como las estadísticas bayesianas fue importante, pero no es estrictamente necesario. Existen otros paquetes R para realizar tareas casi idénticas (de hecho, afirman, terminaron usando uno de ellos, el “lme4”, para calcular los datos finales, porque generaba predicciones de puntos idénticos). Pero de cualquier manera, es crucial comprender temas como las encuestas de opinión pública, los pesos de las encuestas y el comportamiento de los votantes estadounidenses. Si no hubiéramos completado proyectos similares antes, este habría llevado aún más tiempo.

Segundo, el MRP es una herramienta efectiva para extraer estimaciones confiables de la opinión a nivel estatal de las encuestas nacionales, pero no es perfecto. Incluso después de tener un registro validado de quién votó en 2016, el modelo todavía no puede predecir con precisión la elección; el error absoluto promedio en las predicciones de la participación de Hillary Clinton a nivel estatal en la contienda fue de poco menos de 2 puntos porcentuales. Las predicciones hechas antes de las elecciones, sin el conocimiento de quién votó realmente, podrían haber tenido errores mayores. La calidad de la encuesta nacional es clave; no es posible ponderar la salida de los datos no representativos.

Conclusiones

Al final, el equipo de The Economist produjo una investigación fabulosa que es todo un ejemplo de Ciencia de Datos. El producto final que obtuvieron es una respuesta muy detallada a la pregunta de cómo cambiaría el panorama político de Estados Unidos si cada ciudadano adulto hubiera tenido que votar en su elección presidencial más reciente.

Consiguieron cuantificar cuán izquierdistas son los americanos que no votan en los Estados Unidos. También demostraron cómo un aumento en la participación de votantes produciría diferentes cambios políticos en estados con diferentes poblaciones de blancos y no blancos, poseedores de títulos universitarios y diplomas de secundaria, milenials, baby boomers, etc.

Realizaron un análisis exquisito partiendo de un análisis previo y de recopilación de datos que sirve de ejemplo a muchos. La ciencia de datos empieza por comprender el problema y trabajar con datos de calidad. The Economist además aplicó modelos estadísticos en R de gran nivel. Bravo!

Fuente: Medium

Deja un comentario