Good Judgement Project: “Hay evidencia de que saber predecir es una habilidad”

de Andrés Alonso

Nuestros compañeros de Sintetia han realizado una entrevista (dentro de su interesante proyecto Futura Markets) que dado su interés les hemos pedido que nos dejen publicar. Agradecemos de antemano la colaboración y esperamos que sea la primera de muchas otras.

La inteligencia colectiva es un campo muy amplio. Basta dar un vistazo al programa de la última conferencia que acaba de organizar el Centro para la Inteligencia Colectiva del MIT este verano para ver que los temas tratados son de lo más variado: comportamiento de las personas que esperan en una cola, traducción simultánea vía crowdsourcing o cómo agregar predicciones para realizar predicciones en base a la sabiduría de las masas o “collective forecasting”.

En esta última especialización es donde descubrimos al Good Judgement Project (GJP), como proyecto internacional (financiado por IARPA – Intelligence Advanced Research Projects Activity) que claramente se sitúa como referencia en la materia. Este proyecto de investigación liderado por el profesor Philip Tetlock de la Universidad de Pensilvania, trabaja sobre la capacidad de utilizar distintos mecanismos de agregación de información de manera que consigamos una predicción colectiva o consenso que es más precisa que la realizada por cualquiera de las partes que conforman el grupo. Para ello han creado una competición internacional de predicciones, la cual va este año por su 4º temporada, donde usan dos mecanismos para estimar esta “sabiduría de las masas” y contrastar la capacidad predictiva de los predictores con ella: algoritmos de agregación de encuestas de opinión y mercados de predicciones.

Desde Futura Markets un grupo de tres economistas y un equipo de desarrolladores estamos implementando en España la primera plataforma de mercados de predicciones sobre Economía, Política y Tecnología, y como apasionados que somos de la materia, hemos contactado con los investigadores del GJP para realizarles una entrevista y preguntarles sobre el diseño y objetivos del proyecto. Hemos tenido el placer de hablar en concreto con Michael C. Horowitz, profesor asociado de ciencias políticas en la Universidad de Pensilvania (puedes seguirle en Twitter en @mchorowitz) y Eric Stone, programador, científico de datos y estadístico (puedes seguirle en Twitter en @theericstone)

Puedes encontrar más información sobre el Good Judgement Project en https://www.goodjudgmentproject.com/

Leemos habitualmente el concepto “inteligencia colectiva”, pero ¿cuándo podemos decir objetivamente que un grupo de personas es inteligente?

Horowitz (H): determinar cuándo un grupo es inteligente es una tarea difícil. Desde mi punto de vista, trabajando en el Good Judgement Project, un grupo se vuelve inteligente en uno de los modos siguientes. Primero, un grupo se vuelve inteligente activamente cuando, como equipo, toma decisiones más precisas que aquellas que tomarían sus individuos por separado. Segundo, un grupo se vuelve al menos pasivamente inteligente cuando, incluso sin saberlo, con la denominada sabiduría de las masas, el juicio agregado del grupo se revela más preciso que el de los individuos.

Stone (S): esta es una pregunta engañosa que puede cambiar con el contexto. Solemos hablar más sobre la precisión de un grupo que sobre inteligencia, pero la inteligencia juega un papel importante. Además, consideramos la inteligencia como una escala, más que como un estado binario.

Desde una perspectiva empírica, cuando observamos que el juicio agregado de un grupo es más preciso que el de los individuos que lo componen, podemos razonablemente concluir que la inteligencia del grupo supera a la de sus miembros. Además destacamos que en tanto que el juicio agregado de nuestro grupo se comporta consistentemente bien (las valoraciones agregadas del GJP fueron correctas en más de un 90% de los días en todas las preguntas estimadas durante el último año) podemos decir que hablando en términos relativos nuestro grupo es inteligente.

¿Entendemos hoy en día cuándo y por qué los grupos se comportan mejor que los individuos aislados?

H: Una de las cosas que hemos descubierto, de hecho, es que los grupos trabajando juntos son capaces de batir a los individuos en cuestiones geo-políticas y predicciones económicas. En vez de dejarse llevar por un pensamiento grupal que distorsionaría la precisión de las predicciones, el contexto especifico en el que operan nuestros equipos, trabajando online y anónimamente, y donde la precisión es todo lo que cuenta para ganar estatus, promueve el acierto en las predicciones.

También encontraron en su estudio lo que llaman “súper-predictores”, que son personas que tienen un historial de aciertos en sus predicciones superior a la media ¿Cómo los seleccionan? ¿Cómo están seguros de que no están cogiendo a los afortunados?

H: Encontramos que, de hecho, existe una elite de predictores que ahora llamamos súper-predictores. Este grupo de personas tiene la habilidad de consistentemente batir a las masas. Los seleccionamos escogiendo a los mejores predictores en cada temporada de predicciones, y luego los agrupamos juntos en equipos para competir en la siguiente temporada. Si todo lo que estuvieran teniendo es suerte, esperaríamos ver que revierten a la media y pierden precisión. En cambio, ocurre lo contrario, a menudo se vuelven incluso más acertados.

S: Minimizamos la probabilidad de coger personas con suerte seleccionando a los mejores que han pasado también los umbrales mínimos de actividad y participación. Además, hemos analizado si el comportamiento predictivo de la primera mitad de la competición predice con confianza el comportamiento en la segunda mitad, y lo hace. Por eso esperamos igualmente que el comportamiento de los predictores en un año ayude a predecir su comportamiento en el siguiente año. Más allá de la selección de la elite de predictores, esto es importante porque da evidencia de que predecir es una habilidad.

¿Qué tienen en común los súper-predictores? ¿Tienen alguna característica particular? ¿Alguna estrategia que todos deberíamos tratar de imitar?

H: -nuestros súper-predictores son en realidad diversos en muchos sentidos. Entre sus atributos más comunes, estas personas suelen disfrutar de pensar en problemas complicados, tener pensamiento analítico, y demuestran tener curiosidad insaciable sobre el mundo en general. Además trabajan duro para mantener su estatus, sugiriendo que formar parte de la elite de predictores es parte innato y parte adquirido.

Al final la predicción agregada de todos los participantes mostró tener un buen poder predictivo ¿cuál es el mecanismo detrás de este fenómeno?

S: Hay muchas razones para ello. Es bien conocido que la media de muchas estimaciones es mejor que cualquier estimación individual de un miembro del grupo (existe un viejo y conocido ejemplo de unos estudiantes adivinando el número de caramelos en un tarro). Más allá de esto, cuando combinamos predicciones de todos los participantes, estamos efectivamente accediendo a miles de perspectivas, historias, interpretaciones y fuentes de información. Esto nos permite aumentar sistemáticamente la certidumbre de nuestro agregado, haciendo que sea más probable que acierte (se acerque al lado de nuestra respuesta binaria de SI o NO), moviendo la estimación más cerca de 0% o 100%. Nuestro comportamiento se mide por cómo de cerca quedamos de la respuesta correcta, no solo en si hemos acertado o no, lo cual es importante para valorar nuestra capacidad predictiva.

Me gusta el ejemplo de dos personas haciendo una predicción sobre qué coche será más veloz. Digamos que ambos individuos reciben la misma información aislada sobre los coches, sus caballos de potencia, y les preguntamos la probabilidad de que el coche 1 sea más rápido que el coche 2. La mejor estimación agregada que podemos hacer es sencillamente la media de ambas predicciones individuales. Pero esto cambia si a cada individuo le diéramos una información diferente sobre los coches: potencia en caballos a la primera persona, y cilindrada a la segunda. Ahora, si el individuo uno dice que la probabilidad de que gane el primer coche es 0,8, y el individuo dos dice que la probabilidad de que gane el primer coche es 0,7 nuestra estimación agregada puede ser superior a 0,75, y podría de hecho ser 0,9 o más. Esto es una simplificación, por supuesto, pero refleja cómo la agregación puede proveer con confianza más precisión que muchos de los individuos del grupo.

Si podemos medir cuándo un grupo es naturalmente más inteligente, ¿creen que podemos pensar en tener organizaciones descentralizadas que trabajasen mejor que jerarquías prediseñadas?

H: el reto con las organizaciones descentralizadas es cómo se agregan las decisiones y tomas de decisiones. Al final, incluso si una organización es diseñada como una multitud sin jerarquías, alguien debe tomar una decisión sobre cómo implementarla, y alguien tiene que llevar a cabo la decisión (a menudo un grupo es quien toma tanto la decisión como quien desarrolla la implementación).

Su investigación ¿colisiona con la reputación de los expertos tradicionales? Parece que la mayoría de gurús no pueden batir una simple extrapolación ¿Por qué están tan presentes los expertos en los medios de comunicación?

H: una cosa importante a recordar es que la precisión es solo una de las razones por las que los medios consultan con expertos. Otras razones incluyen su habilidad para explicar eventos que han ocurrido y si tienen detalles interesantes que aportar a los lectores o audiencia, con independencia de su capacidad de acierto.

Sin embargo, nuestra investigación no sugiere que los expertos sean inútiles. Nada más lejano de la realidad. Lo que sugiere es que cuando combinas el conocimiento de docenas o cientos o incluso miles de personas formadas, con el correcto mecanismo, puedes generar percepciones que son más precisas que las de un individuo por separado, sin importar si es experto, en muchas ocasiones. Pero ¿es esto sorprendente?

S: Cierto, los gurús a menudo yerran cuando hacen predicciones sobre eventos políticos futuros, y Phil Tetlock ha demostrado que este caso es efectivamente así. Si esto es todo lo que importa en relación a los gurús, entonces sería sorprendente verles por todos los medios. Pero como señala Mike, la capacidad de explicar situaciones es un activo valioso también. Creo que nuestra investigación muestra que si todos los expertos agregaran sus predicciones, serían mucho mejores. Quizás esto diera para una buena sección en CNN.

¿Creen que los gurús políticos se verán afectados por la nueva era del periodismo de datos, como por ejemplo el exitoso portal FiveThirtyEight de Nate Silver? Este tipo de periodismo puede al menos evaluarse sistemáticamente, aunque ¿nos interesa evaluar las predicciones de nuestros comentaristas favoritos?

H: Aunque la precisión de las predicciones no es la única vara que deberíamos usar para medir a nuestros expertos, es algo que deberíamos estar midiendo. Si no almacenamos los resultados, no habrá manera de mejorar, o incluso saber cómo de bien lo estamos hacienda. El periodismo de datos puede ofrecer la promesa de sistemáticamente medir cómo nuestras creencias sobre el mundo se ajustan con la realidad, lo cual es positivo.

S: Tengo esperanza que demostraciones bien presentadas sobre periodismo de datos y predicciones de eventos han comenzado y seguirán dando lugar a un giro en el dialogo hacia un mundo más conocedor de la estadística y los datos. Creo que FiveThirtyEight ha dado con un buen equilibrio entre el abuso de la estadística y el perderse en minucias. Ojalá más medios sobre deportes, economía y política adopten un método similar.

¿Cómo encajan los mercados de predicciones en particular en el amplio campo de investigación que es la inteligencia colectiva?

S: El Good Judgement Project ha puesto en funcionamiento varios mercados de predicciones como mecanismo para agregar las estimaciones. Estas herramientas funcionan como los mercados de valores, donde los participantes compran y venden acciones de eventos, en vez de capital de empresas, siempre con dinero falso, por supuesto. La sabiduría popular dice que un mercado bien diseñado debería ser más la forma más eficiente para obtener la probabilidad de ocurrencia de un evento. Sin embargo, durante los últimos tres años de trabajo del equipo del Good Judgement Project, nuestro método de agregación de encuestas de opinión ha demostrado ser más preciso, en particular al inicio de cuando se plantean las preguntas, que podemos argumentar que es cuando más interesa anticipar la respuesta.

¿En qué se diferencian los mercados de predicciones de las encuestas de opinión? En particular, ¿qué papel juegan las personas con escasa o nula información sobre las cuestiones planteadas? ¿Es útil su participación?

H: Incluso las personas que creen que no tienen información significativa pueden aportar perspectivas que no se dan cuenta que son aplicables, o adquieren a veces un conocimiento general de la material que les permite inferir lo que puede ocurrir en el mundo. Por eso tiene sentido agregar sus valoraciones también. Los mercados de predicciones son en cierto modo un mecanismo de agregación de opiniones también. Los mercados mediante la compra y venta de expectativas sobre la probabilidad de que ocurra un evento, agregan las creencias reales de los individuos en una multitud.

S: Yo veo los mercados de predicciones como un mecanismo de agregación de información. Hay muchas preguntas sobre si baten a las encuestas de opinión, y viceversa. El mejor método combina varios mercados y algoritmos de agregación de encuestas, por lo que diría que los mercados son realmente útiles incluso si resulta que en general las encuestas son más precisas.

¿Cuáles son los mecanismos más efectivos a la hora de mejorar la estimación de las masas? ¿Qué papel juegan los mercados de predicciones en ellos?

H: Nuestro método más preciso de predicción es agrupar en equipos a los mejores. Hemos encontrado que los súper-equipos son tan precisos que nuestro algoritmo de agregación de todas las opiniones tiene una capacidad limitada de mejora, si es que tiene alguna, sobre la media bruta de las estimaciones de estos equipos.

S: Actualmente nuestros métodos de agregación mejoran la estimación de las masas, aunque la realidad es que a clave está menos en los equipos en general de personas trabajando juntos, que en los súper-equipos en particular. Nuestro método nos da mucha flexibilidad a la hora de combinar predicciones y nos permite ser más o menos conservadores dependiendo de lo que vemos en nuestro grupo de predictores.

Mientras que los mercados tienden a ser precisos en general, aún tenemos que ver que consiguen la paridad con respecto al método de combinación de opiniones. Continuamos mejorando nuestros mercados de predicciones y en la 4º temporada estamos funcionando con unos cuantos, incluyendo uno cotizado por nuestros súper-predictores, así que veremos como de bueno llega a ser.

Su proyecto tiene el apoyo de la entidad pública IARPA, una agencia de investigación en inteligencia adscrita al Ministerio de Defensa ¿Cuál creen que sería el campo de aplicación de sus investigaciones al mundo empresarial real?

H: Casi cualquier empresa o agencia gubernamental que toma decisiones acerca de lo que cree que va a suceder en el futuro se puede beneficiar de los descubrimientos del Good Judgement Project. Nuestra investigación podría aportar significativas mejoras en sus decisiones estratégicas.

Ultima pregunta ... ¿Cuáles son los próximos pasos en su investigación?

H & S: Esperamos continuar con nuestra investigación de cara a aprender de las lecciones aportadas por el Good Judgement Project, y usarlas para mejorar nuestra capacidad predictiva estratégica a través del uso de metodologías innovadoras.

Actualmente estamos empezando nuestro 4º año de investigación bajo el amparo de IARPA, tras el cual analizaremos si reducir el ámbito de estudio y centrarnos en preguntas más específicas no respuestas aun por el proyecto.

Hay 2 comentarios

David dice:

22/07/2014 a las 19:24

Suena interesante. Conozco un poco el tema porque se estudia también en inteligencia artificial. Modelos estadísticos como Random Forests y otros se basan en lo mismo.
Me he apuntado, a ver qué tal se me da lo de predecir...
Maese Alcofribas dice:

28/07/2014 a las 14:33

Muy interesante (y curioso que haya un sólo comentario).

En cualquier caso sugiero que se establezca un mercado de predicciones sobre los potenciales usos perniciosos o poco éticos de estas técnicas.

si montáramos un programa eugenésico con los superpredictores ¿al final obtendríamos precogs? 🙂