Lo que podemos aprender del fútbol

Un poco más de fútbol y una vez más una ocasión para aprender del mundo del fútbol. En este caso no se trata de usar datos sobre penaltis para aprender algo sobre el comportamiento estratégico (recientemente aquí y aquí), sino de resaltar los progresos que están teniendo lugar en el seguimiento cuantitativo de las competiciones deportivas. Al menos en algunas partes del mundo.

Como el progreso suele ser el producto de la destrucción creativa, no dejan de ser buenas noticias que el pulpo Paul haya muerto y el informe Soccernomics de ABN Amro no haya vuelto a aparecer (aquí la ultima versión realizada con ocasión del europeo de fútbol).

En otra ocasión he hablado del informe Soccernomics que ABN Amro solía publicar antes de los mundiales y los europeos de fútbol. Sinceramente siempre me había parecido muy flojo y me llamaba especialmente la atención que tuviera una parte normativa en la que se determinaba no quien iba a ganar el mundial, sino quién debería ganarlo!

Una vez enterrados el pulpo Paul y Soccernomics, me centraré en dos análisis cuantitativos sobre el mundial, uno de Goldman Sachs y otro de FiveThirtyEight.

Goldman Sachs

Como en otras ediciones del mundial de fútbol, Goldman Sachs ha publicado un informe con un modelo de predicción y ha realizado actualizaciones de las predicciones después de finalizar cada una de las fases del mundial (la fase de grupos, los octavos, los cuartos y las semifinales).

El modelo de Goldman Sachs realiza simulaciones de Monte Carlo a partir de unos simples regresores, entre ellos la diferencia en un ranking de equipos y los goles marcados y encajados en los últimos 10 partidos oficiales.

Hay tres aspectos que creo que merece la pena destacar.

Énfasis: A pesar de estar basado en simulaciones de Monte Carlo que producen distribuciones de probabilidad sobre todos los posibles resultados, el informe hace un énfasis injustificado en un solo estadístico de las distribuciones de probabilidad, la moda. En el informe se detalla el resultado más probable de cada partido de la fase de grupos, así como los resultados más probables de cada partido a partir de los octavos, todo esto asumiendo que los equipos que se clasifican son los que se hubieran clasificado si se hubieran dado todos los resultados más probables de la fase de grupos. Debo reconocer que esta obsesión con estimaciones puntuales no deja de sorprenderme, máxime en un ámbito en el que parece haber mucha aleatoriedad impredecible.

Evaluación: Goldman Sachs proporciona una evaluación expost de sus predicciones. La evaluación permite por ejemplo comprobar que 9 de los 16 equipos que según Goldman Sachs se clasificarían para los octavos han terminado clasificándose.  Evaluar los modelos de predicción es obviamente muy importante y puede resultar llamativo que esta tarea se realice con mayor seriedad en el fútbol que en ámbito económico, donde son muy frecuentes los profetas que, como la marmota, “dan su predicción y desaparecen” (Bill Vaughan). Pero, incluso en el apartado de la evaluación de las predicciones, se contrastan las realizaciones con las modas de las distribuciones, es decir con la predicción que tenia la probabilidad más alta, sin importar que esta probabilidad fuera del 50.1% o del 99.9%. Es posible que esto sirva para aumentar la repercusión en los medios a los que les interesa informar “según Goldman Sachs el 13 de julio Brasil ganará 3-1 a Argentina en la final del mundial” en vez de “según Goldman Sachs las probabilidades de ganar el mundial de Brasil y Argentina son, respectivamente, 48.5% y 14.1%”.

Brasil: Antes del principio del mundial Goldman Sachs otorgaba a Brasil una probabilidad de victoria muy elevada, un 48.5%, frente a un 14.1% del segundo equipo, Argentina o un 11.4% de Alemania el ganador del mundial. En el mismo informe los autores destacaban la diferencia entre la predicción de su modelo y las predicciones implícitas en las cuotas de las apuestas (en Ladbrokes). Me parece importante destacar este hecho para avisar a los que creen que estas predicciones por si solas son suficientes para descalificar al modelo (yo no soy uno de estos) o a los que creen que la diferencia entre las predicciones y las cuotas de las apuestas de mercado demuestran que Goldman Sachs no tenía confianza en estas predicciones, ya que de otra forma debería haber invertido hasta mover los precios de mercado (y en cierto sentido yo soy uno de estos).

FiveThirtyEight

Muchos recordarán que Jesús Fernández Villaverde ha hablado en varias ocasiones de Nate Silver y de su éxito a la hora de predecir los resultados de las elecciones presidenciales americanas (aquí el primer post de Jesús sobre Nate Silver en Nada Es Gratis). Apalancando su éxito, Nate Silver se ha independizado del New York Times y ha montado FiveThirtyEight, una pagina web de “periodismo cuantitativo” sobre política, economía, ciencia, y varios otros asuntos incluido, como no, el deporte. Nate Silver ha publicado en FiveThirtyEight unas predicciones sobre el mundial, realizadas a partir de un algoritmo más complejo que llaman Soccer Power Index (SPI).

En esta página es posible consultar las predicciones de SPI a día 9 de junio, es decir antes del principio del mundial. De nuevo quiero destacar tres aspectos que me parecen importantes.

Énfasis: A diferencia del modelo de Goldman Sachs, las predicciones se centran en las probabilidades, la probabilidad de cada resultado (victoria, empate, derrota) en la fase de grupos, las probabilidades de clasificación como primero o segundo de grupo, las probabilidades de alcanzar cada fase del torneo (octavos, cuartos, semifinales y final) y la probabilidad de ser campeón.

Evaluación: No soy consciente de que en FiveThiryEight hayan hecho una evaluación explicita de sus predicciones. La tabla en la que se resumen las probabilidades de avanzar en las distintas fases del torneo permite hacer algunas comparaciones. Por ejemplo, si nos centramos en los 16 equipos que tenían mayor probabilidad de clasificación para los octavos, descubrimos que tan solo 8 han terminado clasificándose. Con esta métrica la “tasa de acierto” es incluso inferior a la de Goldman Sachs. Pero si reflexionamos sobre esta métrica nos damos cuenta de que no tiene sentido. Con esta métrica las predicciones sobre Italia y Holanda se contarían como dos desaciertos, ya que Italia estaba entre los primeros 16 equipos y Holanda no, mientras que Holanda ha terminado clasificándose (y llegando hasta la semifinal) e Italia no. En realidad las predicciones para estos dos equipos eran muy parecidas, 44.83% para Italia y 43.39% para Holanda, sino que además tan solo uno de los dos equipos se ha clasificado, frente a un valor esperado de 0.8822 equipos clasificados.

Brasil: En retrospectiva es de nuevo llamativa la ventaja (probabilística) otorgada a Brasil (45.2%) frente a las predicciones calculadas a partir de las cuotas del mercado de apuestas (23.3% según las cuotas de Betfair). De nuevo, el aparente error de predicción sobre Brasil puede hacernos perder confianza sobre la capacidad predictiva del modelo, y de nuevo, podemos pensar que la confianza del publico en las predicciones de Nate Silver no ha llegado todavía al punto de evitar que desaparezcan diferencias de 22 puntos porcentuales en las estimaciones de las probabilidades.

Conclusiones

Me parece obligado hacer una consideración, un augurio y una promesa.

La consideración es que estos análisis demuestran el interés de las investigaciones cuantitativas en prácticamente cualquier aspecto de la vida.

El augurio es que esta tendencia se imponga también en España tanto en el deporte como en los ámbitos determinantes para el bienestar de las personas, como la política o la economía.

La promesa es la de recoger la invitación de uno de los lectores de Nada Es Gratis y hacer una evaluación de las predicciones que hemos venido publicando en Football-Lab que ya anunciamos en Nada Es Gratis. Lo haremos, pero ya que tenemos muchas predicciones (aproximadamente una cada 5 segundo durante los partidos) tenemos muchos datos que analizar y lo haremos en cuanto tengamos algo de tiempo para trabajar en ello. Supongo que ya a partir de septiembre.

Hay 11 comentarios
  • Me permito discrepar sobre el interés de este tipo de experimentos en “cualquier aspecto de la vida”. La fe en el” econometricismo” es difícil de encontrar-fuera de la academia, claro.

    En el mundo real, donde el tiempo histórico domina, la incertidumbre es fundamental. En otras palabras, el mundo no es ergódico y las probabilidades que dominaron el pasado no son buena guía para el futuro. Como suelen decir los gestores de fondos de inversiones, que algo deben saber de esto pues se juegan el dinero, “Rentabilidades pasadas no garantizan las futuras” Como decía Keynes, debemos admitir que:”We simply do not know”.

    Saludos.

    • En los deportes, amigo mio, “resultados pasadas SI garantizan los resultados futuros” ...

        • Escéptico :
          En los deportes, amigo mio, “resultados pasadas SI garantizan los resultados futuros” …

          KEyNES :
          Como en el caso de España,n0?

          ******************************************************

          Brasil_______ 5
          Alemania_____ 4
          Italia________ 4

          • Para predecir el resultado de este mundial de 2014 resultados pasados para Alemania eran 3 mundiales

  • El SPI se parece sospechosamente a los coeficientes del modelo de M. J. Maher de 1981. En cualquier caso, es bien conocido que en una competición como la Copa del Mundo no existe suficiente información como para hacer predicciones mínimamente confiables, dado que en la fase eliminatoria se enfrentan equipos que no han jugado anteriormente entre sí, ni en muchos casos han jugado contra los mismos rivales, y por tanto no hay manera de calcular un conjunto de estimadores coherente. Se puede conseguir el mismo % de acierto con el sistema de los dardos.

  • Si quieren predecir con éxito, apuesten por el tenis. Dados dos jugadores de niveles distintos, el de mayor nivel gana con altísima probabilidad.

    Si quieren perder horas intentendo armar un modelo estadístico, prueben con el golf. Las variaciones rounda a ronda y torneo a torneo son altísimas. Y ni les digo en torneos match play.

  • Lo que queda demostrado es que el analisis de datos y prediccion en base a estos es mucho mas efectiv si va acompañado de un conocimiento de la materia a la que se van a aplicar.

    Y, por mi experiencia profesional, se de buena tinta de lo que hablo.

Los comentarios están cerrados.