"Estaba tomando té con la compañía A cuando oímos gritos y salimos a investigar. Encontramos a nuestros hombres y a los alemanes en sus respectivos parapetos. Repentinamente, cayó una salva de artillería pero no causó daño. Obviamente, ambos bandos se pusieron a cubierto y nuestros hombres empezaron a insultar a los alemanes, cuando de pronto un valiente alemán subió a su parapeto y gritó: 'Lo sentimos mucho; esperamos no haber herido a nadie. No es culpa nuestra, es la maldita artillería prusiana'".
En mi post de hace unos meses sobre W. D. Hamilton, les prometí volver a hablar de cooperación, y me ha parecido interesante empezar citando a su coautor Robert Axelrod, que a su vez cita el libro de Ed Owen Rutter, History of the Seventh (Service) Battalion the Royal Sussex Regiment (Times Publishing, London, 1934). En su libro The Evolution of Cooperation, Axelrod dedica un bien documentado capítulo a la emergencia del sistema "vive y deja vivir" en la primera guerra mundial, en el cual los soldados ingleses y alemanes procuraban molestarse lo menos posible durante los largos meses de la guerra de trincheras, como ejemplo de la aparición de cooperación por reciprocidad. Los batallones que pasaban meses en el mismo puesto desarrollaban patrones de cooperación con sus enemigos, acabando por bombardear siempre a las mismas horas, respetando la distribución de comidas, apuntando a los mismos sitios... De ahí la disculpa del soldado alemán: los prusianos habían roto ese pacto tácito y bombardeado cuando no debían. De hecho, los mandos acabaron por cambiar a los soldados de zona cada poco tiempo para evitar esta cooperación con el enemigo. ¿Pero cómo podía aparecer la cooperación entre soldados que deberían estar matándose?
Como conté en mi post, Hamilton había explicado unos 15 años antes como podía aparecer y extenderse el comportamiento altruista, pero su teoría tenía una limitación muy importante: sólo podía explicar el altruismo hacia los parientes, es decir, hacia aquellos con los que compartimos genes. Mediante el concepto de inclusive fitness, Hamilton fue capaz de mostrar que ayudando a nuestros parientes podemos conseguir que nuestros genes se transmitan en mayor medida a la siguiente generación y, en definitiva, que se extiendan entre la población. Pero claro, esto no explica por qué cooperamos con extraños, con personas con las que no compartimos material genético. Y esto es, precisamente, lo que caracteriza a la sociedad humana, por lo que la pregunta era de una gran importancia.
Así que Axelrod y Hamilton propusieron que esa cooperación con extraños aparecía cuando la interacción se repetía varias veces. Para formalizar la idea, se centraron en el juego del dilema del prisionero, que en esta audiencia debería ser bien conocido (al menos otros posts, como éste y éste, lo mencionan sin dar explicaciones, pero por si acaso se puede encontrar aquí). Para nuestro propósito, baste decir que es un juego de dos jugadores, donde si ambos cooperan ambos ganan, digamos, 3 euros; si ambos se traicionan, reciben 1 euro, y si uno coopera y el otro le traiciona, ganan respectivamente 0 y 5 euros. Es decir, lo mejor es engañar al otro, pero el engaño mutuo es peor que la cooperación mutua. Está claro que en este marco, es complicado que aparezca la cooperación, porque si te engañan es lo peor que te puede pasar.
Sin embargo, Axelrod y Hamilton no se amilanaron, y se preguntaron si realmente podrían aparecer estrategias cooperativas cuando el juego se repite varias veces entre los dos jugadores (aquí si me pusiera en plan técnico tendría que discutir que no pueden saber cuántas veces se va a repetir, porque si lo saben la inducción hacia atrás muestra que el único equilibrio de Nash sigue siendo traicionar, pero si no se sabe el folk theorem permite una infinidad de equilibrios, entre ellos muchos cooperativos, pero contado así sería un poco rollo, ¿no?). Para explorar posibles soluciones a este problema, Axelrod convocó un "torneo" (del cual se pueden ver todos los detalles aquí) en el que los participantes enviaron estrategias para jugar al dilema del prisionero repetido. Estas estrategias, es decir, recetas para decidir qué jugar en cada ronda del juego podían tener el grado de complejidad que se quisiera: así, podrían recordar todas las jugadas anteriores de ambos jugadores, o podrían intentar extrapolar lo que estaba haciendo el contrario, o lo que fuera. Todo estaba permitido. Axelrod recibió 14 estrategias y lo que hizo fue, mediante un ordenador, que todas compitieran unas con otras, viendo a cuál le iba mejor después de enfrentarse con todas. La estrategia ganadora fue, literalmente, "Ojo-Por-Ojo", más conocida por su nombre inglés, "Tit-For-Tat" (TFT): una estrategia extremadamente sencilla que en la primera ronda coopera y luego hace lo que ha hecho su oponente en la ronda anterior. Tras publicar los resultados, Axelrod convocó un segundo torneo: recibió 62 estrategias (incluyendo una de Maynard-Smith) y tras la competición la ganadora fue... TFT, que su proponente original, Anatol Rapoport, había vuelto a enviar.
¿Cuál es la razón del éxito de TFT? Tras analizar los resultados de los dos torneos, Axelrod concluyó que las mejores, y sobre todo TFT, tenían tres características fundamentales: nunca eran las primeras en traicionar, reaccionaban inmediatamente a la traición con una represalia de igual calibre, y perdonaban la traición cooperando una vez que el oponente volvía a cooperar. TFT tiene además una virtud adicional: es simple. Si nos enfrentamos contra ella, es fácil deducir que regla está usando nuestro oponente y obrar en consecuencia. Hay que notar además que hay estrategias a las que, vistas aisladamente frente a TFT, les va mejor, pero en el cómputo general contra todas les va peor. Así, TFT es una estrategia generalista.
Sobre la base de los torneos de Axelrod, él y Hamilton propusieron que la reciprocidad, el comportarse según la estrategia TFT, es una manera plausible en la que puede aparecer la cooperación entre extraños. Para ello, mediante nuevas simulaciones mostraron que, en competencia simultánea con muchas otras estrategias, TFT acababa por desplazarlas, es decir, es robusta. Después, un análisis matemático les permitió mostrar que es además estable, es decir, una vez que domina la población no puede ser reemplazada por otra (otro tecnicismo: si la probabilidad de que la interacción se repita es suficientemente alta). Quedaba sólo el problema de que cuando no estaba presente inicialmente en la población y aparecía de manera muy minoritaria, no lograba desplazar a estrategias como "traicionar siempre". Para eliminar este problema, sugirieron que quizá los estrategas TFT podrían llegar agrupados, de manera que interaccionaran sobre todo entre ellos, y eso les permitiría acabar por expulsar a "traicionar siempre". Y tras discutir una serie de aplicaciones biológicas, centradas sobre todo en bacterias, terminaban su artículo con unas conclusiones de dos frases (la traducción es mía): "El énfasis de Darwin sobre la ventaja individual ha sido formalizado en términos de teoría de juegos. Esto establece condiciones bajo las cuales la cooperación basada en reciprocidad puede evolucionar."
El argumento basado en reciprocidad de Axelrod y Hamilton abrió la puerta a entender cómo aparece la cooperación en muchos casos, aunque haya parte de sus resultados que ha sido superados. Hoy sabemos que TFT puede ser desplazada por otra estrategia propuesta por Nowak y Sigmund, llamada Pavlov o "Si ganas repite, si pierdes cambia" (Win-stay, lose-shift): si la ganancia de la interacción es menor de lo que yo aspiro a conseguir, a la ronda siguiente cambiaré mi acción: si cooperaba traicionaré, y si traicionaba cooperaré. Note, amigo lector, que esto no contradice la estabilidad de TFT que demostraron Axelrod y Hamilton, ya que esa demostración se refiere al caso en que TFT es la estrategia usada por prácticamente toda la población. Si empezamos con una población en la que hay varias estrategias representadas significativamente, la historia es diferente y de hecho Pavlov gana. Pero, cuidado, porque no vale cualquier aspiración: en un trabajo reciente con Luis A. Martínez-Vaquero y José A. Cuesta (amigo de este blog, que nos ha explicado como nadie lo que es la entropía) mostramos, mediante simulaciones de tipo ecológico, que las estrategias de este tipo que son realmente robustas, estables y que además pueden invadir a cualquier otra (en el dilema del prisionero para un rango amplio de valores de los pagos, pero no para todos; hay pagos para los que la evolución conduce a combinaciones de estrategias complicadas) son las que tienen un nivel de ambición medio. Las demasiado ambiciosas necesitan "incautos" a los que poder explotar para poder conseguir sus objetivos, pero al explotarlos los llevan a la extinción, y acaban luchando contra sí mismas y siendo desplazadas por otras algo menos exigentes.
Vemos, pues, que cuando se enfrentan dos jugadores en un dilema del prisionero la reciprocidad puede conducir a la cooperación. En el caso de la guerra de trincheras, aunque hay muchos soldados involucrados, hay dos "agentes" en realidad: los dos bandos involucrados. Desde cada lado de la trinchera cada bando va tanteando como bombardea o ataca hasta que surge un acuerdo tácito, cooperativo, que va bien a ambos, y por tanto se mantiene (mientras les dejen los mandos). En este escenario, la irrupción de la artillería prusiana, que acaba de llegar al frente y va por libre, equivale a la aparición de un tercer agente en el juego. Si los alemanes que llevan meses en ese lugar logran inculcarles el respeto al acuerdo tácito con los franceses, se restaurará la cooperación (seguramente tras un bombardeo de represalia que será aceptado como justo y no se responderá, hay de hecho evidencia histórica de este comportamiento que no es otro que TFT), pero ¿qué ocurre si no es así y el escenario es de interacción a tres? Ay, amigo, entonces tenemos un problema. Cuando interaccionan a la vez más de dos personas, la reciprocidad no funciona, y así lo demostramos en este trabajo con nuestro bienamado editor Antonio, el ya mencionado José Cuesta, Jelena Grujić y Burcu Eke. En pocas palabras, el problema es que si formamos un grupo de tres personas y uno de nuestros oponentes coopera pero el otro no, si nosotros dejamos de cooperar castigamos a ambos por igual (es difícil bombardear a los prusianos sin darle también a los alemanes "amigos"). Es decir, la reciprocidad no puede explicar la cooperación en grupos. Pero no es éste su único problema; tiene otro mucho mayor con el caso en que ayudamos a personas que no conocemos y que no vamos a volver a ver, como cuando indicamos a alguien donde está una dirección. O sea, que hemos avanzado pero no lo suficiente. ¿Habrá otras vías para explicar la cooperación en esos casos? Quizá, andando el tiempo, dedique otro post al tema... ¡si sigo cooperando, claro!