Ojo por ojo, o el roce hace el cariño... a veces

paths-of-glory-trench1

"Estaba tomando té con la compañía A cuando oímos gritos y salimos a investigar. Encontramos a nuestros hombres y a los alemanes en sus respectivos parapetos. Repentinamente, cayó una salva de artillería pero no causó daño. Obviamente, ambos bandos se pusieron a cubierto y nuestros hombres empezaron a insultar a los alemanes, cuando de pronto un valiente alemán subió a su parapeto y gritó: 'Lo sentimos mucho; esperamos no haber herido a nadie. No es culpa nuestra, es la maldita artillería prusiana'".

En mi post de hace unos meses sobre W. D. Hamilton, les prometí volver a hablar de cooperación, y me ha parecido interesante empezar citando a su coautor Robert Axelrod, que a su vez cita el libro de Ed Owen Rutter, History of the Seventh (Service) Battalion the Royal Sussex Regiment (Times Publishing, London, 1934). En su libro The Evolution of Cooperation, Axelrod dedica un bien documentado capítulo a la emergencia del sistema "vive y deja vivir" en la primera guerra mundial, en el cual los soldados  ingleses y alemanes procuraban molestarse lo menos posible durante los largos meses de la guerra de trincheras, como ejemplo de la aparición de cooperación por reciprocidad.  Los batallones que pasaban meses en el mismo puesto desarrollaban patrones de cooperación con sus enemigos, acabando por bombardear siempre a las mismas horas, respetando la distribución de comidas, apuntando a los mismos sitios... De ahí la disculpa del soldado alemán: los prusianos habían roto ese pacto tácito y bombardeado cuando no debían. De hecho, los mandos acabaron por cambiar a los soldados de zona cada poco tiempo para evitar esta cooperación con el enemigo. ¿Pero cómo podía aparecer la cooperación entre soldados que deberían estar matándose?

Como conté en mi post, Hamilton había explicado unos 15 años antes como podía aparecer y extenderse el comportamiento altruista, pero su teoría tenía una limitación muy importante: sólo podía explicar el altruismo hacia los parientes, es decir, hacia aquellos con los que compartimos genes. Mediante el concepto de inclusive fitness, Hamilton fue capaz de mostrar que ayudando a nuestros parientes podemos conseguir que nuestros genes se transmitan en mayor medida a la siguiente generación y, en definitiva, que se extiendan entre la población. Pero claro, esto no explica por qué cooperamos con extraños, con personas con las que no compartimos material genético. Y esto es, precisamente, lo que caracteriza a la sociedad humana, por lo que la pregunta era de una gran importancia.

Así que Axelrod y Hamilton propusieron que esa cooperación con extraños aparecía cuando la interacción se repetía varias veces. Para formalizar la idea, se centraron en el juego del dilema del prisionero, que en esta audiencia debería ser bien conocido (al menos otros posts, como éste y éste, lo mencionan sin dar explicaciones, pero por si acaso se puede encontrar aquí). Para nuestro propósito, baste decir que es un juego de dos jugadores, donde si ambos cooperan ambos ganan, digamos, 3 euros; si ambos se traicionan, reciben 1 euro, y si uno coopera y el otro le traiciona, ganan respectivamente 0 y 5 euros. Es decir, lo mejor es engañar al otro, pero el engaño mutuo es peor que la cooperación mutua. Está claro que en este marco, es complicado que aparezca la cooperación, porque si te engañan es lo peor que te puede pasar.

Sin embargo, Axelrod y Hamilton no se amilanaron, y se preguntaron si realmente podrían aparecer estrategias cooperativas cuando el juego se repite varias veces entre los dos jugadores (aquí si me pusiera en plan técnico tendría que discutir que no pueden saber cuántas veces se va a repetir, porque si lo saben la inducción hacia atrás muestra que el único equilibrio de Nash sigue siendo traicionar, pero si no se sabe el folk theorem permite una infinidad de equilibrios, entre ellos muchos cooperativos, pero contado así sería un poco rollo, ¿no?). Para explorar posibles soluciones a este problema, Axelrod convocó un "torneo" (del cual se pueden ver todos los detalles aquí) en el que los participantes enviaron estrategias para jugar al dilema del prisionero repetido. Estas estrategias, es decir, recetas para decidir qué jugar en cada ronda del juego podían tener el grado de complejidad que se quisiera: así, podrían recordar todas las jugadas anteriores de ambos jugadores, o podrían intentar extrapolar lo que estaba haciendo el contrario, o lo que fuera. Todo estaba permitido. Axelrod recibió 14 estrategias y lo que hizo fue, mediante un ordenador, que todas compitieran unas con otras, viendo a cuál le iba mejor después de enfrentarse con todas. La estrategia ganadora fue, literalmente, "Ojo-Por-Ojo", más conocida por su nombre inglés, "Tit-For-Tat" (TFT): una estrategia extremadamente sencilla que en la primera ronda coopera y luego hace lo que ha hecho su oponente en la ronda anterior. Tras publicar los resultados, Axelrod convocó un segundo torneo: recibió 62 estrategias (incluyendo una de Maynard-Smith) y tras la competición la ganadora fue... TFT, que su proponente original, Anatol Rapoport, había vuelto a enviar.

¿Cuál es la razón del éxito de TFT? Tras analizar los resultados de los dos torneos, Axelrod concluyó que las mejores, y sobre todo TFT, tenían tres características fundamentales: nunca eran las primeras en traicionar, reaccionaban inmediatamente a la traición con una represalia de igual calibre, y perdonaban la traición cooperando una vez que el oponente volvía a cooperar.  TFT tiene además una virtud adicional: es simple. Si nos enfrentamos contra ella, es fácil deducir que regla está usando nuestro oponente y obrar en consecuencia. Hay que notar además que hay estrategias a las que, vistas aisladamente frente a TFT, les va mejor, pero en el cómputo general contra todas les va peor. Así, TFT es una estrategia generalista.

Sobre la base de los torneos de Axelrod, él y Hamilton propusieron que la reciprocidad, el comportarse según la estrategia TFT, es una manera plausible en la que puede aparecer la cooperación entre extraños. Para ello, mediante nuevas simulaciones mostraron que, en competencia simultánea con muchas otras estrategias, TFT acababa por desplazarlas, es decir, es robusta. Después, un análisis matemático les permitió mostrar que es además estable, es decir, una vez que domina la población no puede ser reemplazada por otra (otro tecnicismo: si la probabilidad de que la interacción se repita es suficientemente alta). Quedaba sólo el problema de que cuando no estaba presente inicialmente en la población y aparecía de manera muy minoritaria, no lograba desplazar a estrategias como "traicionar siempre". Para eliminar este problema, sugirieron que quizá los estrategas TFT podrían llegar agrupados, de manera que interaccionaran sobre todo entre ellos, y eso les permitiría acabar por expulsar a "traicionar siempre". Y tras discutir una serie de aplicaciones biológicas, centradas sobre todo en bacterias, terminaban su artículo con unas conclusiones de dos frases (la traducción es mía): "El énfasis de Darwin sobre la ventaja individual ha sido formalizado en términos de teoría de juegos. Esto establece condiciones bajo las cuales la cooperación basada en reciprocidad puede evolucionar."

El argumento basado en reciprocidad de Axelrod y Hamilton abrió la puerta a entender cómo aparece la cooperación en muchos casos, aunque haya parte de sus resultados que ha sido superados. Hoy sabemos que TFT puede ser desplazada por otra estrategia propuesta por Nowak y Sigmund, llamada Pavlov o "Si ganas repite, si pierdes cambia" (Win-stay, lose-shift): si la ganancia de la interacción es menor de lo que yo aspiro a conseguir, a la ronda siguiente cambiaré mi acción: si cooperaba traicionaré, y si traicionaba cooperaré. Note, amigo lector, que esto no contradice la estabilidad de TFT que demostraron Axelrod y Hamilton, ya que esa demostración se refiere al caso en que TFT es la estrategia usada por prácticamente toda la población. Si empezamos con una población en la que hay varias estrategias representadas significativamente, la historia es diferente y de hecho Pavlov gana. Pero, cuidado, porque no vale cualquier aspiración: en un trabajo reciente con Luis A. Martínez-Vaquero y José A. Cuesta (amigo de este blog, que nos ha explicado como nadie lo que es la entropía) mostramos, mediante simulaciones de tipo ecológico, que las estrategias de este tipo que son realmente robustas, estables y que además pueden invadir a cualquier otra (en el dilema del prisionero para un rango amplio de valores de los pagos, pero no para todos; hay pagos para los que la evolución conduce a combinaciones de estrategias complicadas) son las que tienen un nivel de ambición medio. Las demasiado ambiciosas necesitan "incautos" a los que poder explotar para poder conseguir sus objetivos, pero al explotarlos los llevan a la extinción, y acaban luchando contra sí mismas y siendo desplazadas por otras algo menos exigentes.

Vemos, pues, que cuando se enfrentan dos jugadores en un dilema del prisionero la reciprocidad puede conducir a la cooperación. En el caso de la guerra de trincheras, aunque hay muchos soldados involucrados, hay dos "agentes" en realidad: los dos bandos involucrados. Desde cada lado de la trinchera cada bando va tanteando como bombardea o ataca hasta que surge un acuerdo tácito, cooperativo, que va bien a ambos, y por tanto se mantiene (mientras les dejen los mandos). En este escenario, la irrupción de la artillería prusiana, que acaba de llegar al frente y va por libre, equivale a la aparición de un tercer agente en el juego. Si los alemanes que llevan meses en ese lugar logran inculcarles el respeto al acuerdo tácito con los franceses, se restaurará la cooperación (seguramente tras un bombardeo de represalia que será aceptado como justo y no se responderá, hay de hecho evidencia histórica de este comportamiento que no es otro que TFT), pero ¿qué ocurre si no es así y el escenario es de interacción a tres? Ay, amigo, entonces tenemos un problema. Cuando interaccionan a la vez más de dos personas, la reciprocidad no funciona, y así lo demostramos en este trabajo con nuestro bienamado editor Antonio, el ya mencionado José Cuesta, Jelena Grujić y Burcu Eke. En pocas palabras, el problema es que si formamos un grupo de tres personas y uno de nuestros oponentes coopera pero el otro no, si nosotros dejamos de cooperar castigamos a ambos por igual (es difícil bombardear a los prusianos sin darle también a los alemanes "amigos"). Es decir, la reciprocidad no puede explicar la cooperación en grupos. Pero no es éste su único problema; tiene otro mucho mayor con el caso en que ayudamos a personas que no conocemos y que no vamos a volver a ver, como cuando indicamos a alguien donde está una dirección. O sea, que hemos avanzado pero no lo suficiente. ¿Habrá otras vías para explicar la cooperación en esos casos? Quizá, andando el tiempo, dedique otro post al tema... ¡si sigo cooperando, claro!

 

Hay 14 comentarios
  • Gran post. Pero el planteamiento sigue siendo individualista. Sigue manteniendo el supuesto que el el objetivo de el juego es el beneficio individual. Creo que obvia la posibilidad de que la naturaleza se estructure en sistemas de supervivencia, reproducción y evolución más amplios.

    Una vez más como explicar la empatía, el amor, amistad, nacionalismo, compasión, lealtad, vocación, la necesidad de integración, de reconocimiento, de comunidad, de moral, de aceptación, el fan system en la cultura, etc. más allá de la reciprocidad calculada por beneficio propio. ¿Como explicáis las vocaciones que implican sacrificio personal; un soldado, un policía, bombero, cooperante, cura, investigador? ¿Como explicar que haya alistamientos masivos en caso de conflicto, las lealtades a grupos, personas, la emoción que sentimos frente al sufrimiento de un niño aunque sea de otro continente, raza, cultura?.

    De hecho va mucho más allá. El lenguaje no podría funcionar sin una cooperación innata, la sociedad no podría funcionar sin un sentido de la honestidad más allá del castigo. ¿A caso debemos esperar que los políticos sean honestos solo por miedo a ser cazados? ¿Cómo explicas que alguien sea del Atlético de Madrid? … mal ejemplo, ahora que son ganadores, pero ¿cómo explicas que alguien pague por ser miembro de un club de fútbol?.

    Creo que cuestionar al ser humano como ser social más allá del beneficio personal es no tener en cuenta la inmensa mayoría de las motivaciones emocionales. Sin algo más que beneficio individual simplemente no existirían las sociedades humanas.

    • Gracias Luis. Tus preguntas son realmente las que están en el origen de la investigación sobre cooperación y lo que dice el post es que la reciprocidad puede explicar algunos de esos comportamientos en algunas ocasiones, pero no todos, no aspira a eso. Seguimos investigando, y en muchas direcciones...

  • Yo recuerdo un artículo que leí en Muy Interesante hace años hablando del dilema del prisionero y dinámica de poblaciones. Decía que la estrategia ojo por ojo ganaba en simulaciones pero que tenía un problema: daba por hecho que uno no se equivoca en la interpretación de la acción del rival. Haciendo una simulación en la que había algunos errores aleatorios, la actitud que ganaba era una "ojo por ojo generoso", es decir, una en la que cada varias acciones malas, se perdonaba una que se contestaba con cooperación. Esta estrategia imperaba en el largo plazo porque en algún momento la aleatoriedad provocaba que un acto de generosidad fuera interpretado por los "ojo por ojo" como agresión y se entrara en una espiral de represalias que solo los "ojo por ojo generoso" podrían romper.

    • Gracias Individuo. Efectivamente, es así. Cuando TFT se enfrenta consigo misma puede tener problemas si una vez hay un error; entonces la aplicación estricta de TFT hace que se emprenda una cascada de represalias muy perjudicial. Si por lo que sea puede haber errores en la aplicación de la estrategia (cosa que no pasaba en los torneos de Axelrod), efectivamente "TFT generoso" es mejor.

  • Fantástica entrada Anxo. Dawkins en su libro "el gen egoísta" intenta resumir también el libro en uno de los últimos capítulos, pero le queda bastante peor que a ti.

  • Hola Anxo. Leyendo tu artículo, me estaba preguntando si la selección sexual no puede haber influido también en la evolución del altruismo. Y una rápida búsqueda en Google confirma que hay toda una literatura sobre el tema, que te lanzo. En parte, es la idea del hándicap, como la cola del pavo real: el razonamiento es que si un tipo prospera a pesar de ir, por ejemplo, regalando su dinero, es que debe de ser muy bueno. Algo así -se me ocurre- es lo que venden las empresas con sus Códigos de Buena Conducta y su responsabilidad corporativa: cásense con nosotros, inviertan en nuestro stock, porque no solo hará indirectamente el bien sino que tendrá mayor rentabilidad, en tanto y cuanto el compliance evita riesgos y hace a la empresa más fuerte. O puede ser simplemente una cuestión de "genetic drift": una vez que una masa crítica de inversores o féminas tira para un lado, ya solo sobreviven los que se ajustan a la tendencia dominante. Bueno, si investigas y encuentras una ecuación que aclare algo esto de las "mating preferences", nos ilustras. 🙂

    • Gracias Javier. Pues la verdad es que no lo había pensado, ni he leído nada al respecto. A bote pronto me parece que aquí la selección sexual es ambivalente, porque también se podría pensar que el que es "bueno" es que es débil y por tanto no interesa para tener descendencia. No prometo nada pero si puedo busco a ver si hay algo al respecto.

  • Enhorabuena por el post, muy enriquecedor!
    Tengo una curiosidad sobre las estrategias "perdedoras". Una de las propiedades de TFT es que reacciona con castigos o perdones perfectamente proporcionarles a la agresión o la reparación. Si no se puede responder de forma proporcional ¿se sabe qué es más exitoso, pecar de generoso o castigar en exceso? ¿Es dependiente del vínculo entre los jugadores? Por ejemplo si hay relaciones padre-hijo o profesor-alumno o jefe-empleado la dinámica es igual?
    Muchas gracias y enhorabuena.

    • Gracias Emilio. Hay muchos trabajos sobre como el castigo permite aumentar el grado de cooperación, por ejemplo, en contextos de bienes públicos o tragedia de los comunes. Sin embargo, en ese caso te aparece el llamado dilema de segundo orden, que consiste en que es mejor no castigar y esperar a que otros lo hagan que castigar, con lo cual nadie castiga, con lo cual volvemos al principio. También hay bastante discusión sobre si es mejor castigar o recompensar, y por lo que yo sé la evidencia no es definitiva, aunque parece que es mejor castigar. Finalmente, en cuanto a las relaciones entre los jugadores, es una pregunta muy buena, que no sé responder. La evidencia experimental y los trabajos teóricos se refieren a jugadores que no tienen ningún vínculo, así que no se aplica a los casos que tú propones. Intuyo que obviamente lo que pase va a depender mucho de esa relación.

  • Yo añadiria estas modificaciones al modelo, ( estoy siendo altruista 😉

    Creo que falta modelar el comercio de favores. En la naturaleza existen muchos casos en que colaborar es mejor que traicionar/robar/explotar al otro.
    Habría que modelar ocasiones (un 10% por ejemplo) en las que si ambos cooperan ambos ganan 5 euros, y si uno traiciona y el otro coopera solo gana 3 euros.

    Tambien habría que modelar la memoria y el perdon. Por ejemplo en la estrategia TFT habría que limitar el numero de veces que se esta dispuesto a colaborar con alguien que te ha traicionado varias veces.

    Y seguramente así nos acercariamos a explicar el origen del altruismo.

  • "Pero no es éste su único problema; tiene otro mucho mayor con el caso en que ayudamos a personas que no conocemos y que no vamos a volver a ver, como cuando indicamos a alguien donde está una dirección"
    Una forma de acotar algo este problema sería quizá señalar que la cooperación con desconocidos que no vamos a volver a ver tiene límites muy claros: se ofrece siempre que no se perciba un coste importante para quien ayuda.
    Concretando un poco más: No se ofrece si la situación se percibe como potencialmente peligrosa; no se ofrece (en general) si exige una inversión de tiempo u otros recursos considerable; y no se ofrece cuando quien la solicita tiene alguna característica que queremos "castigar" o a la que somos hostiles.
    Por otro lado, la ayuda desinteresada cumpliendo estos requisitos (como ayudar con una dirección en una calle segura, a un solicitante por el que no tenemos hostilidad e invirtiendo en ello unos pocos minutos) produce cierta utilidad directa, cierta satisfacción derivada solo de haber prestado esa ayuda (sin otra recompensa), la cual probablemente dependería de la percepción de que la suma es positiva: el beneficio que otorgo ayudando es mayor que mi pequeña molestia.

    Lógicamente esto que apunto no resuelve el problema de fondo (¿por qué nos produce una satisfacción esa ayuda con tal que se den algunas circunstancias) pero quizá eso sea una característica que traemos "de fábrica", como subproducto del inclusive fitness

    • Bueno, eso no es cierto en general, Aloe. Por ejemplo, cuando alguien se tira al mar a salvar a otra persona (desconocida) que se está ahogando, se expone a un coste enorme, y sin embargo esto es frecuente. Y hay muchas otras situaciones similares. No, yo creo que el coste no es (de nuevo, en general) un factor limitante.

Los comentarios están cerrados.