Dilemme du prisonnier : pourquoi la coopération est-elle la meilleure stratégie ?

Q: Quelle est la différence entre le dilemme du prisonnier "simple" et "itéré" ?

Le dilemme du prisonnier "simple" se joue une seule fois. La meilleure stratégie pour un individu est toujours de trahir l'autre, car cela garantit le meilleur résultat personnel, quel que soit le choix de l'adversaire. Le dilemme du prisonnier "itéré" se joue plusieurs fois avec le même adversaire. Cela introduit la notion de réputation et de réciprocité. Les stratégies coopératives, qui peuvent être perdantes à court terme, deviennent viables et même optimales sur le long terme.

Q: Qu'est-ce que la stratégie Tit for Tat (TFT) ?

Tit for Tat, ou "œil pour œil", est une stratégie de coopération très célèbre. Elle commence par coopérer au premier tour, puis imite le choix précédent de son adversaire. Si l'adversaire coopère, TFT coopère. S'il trahit, TFT trahit au tour suivant. C'est une stratégie simple, claire, et qui s'est montrée très efficace dans les tournois de Robert Axelrod. Elle est à la fois gentille (commence par coopérer), provocable (répond à la trahison), mais aussi pardonnante (revient à la coopération dès que l'adversaire le fait).

Q: En quoi la stratégie Forgiving Tit for Tat (FTFT) est-elle différente et plus robuste ?

Forgiving Tit for Tat est une variante de TFT qui introduit une notion de pardon. Elle suit les mêmes règles que TFT, mais de manière occasionnelle, elle pardonne une trahison et retourne à la coopération. Cette modification mineure la rend beaucoup plus robuste dans des environnements "bruités" ou avec des malentendus. Face à une erreur de communication, une stratégie TFT classique pourrait se lancer dans une spirale de représailles sans fin, tandis que FTFT est capable de rompre ce cycle pour restaurer la coopération mutuelle et les bénéfices qui en découlent.

Coopérer ou trahir ? Faire confiance ou se méfier ? Ce dilemme n’est pas seulement au cœur des thrillers psychologiques, il est aussi l’un des problèmes les plus fascinants de la biologie de l’évolution et de la sociologie. Depuis des décennies, le « dilemme du prisonnier » sert de terrain de jeu à la recherche, modélisant les interactions qui façonnent notre monde, qu’il s’agisse de chauves-souris vampires partageant leur repas ou de deux criminels dans une salle d’interrogatoire. À travers une exploration de la théorie des jeux, cet article vous propose de plonger au cœur des stratégies qui déterminent si la coopération peut réellement survivre dans un monde compétitif.

Sommaire de l'article :

Introduction : le dilemme du prisonnier

Le dilemme du prisonnier, dilemme où deux individus, agissant dans leur propre intérêt, peuvent aboutir à un résultat sous-optimal, même s’ils auraient pu obtenir un meilleur résultat en coopérant. Illustration originale JeRetiens.

Un crime est commis. Deux suspects sont arrêtés et interrogés dans des salles séparées. Si les deux criminels se serrent les coudes et gardent le silence, leur sentence sera légère. Si l’un dénonce l’autre, la balance est libérée tandis que son complice reçoit la peine maximale. S’ils se dénoncent mutuellement, ils écopent chacun d’une sentence moyenne.

Quelle stratégie appliquer ?

Vous venez d’entrer dans l’univers de la théorie des jeux, par la porte de cette variante du “dilemme du prisonnier”, et la théorie de l’évolution. Ce dilemme moral est devenu un outil central dans l’étude de la sélection naturelle, où les stratégies de coopération sont testées non pas sur un plan éthique, mais sur celui de la survie.

Contrairement à une idée reçue, les individus ne coopèrent pas “pour le bien de l’espèce”. Comme le rappelle Robert Sapolsky, la sélection naturelle ne favorise pas l’altruisme désintéressé, mais les comportements qui augmentent les chances de transmettre ses propres gènes. Cela peut passer par plusieurs chemins :

aider ses proches (ce qu’on appelle la sélection de parentèle, ou kin selection) ;
entretenir des échanges mutuellement bénéfiques (réciprocité directe, comme dans le Tit for Tat), une forme d’altruisme mesuré ;
ou choisir de s’associer avec des partenaires fiables.

Autrement dit : la coopération peut être une excellente stratégie évolutive — pas parce qu’elle est morale, mais parce qu’elle est, parfois, profitable sur le long terme.

La théorie des jeux est une branche des mathématiques qui analyse les décisions d’individus dont les intérêts s’entrecroisent. En biologie de l’évolution, elle permet de modéliser les comportements sociaux (coopération, trahison, réciprocité) comme des stratégies testées par la sélection naturelle. Un comportement n’est pas jugé “moral” ou “immoral”, mais en termes de coût, de bénéfice, et surtout de survie sur le long terme.

En bref : le pardon stratégique, clef de la survie collective

Le Dilemme du prisonnier illustre la tension entre intérêt individuel et coopération collective.
La théorie des jeux l’applique à la biologie de l’évolution pour comprendre comment les stratégies de survie, y compris la coopération, émergent.
La coopération n’est pas un altruisme désintéressé, mais une stratégie évolutive qui peut être profitable à long terme pour la survie et la reproduction.

La stratégie Tit for Tat : force et limites

Dans une partie unique, la réponse paraît évidente : mieux vaut balancer, en espérant que l’autre ne le fera pas. Mais qu’en est-il d’une stratégie à plus long terme ? Est-ce que gagner cette bataille me garantit de gagner la guerre ?

En pratique, les interactions sont rarement uniques. C’est ainsi qu’apparaît le dilemme du prisonnier itéré. On ne joue pas une seule fois — on rejoue, encore et encore, avec les mêmes personnes. Parfois explicitement, parfois sans même s’en rendre compte. Et cela veut aussi dire qu’on peut acquérir une réputation.

On collabore, on trahit, on pardonne, on se montre rancunier (un peu, beaucoup, pas du tout). Et dans ce jeu répétitif, les règles changent. La question n’est plus simplement “comment gagner”, mais “comment continuer à jouer sans tout perdre ?”

Ce terrain glissant entre trahison délibérée et erreur de communication a attiré l’attention de nombreux chercheurs, dont le neurobiologiste Robert Sapolsky. Dans son cours sur la biologie du comportement¹, il explore comment la coopération peut émerger (ou s’effondrer) dans des contextes répétitifs, bruités, et profondément humains.

La stratégie Tit for Tat (autrement dit “oeil pour oeil”) s’est rapidement imposée comme un modèle de comportement coopératif : claire, équitable, prévisible et… redoutablement efficace dans des contextes répétés.

Pardonner pour survivre : Forgiving Tit for Tat

Le problème ? Et si on se trahissait l’un l’autre indéfiniment ?

Mais comme l’a souligné Sapolsky, cette stratégie peut même échouer face à un ennemi bien plus banal que la trahison : l’erreur de signal. Il suffit d’un malentendu, une trahison accidentelle, une action mal interprétée, pour que deux Tit for Tat entrent dans une spirale de représailles sans fin.

C’est là qu’intervient une variante plus robuste : le Tit for Tat avec pardon. Elle accepte de coopérer malgré une offense isolée, en pariant sur le retour à une dynamique bénéfique. Dans un monde imparfait, où la communication est parfois floue et les intentions ambiguës, cette petite touche de grâce peut faire toute la différence : “C’était maladroit, mais elle a voulu bien faire”, “Son attitude laisse à désirer mais il a sans doute agi face au stress.” Nous accordons régulièrement ce genre de grâces sans même nous en rendre compte dans nos interactions quotidiennes.

Comme le rappelle Sapolsky, la coopération durable repose sur une combinaison de facteurs : la répétition des interactions, la réputation, la punition sociale, mais aussi notre capacité à renoncer à un gain immédiat pour préserver un lien à long terme. L’évolution n’a pas toujours favorisé les plus forts ou les plus rusés — parfois, elle a favorisé ceux qui savaient attendre, reconnaître un allié, et lui donner une nouvelle chance.

Un prototype pour modéliser l’évolution des stratégies

Illustration de chats qui jouent au poker, dont l'un triche pour aider son ami. — « Un ami dans le besoin », des chats qui jouent au poker, où un chat aide son ami en trichant. Hommage au tableau de C. M. Coolridge, « A friend in need », 1903. Image originale JeRetiens.

Les travaux de Robert Axelrod

Dans les années 1980, le politologue américain Robert Axelrod a organisé un tournoi de stratégies autour du dilemme du prisonnier répété. Il a invité des chercheurs à soumettre des programmes informatiques capables de jouer des centaines de parties contre d’autres. La surprise ? C’est la stratégie Tit for Tat, coopérative mais ferme, qui a remporté la victoire.

Axelrod a montré que la coopération peut émerger spontanément dans des systèmes compétitifs, à condition que les interactions soient répétées, que les agents aient une mémoire, et qu’il y ait une forme de punition ou de réciprocité.

L’article vise à tenter de reproduire et analyser ces travaux en se concentrant particulièrement sur la robustesse des stratégies en présence de bruit (les malentendus) et l’émergence potentielle de Forgiving Tit-for-Tat (FTFT) comme stratégie « optimale » dans ces conditions réalistes.

Une stratégie optimale, dans le cadre évolutif, n’est pas celle qui gagne le plus à court terme, mais celle qui permet la survie et la reproduction sur le long terme. Dans un monde où les interactions se répètent, une stratégie trop agressive finit souvent par épuiser ses partenaires — ou déclencher des représailles — jusqu’à ce que le jeu s’arrête : plus d’échange, plus de gain, plus de vie. Nous pouvons parler d’extinction. Inversement, une stratégie coopérative mais lucide — comme Tit for Tat avec pardon — favorise la continuité du jeu, la stabilité du groupe et la prospérité collective. En ce sens, la coopération devient un atout adaptatif : elle permet non seulement de survivre, mais de continuer à jouer.

Modéliser l’évolution des comportements : notre prototype

Pour explorer concrètement les dynamiques du dilemme du prisonnier répété, j’ai programmé un petit simulateur inspiré des travaux de Robert Axelrod. Ce prototype met en compétition plusieurs stratégies dans une population qui évolue au fil des générations. Ce simulateur ne prétend pas reproduire toutes les subtilités des comportements humains, mais il permet d’observer les conditions dans lesquelles certaines stratégies coopératives émergent, échouent ou s’imposent durablement.

Chaque individu suit l’une des quatre stratégies suivantes³ :

ALLC (Always Cooperate) : coopère systématiquement, même quand il se fait avoir.
ALLD (Always Defect) : trahit à chaque tour.
TFT (Tit for Tat) : commence par coopérer, puis imite le comportement de l’adversaire.
FTFT (Forgiving Tit for Tat) : comme TFT, mais pardonne occasionnellement une trahison pour éviter une spirale de vengeance.

À chaque génération :

Tous les individus jouent des parties entre eux.
Chaque agent accumule des points en fonction de ses choix et de ceux des autres. Chaque score dépend des règles du dilemme du prisonnier suivant cette matrice des gains.

Les individus ayant les meilleurs scores sont plus représentés dans la génération suivante. Dans les tournois d’Axelrod, les stratégies qui obtenaient de meilleurs scores avaient plus de chances d’être reproduites. Le prototype implémente cela en ajustant la « population » de stratégies à chaque génération en fonction des scores cumulés. Cela modélise la sélection naturelle des stratégies réussies.
Un peu de bruit (erreur aléatoire) est également introduit pour simuler les malentendus ou les erreurs humaines.

Méthodologie : une évolution simulée des stratégies

Le prototype simule une sélection naturelle entre différentes stratégies. Celles qui obtiennent les meilleurs scores sont plus susceptibles d’être “reproduites” dans la génération suivante, tandis que les moins performantes disparaissent progressivement. Ce processus évolutif se déroule en trois étapes, répétées sur plusieurs générations :

Tournoi (compétition directe) : Chaque individu affronte tous les autres lors de multiples parties du dilemme du prisonnier (par exemple, 200 rounds par rencontre). À la fin de cette phase, chaque stratégie a accumulé un score total, reflet de son efficacité au sein de la population.
Sélection (reproduction proportionnelle) : Les scores déterminent la part de chaque stratégie dans la population suivante. Une stratégie qui représente 10 % du score total aura en moyenne 10 % des “descendants”. Les meilleures stratégies se multiplient, les moins performantes déclinent.
Renouvellement (ajustement et génération suivante) : Une nouvelle population est générée à partir des proportions calculées. Des ajustements aléatoires garantissent une taille constante (par exemple, 200 individus). Le cycle recommence alors avec cette nouvelle génération.

Au fil des générations, le simulateur permet d’observer l’émergence et la persistance des stratégies les plus robustes. Les approches coopératives, claires mais tolérantes aux erreurs — comme Forgiving Tit-for-Tat — tendent à l’emporter dans un environnement bruité, où la survie dépend autant de la performance individuelle que de la capacité à maintenir le jeu en vie.

Analyses et Résultats

Scénario 1 : TFT vs FTFT avec Bruit

Ce scénario commence avec une population équilibrée de joueurs TFT et FTFT (50 %-50 %) avec introduction de bruit (un taux d’erreur significatif qui symbolise les fameux malentendus dont nous parlions plus tôt). Il vise à tester la résilience des stratégies de coopération face à l’incertitude. Alors que la stratégie TFT est réputée pour sa performance dans les tournois d’Axelrod sans bruit, on cherche ici à savoir si sa variante, FTFT, est bien plus efficace pour maintenir la coopération dans un environnement réaliste où des erreurs peuvent se produire.

Dans le code du prototype, nous attribuons à FTFT une chance de 10 % de pardonner l’adversaire. Ce taux de pardon ne doit pas être trop élevé sinon le risque est de retomber sur une stratégie trop proche du ALLC (coopérer tout le temps). Le taux d’erreur introduit, plutôt significatif, est de 5 % et évite que les malentendus soient tellement rares que nous ne puissions plus différencier les deux stratégies.

Proportion des stratégies à travers le temps

Graphique indiquant l'évolution de la proportion des stratégies TFT et FTFT avec bruit — Un premier graphique, la distribution de la population, montre que la proportion de TFT diminue progressivement, tandis que celle de FTFT augmente pour finalement dominer la population. Ce résultat démontre clairement que le pardon stratégique, une composante clé de la robustesse, rend FTFT plus viable d’un point de vue évolutif que TFT dans des environnements complexes et bruyants qui sont plus proches de la réalité.

Graphique illustrant le taux de coopération dans la population TFT vs FTFT avec bruit — Une autre manière d’exprimer la situation se constate sur ce second graphique, lié au premier et qui indique que la coopération tend à augmenter proportionnellement à la prédominance de la stratégie FTFT.

Graphique illustrant l'évolution des scores moyens par stratégie TFT et FTFT avec bruit — Le graphique montre l’évolution des scores moyens par stratégie sur 100 générations, dans un scénario bruité où des erreurs de communication peuvent survenir aléatoirement entre agents. On observe que FTFT (*Forgiving Tit for Tat*) domine TFT, en maintenant une coopération plus stable. Son mécanisme de pardon occasionnel lui permet de sortir des spirales de représailles causées par le bruit, ce que TFT, plus rigide, ne parvient pas à faire aussi efficacement.

Scénario 2 : ALLD vs FTFT

Oui mais, est-ce que FTFT ne peut pas, au bout d’un moment, se faire exploiter par ALLD, ce tricheur invétéré ?

Voyons ce que nous disent les graphiques issus du prototype.

Proportion des stratégies

Graphique illustrant l'évolution de la proprtion des stratégies ALLD et FTFT — Graphique illustrant l’évolution de la proprtion des stratégies ALLD et FTFT.

À nouveau, nous observons que la proportion de ALLD diminue, tandis que celle de FTFT augmente pour finalement dominer la population. Nous voyons même que cela se passe de façon encore plus rapide que dans le cas TFT vs FTFT.

Le graphique du taux de coopération est très clair également. En mettant en parallèle ces deux graphiques, nous voyons que la coopération augmente et atteint son maximum de manière proportionnelle à la prédominance FTFT.

Graphique illustrant le taux de coopération dans la population ALLD vs FTFT. La mise en parallèle des deux graphiques indique que la coopération augmente atteint son maximum de manière proportionnelle à la prédominance FTFT.

Le graphique des scores moyens est brutal et sans appel, encore un point pour FTFT.

Graphique illustrant l'évolution des scores moyens par stratégie (ALLD et FTFT) — Graphique illustrant l’évolution des scores moyens par stratégie (ALLD et FTFT).

Dès les premières générations, la stratégie ALLD (Toujours trahir) est éliminée par sélection naturelle. Bien que les ALLD évitent les sanctions d’erreurs de coopération, leur incapacité à construire des relations mutuellement bénéfiques les empêche d’atteindre des scores compétitifs face à FTFT. En effet, FTFT (Forgiving Tit For Tat) réussit à maintenir une coopération modérée entre individus compatibles, ce qui permet aux agents qui l’utilisent d’obtenir des gains cumulés plus élevés.

Scénario 3 : Toutes les Stratégies avec Bruit (Analyse des Dynamiques Complexes)

Ce scénario vise à évaluer la capacité des stratégies à survivre et prospérer dans un contexte dynamique, où plusieurs comportements coexistent et interagissent. Contrairement aux scénarios précédents qui examinaient des duels spécifiques, celui-ci met en compétition l’ensemble des stratégies dans un environnement instable et changeant. L’objectif est d’identifier la stratégie la plus robuste, c’est-à-dire celle qui s’adapte le mieux aux différentes configurations de la population au fil du temps.

Proportion des stratégies

Le graphique des proportions de stratégies montre comment les différentes stratégies évoluent en proportion au sein de la population au fil des générations. On observe une dynamique cyclique car l’histoire se répète : certaines stratégies deviennent dominantes temporairement, avant de décliner face à d’autres mieux adaptées à la nouvelle composition du groupe. FTFT, plus résiliente au bruit, maintient une présence constante tandis que TFT s’érode peu à peu.

Graphique illustrant l'évolution de la proportion toutes stratégies confondues (ALLC, ALLD, TFT, FTFT). — Graphique illustrant l’évolution de la proportion toutes stratégies confondues (ALLC, ALLD, TFT, FTFT).

Le graphique du taux de coopération nous indique que lorsque les stratégies plus conciliantes (ALLC, FTFT) dominent, le taux de coopération grimpe. Mais dès que la proportion d’ALLD augmente, la coopération s’effondre. L’apparition récurrente de ces cycles (montée, chute, reprise) est typique d’un équilibre évolutif instable dans un environnement bruité.

Graphique illustrant le taux de coopération dans la population, toutes stratégies confondues, avec bruit.

Le graphique de l’évolution des scores met en évidence une instabilité périodique dans les performances des différentes stratégies. À mesure que la composition de la population évolue, certaines stratégies profitent temporairement d’un environnement favorable — par exemple, ALLD tire avantage de la présence d’ALLC — mais ces gains s’effondrent lorsque la population se retourne contre elle (ex. : montée de TFT ou FTFT).

Graphique illustrant l'évolution des scores moyens par stratégie, toutes stratégies confondues, avec bruit. — Graphique illustrant l’évolution des scores moyens par stratégie, toutes stratégies confondues, avec bruit.

On observe également que la stratégie ALLD, égoïste absolue, obtient par moments des scores moyens très élevés. Cela peut sembler contre-intuitif après un long article qui explique l’intérêt de la collaboration et du pardon… mais c’est une conséquence directe de la dynamique évolutive.

En période de forte coopération, la population est dominée par des stratégies altruistes (ALLC, TFT, FTFT). ALLD en tire profit : elle accumule des gains élevés face à des adversaires qui, au départ, coopèrent. Mais elle ne rend jamais la pareille. Ce parasitisme stratégique lui permet de briller temporairement, jusqu’à ce que son propre succès sape la coopération ambiante. On observe d’ailleurs que les pics de score pour ALLD coïncident avec des minima locaux dans sa propre proportion au sein de la population. Dès que les ALLD deviennent trop nombreuses, les scores chutent, y compris pour elles, car elles ne peuvent plus exploiter personne. ALLD gagne donc sur le dos des autres, mais creuse sa propre tombe en affaiblissant l’écosystème coopératif dont elle dépend.

Au-delà du modèle de base : explorer d’autres dynamiques de coopération

Ces premiers résultats remplissent leur rôle : illustrer les grandes dynamiques à l’œuvre, mais ils ne sont qu’un point de départ. De nombreuses pistes permettraient d’affiner ou d’élargir cette modélisation. On pourrait, par exemple, intégrer des stratégies plus sophistiquées, comme Grim Trigger, et voir comment elles se comportent dans des environnements bruités. Une autre direction serait de ne plus coder explicitement les stratégies, mais de les laisser émerger via une approche de machine learning évolutif (agents apprenants par renforcement). On pourrait également enrichir l’analyse en visualisant les transitions dominantes d’une stratégie à l’autre, à l’aide de matrices de transition ou de graphes de flux. Enfin, il serait intéressant de tester la robustesse de la coopération en modifiant la matrice des gains.

FTFT : pas une stratégie miracle, mais une stratégie résiliente

Si la stratégie Forgiving Tit for Tat montre une remarquable robustesse dans des environnements bruités, elle n’est pourtant pas une solution universelle. Son efficacité dépend du contexte : la composition de la population, le taux de bruit, et la nature des interactions — comme le montre le scénario 3 que nous avons exploré. Il n’existe pas de stratégie parfaite, seulement des stratégies adaptées à un environnement donné, à un instant donné. Le succès n’est jamais absolu, il est toujours relatif au paysage des comportements concurrents.

FTFT représente un équilibre fascinant entre naïveté et méfiance. Elle incarne de façon élégante, une forme de sagesse stratégique : répondre, mais ne pas s’acharner ; coopérer, mais ne pas se laisser exploiter. Dans les relations humaines, on appelle souvent cela : poser des limites.

Conclusion

Quatre chauve-souris vampires avec le sourire ! Image originale JeRetiens.

Tout ceci n’est qu’une minuscule introduction.

Dans ses cours sur la coopération, Robert Sapolsky rappelle qu’il n’est jamais facile d’être le premier à faire un geste altruiste. En effet, si on est altruiste le premier, le risque d’être dupé précède toujours l’espoir d’une réponse en retour. Pourtant, à travers la répétition, la réputation, le choix des partenaires, ou même la punition… des dynamiques de coopération émergent.

C’est peut-être là que réside toute l’élégance de la stratégie Forgiving Tit for Tat : dans sa capacité à tisser un pont entre les micro-relations humaines et les dynamiques macro de l’évolution. Elle fonctionne aussi bien dans les échanges du quotidien, où la coopération exige fermeté, clarté, mais aussi une dose de grâce, que dans les grands équilibres façonnés par la sélection naturelle. Il ne s’agit pas d’une solution miracle, ni d’une règle morale. C’est une stratégie pragmatique, résiliente, et subtilement optimiste : elle répond, elle réagit, mais elle ne s’acharne pas. Elle laisse la porte ouverte.

Cette stratégie de coopération conditionnelle, qui combine mémoire, réciprocité et pardon, ne se limite pas aux relations individuelles. Elle jette aussi les bases de structures sociales stables. Chez l’Homme, ce besoin d’équilibre entre justice et indulgence s’est traduit par la création de lois, de normes et de systèmes judiciaires. Punir la trahison, oui, mais aussi reconnaître l’erreur, réhabiliter, permettre une seconde chance. Forgiving Tit for Tat, en ce sens, n’est pas qu’une stratégie dans un jeu : c’est l’esquisse d’un contrat social.

Mais ce n’est pas le propre de l’Homme. Un des exemples les plus fréquemment cités est celui des chauves-souris vampires et largement étudié. Elles se nourrissent de sang (d’où leur nom) et partagent leur repas en priorité avec leurs proches mais aussi avec des membres du groupe non apparentés, qui n’ont pas pu se nourrir. Cela se fait à condition que ces derniers soient, eux aussi, des donneurs réguliers. En cas de refus répétés d’aider les autres, la réciprocité cesse jusqu’à ce que l’individu concerné coopère à nouveau. On lui donne le bénéfice du doute. Une hypothèse est qu’en nourrissant même des individus non liés, une chauve-souris augmente son “réseau de soutien” futur, un véritable système d’entraide basé sur la mémoire et la réciprocité, au cœur d’une stratégie évolutive efficace.

Et, enfin, que penser de ceci ? Ce qui active le plus puissamment notre circuit de la récompense (en termes de dopamine libérée par le cerveau) dans un dilemme du prisonnier, ce n’est pas de gagner seul aux dépens de l’autre mais bien de coopérer tous les deux^2,⁴.

FAQ sur le dilemme du prisonnier, la théorie des jeux et la coopération dans la nature

Qu’est-ce que le dilemme du prisonnier ?

C’est un problème classique en théorie des jeux qui illustre la tension entre la coopération et l’intérêt personnel. Deux individus sont interrogés séparément après un crime. Si les deux gardent le silence (coopèrent), ils reçoivent une peine légère. Si l’un trahit l’autre, le délateur est libéré et l’autre reçoit la peine maximale. S’ils se trahissent mutuellement, ils reçoivent une peine moyenne. Le dilemme est de choisir entre la coopération mutuelle pour un bénéfice collectif et la trahison pour un gain individuel potentiellement plus grand, au risque de la trahison de l’autre.

Qu’est-ce que la théorie des jeux ?

C’est une branche des mathématiques qui étudie les interactions stratégiques entre des décideurs rationnels. Elle modélise les situations où le succès d’une personne dépend des choix faits par les autres. En biologie de l’évolution, elle est utilisée pour comprendre comment les comportements sociaux, comme la coopération ou la compétition, peuvent être favorisés par la sélection naturelle.

Quelle est la différence entre le dilemme du prisonnier « simple » et « itéré » ?

Le dilemme du prisonnier « simple » se joue une seule fois. La meilleure stratégie pour un individu est toujours de trahir l’autre, car cela garantit le meilleur résultat personnel, quel que soit le choix de l’adversaire. Le dilemme du prisonnier « itéré » se joue plusieurs fois avec le même adversaire. Cela introduit la notion de réputation et de réciprocité. Les stratégies coopératives, qui peuvent être perdantes à court terme, deviennent viables et même optimales sur le long terme.

Qu’est-ce que la stratégie Tit for Tat (TFT) ?

Tit for Tat, ou « œil pour œil », est une stratégie de coopération très célèbre. Elle commence par coopérer au premier tour, puis imite le choix précédent de son adversaire. Si l’adversaire coopère, TFT coopère. S’il trahit, TFT trahit au tour suivant. C’est une stratégie simple, claire, et qui s’est montrée très efficace dans les tournois de Robert Axelrod. Elle est à la fois gentille (commence par coopérer), provocable (répond à la trahison), mais aussi pardonnante (revient à la coopération dès que l’adversaire le fait).

En quoi la stratégie Forgiving Tit for Tat (FTFT) est-elle différente et plus robuste ?

Forgiving Tit for Tat est une variante de TFT qui introduit une notion de pardon. Elle suit les mêmes règles que TFT, mais de manière occasionnelle, elle pardonne une trahison et retourne à la coopération. Cette modification mineure la rend beaucoup plus robuste dans des environnements « bruités » ou avec des malentendus. Face à une erreur de communication, une stratégie TFT classique pourrait se lancer dans une spirale de représailles sans fin, tandis que FTFT est capable de rompre ce cycle pour restaurer la coopération mutuelle et les bénéfices qui en découlent.

Pourquoi la coopération peut-elle être une stratégie évolutive ?

Contrairement à une vision simpliste de la sélection naturelle où seuls les plus « égoïstes » survivent, la coopération peut être très avantageuse. Elle ne se fait pas « pour le bien de l’espèce » mais parce qu’elle augmente les chances de survie et de reproduction des individus. Par exemple, en coopérant avec des proches (sélection de parentèle), on aide à la transmission de ses gènes. En coopérant avec des non-apparentés, on crée un réseau d’entraide (réciprocité) qui peut être vital en cas de besoin. La coopération est donc une stratégie pragmatique et adaptative.

Comment le prototype de l’article modélise-t-il l’évolution ?

Le prototype utilise un mécanisme de sélection naturelle. Plusieurs stratégies sont mises en compétition dans une population. Celles qui obtiennent les meilleurs scores (la « meilleure fitness ») dans le tournoi sont plus susceptibles d’être « reproduites » dans la génération suivante, tandis que les stratégies moins performantes sont éliminées. Ce processus est répété sur plusieurs générations pour simuler l’évolution des stratégies et identifier celles qui sont les plus robustes à long terme.

Qu’est-ce que l’introduction de « bruit » dans la simulation ?

Le bruit représente les erreurs de communication ou les malentendus. Dans le contexte du dilemme du prisonnier, cela signifie qu’un acte de coopération peut être perçu comme une trahison et inversement. Le bruit rend l’environnement plus réaliste et complexe, et permet de tester la résilience des stratégies. C’est dans ces conditions que des stratégies comme Forgiving Tit for Tat, qui est capable de tolérer les erreurs, montrent leur supériorité sur des stratégies plus rigides comme Tit for Tat.

Pourquoi la stratégie ALLD (Always Defect) ne fonctionne-t-elle pas à long terme ?

Bien que la stratégie ALLD (toujours trahir) puisse obtenir des gains importants à court terme en exploitant des joueurs coopératifs, elle finit par s’auto-détruire. Quand une population est dominée par des tricheurs, il n’y a plus personne à exploiter. Les gains cumulés s’effondrent et la stratégie devient non viable, car elle ne peut pas maintenir la coopération mutuelle, qui est la source des bénéfices à long terme. ALLD est un « parasite » qui ne peut survivre que s’il y a suffisamment de « hôtes » coopératifs à exploiter.

L’article parle des chauves-souris vampires. Qu’ont-elles à voir avec la théorie des jeux ?

Les chauves-souris vampires sont un exemple classique de coopération réciproque dans la nature. Elles partagent leur repas de sang avec d’autres chauves-souris qui n’ont pas pu se nourrir. Ce comportement est sélectif : elles aident en priorité leurs proches, mais aussi des individus non apparentés qui ont une réputation de donneurs. Si une chauve-souris refuse d’aider les autres de manière répétée, la réciprocité cesse. Ce comportement est un parfait exemple naturel d’une stratégie de type « Tit for Tat avec pardon », où la mémoire, la réciprocité et une certaine tolérance aux erreurs maintiennent un système d’entraide stable et bénéfique pour le groupe.

Références

¹In The Great Courses audiobook ”Biology and Human Behavior: The Neurological Origins of Individuality” Robert Sapolsky (Lecture 12 : Cooperation, Competition, and Neuroeconomics).
²Selon Sapolsky (The Great Courses audiobook ”Biology and Human Behavior: The Neurological Origins of Individuality” Lecture 12: Cooperation, Competition and Neuroeconomics), les études en neuroimagerie ont montré que dans le cadre d’un dilemme du prisonnier, la situation qui déclenche le plus intensément la libération de dopamine — notre “hormone du plaisir” — est celle où les deux joueurs coopèrent. Autrement dit, la coopération mutuelle nous procure une récompense cérébrale plus forte que la victoire égoïste.
³De nombreuses autres stratégies ont été testées : certaines d’autres punissent durement dès la première faute (Grim Trigger), d’autres encore s’ajustent selon le succès (Pavlov) ou pardonnent à intervalles réguliers (Generous Tit for Tat), reconnaissent leurs erreurs et tentent de les réparer (Contrite Tit for Tat), essayent de tricher pour voir si ça passe et se ravisent en TFT s’ils se font prendre (Prober) et encore bien d’autres !
⁴Voir The Great Courses audiobook ”Biology and Human Behavior: The Neurological Origins of Individuality” Lecture 12: Cooperation, Competition and Neuroeconomics de Robert Sapolsky (Stanford) ainsi que la thèse de G. G. Carter sur les comportements de partage chez les chauves-souris vampires : The reciprocity of food sharing in the common vampire bat (University of Maryland, 2014). Voir aussi l’étude complémentaire sur la dynamique de dons entre non-apparentés dans Proceedings of the Royal Society B: Biological Sciences, 2015, et le résumé vulgarisé sur Phys.org : https://phys.org/news/2015-11-vampire-group.html

Pour aller plus loin

L’exploration de la coopération en théorie des jeux va bien au-delà de ce simple dilemme. Pour un autre défi fascinant sur la confiance et la stratégie collective, découvrez l’énigme des 100 prisonniers et de l’ampoule ou l’énigme des prisonniers et des bonnets.

À propos
Articles récents

Dimitra Melanitis

Consultante chez melan-IT

Dimitra Melanitis est une professionnelle de l'informatique et consultante chez melan-IT, forte de plus d'une décennie d'expérience en ingénierie logicielle, analyse fonctionnelle et conception de systèmes. Ayant travaillé principalement dans un cadre scientifique, elle excelle à structurer la complexité et à créer des solutions pragmatiques. Son amour profond pour les livres, allié à sa rigueur et sa quête de clarté, l'amène à décrypter et rendre accessibles les sujets techniques les plus ardus, comme le machine learning et ses applications en météorologie.

Les derniers articles par Dimitra Melanitis (tout voir)

Hallucinations d’IA – Quand les robots rêvent - 19 août 2025
Pourquoi coopérer ? Le dilemme du prisonnier à l’épreuve de l’évolution - 1 août 2025
Machine learning, quand l’IA regarde les nuages - 29 juillet 2025

Rejoignez-nous sur Instagram !

Découvrez nos infographies et astuces : @JeRetiensNet

Introduction : le dilemme du prisonnier

En bref : le pardon stratégique, clef de la survie collective

La stratégie Tit for Tat : force et limites

Pardonner pour survivre : Forgiving Tit for Tat

Un prototype pour modéliser l’évolution des stratégies

Les travaux de Robert Axelrod

Modéliser l’évolution des comportements : notre prototype

Méthodologie : une évolution simulée des stratégies

Analyses et Résultats

Scénario 1 : TFT vs FTFT avec Bruit

Proportion des stratégies à travers le temps

Scénario 2 : ALLD vs FTFT

Proportion des stratégies

Scénario 3 : Toutes les Stratégies avec Bruit (Analyse des Dynamiques Complexes)

Proportion des stratégies

Au-delà du modèle de base : explorer d’autres dynamiques de coopération

FTFT : pas une stratégie miracle, mais une stratégie résiliente

Conclusion

FAQ sur le dilemme du prisonnier, la théorie des jeux et la coopération dans la nature

Qu’est-ce que le dilemme du prisonnier ?

Qu’est-ce que la théorie des jeux ?

Quelle est la différence entre le dilemme du prisonnier « simple » et « itéré » ?

Qu’est-ce que la stratégie Tit for Tat (TFT) ?

En quoi la stratégie Forgiving Tit for Tat (FTFT) est-elle différente et plus robuste ?

Pourquoi la coopération peut-elle être une stratégie évolutive ?

Comment le prototype de l’article modélise-t-il l’évolution ?

Qu’est-ce que l’introduction de « bruit » dans la simulation ?

Pourquoi la stratégie ALLD (Always Defect) ne fonctionne-t-elle pas à long terme ?

L’article parle des chauves-souris vampires. Qu’ont-elles à voir avec la théorie des jeux ?

Références

Pour aller plus loin

Publications similaires

Laisser un commentaire Annuler la réponse