Diese Software lässt Poker-Profis verzweifeln

Gegen Pluribus haben selbst die weltbesten Spieler keine Chance, obwohl der Algorithmus nur ein paar Tage Training brauchte.

Poker lässt sich nicht vollständig durchkalkulieren. Trotzdem knöpft die Software auch den Besten das Geld ab. Foto: Brian Finke (Gallery Stock)

Poker lässt sich nicht vollständig durchkalkulieren. Trotzdem knöpft die Software auch den Besten das Geld ab. Foto: Brian Finke (Gallery Stock)

Ein klassischer Pokerspruch lautet: Wenn du nach 20 Minuten nicht weisst, wer der Depp am Tisch ist, dann bist du es selbst. Der Satz soll Anfängern klar­machen: Poker ist kein reines Glücksspiel. Man kann es mehr oder weniger gut beherrschen. Und Könner merken, ob ein Anfänger mit am Tisch sitzt, den man früher oder später ausnehmen wird – oder ob ein noch besserer Spieler zwei Plätze weiter gefährlich werden kann.

«Lady Luck», wie die Amerikaner sagen, kann zwar phasenweise sehr ungleiche Karten austeilen, und, klar, vier Asse sind besser als eine Strasse. So kann es durchaus passieren, dass ein blutiger Anfänger zwischendurch einen dicken Stapel Chips einschiebt. Doch über viele Spiele und längere Zeiträume hinweg wird die Glücksgöttin, so will es das mathematische Gesetz der grossen Zahlen, alle Spieler gleichbehandeln (ausser es wird gemogelt). Und dann zeigt sich, wer Poker meistert.

Anfangs spielte die Software gegen sich selbst – und zwar wie ein Volltrottel. Doch aus jeder Schramme lernte sie für ihr Spiel gegen reale Gegner. 

Es ist kein Wunder, dass in der internationalen Szene einige Spielernamen immer wieder auf vorderen Turnierrängen auf­tauchen. Doch von nun an muss der Pokerspruch mit dem Deppen erweitert werden: Sobald Pluribus mitspielt, ist jeder andere ein Depp.

Pluribus ist eine Software. Sie wurde von Forschern der amerikanischen Carnegie Mellon University in Pittsburgh sowie dem Labor für künstliche Intelligenz (KI) von Facebook in New York erschaffen. In einem 10'000 Runden dauernden Pokermarathon besiegte der Algorithmus mehr als ein Dutzend internationale Pokerprofis, von denen jeweils fünf gleichzeitig gegen die Maschine antraten. Unter ihnen waren Pokerlegenden wie Chris Ferguson, den die Szene wegen seiner Haarpracht «Jesus» nennt, und Darren Elias, der bereits viermal die World Poker Tour gewonnen hat.

Ein komplexes Spiel

Eine von denselben Forschern entwickelte KI-Software namens Libratus war bereits 2017 im Poker erfolgreich – allerdings nur im Eins-zu-eins-Wettkampf, dem Heads-up. Pluribus bewies seine Dominanz nun in Mehrspieler-Partien gegen fünf menschliche Profis gleichzeitig. Wie das Programm seine Pokerfähigkeiten erlangt hat, beschrieben die Computerexperten in der vergangenen Woche im Fachblatt «Science».

Ein wesentlicher Unterschied zu Schach, Dame oder Go besteht in der Unvollständigkeit der Information. Die Brettspiele, bei denen die gesamte Stellung für alle sichtbar ist, lassen sich – zumindest theoretisch – mit genügend Rechenkraft vollständig durchkalkulieren. Im Poker gibt es unbekannte Information, allem voran die Karten der Gegner.

Auch kommen bei der meistgespielten Pokervariante Texas Hold’em nach und nach einige weitere Karten ins Spiel, während man bereits die ersten Setzrunden absolviert. Die möglichen Zugvarianten im Poker erscheinen zwar auf den ersten Blick einfacher als beim Schach. Man kann nur passen, gleichziehen oder den Einsatz erhöhen. Tatsächlich ist beim Erhöhen auch der Wetteinsatz wichtig. Und in No-Limit-Spielen darf ­jeder beliebige Geldbetrag (Chips) gesetzt werden, was die Zahl möglicher Spielzüge explodieren lässt.

Die anderen einschätzen, ohne durchschaubar zu sein

Angesichts dieser Komplexität versuchten die Forscher erst gar nicht, das sogenannte Nash-Equilibrium zu finden. So nennen Spieltheoretiker die mathematische Strategie, von der man nicht abweichen kann, ohne ins Hintertreffen zu geraten. Im Fall des Spiels Schere, Stein, Papier ist es zum Beispiel optimal, alle drei Symbole mit gleicher Wahrscheinlichkeit und völlig zufällig zu zeigen. Sobald ein Spieler davon abweicht und zum Beispiel häufiger Papier zeigt, kann der Gegner das ausnutzen und den Mitspieler häufiger mit Schere besiegen. Für komplexere Spiele wie Poker lässt sich das Nash-Gleichgewicht jedoch nicht berechnen.

Pokeranfänger verfolgen oft die einfache Logik: auf gute Karten setzen, schlechte Karten wegwerfen. Doch diese Strategie durchschauen bessere Spieler schnell und passen ihre Strategie an. Selbst undurchschaubar zu bleiben und gleichzeitig den Gegner einzuschätzen, sind die wichtigsten Faktoren beim Poker.

Die «Blaupause» suchen

Um eine Strategie zu lernen, die dem mathematischen Optimum möglichst nahe kommt, haben die Pluribus-Entwickler ihre Software zunächst eine intensive Phase von Versuch und Irrtum durchlaufen lassen. Am Anfang spielte Pluribus gegen sich selbst – und zwar wie ein Volltrottel, der mit Augenbinde durchs Haus rennt, über jeden Stuhl fällt und gegen alle Wände knallt. Doch aus jeder Schramme lernte die Software und formte in Milliarden Testspielen das, was die Forscher eine «Blaupause» nennen. Es war die Grundversion ihrer Poker-KI, die dann im Spiel gegen reale Gegner ihre eigene Strategie verfeinerte.

Um den Rechenaufwand in Grenzen zu halten, gingen die Forscher mit viel Pragmatismus ans Werk. So rechnet Pluribus nicht jeden möglichen Geldbetrag durch, den es setzen könnte, vom einfachen Grundeinsatz bis zum «all in», sondern teilt seinen virtuellen Chipsstapel in maximal 14 Stufen. Verschiedene Kartenkombinationen werden zudem gleichbehandelt, Pluribus ist es egal, ob eine Strasse mit einer Dame endet oder mit einem König.

Die Maschine spielt auch mal wie ein Esel

Macht das Programm gute Erfahrungen mit einer situativen Strategie, wird diese in Zukunft bei ähnlichen Spielzügen mit höherer Wahrscheinlichkeit angewendet. Die «Blaupause», das einsatzfähige Grundgerüst, war nach nur acht Tagen Rechenzeit auf einem Computer mit 64 Mikroprozessoren fertig. Am Spieltisch lief Pluribus dann auf einem Computer mit nur 128 Gigabyte Arbeitsspeicher – das ist viel weniger, als KI-Programme für andere Spiele benötigten. Doch es reichte, um Pokerstars wie Ferguson und Elias ihr Geld abzuknöpfen.

Damit die Champions ihr Bestes gaben, bekamen sie Prämien, wenn sie zumindest besser spielten als ihre menschlichen Kollegen am Tisch. Nach zwölf Tagen und 10'000 gespielten Händen war das Pluribus-Programm mit dem 480-Fachen des Grundeinsatzes im Plus. Auch warf die Software manche Pokerweisheit über den Haufen. So macht Pluribus häufig eine «Donk Bet», einen unter menschlichen Könnern als Eselei verschrienen Spielzug.

Wer angesichts dessen nun das Pokern aufgeben will, dem sei gesagt: In anderen Kartenspielen dominiert noch immer der Mensch. Dazu zählt natürlich auch der Jass.

Diese Inhalte sind für unsere Abonnenten. Sie haben noch keinen Zugang?

Erhalten Sie unlimitierten Zugriff auf alle Inhalte:

  • Exklusive Hintergrundreportagen
  • Regionale News und Berichte
  • Tolle Angebote für Kultur- und Freizeitangebote

Abonnieren Sie jetzt