Nukk.Ai – wurde Bridge mit künstlicher Intelligenz gelöst?

Wer steckt hinter Nukk?

Nukk.Ai ist eine in Paris ansässige Firma, gegründet von Veronique Ventos, einer AI-Forscherin und französischen Bridgespielerin. Nukk.Ai will eine künstliche Intelligenz entwickeln, die besser als die Menschen spielt und behauptet, auf dem Bereich des Alleinspiels große Fortschritte gemacht zu haben.

Bridge besteht aus vier Elementen, die man beherrschen muss (Reizung, Ausspiel, Alleinspiel und Gegenspiel).

Die Versuchsanordnung war derart, dass die Reizung vorgegeben wurde (Süd eröffnet 1NT-pass-2NT-pass-3NT-alle passen). Dadurch wurde Süd zum Alleinspieler (der die Süd- und Nordkarten bedient), Nord zum nicht weiter mitspielenden Dummy.

Auf Ost und West wurde ein anderes Computerprogramm (WBridge5) gesetzt. WBridge5 hat Ausspiel und Gegenspiel übernommen. Dieses Programm benutzt einen deterministischen Algorithmus, so dass bei gleicher Informationslage, also identischer Reizung und identischem Spielverlauf stets die gleiche Karte gespielt wird.

Der Computer bzw. die 8 menschlichen Gegner saßen auf Süd und wurden in jeder Austeilung Alleinspieler.

Insgesamt hat jeder menschliche Spieler 10×10 Austeilungen in zwei Tagen gespielt, was ein strammes Programm ist. Der Roboter hat folglich sogar 1.600 Austeilungen gespielt. Die Austeilungen wurden also nicht durch den Saal dupliziert, sondern es waren 8 getrennte Matches mit eigenen Austeilungen. Natürlich haben Nukk und der jeweilige menschliche Gegner die gleichen Karten bekommen, um zu sehen, wer mehr aus den Händen herausholt. Das Element des Kartenglücks fällt also weg.

Zeitlimit 60 Minuten für 10 Boards, also etwa normale Zeit. Meinem ersten Eindruck nach ist ein Großteil der Hände aber so komplex, dass man sie als Mensch nicht vollständig in dieser Zeit analysieren kann, sondern zumindest zum Teil auf seine Intuition angewiesen ist.

Durch die vorgegebene Reizung (und dazu passende Hände) wurde sichergestellt, dass fast alle Kontrakte schwierig waren.

Die pbn-Files findet man hier:

https://bridgehub.github.io/bridgehub/NUKKAI/NukkAIChallenge.html

Die überwiegend französischsprachigen Live-Videos (gelegentlich wurden Interviews auf Englisch geführt) findet man hier:

https://www.youtube.com/watch?v=DHpeHCsojbI

https://www.youtube.com/watch?v=pKzzIOyHJhQ

Wie erfolgt die Abrechnung?

Erfüllter Kontrakt (9 Stiche erzielt): 10

Überstiche (jeder Stich mehr als erforderlich): +1 pro Überstich

Faller (wenn man 8 oder weniger Stiche erzielt): -1 pro Faller

Dies soll Teamabrechnung in NG simulieren (pro Faller -2 wäre dann aber näher dran gewesen.)

Analyse

Ich war gespannt auf das Match und bin natürlich davon ausgegangen bin, dass Nukk überlegen gewinnen wird – warum sonst sollte Nukk.Ai diese Challenge veranstalten? im Ergebnis war das auch der Fall: Nukk hat alle Matches gewonnen, 6 deutlich, 2 knapp (gegen Thomas Bessis und Anna Gulevich).

Bei genauerer Analyse der Boards verbleiben Zweifel. Man kann definitiv noch nicht seine Abspiele ungefragt als richtig übernehmen. Außerdem habe ich noch Zweifel, dass Nukk überhaupt besser spielt. Was Nukk allerdings wesentlich besser als die Menschen hinbekommen hat, ist, sich auf den Gegner einzustellen.

(Man sollte dazu wissen, dass man im Toplevel-Bridge nicht so sehr gegen Gegner spielt, sondern eher gegen Karten. Anders als beim Schach, wo man sich gezielt auf einen Gegner vorbereitet, ist dies beim Bridge weder üblich noch sinnvoll. Topexperten machen Fehler, aber man kann diese nicht bewusst provozieren. Leider hat WBridge5, das unterhalb von Expertenniveau anzusiedeln ist, durchaus einige Fehler gemacht, die möglicherweise Nukk strategisch geschickt ausnutzen konnte.)

 

Wie ist bislang der Stand der Computer-Engines?

Siehe z. B. hier

https://db.worldbridge.org/bulletin/98_2%20Lille/pdf/bul_02.pdf

oder hier

https://www.ijcai.org/Proceedings/99-1/Papers/084.pdf

 

Bereits 1998 in Lille hat GIB beim World Par Contest teilgenommen, neben 34 eingeladenen Topexerten, unter anderem auch Sabine Auken. Bei diesem Contest, den es leider seit dem nicht mehr gibt, wurden Alleinspielprobleme vorgegeben, die dîe Menschen innerhalb von 90(!) Minuten (normalerweise dauert ein Board 8-9 Minuten inklusive Reizung) lösen mussten. Es gab aber Zeitstrafen für langsames Spielen (schneller als 90, langsamer als wieviel weiß ich nicht.)

Laut dem Bulletin hat GIB dort zur Halbzeit geführt und dann ím 3. und 4. Viertel etwas Probleme mit den Implikationen aus der Reizung gehabt (diese Implikationen wurden in der Versuchsanordnung hier eliminiert, so dass sie gar nicht erst auftreten konnten).

Jeder, der bei BBO gegen die Roboter (also GIB) gespielt hat, fragt sich nun, wie es sein kann, dass GIB damals so gut war? GIB ist schon gut, wenn er Rechenzeit bekommt, bei dem Par Contest hat er etwa 10 Minuten pro Board nachgedacht. Bei BBO spielt er mehr oder weniger sofort. Das macht sehr viel aus.

Es wäre interessant gewesen, wenn GIB oder z. B. Jack (mehrfacher Computerweltmeister) ebenfalls teilgenommen hätte.

Beide Computer hätten natürlich auch von der sehr viel stärkeren Rechenleistung heutzutage enorm profitiert. GIB lief damals auf einem Pentium mit 200Mhz Rechenleistung.

Wer waren die 8 Menschen?

4 Männer (Thomas Bessis, Mikael Rimstedt, Brad Moss, Roy Welland) und 4 Frauen (Sabine Auken, Benedicte Cronier, Anna Gulevich, Nevena Senior).

Gehören die Teilnehmer zu den besten menschlichen Spielern der Welt?

5 Spieler sind Weltmeister im Openbereich, 3 „nur“ im Mixed- bzw. Frauenbereich. Alle Spieler sind offensichtlich sehr gut.

Im Spitzenbridge gibt es ein Gefälle zwischen den besten Männern und Frauen, ähnlich wie im Schach. Nicht bei allen Teilnehmern würde man vermuten, dass sie zu den 50 besten Spielern der Welt gehören. Das legen auch double-dummy-Genauigkeitsstatistiken nahe (wie genau spielt man im Vergleich zum perfekten Spiel, wenn man alle Karten kennen würde.).

Das Filtern der Boards war etwas oberflächlich. War das ein Nachteil für die Menschen?

Topexperten überlegen sich, wer welche Aktion gemacht bzw. auch nicht gemacht hat (wie beim Hund von Baskerville, wo Sherlock Holmes den Fall löst, weil der Hund nicht gebellt hat.)

Insbesondere die Einschränkungen, welche Karten West haben konnte, wurden nicht sehr präzise vorgenommen (wahrscheinlich mit DealmasterPro, man hätte vielleicht eine scripting-language nehmen sollen). Z. B. hat West einmal nicht mit AKB109xxx gegengereizt, was natürlich jeder Spieler machen würde., Board 208 (Sabine)

https://www.bridgebase.com/tools/handviewer.html?bbo=y&lin=pn|Sabine,WBridge5,Dummy,WBridge5|md|1SAK4HQ5DAJ5CQ5432,S982HAKJT9743D32C,SQ73H86DQT8764CA7|,ah|Board%20208|sv|o|mb|1N|mb|p|mb|2N|mb|p|mb|3N|mb|p|mb|p|mb|p|pc|HK|pc|H6|pc|H2|pc|H5|pc|HA|pc|H8|pc|C8|pc|HQ|pc|HJ|pc|D4|pc|C6|pc|C2|pc|HT|pc|C7|pc|C9|pc|C3|pc|H3|pc|D6|pc|CT|pc|C4|pc|H4|pc|D7|pc|CJ|pc|C5|pc|H7|pc|S3|pc|CK|pc|D5|pc|H9|pc|D8|pc|S6|pc|DJ|pc|D2|pc|DT|pc|DK|pc|DA|pc|CQ|pc|D3|pc|CA|pc|D9|pc|SQ|pc|S5|pc|S4|pc|S2|pc|S7|pc|ST|pc|SK|pc|S8|pc|SA|pc|S9|pc|DQ|pc|SJ|

Dadurch fehlt es den Menschen etwas an der Intuition. Das hat wahrscheinlich aber keine große Rolle gespielt.

 

War es eine gute Idee, dass WBridge5 das Gegenspiel und Ausspiel übernommen hat?

Die Idee, einen deterministischen Roboter zu nehmen, der immer gleich spielt, erscheint plausibel. Leider hat der Roboter eine ganze Reihe von sehr merkwürdigen Entscheidungen getroffen. Dass Roboter generell nicht gut ausspielen und es für Menschen schwerer ist, die üblichen Rückschlüsse aus den (nicht erfolgten) Ausspielen zu ziehen, ist bekannt, aber wahrscheinlich kein großes Problem.

Die Menschen hatten übrigens eine Liste bekommen, nach welchen Kriterien WBridge5 sein Ausspiel wählt und ich glaube auch Trainingsmöglichkeiten zur Vorbereitung auf WBridge5. Ob das genutzt wurde, weiß ich nicht, vermutlich nicht, schon alleine weil beim Bridge normalerweise eine Gegnervorbereitung nicht erforderlich ist, bis auf Sachen in der Reizung. Tatsächlich haben die meisten Spieler am zweiten Tag besser performt, nach ihren Angaben in den Interviews auch, weil sie sich besser auf WBridge5 eingestellt haben.

War die Veranstaltung ein Medien-Ereignis?

Die publicity-Arbeit hätte verbessert werden können. Auf bridgewinners wurde erst einen Tag vor Beginn der Challenge bekanntgegeben, dass sie stattfinden würde. Vorher habe ich davon nichts gehört.

Die Live-Übertragung waren leider nur in französischer Sprache mit gelegentlichen englischsprachigen Interviews. 

Wenn man das mit AlphaGo vergleicht: Das Match haben sich Tausende (meiner dunklen Erinnerung nach haben sich das live etwa eine halbe Million Menschen angeschaut). Es wurde daraus ein großes Medienereignis gemacht mit mehrsprachigen Übertragungen. Obwohl ich selbst nicht Go spielen kann, habe ich mir die Übertragung gerne angeschaut, nur um zu sehen, ob bzw. wie sehr die Experten von der Spielstärke on AlphaGo beeindruckt waren.

 

Ist Nukk bereits übermenschlich gut?

Einschränkend sei gesagt: Bislang habe ich nur die Hände von der Live-Übertragung und die ersten Session aus dem Match gegen Sabine Auken gesehen.

Im Ergebnis nein. Wenn Nukk eine Hand abgepielt hat, würde ich derzeit noch nicht sehr sein, dass es das beste Abspiel war.

Nukk hat alle Matches gewonnen, zwei recht knapp, aber viele auch mit Vorsprung. Es scheint sehr gut gelernt zu haben, sich auf die Quirks von WBridge5 einzustellen.  Dies hat ihm erhebliche Vorteile gebracht. Nukk hat aber auch Fehler gemacht, die ein Experte nicht machen sollte.

 

Eine ganze Reihe von Abspielen werfen Fragen auf.

https://www.bridgebase.com/tools/handviewer.html?bbo=y&lin=pn|Brad,WBridge5,Dummy,WBridge5|md|1SK952HAJ4DAT2CAT5,ST76H982DJ74CK963,SJ4HQ5DKQ9653C742|,ah|Board%20304|sv|o|mb|1N|mb|p|mb|2N|mb|p|mb|3N|mb|p|mb|p|mb|p|pc|H9|pc|HQ|pc|HK|pc|H4|pc|H7|pc|HA|pc|H8|pc|H5|pc|D2|pc|D4|pc|DK|pc|D8|pc|D3|pc|S8|pc|DA|pc|D7|pc|DT|pc|DJ|pc|DQ|pc|H3|pc|D9|pc|SQ|pc|S2|pc|H2|pc|D5|pc|S3|pc|C5|pc|C6|pc|D6|pc|H6|pc|CT|pc|C3|pc|S4|pc|SA|pc|S5|pc|S6|pc|CQ|pc|CA|pc|CK|pc|C2|pc|HJ|pc|C9|pc|SJ|pc|HT|pc|SK|pc|S7|pc|C4|pc|C8|pc|S9|pc|ST|pc|C7|pc|CJ|

https://www.bridgebase.com/tools/handviewer.html?bbo=y&lin=pn|NukkAI,WBridge5,Dummy,WBridge5|md|1SK952HAJ4DAT2CAT5,ST76H982DJ74CK963,SJ4HQ5DKQ9653C742|,ah|Board%20304|sv|o|mb|1N|mb|p|mb|2N|mb|p|mb|3N|mb|p|mb|p|mb|p|pc|[Board|pc|%225%22]|

 

In einer Hand (Session 3, Board gegen Brad Moss) hat Nukk einen für Experten offensichtlichen und auch mathematisch trivial beweisbaren Fehler gemacht (den kurioserweise Brad Moss allerdings auch gemacht hat), indem er eine entrylose Farbe blockiert hat (Karo 2 zum Dummy statt Karo 10 zum Dummy). Die Hand wurde aus der PBN-Liste entfernt, war aber in der Live-Übertragung zu sehen. Dass die Hand entfernt wurde, liegt wahrscheinlich daran, dass es eine TL-Entscheidung gab, weil sich Brad Moss im späteren Verlauf einmal offensichtlich verklickt hat und ein undo wollte. In der Übertragung wurde nicht weiter gezeigt, wie die Hand bei Brad ausgegangen ist.

Teilweise hat das andere Programm WBridge 5 wirklich sinnlose Sachen gemacht. Einmal etwa nicht den Faller abgezogen, sondern in die hohe Farbe des Dummys gespielt.

WBridge5 hat in ähnlichen Situationen leider manchmal unterschiedliche Sachen gemacht. Das könnte einer der Hauptgründe sein, warum Nukk so viel besser performt hat.

In Board 206 (Session 2, Board 6, Auken) war der Spielverlauf sehr ähnlich. Im Kern ging es darum, dass der Gegner fünf Stiche abziehen kann, wenn er – später mit Karo am Stich – Coeur (Herz) statt Treff (Kreuz) weiterspielt. Die ausgespielte Farbe (Karo) kam nicht in Frage.

Sabine Auken hat im zweiten Stich Karo an den Gegner abgegeben. Die AI hat erst eine hohe Pikkarte abgezogen und den dritten Stich an den Gegner abgegeben.

Gegen menschliche Gegner war Sabines Spielweise sicher besser, weil die Gegner sich in Pik markieren können, ob sie lieber Coeur oder Treff haben wollen. Dies tut WBridge5 allerdings nicht (WBridge 5 zeigt, wie viele Karten es in Pik hat, was hier offensichtlich irrelevant ist.).

Die zusätzliche Pikrunde hat dazu geführt (warum auch immer), dass WBridge5 gegen die AI die falsche Farbe nachgespielt hat. Dadurch hat Sabine das Board verloren, aber eigentlich besser gespielt. Es kann durchaus sein, dass die AI gelernt hat, solche Zufälligkeiten auszunutzen. Mein Eindruck in der Live-Übertragung war, dass die AI mehrfach von Quirks von WBridge5 profitiert hat, die Menschen nur einmal.

Nach Aussagen der Entwickler hat der Roboter gegen WBridge5 sein neuronales Netzwerk dahingehend trainiert, dass es – sehr laienhaft ausgedrückt – gelernt hat, welchen Karten WBridge5 wann zurückspielt. Ich habe keine Zweifel daran, dass das die AI sehr gut gelernt hat. Das ist allerdings ein sehr spezifisches, nicht auf andere Gegner verallgemeinerbares Wissen.

Ich befürchte, dass gerade hieraus Nukks großer Vorsprung entstanden ist.

 

One response... add one

Die Antwort auf die Titel-Frage ist ganz einfach. Nein. Denn es wurde kein einziges Mal Bridge gespielt. Der ganze Zirkus hatte genauso viel mit Bridge zu tun, wie Elfmeterschießen mit Fußball.

Der ganze Hype fand ich schade – nicht nur für das Team, das irgendwann doch Bridge löst, sondern auch für Nukkai selber. Denn der Algorithmus von Cazenave et al, mit Pareto-Fronten usw., ist ein deutlicher Fortschritt gegenüber einfache Double-Dummy-Algorithmen. Einige gute Beispiele sind im Paper erwähnt: https://arxiv.org/abs/2101.12639

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert