Würfel, Münzwurf oder Schwarzer Schwan?

[Disclaimer: Auch ich hab es nicht geschafft, auf korsakoffs Antwort einen knappen Kommentar zu verfassen. Darum auch meine Antwort auf den letzten Artikel und die Kommentare in langer Artikelform. Die ersten drei Artikel der Diskussion: 1) Der ausgewürfelte Superbowlsieger; 2) Auch die Footballgötter würfeln nicht und 3) Der Zufall hat Methode. Quellen für alle Statistiken: PFR]

Der Walsh-Schock verliert alles schockhafte, wenn man den Fehler gefunden hat. Er liegt in der Definition “knappes Spiel” oder “Clutch”-Performance: Spiel, das mit gleich/weniger 3 Punkten entschieden wurde. Definiert man es so, sind zwei der größten Clutch-Performances aller Zeiten gar keine: Super Bowl XXIII, mit Montanas legendärem Comeback-Drive und das 2006er AFC Championship Game, die wohl beste Leistung Peyton Mannings aller Zeiten.

Bei dieser Definition hat man außerdem Spiele dabei, die nur durch eine Aufholjagd am Ende knapp waren, bei denen also die Mannschaften vorher viel schlechter gespielt haben und 10 oder mehr Punkte zurücklag und dann nochmal auf 3 herangekommen sind. Und es fehlen alle Spiele, die knapp waren, schließlich aber durch einen TD entscheiden wurden, final margin demnach größer 3 war. Gerade Montana und Walsh hatten einigen Spiele, in denen sie im im vierten Viertel zurücklagen, dann aber nicht nur mit einem FG oder weniger Vorsprung gewannen, sondern mit einem, zwei oder gar drei TDs. (Legendär zum Beispiel ein Spiel gegen die Rams 1983, in dem die 49ers acht Minuten vor Schluß mit 11 zurücklagen, aber mit 10 gewannen.) Die allergrößten Clutch-Performances fallen ironischerweise raus, weil sie gewissermaßen zu clutch waren. Die meisten von Montanas 29 Comeback-Siegen und/oder Game-Winning-Drives im Dress der 49ers tauchen in der “knappe-Spiele”-Statistik gar nicht auf.

Passiv/Aktiv und Zufall

“Kein Ereignis ist vorherbestimmt.” So trivial, wie richtig. Bei der Formulierung “ein Ergebnis tritt mit einer bestimmte Wahrscheinlichkeit ein” kann ich aber nicht mitgehen, denn es ist fälschlicherweise im Passiv. Ein TD oder eine Blown Coverage treten nicht irgendwie ein, sondern werden von guten beziehungsweisen schlechten Spielern aktiv versursacht. Eine 12-men-in-the-huddle-Penalty passiert nichtzufällig und ist unglücklich, sondern ist schlechtes Coaching/Organisation.

Wo korsakoff dagegen völlig recht hat, ist, daß es immer einen gewissen Zufall innerhalb der Spielzüge gibt, am prominentesten bei eroberten Fumbles und Interceptions. Ein eroberter Fumble kann durchaus ein Spiel zweier etwa gleich guter Mannschaften (stark mit-)entscheiden (jedoch werden auch dann nicht alle anderen Plays egal). Nicht umsonst besagt eine der ältesten Footballweisheiten der Welt, daß Spiele gleich guter Mannschaften von drei Dingen entscheiden werden: 1)Turnovers; 2)Penalties; 3)Special Teams.

Nicht ganz verstanden habe ich das mit der Varianz. Je mehr Spielzüge ich habe – beim Football in der Regel mehr als 60 – desto mehr tendiert die Verteilung zum wahrscheinlichen Ergebnis oder zur statistisch erwartbaren Verteilung. Wenn also eine bessere Mannschaft 60 oder 70 Mal auf eine schlechtere trifft, desto wahrscheinlicher wird es doch, daß die besere gewinnt. Oder anders: je öfter Hakeem Nicks und Eli Manning auf diese Patriots-Secondary treffen, desto wahrscheinlicher wird es, daß sich das “Bessersein” auch in Punkten ausdrückt.(Wie beim Münzwurf, je öfter man wirft, desto näher kommt das Ergbenis an eine 50/50-Verteilung.) Aber es stimmt auch: die absolute Sicherheit dafür gibt es nicht.

Das war im Grunde auch im letzten Artikel mein Hauptanliegen: Zufall spielt eine geringere Rolle als man oftmals glaubt. Trotzdem spielt er manchmal eine Rolle. In den letzten Playoffs glücklicherweise kaum.

Recency Bias und Wahrscheinlichkeit

Man kann nicht einfach über den Recency Bias hinweggehen und dann behaupten, die Zeit (also wahrscheinlich der Zeitpunkt) spielt eine riesengroße Rolle. Genau dagegen richtet sich ja meine Argumentation. Der Drop von Welker ist nicht wichtiger oder entscheidender für den Spielausgang als der Nicht-TD von Brady/Gronkowski oder die disziplinierten Tackles der G-Men bei jedem Spielzug. Wirft Brady den TD oder/und vergeigt ein Safety einen Tackle gegen Hernandez, ist der Welker-Drop genauso egal (“geringer wertig“) für den Spielausgang wie der Mittelfinger von M.I.A. in der Halbzeitpause, auch wenn er kurz vor Schluß stattfand. (Nebenbei: Welker hat seit 2007 nur 11 Bälle gefangen, die mehr als 20 Yards in der Luft waren. Und in dieser Saison hatte er schon mal einen Drop, der fast identisch mit dem im SB war.)

Wahrscheinlichkeiten sind immer eine gute Methode, um sich einen Überblick oder eine grobe Orientierung zu verschaffen. Zum Beispiel: Team bekommt mit zwei Minuten auf der Uhr mit drei Punkten Rückstand an der eigenen 20-Yard-Linie den Ball. Nach Brian Burkes Win Probability Graph beträgt sie Siegchance 13%. Wenn ich das aber richtig verstanden habe, werden diese Wahrscheinlichkeiten bei Burkes Charts aus der Geschichte gespielter Spiele ermittelt. Das heißt, die Comeback-Versuch von Ryan Leaf, JaMarcus Russel, Tim Couch und allen anderen nicht-elitären/clutch-QBs, die jemals ein NFL-Spielfeld betreten haben, ziehen den Schnitt grandios nach unten. Wenn ein Manning oder ein Brees in so einer Situation das Spiel doch noch gewinnen, ist das kein Zufall oder ein Freak-Unfall, sondern einfach große Klasse. Es gibt leider keine Wahrscheinlichkeit genau für Manning oder Brees in dieser ganz bestimmten Situation.

[Seit 1970 gab es 25 QBs, die mehr als 150 Spiele als Starter begonnen haben, also schon alle eine gewisse Klasse haben. Aber die Zahlen bei Comebacks und Game Winning Drives (CB&GWDs) unterscheiden sich erheblich:

– Peyton Manning: 47 CB&GWDs in 208 Spielen
– John Elway: 50 in 234

– Drew Bledsoe 31 in 194
– McNair 24 in 161

– Mark Brunell 24 in 194
– Chris Chandler 16 in 180
– Kenny Anderson 15 in 192

Eli dagegen 25 in 121.]

Der schwarze Schwan

Zum Hail-Mary-Versuch auf Gronkowski. Natürlich kann es passieren, daß der Ball so komisch von Helmen und Hände abprallt, daß er bei Gronkowski landet. Dann, und nur dann, hätten wir in meinen Augen einen unverdienten Super-Bowl-Sieger durch eine große Portion Zufall gehabt. Einen unglaublichen Zufall mit riesigen Auswirkungen. Aber bloß, weil ein erfolgreicher Hail-Mary-Paß zum Super-Bowl-Gewinn noch nicht vorgekommen ist, heißt es ja nicht, daß es nicht möglich ist. Es ist sozusagen ein Taleb´scher Schwarzer Schwan.

Ganz grundsätzlich (und vielleicht ein wenig irrational) verweigere ich mich dem Gedanken, daß der Zufall so unglaublich viel beim Football bestimmt. Weil es dann ja sinnlos wäre, sich darüber Gedanken zu machen oder Spielzüge zu analysieren oder Spieler zu vergleichen oder Systeme und Gameplans auseinander zu nehmen. Wenn alles das kleiner als der Zufall ist, kann ich genauso gut Roulette oder Münzwürfen zugucken.

2 Kommentare zu “Würfel, Münzwurf oder Schwarzer Schwan?

  1. Wenn also eine bessere Mannschaft 60 oder 70 Mal auf eine schlechtere trifft, desto wahrscheinlicher wird es doch, daß die besere gewinnt.

    Ja, aber wir haben im Spielzug eine extrem hohe Anzahl an Kombinationen. Die Komplexität steigt dadurch exponentiell. Ergo auch das Zufallsmoment. Und nur 120 Spielzüge, um das auszugleichen. Extrem hohe Varianz. Also hohe Streuung.

    Bei der Formulierung “ein Ergebnis tritt mit einer bestimmte Wahrscheinlichkeit ein” kann ich aber nicht mitgehen, denn es ist fälschlicherweise im Passiv.

    Natürlich ist es im Passiv. Das Ereignis verursacht sich schließlich nicht von allein.

    Und doch werden, nach einer korrekt durchgeführten Studie von Brian Burke, 52,5% der NFL-Spiele durch puren Zufall entschieden. Eine Aussage, die man mit 94%iger Sicherheit als „richtig“ annehmen kann.

    Das heißt in anderen Worten: Schauen wir uns die Verteilung der Bilanzen der 32 NFL-Teams an, und vergleichen wir sie mit der puren Zufallskurve** (also einer Binomialverteilung mit p=0,5), ist der Anpassungstest (Chi-Quadrat) bei einer 52,5% angenommenem Glück „bearbeiteten“ Kurve maximal. „Maximal“ wie 94%ige Sicherheit, dass es sich um die „richtige“ Verteilung handelt (Kurve der tatsächlichen Bilanzen = theoretische Kurve mit 52.5% Glück). 52,5% ist mehr als die Hälfte aller Spiele.

    (Nope, ich habe den Test nicht selbst laufen lassen. Aber ich habe hinreichend Vertrauen zu Burke, dass der Test korrekt durchgeführt ist.)

    **Es handelt sich, weil wir es mit einer diskreten Verteilung zu tun haben, natürlich um eine Binomial-Verteilung.-ist nun ausgebessert.

    Es ist zufällig, also nicht zwingend miteinander in Verbindung stehend, auch ziemlich genau das Verhältnis der sich zufällig verhaltenden engen Spiele. 133/256 (Regular Season 2011/12) sind 51,9%.

    Und weiter: Wie, wenn nicht mit einer hohen Portion Zufall ist es zu erklären, dass es kein Muster im Verhalten von Spielen mit einem Score Differenz gibt – nicht bei gleichen Coaches, nicht bei gleichen Quarterbacks, nicht bei gleichen Mannschaften.

    Noch weiter: Wie, wenn nicht mit einer hohen Portion Zufall ist es zu erklären, dass sich so spielentscheidende Dinge wie aufgenommene Fumbles oder INT-Quoten einer Defense mit einer Korrelation von nahe null verhalten (ergo Münzwurf)? Wie, dass sich selbst INT-Raten von Quarterbacks, die noch mehr aktiv in der Hand halten, eher (wenn auch etwas weniger) zufällig verhalten?

    Ich frage: Wie, wenn nicht mit Zufall sind diese Phänomene zu erklären? Schlechte Leistung? Ja. Kann man trainieren, um es besser zu machen? Ja. Aber s’nächste Mal gelingt es dem Gegner, es besser als du zu machen. Haste also diesmal **pling** Glück gehabt. Wenn es aber unmöglich vorhersehbar wird, wer die „schlechte“ Leistung produzieren wird, wird der Sieger (fast) ausgewürfelt.

    Daher auch: Klasse Leistung in der Crunch Time = macht dich wertvoller, weil die Klasse-Leistung im rechten Moment kam. Der Gegner ist deshalb nicht schlechter oder besser. S’nächste Mal gelingt es dem Gegner in der Crunch Time besser. Vielleicht ist Manning tatsächlich 55 von 100x gut genug und somit besser als der Gegner. Vielleicht auch nur 45x und nun eben zufällig fünfmal in fünf Spielen?

    Der Drop von Welker ist nicht wichtiger oder entscheidender für den Spielausgang als der Nicht-TD von Brady/Gronkowski oder die disziplinierten Tackles der G-Men bei jedem Spielzug.

    Dafür müsste man alle einzelnen Wahrscheinlichkeiten zusammen zählen können (ist nicht möglich, da ein gemachter Tackle den Spielzug beendet). Es ist korrekt, dass der Welker-Catch nicht der „entscheidendste“ war. Daher hatte ich auch geschrieben: Wer will, kann sich einen anderen raussuchen. Es war aber der Spielzug, der die Wahrscheinlichkeit auf 98% hätte schnellen lassen können, und der am einfachsten von allen möglichen entscheidenden zu machen gewesen wäre.

    Wirft Brady den TD oder/und vergeigt ein Safety einen Tackle gegen Hernandez, ist der Welker-Drop genauso egal (“geringer wertig”) für den Spielausgang wie der Mittelfinger von M.I.A. in der Halbzeitpause, auch wenn er kurz vor Schluß stattfand.

    Korrekt, da die Patriots dann gewonnen hätten. Dadurch wären die Fehler der Patriots „nicht entscheidend“. Das einzelne Play von Welker bleibt aber immer noch eine schlechte Leistung zum dümmsten Zeitpunkt (als er das Spiel fast mehr oder minder gewonnen hätte). „Pech“, weil Welker 90/100x den Ball nicht droppt. „Pech“, weil es just in dem Moment passieren musste. Glück für die Giants.

    Re: Russell zieht Manning in die Scheiße.

    Korrekt. Die Graphen sind standardisiert auf die durchschnittliche Offense gegen die durchschnittliche Defense. Das Modell scheißt auf alle Verletzungen oder Heimvorteile. Es besagt lediglich, dass im Duell zwischen zwei exakt gleichen Teams 4:06 mit Welker-Catch eines von beiden zu 98% gewinnt.

    Weil es dann ja sinnlos wäre, sich darüber Gedanken zu machen oder Spielzüge zu analysieren oder Spieler zu vergleichen oder Systeme und Gameplans auseinander zu nehmen. Wenn alles das kleiner als der Zufall ist, kann ich genauso gut Roulette oder Münzwürfen zugucken.

    Ich möchte wirklich niemandem den Spaß an diesem Sport verderben, aber wir müssen davon ausgehen, dass, wie eben erklärt, ziemlich genau die Hälfte der NFL-Spiele durch pures Glück oder Pech entschieden werden. Was, wie ich schonmal schrieb, auch nicht verwundert, wenn man sich die Anstrengungen, Gleichheit auf möglichst vielen Ebenen zu schaffen (Salary Cap, Draft, Free Agency, keine Transfersummen), vor Augen führt. Und wir haben mickrige 16 Saisonspiele.

    Wie es Burke mal irgendwann brutal ausdrückte: Wenn wir eine Münze werfen, kann ich durch puren Zufall auch zehnmal hintereinander Kopf werfen. Hat die Münze dann „Momentum“? Weil wir bloß 16 Spiele haben, kaum Differenzen zwischen zwei Teams, und über 50% (heuer 133 von 256 Regular Season) der Spiele werden durch einen Score entschieden (also Spiele ohne Muster in der Entscheidungsfindung), wird Glück im Football immer eine massive, sehr massive Rolle spielen.

    Zwischen „8-8“ und „13-3“ können fünf Plays stehen. Fünf aus roundabout 16×120. Dabei nichtmal einen Schiedsrichterfehler oder eine missglückte Regelauslegung in Betracht gezogen. Die Minnesota Vikings waren bei aller Schlechtigkeit 3-13; wären sie von Miss Fortuna wenigstens fair behandelt worden, sie hätten sechs oder sieben Spiele gewonnen. Wären sie etwas „glücklicher“ gewesen, sagen wir, in etwa gleich „glücklich“ wie 49ers oder Raiders, sie wären ein 9-7 Team gewesen. Die Vikings. 9-7. Mit gleichem Level „Glück“ wie Oakland oder San Francisco.

    Re: Gameplans ausgucken. Es wird sich nie jemand trauen, aber ich ich würde es zu gerne sehen, wenn ein Coach sich trauen würde, rein zufällig seine Plays aus dem Arm zu schütteln. Mein Tipp wäre: Allzu viel schlechter fiele das Ergebnis vermutlich nicht aus. Aus beschriebenen Problemen.

    Um es kurz auf den Fußball auszuweiten: Studien besagen, 40% der Tore fallen in ihrer Entstehung „zufällig“. Ergo würde ich einem Coach raten, häufiger den Zufall im Torabschluss zu suchen. Ball hart von halblinks in den Strafraum dreschen und auf glückliches Abfälschen hoffen. Will keiner sehen; ist aber fast so effizient wie die schönen Kombination; ergo wäre es eine gute Strategie, eine sehr gute für einen Underdog.

  2. Noch drei Anmerkungen bezüglich Anzahl der Scores:

    a) Bei „engen Spielen“ sprechen ich von max. einem Score, also 8 Punkte. Das Coach-Beispiel ist jenes in den Spielen mit nur 3 Punkten, weil ich mobil, aber ohne Internet die vorhandene Statistik rauszog, die ich auswerten konnte. Daher habe ich auch explizit „Dreipunktespiele“ und nicht „enge Spiele“ wie sonst geschrieben.

    b) Es spielt kaum eine Rolle, ob am Spielende eine andere Mannschaft von 31-17 auf 31-24 aufholt, denn am Ende war die Mannschaft einen Score in Rückstand, also potenziell den einen „Scoring-Drive“. Es ist eine Approximation (Garbage Time), klar, aber es gleicht sich ziemlich genau über die Zeit aus.

    c) Wäre Garbage Time aber ein großer Faktor, stünde die These immer noch, weil gute Teams gegen schlechte nicht zwingend am Spielende wieder in Gefahr kommen müssen. Ergo: Wurscht, ob man aus 31-3 ein 31-24 macht oder aus 14-24 ein 31-24. Ein Score bleibt ein Score.

    (vgl. dazu das Beispiel von gestern mit den Packers und der Verteilung ihrer Punkte)

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.