Mathletics und die NFL: Der Weg ist das Ziel

Disclaimer: Ohne mich vor einer langen Einleitung drücken zu wollen, aber ich probiere nun zum dritten Mal, eine gescheite Einleitung in Mathletics und das Gewirr an Gedanken zu formulieren – und bin zum dritten Mal gescheitert, Stichwort fuckin’ Gedankenverdichtung. Ich möchte keine öde Formelsammlung und nicht noch mehr Zahlen aufbieten, daher knalle ich mal blank das Ergebnis nach Woche 5 – also vor dem Nachtspiel von eben – in die Runde und hoffe, nach und nach in den kommenden Wochen ein paar Gedanken weiter präzisieren zu können.

Nr.  TEAM               WP     E16    SOS   RK  W-L      
#1   San Francisco     .714   11.4   .522   12   4-2
#2   Denver            .681   10.9   .509   13   3-3
#3   Chicago           .658   10.5   .483   22   4-1
#4   Houston           .638   10.2   .475   24   5-1
#5   N.Y. Giants       .607   10.2   .554    4   4-2
#6   Seattle           .599    9.6   .556    3   4-2
#7   St Louis          .599    9.6   .563    1   3-3
#8   Green Bay         .598    9.6   .542    6   3-3
#9   Miami             .597    9.6   .503   14   3-3
#10  Carolina          .594    9.5   .498   19   1-4
#11  Minnesota         .573    9.2   .456   30   4-2
#12  Philadelphia      .568    9.1   .503   15   3-3
#13  Dallas            .568    9.1   .559    2   2-3
#14  Atlanta           .558    8.9   .476   23   6-0
#15  Detroit           .558    8.9   .542    7   2-3
#16  New England       .546    8.7   .486   21   3-3
#17  Washington        .535    8.6   .487   20   3-3
#18  Baltimore         .530    8.5   .462   27   5-1
#19  Pittsburgh        .466    7.5   .471   25   2-3
#20  Cincinnati        .466    7.4   .460   28   3-3
#21  Oakland           .463    7.4   .530    9   1-4
#22  Tampa Bay         .459    7.4   .501   17   2-3
#23  Arizona           .434    6.9   .547    5   4-2
#24  Cleveland         .422    6.7   .501   16   1-5
#25  N.Y. Jets         .421    6.7   .528   10   3-3
#26  San Diego         .380    6.1   .411   32   3-3
#27  Indianapolis      .379    6.1   .501   18   2-3
#28  Buffalo           .373    6.0   .456   29   3-3
#29  Tennessee         .298    4.8   .527   11   2-4
#30  New Orleans       .265    4.2   .468   26   1-4
#31  Jacksonville      .254    4.1   .536    8   1-4
#32  Kansas City       .201    3.2   .428   31   1-5

WP entspricht der Siegchance der jeweiligen Franchise gegen eine standardisierte, durchschnittliche NFL-Franchise, E16 ist WP hochgerechnet auf 16 Spiele (WP*16 = E16), SOS ist der bisherige Strenght of Schedule, den dieses Modell für die jeweilige Franchise errechnet, Rk die Platzierung des Schedules, W-L die tatsächliche Sieg-Niederlagen-Bilanz jeder Franchise zum Ende der Woche 5.

Und jetzt die Erklärung: Wie arbeitet das NFL-Ranking?

Trainierte Mathleten werden die Ähnlichkeit mit dem Team Efficiency Model von Brian Burke erkannt haben: Man identifiziere die wichtigsten Faktoren, die zu einem Sieg in der NFL beitragen und gleichzeitig dazu tendieren, sich über die Zeit stabil zu verhalten. Man werfe die Daten in einen Mixer (a.k.a. multivariate, logistische Regression) und füttere die erhaltene Formel mit den aktuellsten Daten nach der letzten Spielwoche. Man lasse dann ein paar Schleifen Schedule-Anpassung machen und erhalte oben stehende Tabelle. Das Ranking ist geeignet für Vorhersagen: Es ist prediktiv. Die Unschärfe, die durch relativ zufällige Events wie Fumbles oder knappe Last-Second-Siege entsteht, wird so weit es geht ausgeblendet.

Ich mache keinen Hehl daraus: Ich bin weder Mathematiker noch Statistiker. Zu den spannenderen Themen eines Logistikstudiums gehört aber jene Disziplin, für die man auch in unserer schönen deutschen Sprache keinen besseren Terminus gefunden hat als „Operations Research“: Von Spieltheorie über nichtlineare Optimierungen hin zur ollen Warteschlange ist für die tüftelaffinen Gehirnregionen alles dabei. Wir hatten einen jungen italienischen Professor frisch von der Londoner Börse, einen Freak auf seinem Fachgebiet, und wir programmierten Aktienkurse und Peitscheneffekte und hatten unseren Spaß an den Black Swans der Bauwirtschaft.

Damit und mit der NFL habe ich über die Jahre Statistik und statistische Modelle zu begreifen begonnen. Für mich zählt der Lernfaktor. Menschen lernen manche Dinge mit dem Tun, und sie lernen noch besser, wenn das Tun gerne getan wird.

Für mich hat das NFL-Modell also auch einen pädagogischen Effekt. Ich kann Dinge testen, die ich mich im Arbeitsleben noch nicht traue einzusetzen.

Ich habe schon vor Jahren Burkes Modellansatz übernommen und mithilfe erst vom studentenfreundlichen MATLAB (von MathWorks), dann mit STATA10 (für nichtlinare Regressionen mit mehreren Variablen), und mit Microsoft Excel an meinem Rechenmodell gebastelt.

In short: Wie arbeitet Brian Burkes Modell?

Brian Burkes Arbeit konzentriert sich darauf, die springenden Punkte herauszufiltern, die am meisten zu Sieg/Niederlage in der NFL beitragen und diese gleichzeitig so zu gewichten, dass man ihre „Verlässlichkeit“ (oder Stabilität) berücksichtigt – diese beiden Arbeiten erledigt die multivariate logistische Regression. Zu Verlässlichkeit/Stabilität ist zu sagen, was ich schon oft schrieb: Turnovers sind massiv entscheidend über Sieg/Niederlage, aber sie passieren relativ zufällig. Nicht völlig zufällig, aber doch stark zufällig. Dagegen ist Nettoyards pro Passversuch vor allem in der Offense der Faktor schlechthin, und es ist noch dazu eine sehr beständige Kennzahl. Also bevor jemand schreit „aber was haben die Panthers an #10 zu suchen!?“: Carolina ist mit 7.3 NY/Passversuch die #3 der NFL.

Burke verwendet in seinem Modell folgende 8 Kennzahlen:

OFF-PASS   Nettyards pro Passversuch Offense
OFF-RUN    Success-Rate Lauf Offense
OFF-INT    Interception-Rate in %
OFF-FUM    Fumble-Rate in %
DEF-PASS   Nettyards pro Passversuch Defense
DEF-RUN    Success-Rate Lauf Defense
DEF-INT    Interception-Rate in %
PEN-RATE   Penalty-Yards pro Spielzug

Die entsprechenden Korrelationen der Stats mit Sieg und Niederlage (rw) und die Korrelationen der Stats mit sich selbst von erster in zweite Saisonhälfte (rs) hier nachfolgend (Korrelationen der ersten vier Wochen zu den nächsten vier zu den nächsten usw. sind ähnlich):

Statistik   rw     rs
OFF-PASS    0.67   0.54
OFF-RUN     0.39   0.33
OFF-INT    -0.49   0.07
OFF-FUM    -0.32   0.21
DEF-PASS   -0.56   0.20
DEF-RUN     0.21   0.33
DEF-INT     0.34   0.16
PEN-RATE   -0.12   0.36

Entsprechend leichtgewichtig behandelt das Modell aufgrund der Volatilität und der deraus fast unmöglichen Vorhersagbarkeit Kategorien wie Interceptions oder Fumbles.

Ich verwende anstelle der Success-Rates, die Brian Burke verwendet, die etwas rudimentärere Statisik von Yards/Laufversuch für Offense und Defense; viel ändert sich nicht. Diese Statistiken korrelieren allerdings sehr viel schwächer mit Sieg/Niederlage als die Success-Rate (Burke definiert jeden Play als Success (Erfolg), der nach Markov-Modell einen positiven Beitrag im Drive beiträgt, also dEPA>0 gebracht hat).

Ich verwende noch zusätzlich als neunte Kennzahl die Forced-Fumbles der Defense, die sich auch nicht völlig zufällig verhält (Autokorrelation von erster Saisonhälfte zur zweiten immerhin 0.20, rw=0.22, aber fast keine Korrelation von Spiel zu Spiel).

Lauf und Pass werden getrennt voneinander behandelt, weil die beiden – gegen die Intuition – fast unabhängig voneinander agieren (r=0.11); ein Schwachpunkt ist dabei nun allerdings, dass das Modell nicht weiß, in welchem Verhältnis Lauf/Pass im Playcalling standen. Als Beispiel: Carolina hat zwar eine massive Pass-Offense, aber die Panthers haben fast ein 50:50 Verhältnis in ihrer Spielzugansage. Als Gegenbeispiel: Die Falcons werden in diesem Modell an #12 überraschend tief ausgespuckt, aber sie gehören zu den Teams mit der stärksten Passlastigkeit (62%), gleichen diese Unterlegenheit damit fast aus.

Nicht beachtet werden Stats wie 3rd-down-Raten oder Red-Zone-Raten, weil sie stärker abhängig von Pass- und Lauf-Effizienz sind. Ich habe einmal auf scheinbar unbedeutende Termini wie „abhängige“ und „unabhängige“ statistische Variablen geschissen. Ich mache es kein zweites Mal.

Special Teams werden bei Brian Burke gänzlich ignoriert. Das Problem ist: Kicker sind zwar situativ und für Sieg oder Niederlage in einem Spiel ungeheuerlich wertvoll, aber der Unterschied zwischen bestem und schlechtestem Kicker ist sehr gering und die Testmenge von roundabout 25-40 Kicks pro Kicker pro Jahr ist zu klein, um daraus verlässliche Zahlen zu projizieren (auch aufgrund der großen Distanzunterschiede bei Kicks). Entsprechend volatil verhalten sich die Kicks. Der Kicker mit der besten Verwertungsrate in der ersten Saisonhälfte ist der Kicker mit der zweitschlechtesten in Saisonhälfte zwei. Ein Windspiel, und schon wird ein 22/24 (92%, Spitzenwert) Kicker zum 22/27 (81%, Bodensatz) der Liga.

Ich überlege, ob ich eine Kennzahl für Touchback-Rate oder dergleichen einführen soll, was als einzige Kennzahl der Special Teams halbwegs stabil bleibt. Anyhow: Selbst wenn wir Special Teams/Kickreturns/Puntreturns inkludieren: Die Unterschiede sind relativ gering. (zum Beispiel im Vergleich zur Penaltyrate, die gut mit Sieg/Niederlage korreliert und auch noch beständig ist) – das bedeutet alles, dass ich auch nicht die nicht unwichtige Komponente „starting field position“ mit einrechnen kann: Diese hängt a) mit von der Länge der Kickreturns ab, und die sind zu volatil, und b) zu stark von Lauf-/Pass-Effizienz – wo wir wieder bei abhängigen und unab… ach lassen wir das.

Was ich noch mache: Ich stelle die Passstatistiken in Verhältnis zu den örtlichen Wettergegebenheiten: Analysen haben völlig unüberraschend ergeben, dass es sich bei 25°C im Georgia Dome gemütlicher werfen lässt als bei -7°C in Foxboro. Der Trend ist für alle Teams der gleiche, ob für die Cards aus Arizona oder die Packers aus Wisconsin. Das ist auch mit ein Grund, weswegen das Passspiel in der NFL mit zunehmendem Saisonverlauf ineffizienter zu werden tendiert: Es wird ganz einfach kälter.

Was ich noch nicht mache, aber gedenke zu tun: Den Windfaktor mit einzubauen. Ab Windstärken von 25km/h tendiert die Effizienz im Passspiel massiv gen Süden zu wandern. Für die Einspeisung der Daten ist das ein Heidenaufwand, da die Gamebooks der NFL entsprechend unhandlich sind.

Was ist also mein Nutzen?

Ich verhehle nicht, dass mein eigener Beitrag zu diesem Modell noch recht rudimentär ist. Für mich sind die Mehrgewinne aktuell primär drei:

  • ich kann Dinge in Sachen Statistik/Programmieren testen und trainieren, die mir im Berufsleben von Vorteil sind
  • ich kann mithilfe der einzelnen Stats erkennen, wo welche Franchise ein schnelles Verbesserungspotenzial besitzt; z.B. wären die Jaguars mit einem bloß mittelmäßigen Passspiel im Angriff sofort das 20-beste Team mit WP=0.478.
  • ich kann nach Adjustierung nach Heimvorteil (historisch werden 57% der Spiele von der Heimmannschaft gewonnen) den Favoriten für die nächste Partie errechnen.

Die größten Ausreißer nach Woche 6

Zweifellos: Das Abendessen wäre mir beim Durchlaufen der Simulation am Mittwochabend fast auf die Tastatur gefallen, so viele Ausreißer gibt es da. Carolina an #10? Atlanta an #14? Baltimore an #18? Alles wüst, aber: Seit die Rankings vor Woche 4 „online“ gegangen sind, stehen sie bei 29-14 (.674), wogegen meine Eier bloß 26 der 43 Partien richtig gespürt haben (.604). Ein Trend, der seit drei Jahren konstant so läuft. Letzte Woche war extrem upset-lastig. Ich war 5-9. Das Modell war 9-5.

Wk   Modell   ich
4    9-6      11-4
5   11-3      10-4
6    9-5       5-9

Ich werde das weiter verfolgen, nachdem 2012/13 bisher eine Saison ist, die extrem schwer prognostizierbar ist. Zu den größten Ausreißern.

Die Carolina Panthers sind an #10 auch meiner Meinung nach eher zu hoch angesiedelt – auf der anderen Seite sind die Panthers 1-3 in engen Spielen und zwei Plays plus eine fürchterliche Coaching-Entscheidung von 3-2 und der sportlichen Relevanz entfernt. Carolinas größte Stärken sind eine starke Pass-Offense (7.3 NY/A), eine sehr disziplinierte Mannschaft (fünfgeringste Anfälligkeit gegen Strafen) und eine erstaunlich gute Lauf-Defense.

Die Rams aus der „power-Division“ NFC West sind trotz QB Sam Bradford dasglaubstdunicht an #7 gerankt (nur #25 in der Pass-Offense), glänzen aber mit einer bis dato exzellenten Pass-Defense (#5), und haben das alles gegen den schwersten Schedule der Liga zustande gebracht.

Die Atlanta Falcons hätte ich auch ohne Zahlen nicht als bestes Team der NFL gesehen – der Augentest sieht hier eine gute, aber keineswegs großartige Mannschaft. Atlanta ist in bloß zwei Kategorien Spitze: Sie sind unfassbar diszipliniert (0.2yds Strafe/Spielzug ist der beste Wert der letzten vier Jahre), und sie fangen in etwa so viele Bälle ab wie Green Bay letztes Jahr (5.3% INT-Quote); gegen die schwachen Raiders wurde u.a. deswegen die Partie überhaupt erst gewonnen – diese INT-Quote wird sich kaum über die komplette Saison halten können.

Alles andere an den Falcons ist Durchschnitt: Pass-Offense ist #13, Pass-Defense ist #15, Run-Offense und Run-Defense jeweils #29! Und das nur gegen den 23t-schwersten Schedule. Und man ist 4-0 in engen Spielen. Mein Tipp: Atlanta ist nicht mehr lange ungeschlagen.

Baltimore ist 5-1 und in den Power-Polls der Pundits vor allem wegen der jüngsten Verletzungsprobleme mit Skepsis bedacht. Ray Lewis oder CB Webb interessieren das Modell allerdings nicht. Bei Baltimore spielen die sehr schwache Pass-Defense (#27) und die undisziplinierte Spielweise (sechstmeiste Strafen) mit rein – und der Schedule war bisher der sechsleichteste – das wird vom Modell bestraft.

Arizona mit seiner 4-2 Bilanz ist auch für die Augen ersichtlich bisher ein äußerst glückliches Team gewesen. 3-1 in engen Spielen, dazu besitzen die Cardinals die zweitschlechteste Pass-Offense um QB Kolb und das drittschlechteste Laufspiel um… wenn eigentlich? Williams und Beanie Wells sollen ja verletzt sein. Der fünftstärkste Schedule bewahrt die Cards vor noch tieferen Tiefen, aber wenn du Tebow-Zone im Passspiel mit 4.8 NY/A bist, siehst du eben nur Land unter.

Bemerkenswert ist der Aufstieg der Washington Redskins in den letzten Wochen. Nach Woche drei waren die Skins mit New Orleans gemeinsames Schlusslicht. Nun scheint sich die Secondary berappelt zu haben, und auch speziell QB Robert Griffin III spielte zuletzt auf hohem Niveau und wird zumindest in dieser frühen Phase seiner Karriere den Vorschusslorbeeren offenbar gerecht. Washington stellt mittlerweile die beste Pass-Offense der Liga (7.5 NY/A) und kann sich dabei „leisten“, zu den drei undiszipliniertesten Mannschaften in der NFL zu gehören.

Und natürlich: Was sagt des Modells Glaskugel für Woche 7?

Für das Modell sehen die Favoriten am Spieltag der Heimsiege – zumindest sind 13 von 14 Heimteams favorisiert – wie folgt aus:

SAN FRANCISCO – Seattle
BUFFALO – Tennessee
NY GIANTS – Washington
TAMPA BAY – New Orleans (!)
CAROLINA – Dallas
HOUSTON – Baltimore
Indianapolis – CLEVELAND
ST LOUIS – Green Bay (!)
MINNESOTA – Arizona
NEW ENGLAND – NY Jets
OAKLAND – Jacksonville
CINCINNATI – Pittsburgh
CHICAGO – Detroit

Und das einzige favorisierte Auswärtsteam, die Cleveland Browns, haben Siegchance 50.03% nach diesem Modell. Klarster Favorit ist übrigens Oakland gegen Jacksonville (78.2%).

14 Kommentare zu “Mathletics und die NFL: Der Weg ist das Ziel

  1. und wie berechnest du den Strengh of Schedule? Auf Basis von Vergangenheitsdaten? Da diese aber nicht die jetzige Stärke der Teams widerspiegeln wäre dieser Wert ja sehr ungenau. Gegenwärtige Daten sind auch schwer einzubeziehen, da diese sich so wie ich es verstanden habe auch aus dem SOS errechnen.
    Wäre dir dankbar für eine kurze Erläuterung dazu…

  2. Klasse Arbeit, korsakoff!
    Eine kleine Frage: Du schreibst, dass du die Passstatistiken in Verhältnis zu den örtlichen Wettergegebenheiten setzt.
    Machst du das, in dem du einen weiteren „Temperaturparameter“ einführst oder normierst du die Passstatistiken, z.B. auf eine mittlere Temperatur?

    Könntest du vielleicht bei Gelegenheit die Vorhersagen mit Prozenten veröffentlichen? Es würde mich interessieren, in wie weit sie sich von Brian’s Game Probabilities unterscheiden.

  3. @Zandig: Der Strenght of Schedule ist der Mittelwert aus den WPs der bisherigen Gegner einer jeden Mannschaft. Diese sind, wie du richtig anmerkst, gegenwärtige Daten (also Saison 2012).

    Das funktioniert, weil WP und SOS nach der ersten Grundrechnung sieben weitere Schleifen durchlaufen – ab Schleife fünf wird nur noch Feintuning in der dritten Nachkommastelle betrieben. Daher können wir nach spätestens drei, vier Spielwochen davon ausgehen, dass die Teams miteinander hinreichend „verknüpft“ sind, um aussagekräftige Daten zu erhalten. (Ist im übrigen bei Rankingsystemen wie SRS nicht anders)

    (wobei ich, nebenbei bemerkt, für die Teams mit erst fünf Saisonspielen noch einen kleinen Fehler bezüglich SOS drin habe, weil ich die Daten für die fünfte Spalte aus der falschen Zeile rausgeschrieben habe – wird noch ausgebessert)

    @footballissexbaby: Kein eigener Parameter. Die Passdaten werden separat normiert und dann eingespeist. Ist eigentlich nur eine Spielerei meinerseits, da der „neue“ Datensatz dadurch (zumindest bis jetzt) keine erkennbar bessere Vorhersagegenauigkeit bringt. Vor allem aber ist es ein Heidenaufwand, da jede Woche für jede Mannschaft für jede Stadiontemperatur die Daten separat berechnet und aktualisiert werden müssen. Zum Glück gibt es nun den PFR-Play Finder, ohne wäre ich auch nie auf die Idee gekommen, sowas mit einzubauen.

    Zweites Problem: An den beiden Enden der Temperaturskala (ab ca -10°C nach unten und ca. 35°C nach oben) sind die historischen Datensätze klein genug, dass kleine Ausreißer das Markov-Modell wohl ungenau werden lassen.

    Interessanter fände ich sowieso wie geschrieben die Sache mit dem Wind, bei dem die Auswirkungen extremer zu sein scheinen; auch hier: aufwändige Datenbeschaffung, kleine Datensätze am Ende der Skala.

    Re: Prozentsätze. Kann ich natürlich posten (habe momentan keinen Zugang zum Modell). Hatte gestern bloß noch einen Termin und das Ende des Blogeintrags nur noch in aller Schnelligkeit rausgeschüttelt;-)

    Ab nächste Woche Mittwoch: Versprochen.

  4. Wahrscheinlichkeiten für diese Woche:

    SF 75.9% – SEA 24.1%
    BUF 64.4% – TEN 35.6%
    NYG 65.4% – WAS 34.6%
    TB 76.8% – NO 23.2%
    CAR 59.1% – DAL 40.9%
    HOU 70.6% – BAL 29.4%
    IND 50.0% – CLE 50.0%
    STL 55.3% – GB 44.7%
    MIN 71.9% – ARI 28.1%
    NE 70.1% – NYJ 29.9%
    OAK 78.2% – JAX 21.8%
    CIN 55.2% – PIT 44.8%
    CHI 70.4% – DET 29.6%

  5. Klasse Sache, Advanced NFL Stats ist sicher die beste Quelle um die Stats im Football zu interpretieren und den Football besser zu verstehen. Ich bin lange schon überzeugt, dass der Pass die Spiele gewinnt und der Run im besten Fall dazu taugt, die Uhr auszulaufen! Defense wins championships und die anderen Pundits Weißheiten sind Schmarren, und das schon seit wenigstens anfang der Neunziger mit Joe Cool und Aikman in Dallas!

    Eine Frage bleibt aber. Kickoff ist klar, aber die Football Outsiders behaupten, auch der Kick Return ist predictable. Das könnte man doch in ein Model einbauen, wenn der R² nicht leidet; die Variable ist sicher indipendable.

    Gruß Karl

  6. @Karl: Kickoff-Returns korrelieren zwar gut mit Sieg und Niederlage, aber der p-Wert von 0.58 wirft die Variable sofort wieder aus dem Rennen.

  7. @korsakoff: Danke für die Prozente!
    Da bist du ja meist ziemlich dicht dran an Brians Game Probabilities. Aber interessant, dass ihr teilsweise doch bis zu 5-6 Prozent abweicht.

  8. Pingback: NFL Power-Rankings 2012/13: Week 17 | Sideline Reporter

  9. Pingback: Wie sieht eine Passverteidigung in der NFL aus? | Sideline Reporter

  10. Pingback: NFL Close Win Percentage: Würfelspiel | Sideline Reporter

  11. Pingback: The Return of the Power Ranking: Erstausgabe 2013 | Sideline Reporter

  12. Pingback: Rückkehr des Power-Rankings | Erstausgabe 2014 | Sideline Reporter

  13. Pingback: Wiedersehen mit einem alten Freund | Erstausgabe des NFL Power Rankings 2015 | Sideline Reporter - Eier, wir brauchen Eier!

  14. Pingback: Wie lese ich das Sideline Reporter Power Ranking? | Sideline Reporter - Eier, wir brauchen Eier!

Kommentar verfassen

Trage deine Daten unten ein oder klicke ein Icon um dich einzuloggen:

WordPress.com-Logo

Du kommentierst mit Deinem WordPress.com-Konto. Abmelden /  Ändern )

Google Foto

Du kommentierst mit Deinem Google-Konto. Abmelden /  Ändern )

Twitter-Bild

Du kommentierst mit Deinem Twitter-Konto. Abmelden /  Ändern )

Facebook-Foto

Du kommentierst mit Deinem Facebook-Konto. Abmelden /  Ändern )

Verbinde mit %s

This site uses Akismet to reduce spam. Learn how your comment data is processed.