mercoledì 12 giugno 2013

United campione e Liverpool in Europa League..

Il calcio è uno sport molto semplice: segni tanto e vinci, allora sei un campione, raggiungi obbiettivi e porti a casa coppe. Subisci i goal, allora perdi, vai giù in classifica e si materializza lo spettro della retrocessione e dell'ultimo posto.
Dicevo che il calcio è uno sport semplice, per cui i concetti che ci stanno dietro non possono che esserlo altrettanto.
Allora, se data una squadra io vedo quanti goal ha segnato in una stagione e li confronto con quelli che ha subito posso avere un quadro di che tipo di squadra stiamo parlando e in che posizione si trova, all'incirca.
Ho analizzato la recente classifica finale della Barclays Premier League 2012/'13 per vedere attraverso i numeri se è possibile prevedere, secondo i dati a disposizione, la posizione finale di una squadra data la sua differenza reti. Chiaramente l'ipotesi da cui sono partito è più che sostenibile, è ovvio che per essere campione d'Inghilterra è molto meglio aver segnato più goal di quelli che si hanno subito. Ma la statistica, in ogni caso, tende a supportare con i suoi numeri questa teoria? E se si, una volta trovato un modello di previsione dei punti che conquisterò avendo una data differenza reti, ci sono delle anomalie rispetto alla nostra classifica reale?
Queste sono le domande che mi sono posto prima di iniziare una semplice analisi.
Sono partito quindi dalla classifica di quest'anno: Manchester United campione, seguito in Champions League dal Manchester City, Chelsea e Arsenal. Europa League solo per gli spurs che sono arrivati quinti (gli altri due posti a Swansea e Wigan, detentori delle coppe nazionali). Retrocessione diretta per il Wigan appunto, quindi i royals del Reading e Queen's Park Rangers.


Nella prima colonna a partire da sinistra troviamo la posizione, quindi la squadra, GF denota il numero di goal segnati, GS il numero di goal subiti, GD la differenza tra goal fatti e goal subiti e infine i punti totalizzati da ogni squadra.
La mia idea a questo punto era prevedere un modello che avendo come input la quantità di goal segnati e la quantità di reti subite (per semplicità ho calcolato la differenza delle reti), mi restituisse come output i punti guadagnati nell'arco della stagione:
Points = a + b*GD + e     dove e può rappresentare un qualsivoglia errore.
Perchè io possa anche solo ipotizzare una relazione lineare devo prima visualizzare un diagramma di dispersione, in cui nelle ascisse ci sia la GD, ovvero la differenza reti e nelle ordinate i punti della squadra. Ad esempio il Manchester United avrà le coordinate (43 , 89).

Effettivamente noto come tutte le squadre abbiano una combinazione di reti fatte e reti subite e punti totalizzati che si dispone su una retta con anche una certa precisione.
Arrivo a questo punto a stimare il modello di cui ho parlato in precedenza. Ma prima osservo che esiste tra le squadre un dislivello notevole, nessuna compagine ha infatti una differenza reti compresa tra -4 e 15: c'è chi merita quindi nettamente di stare nella parte alta della classifica e chi invece è nettamente da parte bassa del torneo della Premier League.


La statistica R squared ci dice che il nostro modello spiega all'incirca il 94% della realtà, possiamo ritenerci molto soddisfatti, in quanto riesce a catturare alla grande i meccanismi che regolano questo tipo di previsione.
Quindi il modello sarà: Points = 51,6 + 0,71*GD
Ciò significa che se la mia squadra, il Fulham, ha una differenza reti di -10, mi aspetto che nella stagione abbia totalizzato almeno 45 punti.
Ho applicato a tutte le squadre questo modello e ovviamente la cosa interessante è vedere come cambia la classifica se il calcio fosse dettato da regole matematiche piuttosto che giocato da persone umane, che possono magari vincere una partita 5 a 0 contro la prima per poi prenderne quattro dall'ultima in classifica la partita seguente.
Ecco dunque la classifica che ne risulterebbe:


Le colonne, partendo da sinistra delineano: la posizione predetta dal modello, il nome della squadra, i punti predetti dal modello, la differenza di punti rispetto alla realtà (in verde se rispetto alla realtà si sono guadagnati punti e in rosso se si sono persi punti, sempre passando dalla previsione del modello alla realtà) e quante posizioni sono state guadagnate (in verde) e quante invece sono state perse (in rosso) rispetto alla realtà.
In sostanza lo United rimane campione di Inghilterra ma con ben 7 punti in meno (la squadra reale ha fatto meglio di quello che ha predetto il modello, il Manchester ha in questo modo ottimizzato le reti segnate, ciò significa che, a discapito di una differenza reti del genere, ha portato a casa più punti possibili, magari grazie a vittorie risicate).
Il contrario si può dire invece per le squadre con segno verde come Chelsea e Arsenal: hanno totalizzato meno punti del previsto data la loro differenza reti proprio perchè non sono state altrettanto brave ad ottimizzare le reti segnate. Magari uscendo da una partita sconfitti di misura o vincendo partite con molti goal di scarto.
L'unico caso in cui il modello ha previsto senza errori è stato il decimo posto del West Ham United a 46 punti, proprio quelli che hanno totalizzato nella stagione i clarets and blue.
Sorpresona della stagione rimane il quinto posto teorico del Liverpool con ben 10 punti in più di quelli portati a casa quest'anno: i due 5-0 contro Swansea e Norwich e il 4-0 inflitto al Fulham hanno fatto si che la loro differenza reti fosse di gran lunga migliore del previsto: vincere una partita 1a0 o 5a0 infatti porta agli stessi punti! 
Infine retrocedono anche in questo caso Wigan, Reading e QPR.
Tutto questo lavoro perchè mi sono ispirato vedendo la presentazione del libro "The Number Games" del Prof. Chris Anderson in programma a Waterstones il prossimo 17 giugno, in cui l'autore analizza il calcio attarverso le sue lenti statistiche.

Nessun commento:

Posta un commento