Când fotbalul se intersectează cu știința

Amatorii de statistici

In perioada de dinainte de 1990, transmisiunile TV se opreau de regulă la finalul meciurilor, iar caseta tehnică a ziarelor de sport menționa doar scorul la pauză, la final și eventual marcatorii, dacă meciul era mai important. Însă la Coppa del Mondo 1990, la finalul meciurilor am început să vedem pe ecrane asta:

La finalul meciului România – Argentina, Cristian Țopescu încerca să înțeleagă și să explice telespectatorilor numerele de mai sus, dar, vădit încurcat concluziona ‘dar ce mai contează acum…’
Era printre primele încercări de a indica suporterilor cum a jucat echipa favorită, dincolo de scorul afișat pe ecran. Pentru amatorii de statistici se numărau cornere, faulturi, offside-uri, șuturi și respingeri, iar după o vreme au urmat raportul posesiei și șuturi pe/la poartă. Mai târziu au apărut alte elemente precum heat maps, posesie în jumătatea adversă sau număr de pase în interiorul careului de 16 metri. Toate acestea ofereau perspective noi asupra jocului, și în timp, au început să fie folosite în studiouri TV și redacții de ziare. Unii comentatori și redactori de sport deveneau încet-încet amatori de statistici.

Football analytics

Apoi lucrurile au devenit mai serioase. La începutul sezonului 2015-2016 de Premier League, în timpul meciului Newcastle – Arsenal, o imagine inedită lua prin surprindere și în același timp amuza Internetul pasionat de fotbal:
The graphics on Fifa 16 are something else
‘The graphics on Fifa 16 are something else’ 🙂
Persoana care urmarea meciul și în același timp folosea un controller de jocuri video era un angajat al unei companii de football analytics care colecta în direct date despre evenimentele din timpul meciului. În urma acestui proces minuțios suplimentat de înregistrările video, compania extragea informații utile despre desfășurarea partidei.
Football analytics exista deja de câțiva ani în lumea fotbalului profesionist, iar unele echipe din Premier League foloseau deja aceste informații în pregătirea meciurilor. Una dintre aceste echipe era Arsenal, iar Arsene Wenger declara cu doar 2 zile înainte de meciul de la Newcastle:

We analyse well after the game the number of chances and the number of expected goals we should score with the chances we create. At the moment we have a little deficit between the chances we create and the number of chances we score.”
https://www.arsenal.com/news/news-archive/20150827/

Arsene tocmai folosise în premieră noțiunea de expected goal, un indicator al calității ocaziilor create bazat pe date statistice. Acesta a fost ulterior popularizat și a devenit ‘mainstream’ în August 2017 când BBC Match Of The Day (MOTD – emisiunea fotbalistică cu istoria cea mai lungă din lume) a început să includă scorul xG în analiza de după fiecare meci al etapei:

Expected goals (xG)

Acest indicator asociază fiecărei ocazii de a marca un procentaj de reușită bazat pe date culese în sezoanele anterioare. BBC MOTD: “xG is essentially answering the question of whether a player should have scored from a certain opportunity.” Exemplu: dacă din analiza ultimelor câteva sezoane de Premier League reiese faptul că au fost convertite aproximativ 80% din penalty-uri, atunci xG-ul asociat unui penalty este 80% sau, mai simplu 0.8.
La finalul unei partide, se adună xG-urile asociate cu toate ocaziile obținându-se astfel un scor bazat pe xG. Acest scor poate conține numere zecimale, exemplu 2.01 la 1.70.

Pentru a asocia un xG cu toate tipurile de ocazii se ține cont de următorii factori:
– distanta de unde se trage la poarta
– unghiul sutului
– tipul sutului (cu piciorul, cu capul, etc)
– clear cut chance (ocazie de singur cu portarul, în care atacantul nu este jenat de niciun aparator)
– tipul de assist (cross, pasă în adâncime, pasă la întâlnire, etc)
– driblinguri (un apărător, mai mulți, portarul, etc)

Fiecare companie de football data analytics are propria metodologie de calcul a acestui indicator, bazată pe proprii factori și pe propriul eșantion de date. OptaSports – furnizorul de date pentru BBC MOTD – ia în calcul peste 300.000 de șuturi și ține cont de toți factorii de mai sus:

Sursa imagine: optasports.com

Modelul xG este caracterizat de două proprietăți esentiale:
1. are sens doar privit retrospectiv: nu oferă nicio prognoză legată de ocaziile viitoare.
2. se bazează pe date agregate, nu individuale. În exemplul cu xG=0.80 pentru un penalty, datele statistice se referă la suma penalty-urilor executate de toate echipele PL din ultimele câteva sezoane, nu doar la penalty-urile executate de echipa X sau de jucătorul Y.

Câteva exemple legate de xG

Sa revenim la analiza MOTD pentru Chelsea-Watford. Așa cum se vede din captura ecran MOTD, scorul bazat pe xG a fost 2.01 la 1.70 în favoarea lui Chelsea, în timp ce tabela de marcaj a arătat la final 4-2. Asta explică poate zâmbetul amar al antrenorului lui Watford, care simte că diferența de pe tabela a fost mai mare decât cea așteptată pe baza calității ocaziilor create. Punând scorul bazat pe xG într-un simulator statistic, concluzia este că Chelsea s-ar fi impus doar în 44% din cazuri, Watford în 27% iar în 29% din cazuri meciul s-ar fi terminat la egalitate.

Pentru a intege mai bine modelul xG, un punct de plecare foarte bun este articolul BBC care a introdus xG în urmă cu câteva luni (August 2017). Articolul conține și un quizz (pentru a înțelege mai bine procentajele de reușită) și un studiu de caz interesant – Juventus în sezonul 2015.

Dupa primele 10 etape, echipa marca mai puține goluri decât indica xG-ul. După etapa a 12-a, tendința s-a inversat și în final, Juventus a câștigat campionatul.

Parcursul lui Liverpool din sezonul curent este relativ similar. Cu excepția meciului de la Leicester (câștigat în pofida unui scor xG negativ) în restul meciurilor până în etapa a 10-a scorul xG a fost pozitiv. Egalurile cu Watford, Burnley, United și Newcastle au fost nemeritate conform modelului xG, dar după eșecul cu Tottenham scorurile xG au început să corespundă cu cele de pe tabela de marcaj.


Sursa xG: understat.com

Amatorii de statistică, probabilități și teoria jocurilor știu că atunci când arunci o monedă, șansele să cadă fața sau verso sunt întotdeauna 50%-50%, chiar dacă ești la a 10-a încercare și în primele 9 a căzut tot timpul fața (Gambler’s fallacy). Per total însă, după suficient de multe repetiții, cele două posibilități se vor egaliza. La fel și meciurile lui Liverpool: faptul că au obținut 4 egaluri în loc de 4 victorii nu oferă nicio garanție că următorul meci similar va fi automat câștigat. Însă scorul xG din acele meciuri spune că atâta timp cât nu se schimbă nimic în planul echipei (ex. sistem de joc, jucători cheie sau antrenor), după un număr suficient de mare de meciuri vor fi mai multe rezultate pozitive decât egaluri frustrante.

Recent BBC a publicat și o continuare a articolului care introducea xG. Concluziile legate de PL după primele 11 etape sunt:
– Pope (Burnley) are performanțele cele mai bune dintre toți portarii (a încasat doar 5 goluri în loc de 10.9 așteptate conform xG)
– Mignolet (Liverpool) are cel mai slab procentaj al intervențiilor (‘save rate’) – doar 54%
– Leicester stă mai bine decât o arată poziția în clasament: are cel mai mare xG relativ la numărul de șuturi (16.8 xG din 114 suturi)
– Tottenham are o apărare excelentă: conduce la capitolul ‘xG against’ (din 99 de șuturi încasate, xG against doar 6.91, actual goals against 7)
– Liverpool stă bine la numărul de șuturi încasate (doar 86), dar aceste șuturi au dus la cel mai pare procentaj de xG against (15%)
– Watford este echipa cea mai entertaining: are media de goluri așteptate pe meci mai ridicată – peste 3 (xG for și xG against numărate împreună).

Piramida DIKW

Modelul xG este interesant îndeosebi pentru comentatori și suporteri, dar nu aduce prea multă valoare pentru cluburi. Acestea au nevoie în primul rând de informații personalizate, nu agregate. Spre exemplu, Stoke nu va ține cont că xG-ul pentru un cross este sub 0.1 și va arunca nenumărate centrări către Crouch, la fel cum Coutinho va conținuă să tragă la poartă din afara careului de 16 metri știind că are un procentaj de reușită mai bun decât xG-ul implicit. În plus, dacă toți jucătorii ar ține cont de modelul xG atunci nu am mai vedea goluri precum cel marcat de Van la Parra in etapa 11:
van la parra

Este adevărat că atunci când modelul xG este la rândul lui agregat pe o perioada de timp mai lungă (că în cazul analizei BBC după etapa 11), se pot întrevedea soluții de tip ‘pansament’: Klopp trebuie să schimbe ceva în apărare, Leicester ar avea nevoie de un atacant de calitate iar Pope ar trebui poate convocat la naționala Angliei.

Dar cluburile de fotbal au nevoie de mai mult de atât. Au nevoie de date care să le ofere un avantaj competitiv și care pot da indicații legate de evenimente viitoare.

In teoria informației există piramida DIKW: Data, Information, Knowledge, Wisdom.
La bază se află datele, niște numere care luate în sine nu reprezintă nimic. Aceste date se transformă în informație atunci când sunt puse într-un anumit context. Mai sus în piramidă urmează nivelul cunoașterii: informația este procesată și combinată cu experiența anterioară. În fine, la ultimul nivel se află înțelepciunea (wisdom) – cea care folosește toate nivelurile anterioare pentru a facilita deciziile strategice.
Pana acum am explorat doar primele două niveluri ale piramidei: băiatul cu joystick culegea date, iar modelul xG transformă aceste date în informație.

Pentru a obține informații legate de evenimente viitoare (dincolo de soluțiile de tip ‘pansament’ furnizate de xG), cluburile trebuie să urce în piramida DIKW către ultimele 2 niveluri. Pentru asta au nevoie de o analiză personalizată a datelor, ceea ce în limbaj de specialitate se numește ‘football analytics’. Rory Campbell, fondatorul C&N Sporting Risk:

There is a big difference between data and analytics. Data are pieces of information – not necessarily numbers – about things that happened in the past. Analytics is using that information to help better predict the future. So if the data doesn’t have predictive utility, it’s useless. I don’t want to know happened in the past because it happened, I want to be better at predicting what is going to happen in the future.
The Independent

Football analytics și cluburile

In Marea Britanie există două mari companii care se ocupă cu ‘football analytics’: OptaSports și ProZone. Serviciile lor sunt folosite de marea majoritate a cluburilor din Premier League prin contracte individuale, însă cluburile mari își permit să aibă propriul departament pentru ‘football intelligence’. De notat este situația lui Arsenal care în 2012 a achiziționat StatDNA – o companie americană de sports analytics – după ce îi folosise serviciile în timpul sezonului 2011-2012.
In aceste condiții nu ar trebui să surprindă pe nimeni că:
– United are un departament dedicat pentru ‘Sport science’ cu posturi precum ‘Head of performance’ sau ‘Tactical analyst’
– City are angajați din mediul academic și analiști video dedicați
– Liverpool are în staff ‘Performance analyst’, ‘Scouting and recruitment analyst’ și ‘Technical performance director’. Acesta din urmă – Michael Edwards – a fost promovat în Noiembrie 2016 în postul de director sportiv:

Michael Edwards has been appointed as Liverpool Football Club’s sporting director. […] Edwards joined the club in November 2011, initially as head of analytics before he was subsequently promoted to director of technical performance and then, more recently, technical director.
liverpoolfc.com

Dar nu doar echipele bogate din PL folosesc o abordare științifică. Dimpotrivă, echipele mai mici sunt mai motivate să inoveze și recompensele sunt de multe ori spectaculoase. Spre exemplu, în 2009 Tony Bloom a devenit președintele Brighton and Hove Albion, echipa ce oscila până atunci între liga a 2-a și a 3-a în Anglia.
Jucator profesionist de poker și cu un trecut legat de pariuri, Bloom a dus echipa până în Premier League în 8 sezoane.

Very big better, Bloom has bought Brighton and Hove Albion, and if something works for you in one area you tend to apply those tendencies to another. From betting you become very good at using underlying profiles to predict performance, and that translates into knowing why teams are good or bad.
– Rory Campbell, C&N Sporting Risk

In fine, abordarea științifică nu este nouă și nici specifică Premier League. Unul dintre primii antrenori care au realizat potențialul folosirii computerelor în fotbal a fost Valeri Lobanovsky în anii ’70:

Valeri Lobanovsky, who earned a degree în thermal engineering, is credited with bringing science to the pitch.
He was among the first – if not the first – to realize the potential that lay with using computers in sport, for everything from tracking performance and conditions to simulating and modeling outcomes. This was at a time when the most advanced technology used by coaches around the world consisted of a whistle, a legal pad and a ballpoint pen. […] One can wonder what he might have achieved if he had had the modern technological, analytic and scientific tools he craved, rather than the rudimentary Soviet-era equipment
Greatest Managers, No. 8: Lobanovsky

Looking into the future

Revenind la ultimele 2 niveluri ale piramidei DIKW, este interesant de aflat care dintre informațiile furnizate de ‘big football data’ sunt analizate de către cluburi pentru a privi în viitor.
Inainte de a intra în câteva exemple, trebuie menționat că la aceste niveluri ale piramidei, în peisajul ‘football analytics’ apar și casele de pariuri, direct interesate în a anticipa evenimente ulterioare.

1. Scouting și anticiparea transferurilor reușite
Inainte de a face un transfer, departamentul de scouting al fiecărei echipe din PL analizează jucătorul din punct de vedere fizic, tehnic și tactic. Sunt monitorizați parametri individuali precum numărul de intercepții, distanța acoperită, precizia paselor sau numărul de ocazii create. La fel ca în Football Manager, acești parametri sunt căutați într-o baza de date: “Everton keep an eye on the ProScout7 database, which has profiles on almost 130,000 players in more than 130 countries.

Un exemplu interesant este cel al lui Salah: faptul că are o viteză apropiată de cea a sprinterilor a contribuit cu siguranță la aducerea lui la Liverpool unde Klopp apreciază jocul în viteză. “C&N Sporting Risk advised the successful transfer policy of Liverpool – Roberto Firmino, Sadio Mane, Mohamed Salah and Naby Keita – bear the marks of a data-driven approach.

2. Fitness – prevenirea accidentărilor
Benfica Lisabona nu stă așa de bine în Europa, dar pe plan intern a câștigat ultimele 4 ediții ale Primeira Liga. Mai important de atât, în ultimii 6 ani a vândut jucători în valoare de peste 300 milioane de euro. Toate astea se datorează în mare parte unui centru de juniori high-tech.

Until recently, the players went into the field and it was up to them,’ former Benfica and Portugal striker Nuno Gomes, now general manager of the Caixa Futebol Campus, told Wired. ‘Now, data is another tool to help us to improve the players and the team.’ […]
By using GPS tracking technology, experts can monitor players’ work rates on the training pitch. The trackers can follow player speed, distance covered, and average heart rate per game. This information can be used to predict injuries before they happen.
How Benfica uses technology and data science to be one of the world’s best football clubs

StatDNA face același lucru la Arsenal:

There are attempts to use the physical data the club gathers to help in injury prevention as well. The detail here is remarkable, too: gauging a player’s tiredness by measuring how long his foot is planted on the ground as he runs.
How Arsenal and Arsène Wenger Bought Into Analytics

3. FiveThirtyEight- Forecasts and Soccer Power Index (SPI)
fivethirtyeight.com este un website fondat de un statistician american (Nate Silver) care se ocupă cu analize și predicții pe teme politice, economice și sportive. Când vine vorba despre fotbal, folosește o metodologie proprie bazată în mare parte pe xG pentru a calcula și ajusta după fiecare etapă un index (SPI) asociat fiecărei echipe din campionatele puternice. Cu ajutorul acestui index, 538 prognozează periodic șansele fiecărei echipe din competițiile importante.

Sursa imagine: https://projects.fivethirtyeight.com/soccer-predictions/ – predicții valabile pe 10 Noiembrie 2017.

4. Penalty Shoot-Out
Un exemplu care demonstrează valoarea abordării ‘data-driven’ este legat de ordinea în care se execută loviturile de departajare.

Ignacio Palacios-Huerta, Professor of Game Theory at the London School of Economics, analysed the results of 212 penalty shoot-outs, taking in 2,106 penalties, and concluded that the team kicking first win 61% of shoot-outs; compared to 39% for the team kicking second.
http://www.soccernomics-agency.com/?p=612

Cu siguranță Prepeliță – căpitanul FCSB din August 2014 – nu cunoștea acest detaliu, așa că în timpul loviturilor de departajare contra Ludogorets, i-a lăsat pe bulgari să tragă primii, deși câștigase tragerea la sorți. Așa cum datele statistice sugerau, echipa bulgară s-a impus (chiar dacă în poartă a fost un jucător de câmp) și s-a calificat în grupele Champions League.

Mai nou acest avantaj a fost sesizat de către UEFA, și pentru o departajare cât mai echitabilă s-a trecut din acest an la sistemul ABBA (inspirat din tenis). A fost folosit pentru prima oară în istoria UEFA la turneul feminin U17 din Mai 2017 (unde echipa Germaniei a câștigat, că întotdeauna), iar în Anglia a fost introdus din acest sezon în League Cup (unde Manchester City a câștigat loviturile de departajare cu 4-1 contra Wolverhampton).

Concluzii

Fotbalul rămâne prin design un sport aleator.
Modelele statistice pot da indicații privitoare la cel mai probabil deznodământ al meciurilor, dar nu pot anticipa lebede negre precum Leicester, Grecia sau Portugalia.
Analizele asistate de tehnologie pot îmbunătăți performanțele unei echipe suficient cât să facă diferența dintre locul 17 și 18, dar nu pot ajuta o echipa din liga a doua să câștige peste noapte Champions League.
Analiza științifică ajută la înțelegerea unor pattern-uri: “It isn’t random what each team does from one game to the next. There are patterns. And the strength of mathematics is to change an activity into numbers and to spot patterns and predict things into the future.” Dar atunci când toate cluburile încep să folosească o abordare științifică, rezultatele tind să se egalizeze și avantajul competitiv devine mai puțin vizibil.

When Harry Redknapp was manager of Southampton, he turned to his analyst after a loss and said: “I’ll tell you what, next week, why don’t we get your computer to play against their computer and see who wins?”