Nel 1947 il defunto scrittore britannico Stephen Potter coniò scherzosamente il termine «gamesmanship» per descrivere «l’arte di vincere partite senza in realtà barare». In effetti, gli atleti moderni, alimentati da ricompense esorbitanti, possono facilmente essere tentati da comportamenti immorali in gara. E gli atleti della domenica? Dopo aver letto alcuni post sui Social Network per le ultime gare di ultramaratona, ho voluto cercare di capire se effettivamente esistevano comportamenti scorretti anche in gare dove l’aspetto monetario è irrilevante. L’ho fatto partendo dai dati. Non sono un grande esperto di corsa di lunghe distanze, nonostante mi piaccia gareggiare ed ottenere piccole soddisfazioni. Ho corso una sola Ultra-maratona, la Wings for Life 2017, quindi non conosco perfettamente le dinamiche di questa tipologia di gare. Tuttavia, ora che sono «off» dalla corsa, mi sono ricordato del mio recente passato in cui preferivo utilizzare la tastiera del computer piuttosto che allenarmi. Quanto letto nelle ultime settimane mi ha fatto tornare la voglia di effettuare alcune analisi statistiche.
Consiglio di spegnere le notifiche del cellulare e dedicare 10 minuti alla lettura di quanto segue. Buon divertimento!
Passatore 2018: i furbetti del Negative Split
Approfittando del fatto che nel prossimo week-end si svolgerà la Comrades Marathon, una delle ultra-maratone più belle mai corse al mondo, con dei premi fantastici ed una bellissima cornice di pubblico, ho deciso di valutare se anche in Italia si verifica uno strano fenomeno oramai conosciuto nel paese Sudafricano, il taglio del percorso. I sudafricani lo chiamano cheating, «imbroglio». In Italia preferiamo il termine “furbetti” per denotare il comportamento di chi per scelta decide di non correre tutti i chilometri di una gara, nella fattispecie i 100 del Passatore.
Qualche anno fa un professore Sudafricano, Mark Dowdeswell, uno statistico della Wits University, ha cercato di stabilire statisticamente quanti furbetti avessero corso l’ultra Maratona che si svolge a Durban la prima settimana di Giugno. Analizzando i dati della Comrades Marathon 2013, Dowdeswell identificò almeno un gruppo di 20 atleti che avevano degli split negativi importanti: correvano cioè molto più velocemente nella seconda metà della gara. In una gara delle lunghe distanze, il negative split è un evento più improbabile che in una gara corta. Ovviamente Mark indicava solo incoerenze statistiche che per chi non ama o conosce la materia potevano sembrare soltanto dei pretesti per avere visibilità gratuita da parte del professore, al fine di vendere i suoi servizi statistici. Ed in effetti, nessuno è stato formalmente accusato e tolto dalla classifica dopo la pubblicazione dell’articolo.
Ed al Passatore? Succedono cose simili? Ce lo siamo chiesti nel week end scorso, adottando una metodologia modificata di quanto sviluppato 5 anni fa.
I dati, l’unica fonte «certa» di analisi
Prima di discutere i risultati dello studio, vorremmo sottolineare una premessa importante e doverosa. Quest’analisi statistica è stata possibile grazie al supporto di una serie di amici che negli anni hanno corso il Passatore ed hanno fornito consigli su come svolgere lo studio. Ringraziamo anche Cosimo Bertotto, il podista Tarantino che ha debuttato al Passatore quest’anno, per averci dato preziose indicazioni sulla gara e sui possibili tagli. Grazie alle nostre conoscenze statistiche e di data mining siamo riusciti a manipolare i dati grezzi per ottenere informazioni sintetiche. I dati sono presenti sul sito Endu.net, ma utilizzare il file Excel è possibile solamente a fini personali. Per questa ragione abbiamo usato uno script Python e il software R per visualizzare i risultati. In tal caso non è necessaria nessuna autorizzazione perché i dati sono visibili anche senza necessità di password. La nostra analisi è fatta tutta a livello aggregato, per evitare di creare polemiche inutili. L’obiettivo di quest’articolo è sensibilizzare gli organizzatori di gare di media e lunga distanza ad utilizzare la tecnologia per garantire una classifica più attendibile.
Per stabilire eventuali incongruenze nei dati, siamo partiti dai sette intermedi individuali e dal risultato finale. Abbiamo inizialmente confrontato il tempo in secondi di ogni podista alla Colla (dopo 48 km) ed all’arrivo a Faenza (dopo altri 52 km) e calcolato un rapporto per quantificare la variazione del tempo tra la prima e la seconda parte. Per esempio, il nostro amico Cosimo è transitato alla Colla in 6 h 59 minuti e ha completato la sua gara in 16 h e 3 minuti, ciò significa che ha sostanzialmente corso la seconda parte del 31 percento più lentamente. Per darvi un’idea, il vincitore della gara Andrea Zambelli ha corso la seconda parte lo 0 virgola 5 percento più lentamente, re Giorgio Calcaterra il 10 percento. Alleghiamo nel grafico i punti dei primi 30 per spiegare il concetto e darvi un’idea della difficoltà di correre più velocemente nella seconda metà di gara.
Viceversa, correndo gli ultimi 52 km in 6 ore e i primi 48 km in 7 ore, il podista otterrebbe uno split negativo di circa il 14 percento. Contrariamente alla Comrades Marathon non abbiamo una suddivisione esattamente uguale tra prima e seconda parte, ma considerando che la parte più difficile è la salita della Colla, la nostra approssimazione è accettabile. Inoltre come da tradizione, una volta raggiunta la cima, si perde giustamente tempo al ristoro per recuperare energie. Proprio perché la seconda parte è in discesa non abbiamo utilizzato la media al chilometro. Ciò implica che nel calcolo del «negative split» ci sia un margine dell’8%, ossia 4 km in più.
Si noti infine che nella lista dei 2426 arrivati al traguardo di Faenza, 49 passaggi intermedi non sono stati rilevati e in particolare 4 podisti non hanno un tempo intermedio alla Colla e quindi sono stati esclusi dall’analisi.
Passatore 2018: alcuni grafici che parlano da soli
Diamo un’occhiata alla distribuzione statistica del rapporto tra la seconda e la prima parte di gara.
La prima cosa da notare è che circa il 13% dei podisti ha corso la seconda parte almeno il 30% più lentamente della prima e che in media si è corso più lentamente di oltre il 15% la seconda parte. Possiamo inoltre vedere che solo una piccola percentuale dei partecipanti ottiene uno split negativo, delimitato nel grafico dalla linea verde continua. Questa è una percentuale piccola ma non piccolissima, ci saremmo aspettati molti meno podisti in grado di un exploit del genere. In effetti ben oltre il 7.7% dei podisti hanno corso gli ultimi 52 km più velocemente dei primi 48 km. Di primo acchito un dato sorprendente, soprattutto pensando a quanto succede in Maratona. Ma è proprio possibile?
Se un indizio non fa una prova, abbiamo approfondito anche il rapporto tra tempo di conclusione della gara e il negative split. Ci saremmo aspettati che i più allenati, i più veloci, sarebbero coloro che hanno un negative split più probabile. Sui grandi numeri, in effetti è così. Confrontando la distribuzione dei veloci (sotto le 11 ore) e dei “lenti” (sopra le 11 ore) si vede che, come la teoria prevederebbe, i più veloci hanno uno split negativo più probabile ed i più lenti uno più alto. Per chi non è avvezzo alla statistica, si noti che la densità è pari a 100 per entrambe le distribuzioni, ma i più lenti sono molto di più.
Ma se invece si prendono solo i dati dei top 30 e li si confronta con chi ha corso sotto le 11 ore, la sorpresa sui nostri volti si è subito materializzata. Prima di guardare l’istogramma vorremmo ricordare, come mostrato precedentemente, che nessuno dei primi 10 e 1 solo sui primi 30 sono riusciti ad ottenere uno split negativo. La domanda sorge spontanea: come mai i “veloci non top” hanno split negativi migliori dei top? al lettore la risposta.
Casi Estremi: come scoprire i furbetti?
Ma per sapere chi ha veramente barato, bisognerebbe analizzare la distribuzione degli estremi. In generale si analizzano gli outliers, ossia le più probabili incoerenze per stabilire se il modello analizzato è sensato. Per il Passatore, possiamo valutare due situazioni.
Valori positivi del rapporto sono normalissimi. Nella seconda parte di gara si corre decisamente più lentamente ed è fortemente probabile che una crisi avvenga per mancanza di energia o per debolezza psicologica. Oltre il 46 percento dei podisti ha corso la seconda parte almeno il 15 percento più lentamente della prima parte.
All’estremo opposto abbiamo situazioni in cui diversi podisti hanno corso la seconda parte molto più velocemente della prima. Specialmente se si è camminato nella salita della Colla (si veda però il seguito) possiamo indicarlo come evento statisticamente possibile, ma è sicuramente più strano e difficile da accettare. Anche Cosimo ha camminato nella salita e nonostante ciò ha corso il 31% più lentamente nella seconda parte. In effetti alcuni eventi sono più improbabili di altri, specialmente sui grandi numeri. Per esempio, ci sono 34 podisti che hanno corso la seconda parte tra il 7% ed il 20% più velocemente della prima. Ma è davvero possibile?
L’attento lettore potrebbe non condividere la nostra analisi. Chi cammina alla Colla per definizione avrà la tendenza a correre più velocemente nella seconda parte. Ma è proprio vero? I numeri tendono a smentire l’amico lettore. Confrontando il grafico normalizzato al km 31,5 con quello al quarantottesimo, noteremo una quasi perfetta correlazione (>90%) con lo split negativo definito precedentemente. I punti fuori dal grafico sono relative a prestazioni sospette, oppure a chi è entrato in crisi nella seconda parte di gara.
Conclusioni
Dopo aver analizzato tutti questi dati, siamo arrivati alla conclusione che ogni mondo è paese. Anche in Italia, così come in Sudafrica, è molto probabile che almeno 1 persona sia salita su una delle tante bici presenti al Passatore, soprattutto nella seconda parte di gara. Forse la nostra analisi è una grande semplificazione della realtà, ma c’è una probabilità non nulla che alcuni podisti abbiano imbrogliato approfittando dell’oscurità e della mancanza di controlli efficaci. È anche possibile, sebbene altamente improbabile, che alcuni di questi podisti con split negativo abbiano risparmiato tante energie nella prima parte per ottenere risultati migliori nella seconda.
Non ci sentiamo di accusare né di giustificare nessuno. Non abbiamo ricette magiche per evitare questo fenomeno, ma per il rispetto di chi si è allenato seriamente, di chi ha utilizzato la propria resilienza per arrivare al traguardo completamente con le proprie gambe, suggeriamo agli organizzatori di dotarsi di strumenti tecnologici per effettuare maggiori controlli.
Ora con l’Ultratrack di Polar oppure di Garmin l’analisi del tracciato è automatizzabile e i controlli molto efficaci. Per chi avesse già il GPS, si potrebbe offrire uno sconto sull’iscrizione, nel caso in cui il podista sia disposto a caricare il tracciato su un sito dedicato. Per chi non avesse un GPS, si potrebbe offrire in comodato d’uso un orologio di una delle principali aziende produttrici. Siamo sicuri che questa scelta sia un vantaggio per tutti e consenta una migliore trasparenza informativa. In alternativa, la maratona di Londra insegna, si potrebbe aggiungere al comitato organizzatore un giovane neo-laureato in statistica che, con poche righe di programma, aiuterebbe a trovare i (presunti) «cheaters».
Anche se con il beneficio del dubbio, vi assicuro che c’è una probabilità non nulla che qualche furbetto abbia corso il Passatore 2018 e appaia ancora in classifica.
Per approfondimenti
Per chi volesse approfondire alcuni argomenti discussi, alleghiamo alcuni links:
- L’analisi statistica dei maratoneti in Italia
- La mia Wings for Life 2017
- Il racconto del Passatore 2018 di Cosimo Bertotto
- Le analisi Statistiche della Comrades Marathon (in inglese)