UMPI DUMPI

Se vi chiedono di me, voi non mi conoscete.

Probabilmente ci sono già due tizi vestiti di nero, con la valigetta – hanno sempre la valigetta -, gli occhiali scuri e l’auricolare, in viaggio: stanno venendo a prendermi per rinchiudermi da qualche parte.

Motivo? Sto contravvenendo a un dikdat della Major League.

A San francisco, al primo pitchf/x summit, erano stati chiari: non usare i dati del sistema pitchf/x per valutare gli arbitri.

Io, invece, l’ho fatto e sto per raccontarvi il mio studio.

 

Vabbè, ecco la verità.

Non ci sono i due tizi alle mie calcagna.

Ross Paul e Justin Shaffer, emissari di Major League Baseball Advanced Media al summit, hanno diffidato i club MLB da compiere quel tipo di analisi, ma hanno aggiunto che, i “bloggers” indipendenti erano liberi di farlo.

Inoltre, vedrete, non additerò nessun arbitro come capace né come incompetente: di fatto non leggerete alcun nome, poiché le analisi sono state fatte a livello aggregato.

 

Ho preso in esame quasi 300mila lanci della stagione 2008, dunque non dovremo preoccuparci di problematiche legate a quantità di dati troppo piccole; si tratta di lanci in cui il battitore non ha sventolato la mazza. Sportvision, oltre a registrare, tramite il suo sistema di telecamere, la posizione in cui la palla ha attraversato il piatto, fornisce i limiti superiore e inferiore dell’area di strike relativa a ciascun battitore; pertanto è possibile determinare la chiamata corretta (strike o ball) per ogni lancio.

 

Ho anche raggruppato le palle non sventolate in nove categorie: alte interne, alte centrali, alte esterne, medie interne, medie centrali, medie esterne, basse interne, basse centrali e basse esterne.

Anziché spiegare i dettagli tecnici di questa classificazione, vi propongo un’immagine, che spero valga più di cinquanta parole.

 

Figura 1 - Suddivisione in nove zone.

 

Per valutare il comportamento della classe arbitrale ho usato alcune banalissime formule, che costituiscono la spina dorsale, nella statistica medica, per la valutazione dell’efficacia di test diagnostici.

Saranno esplicate man mano che le incontreremo.

 

Primo numero, per rispondere alla prima curiosità di chiunque: gli arbitri MLB chiamano correttamente l’86% dei lanci.

Se vi pare poco, considerate che nel classificare ogni palla in “teoricamente strike” o “teoricamente ball” non ho lasciato alcun margine di tolleranza: dentro di mezzo centimetro – strike; fuori di mezzo centimetro – ball.

E tenete conto che i lanciatori mirano proprio a quelle zone di confine.

Il mio parere è il seguente: gli uomini in blu lavorano bene.

L’accuratezza, ovviamente, l’abbiamo calcolata dividendo le chiamate corrette per le chiamate totali.

 

Introduciamo ora quattro nuove classi.

Quando nella statistica medica si valuta l’efficacia di un test diagnostico, i veri positivi sono le persone malate che il test ha riconosciuto come tali; nel nostro caso i veri positivi sono i lanci teoricamente strike che l’arbitro ha chiamato strike. Analogamente i veri negativi sono persone non malate per cui il test diagnostico fornisce (correttamente) esito negativo; per noi saranno ball teorici decretati dall’arbitro giustamente, ball.

Purtroppo quasi nessun test diagnostico è perfetto, pertanto esistono due conteggi (minimi, si spera, altrimenti, il test è poco utile o, peggio, dannoso) di errore: i falsi positivi, ovvero le persone sane risultate dal test malate, e i falsi negativi, ossia le persone malate classificate sane dallo strumento di diagnosi. Nell’analisi che seguirà, i falsi positivi sono ball teorici chiamati strike (arbitro generoso verso il lanciatore), i falsi negativi sono strike teorici chiamati ball (arbitro avaro).

 

  l'arbitro ha chiamato...
il lancio è... ball strike
ball vero negativo (VN) falso positivo (FP)
strike falso negativo (FN) vero positivo (VP)

Tabella 1 - Le quattro categorie di chiamata. Sono evidenziati gli errori.

 

La tabella seguente riporta la distinzione nelle quattro categorie di tutti i lanci considerati nel presente studio.

 

il lancio è... l'arbitro ha chiamato... Categoria di chiamata Numero lanci Percentuale
ball ball VN 185.084 63%
strike ball FN 16.875 6%
ball strike FP 25.370 9%
strike strike VP 68.627 23%

Tabella 2 - Tutti i lanci classificati secondo la correttezza della chiamata.  Sono evidenziati gli errori.

 

Il tasso di falsi negativi è del 20%, ossia ogni 100 strike teorici, 20 sono giudicati ball dall’arbitro; il tasso di falsi positivi è del 12%.

 

FN% = FN/(FN+VP), ovvero

tasso di falsi negativi = strike-chiamati-ball / strike-veri

 

FP% = FP/(FP+VN), ovvero

tasso di falsi positivi = ball-chiamati-strike / ball-veri

 

Inizialmente, guardando questi numeri, sono rimasto sorpreso dalla preponderanza dell’avarizia sulla generosità: pensavo a quante volte ho visto replay mostrare, con l’ausilio della K-Zone, palle passate ben al di fuori del piatto e decretate strike. Poi ho riflettuto sulla definizione del lato superiore dell’area e mi sono ricordato che pochi chiamano lo strike “alle lettere”: il limite superiore della maggior parte degli arbitri non è molto sopra la cintura.

 

Vediamo, dunque, la performance per location.

 

Location accuratezza FN% FP%
alta interna 90 32 6
alta centrale 85 15 15
alta esterna 88 25 10
media interna 83 16 18
media centrale 98 2 -
media esterna 76 5 32
bassa interna 88 62 3
bassa centrale 82 42 3
bassa esterna 89 42 6
tutti i lanci 86 20 12

Tabella 3 - Accuratezza ed errori per location del lancio.

 

Ok, abbiamo dato un po’ di numeri: ci forniscono diverse informazioni, alcune quasi scontate, altre (secondo me) abbastanza inattese.

 

Sul lato interno del piatto gli arbitri sbagliano più spesso che su quello esterno a favore dei battitori, indipendentemente dall’altezza del lancio: confrontate i tassi di falsi negativi a coppie (alta interna vs alta esterna, media interna vs media esterna, bassa interna vs bassa esterna); da che parte stanno tutti i valori più alti? Tutto secondo previsione, no?

 

Mi aspettavo più avarizia sui lanci alti, e in effetti, paragonando alto contro medio, in tutte e tre le zone del piatto il tasso di falsi negativi è maggiore in alto.

Sono invece stupito dei valori per la zona bassa: dalle parti delle ginocchia gli arbitri sono carissimi amici dei battitori.

La massima percentuale di falsi positivi, come mi aspettavo, è sui lanci esterni a media altezza.

 


 

Ho iniziato a scomporre i dati per braccio di lancio del pitcher e lato del box del battitore per verificare una mia supposizione. Gli arbitri, pensavo, sono più protettivi sul lato interno nei confronti dei battitori negli scontri destro contro destro e mancino contro mancino.

Motivo: la traiettoria è tale per cui la palla che coglie il filo interno, all’inizio del proprio tragitto appare addosso al battitore. Al contrario in uno scontro tra giocatori di “mano opposta”, un filo interno attraversa il piatto.

 

Ho cercato confronto per primo nello scontro mancino contro mancino, e l’ho trovato: i falsi negativi aumentano, rispetto alla tabella generale, sul lato interno, i falsi positivi sul lato esterno.

 

Location accuratezza FN% FP%
alta interna 89 55 4
alta centrale 86 18 11
alta esterna 84 22 15
media interna 85 22 11
media centrale 98 2 -
media esterna 73 4 37
bassa interna 83 57 3
bassa centrale 80 39 4
bassa esterna 91 40 5
tutti i lanci LvL 85 19 13
tutti i lanci (tab3) 86 20 12

Tabella 4 - Lanciatore mancino contro battitore mancino: accuratezza ed errori per location del lancio. Confrontare ogni location con la corrispondente nella tabella 3.

 

Rapidamente sono andato a caccia della prova decisiva alla mia ipotesi nel matchup destro-destro… rimanendo profondamente deluso. I dati parlano al contrario di quanto mi attendessi.

 

Location accuratezza FN% FP%
alta interna 91 27 6
alta centrale 84 15 16
alta esterna 86 26 11
media interna 83 9 22
media centrale 98 2 -
media esterna 80 7 27
bassa interna 83 53 7
bassa centrale 80 40 4
bassa esterna 92 44 3
tutti i lanci RvR 87 18 11
tutti i lanci (tab3) 86 20 12

Tabella 5 - Lanciatore destro contro battitore destro: accuratezza ed errori per location del lancio.

 

Naturalmente ho prodotto subito le tabelle per i due scontri incrociati.

 

Location accuratezza FN% FP%
alta interna 89 42 4
alta centrale 86 16 13
alta esterna 89 22 10
media interna 84 26 11
media centrale 97 3 -
media esterna 71 3 38
bassa interna 90 69 1
bassa centrale 84 43 2
bassa esterna 84 37 12
tutti i lanci RvL 84 21 14
tutti i lanci (tab3) 86 20 12

Tabella 6 - Lanciatore destro contro battitore mancino: accuratezza ed errori per location del lancio.

 

Location accuratezza FN% FP%
alta interna 88 22 10
alta centrale 84 15 16
alta esterna 91 31 7
media interna 80 10 25
media centrale 98 2 -
media esterna 82 7 23
bassa interna 90 61 3
bassa centrale 82 43 3
bassa esterna 86 45 7
tutti i lanci LvR 87 20 11
tutti i lanci (tab3) 86 20 12

Tabella 7 - Lanciatore mancino contro battitore destro: accuratezza ed errori per location del lancio.

 

Quindi, per aiutare i miei occhi a scorgere eventuali pattern, ho ulteriormente sintetizzato i risultati in quattro diagrammi.

 

Figura 2 - Performance degli arbitri nei vari matchup. I segni "+" indicano una zona che, rispetto alla media di tutti i lanci, è favorevole al lanciatore (maggior numero di FP e/o minor numero di FN); i segni "-"  indicano una zona che, rispetto alla media di tutti i lanci, è favorevole al battitore (maggior numero di FN e/o minor numero di FP).

 

Appare evidente che gli arbitri sono di manica più larga sul lato sinistro del piatto (visto dalla loro prospettiva), indipendentemente dalla mano preferita di lanciatore e battitore.

Non ho una spiegazione, ma qualche congettura si può tentare.

Sarei curioso di spulciare l’archivio di MLB.TV e annotare su quale spalla del  ricevitore si appoggia ciascun arbitro, e se il posizionamento cambia a seconda del battitore.

Mi piacerebbe anche conoscere il parere di un esperto di visione: è possibile che l’occhio predominante abbia un effetto su ciò che stiamo osservando?

In tal caso, però, non potremmo affinare la nostra analisi, perché Sportvision, tra la mole di preziose informazioni che ci regala, non include l’occhio prediletto di ciascun arbitro.

 


 

Un’altra idea che avevo, e che ho provato a verificare, riguarda il tipo di lancio: immaginavo fosse più facile giudicare una fastball con non una breaking ball.

Invece la palla veloce presenta il più basso valore di accuratezza (knuckleball a parte). L’elevato numero di falsi positivi è ciò che la contraddistingue; viceversa il cambio e la splitfiger sono i lanci su cui i lanciatori subiscono più torti.

 

Tipo di lancio Accuratezza FP% FN%
Fastball* 84 20 14
Curva 87 18 10
Slider 89 18 9
Cambio 88 24 9
Splitter 89 32 6
Cutter 87 19 12
Knuckleball 83 21 15
Four-Seamer* 82 24 14
Two-Seamer* 87 23 9
Tutti i lanci 86 20 12

Tabella 8 - Accuratezza ed errori per tipo di lancio.

*L'algoritmo di classificazione ideato da Ross Paul non distingueva, a inizio anno, le fastball in Four-Seamer e Two-Seamer (o sinker); solo verso fine stagione è stata implementata la distinzione.

 

Non ero convinto di questa difficoltà degli arbitri sulla fastball. In fondo, abbiamo visto che le diverse locations sono contraddistinte da vari gradi di accuratezza nelle chiamate; e la fastball non viene lanciata mirando allo stesso punto dello slider!

Pensateci.

Un power pitcher spara spesso la propria veloce all’altezza del torace (e il battitore sventola a vuoto qualche centimetro sotto la palla), invece uno slider, lanciato da un destro a un destro, solitamente deve “scappare” dal filo esterno.

Forse,allora, nella precedente tabella abbiamo confrontate palle alte con palle esterne (di nuovo!) piuttosto che fastball con slider.

 

In effetti la prossima griglia conferma il senso comune, riguardo a dove ogni palla viene lanciata.

 

location interna centrale esterna totale
alta Fa: 9%

Cu: 6%

Sl: 5%

Ca: 3%

Fa: 7%

Cu: 7%

Sl: 6%

Ca: 4%

Fa: 16%

Cu: 13%

Sl: 8%

Ca: 16%

Fa: 33%

Cu: 25%

Sl: 19%

Ca: 23%

media Fa: 9%

Cu: 6%

Sl: 6%

Ca: 4%

Fa: 8%

Cu: 9%

Sl: 7%

Ca: 5%

Fa: 19%

Cu: 14%

Sl: 16%

Ca: 18%

Fa: 31%

Cu: 46%

Sl: 53%

Ca: 50%

bassa Fa: 7%

Cu: 12%

Sl: 11%

Ca: 10%

Fa: 9%

Cu: 11%

Sl: 9%

Ca: 16%

Fa: 15%

Cu: 22%

Sl: 33%

Ca: 24%

Fa: 36%

Cu: 29%

Sl: 28%

Ca: 27%

totale Fa: 25%

Cu: 24%

Sl: 22%

Ca: 17%

Fa: 24%

Cu: 28%

Sl: 21%

Ca: 25%

Fa: 51%

Cu: 48%

Sl: 57%

Ca: 58%

 

Tabella 9 - Location dei vari tipi di lancio.

 

A questo punto avrei dovuto esplodere ulteriormente le stratificazioni, calcolando accuratezza, falsi positivi e falsi negativi, per ogni combinazione tipo di lancio/location.

Ho invece seguito un’altra via, per interrompere il gioco delle scatole cinesi in cui iniziavo già a perdermi.

Ho utilizzato una tecnica denominata “analisi di regressione logistica”, che abbiamo incontrato in precedenza parlando dell’efficacia del cambio.

Con questo mezzo, tutte le variabili sono prese in considerazione, e di ognuna è valutato l’effetto al netto delle altre. Nel nostro specifico caso, ad esempio, il confronto tra slider e fastball sarà purificato dalla componente location (nonché  tutte le altre).

La forma con cui vi riporto i risultati, una sintesi grafica di tre analisi (una sull’accuratezza, una sui falsi positivi, una sui falsi negativi), non è quella che verrebbe pubblicata su una rivista di statistica: ho voluto semplificare al massimo l’esito dell’analisi.

 

Situazione rispetto a... accuratezza FP% FN%
battitore destro battitore mancino + -  
lanciatore destro lanciatore mancino   +  
cambio fastball + - -
curva fastball + - -
slider fastball + - -
lancio alto lancio medio + - +
lancio basso lancio medio + -- ++
lancio interno lancio centrale - + -
lancio esterno lancio centrale - ++ -
conto 0-1 conto 0-0 + - -
conto 0-2 conto 0-0 + -- -
conto 1-0 conto 0-0   + -
conto 1-1 conto 0-0 + - -
conto 1-2 conto 0-0 + - -
conto 2-0 conto 0-0   + -
conto 2-1 conto 0-0 + -  
conto 2-2 conto 0-0 + - -
conto 3-0 conto 0-0   + -
conto 3-1 conto 0-0   -  
conto 3-2 conto 0-0 + - -

logistic

 

Eh, sì, pare proprio che la fastball dia dei problemi agli uomini in blu, indipendentemente dagli altri fattori che la accompagnano.

Noterete che ho buttato in pentola un’altra variabile: avreste mai detto che i lanciatori godono del beneficio del dubbio sul 2-0 e sul 3-0, mentre i battitori sono più aiutati quando hanno due strike sul groppone?

 

Una nota conclusiva.

L’analisi di regressione logistica suggerisce che gran parte della variabilità negli errori arbitrali non è spiegata dall’insieme delle variabili considerate.

Ciò può significare una di queste cose (o entrambe):

  1. Ci sono altre variabili importanti che non abbiamo considerato;
  2. La distribuzione degli errori arbitrali non può essere spiegata da un modello, ovvero gli sbagli avvengono in maniera del tutto casuale.

Commenti all'articolo.