Calcolare la mediana in statistica
Nella Statistica descrittiva uno dei concetti base è rappresentato dalla mediana (c), che si calcola su una distribuzione o un insieme di valori. La si definisce come una misura statistica di tendenza centrale in quanto fornisce informazioni relative alla concentrazione del campione statistico che si esamina.
Anche se suonano simili bisogna fare attenzione a non confonderla con la media di una serie di valori. Questo secondo indicatore infatti si può determinare anche per un insieme statistico non ordinato a patto che ne sia nota la numerosità.
La definizione di mediana
La definizione di questo concetto è il valore medio di un insieme di osservazioni ordinate in senso crescente. Con “medio” si intende la misura che si viene a trovare al centro di questa successione ordinata, che spesso e volentieri non coincide con la media. Si dice infatti che è un indice di posizione per una successione di valori, e la divide visivamente in due gruppi.
Il primo si trova a sinistra della mediana ed è formato da tutte le misure minori o uguali rispetto alla mediana (possono esserci più valori identici nella successione). Invece il gruppo alla destra di questo valore è formato da quelli uguali o maggiori al suo. I due gruppi risultano quindi di pari numerosità.
Nel caso in cui abbiamo un insieme dispari di valori è facile individuare quello centrale.
Per capire quale sia la sua posizione è sufficiente usare la formula c = (n + 1)/2, dove n è il numero di misure del campione. Se invece abbiamo un numero pari di misure serve trovare i due valori centrali c1 e c2, che si troveranno con le formule c1 =n/2 e c2 = n/2 + 1. Una volta trovati i valori di c1 e c2 non resta che fare la loro media, quindi ricorrere al calcolo (c1 + c2)/2.
Due esempi pratici per capire
Passare dalla teoria alla pratica rende più semplice comprendere cosa sia la mediana, quindi prendiamo una serie Y di valori numerici interi.
Mettiamo Y = [3; 6; 8; 10; 13; 17; 24; 26; 29].
Come possiamo osservare si tratta di una serie già ordinata, perché i numeri si succedono in ordine crescente. Contandoli ricaviamo la numerosità n, che è pari a 9.
Dato che n è dispari possiamo usare la prima delle formule viste prima, perché avremo un solo valore al centro della successione.
Quindi facendo (9 + 1)/2 = 5, che corrisponde alla posizione che stiamo cercando. Partendo dal valore in posizione 1 (il 3) troviamo il numero 13 come quinto valore della successione. Se calcolassimo la media invece otterremmo una misura di gran lunga superiore, ossia 15,11.
Proviamo ora a calcolare la mediana di un insieme pari di valori, la successione X = [4; 7; 8; 12; 24; 19; 23; 30; 32; 35; 39; 43].
La numerosità qui è 12, dunque avremo due valori al centro della serie ordinata. In posizione centrale avremo quindi n/2 = 6, che è la posizione della prima misura, e n/2 + 1 = 7, quella dell’altra misura.
Quindi i valori 19 e 23, di cui possiamo fare la media ossia (19 + 23)/2 = 42/2 =21.
Calcolare c in una distribuzione di frequenze
Una volta ordinate le classi in ordine crescente bisogna riportare per ciascuna sia la frequenza assoluta che la frequenza cumulata (Φi) (somma fra l’assoluta e le frequenze delle classi precedenti). A questo punto si possono sommare le frequenze assolute (ΣΦi) di tutti gli intervalli della distribuzione e dividere il risultato per due. Il valore ottenuto dalla formula è la frequenza mediana (Φμe).
Questo valore andrà confrontato con la stima delle frequenze cumulate di ogni classe. Consideriamo per esempio il caso in cui il primo intervallo abbia Φi = 5, il secondo Φi = 10, il terzo Φi = 16. Il valore di Φμe risulterebbe pari a 15,5, ovvero compreso fra le frequenze delle classi numero 2 e 3. Il terzo intervallo sarebbe perciò la classe di Φμe.
La sensibilità della mediana
Un indice robusto
Questo permette di poterlo usare per avere più chiara la descrizione di un fenomeno quando la media tende a distorcerlo. L’esempio visto prima è un chiaro esempio di quando può verificarsi una situazioni di questo tipo.
Se invece un parametro presenta valori di media e mediana molto simili invece significa che la prima descrive in modo affidabile il fenomeno che si esamina. Spesso si usa anche la media ponderata. ossia un calcolo dove a ogni valore è assegnata una rilevanza specifica.