La statistica: cosa studia e come analizza i dati
La statistica è una disciplina matematica che gioca un ruolo cruciale nell’interpretazione del mondo che ci circonda, permettendoci di comprendere, analizzare e dare significato a grandi quantità di dati. In un’era definita dall’informazione, la capacità di trasformare dati grezzi in informazioni utili è più preziosa che mai, rendendo la statistica fondamentale in quasi ogni campo di studio e settore professionale, dalla ricerca scientifica al marketing, dalla politica sanitaria alla finanza.
La statistica si occupa della raccolta, dell’analisi, dell’interpretazione, della presentazione e dell’organizzazione dei dati. Attraverso l’uso di teorie probabilistiche e di metodi quantitativi, la statistica ci consente di estrarre tendenze, pattern e insight da insiemi di dati che altrimenti potrebbero sembrare caotici o insensati. Questo processo inizia con la definizione chiara di un problema o di un’ipotesi di ricerca, seguita dalla progettazione di un esperimento o di uno studio per la raccolta di dati pertinenti.
Una volta raccolti i dati, i metodi statistici vengono utilizzati per organizzarli in maniera significativa, spesso attraverso la creazione di tabelle, grafici e altre forme di rappresentazione visiva che facilitano la comprensione delle informazioni contenute. Questa fase di organizzazione dei dati è cruciale, poiché una buona visualizzazione può rivelare modelli e correlazioni che non sarebbero evidenti dai soli dati grezzi.
L’analisi dei dati è il cuore della statistica, dove i metodi matematici vengono applicati per testare ipotesi, valutare relazioni e fare previsioni. La statistica si divide in due grandi aree: la statistica descrittiva, che si concentra sulla descrizione e la sintesi delle caratteristiche principali di un insieme di dati; e la statistica inferenziale, che va oltre la mera descrizione per trarre conclusioni generali sulla popolazione da cui i dati sono stati campionati, basandosi sulla teoria della probabilità.
La statistica inferenziale utilizza concetti come il valore medio, la mediana, la moda, la varianza e lo scarto tipo per riassumere i dati e valutare la variabilità all’interno di un insieme di dati. Inoltre, metodi come i test di ipotesi, gli intervalli di confidenza e l’analisi della regressione permettono di stabilire la forza e la significatività delle relazioni tra le variabili, fornendo uno strumento potente per la decisione basata su prove concrete.
- Cos'è la statistica
- La popolazione e il campione statistico
- Quale campione scegliere in statistica
- Cos'è la frequenza dei dati
- Classi di frequenza dei dati
Cos’è la statistica
Cos’è la statistica? Ma soprattutto, a cosa serve la statistica?
La statistica ci permette di:
- raccogliere delle informazioni, dette anche dati;
- fare l’analisi dei dati, cioè lo studio dei dati raccolti.
Il mondo è pieno di informazioni, e le informazioni sono oro perché ci permettono di:
- fare una "fotografia" della situazione attuale per avere ben chiaro il problema che vogliamo studiare: statistica descrittiva;
- fare "previsioni" sul futuro, elaborando tutte le informazioni raccolte: statistica induttiva.
Raccogliere i dati è una parte fondamentale in statistica perché i dati sono la base dell’indagine statistica. Ovviamente, tutto dipende da quanti e quali dati siamo riusciti a raccogliere, ma anche da quello che ci interessa fare.
La popolazione e il campione statistico
La statistica è la scienza che raccoglie e studia i dati. Ma come raccogliamo i dati? È importante individuare la popolazione statistica e l’unità statistica, raccogliere i dati nelle tabelle e procedere con l’elaborazione.
Le indagini statistiche servono per prendere decisioni motivate in diversi campi. Se prendiamo (o riusciamo a prendere) tutti i dati che ci servono facciamo un’indagine sulla popolazione. Ad esempio, se vogliamo studiare i voti degli studenti di una classe, la popolazione è l’insieme di tutti i voti di tutti gli studenti.
Non è sempre possibile fare un’indagine statistica di questo tipo perché potremmo avere un grandissimo numero di dati! In questi casi, conviene scegliere un campione, cioè una parte della popolazione che vogliamo analizzare, in modo da poterla rappresentare in miniatura. Per esempio, per studiare i voti degli studenti di tutta Italia, possiamo considerare come campione i voti degli studenti delle scuole delle grandi città.
Quale campione scegliere in statistica
Un campione statistico permette di fare delle indagini statistiche su un numero minore di dati, non sulla popolazione intera (così risparmiamo soldi e tempo!).
Ci sono diversi modi per scegliere il campione da usare.
CAMPIONE CASUALE SEMPLICE
Un campione è casuale semplice se viene estratto (scelto) da una popolazione i cui elementi possono essere estratti tutti allo stesso modo.
Esempio: se la prof interroga usando i bigliettini (o i numeri delle pagine del libro), gli interrogati saranno un campione casuale semplice degli studenti della classe.
CAMPIONE CASUALE A STRATI
Un campione è casuale a strati se prima suddividiamo la popolazione in parti (dette strati) in base a una caratteristica e poi da ciascuna parte viene estratto un campione casuale con un numero di elementi proporzionale al numero di elementi di ciascuno strato.
Esempio: nella tua classe ci sono £$ 15 $£ femmine e £$ 10 $£ maschi. La prof vuole interrogare £$ 5 $£ persone, ma in proporzione alla suddivisione maschi/femmine. Allora crea due urne di bigliettini (una coi nomi dei maschi e una coi nomi delle femmine) ed estrae in base al numero totale degli studenti. Facciamo il rapporto tra il numero totale di maschi e il numero totale di studenti e abbiamo £$\dfrac{10}{25}=\dfrac{2}{5}$£. Quindi le femmine sono i £$\dfrac{15}{25}=\dfrac{3}{5}$£ della classe. Allora la prof estrarrà £$ 3 $£ bigliettini dall’urna delle femmine e £$ 2 $£ bigliettini da quella dei maschi.
È importante scegliere accuratamente un campione per poter fare un’indagine statistica coerente. Non possiamo concludere che tutti vanno male in matematica solo perché le ultime due verifiche della classe di Piero sono andate male. Cerchiamo di scegliere un campione adatto e soprattutto… Di non affrettare le conclusioni!
Cos’è la frequenza dei dati
La frequenza statistica rappresenta quante volte un dato è stato osservato o raccolto per la nostra indagine statistica.
La frequenza assoluta di un dato è il numero di volte che questo compare nella nostra osservazione. Spesso troviamo indicate delle percentuali nelle varie indagini statistiche. Che cosa rappresentano? La frequenza relativa! La otteniamo dividendo la frequenze assolute per il numero totale di dati osservati o raccolti. È rappresentata da una frazione che ha:
- al numeratore, la frequenza assoluta £$F$£;
- al denominatore, il totale dei dati a disposizione (cioè il numero di elementi della popolazione o del campione osservato) £$N$£.
E da dove salta fuori il £$ \% $£? La frequenza relativa £$f = \frac{F}{N}$£ viene spesso rappresentata in percentuale: semplicemente moltiplicando il risultato ottenuto per £$ 100 $£.
Possiamo osservare anche la frequenza cumulata, cioè la somma delle frequenze relative di tutti i dati osservati.
Una volta che abbiamo raccolto tutti i dati, possiamo riassumerli in una tabella per leggerli meglio e poi rappresentarli usando dei grafici.
Classi di frequenza dei dati
Spesso capita di avere a che fare con molti dati diversi. Ad esempio se dovessimo studiare le frequenza delle altezze degli studenti della tua scuola, avremmo molte altezze diverse con una frequenza bassa. Questo non ci permette di ricavare delle informazioni interessanti. Cosa possiamo fare?
Raggruppiamo i dati raccolti in insiemi più grandi chiamati classi. In questo modo possiamo fare uno studio migliore e più efficace. Suddividiamo l’insieme di tutti i dati raccolti in parti uguali e poi contiamo i dati che appartengono a ciascuna di queste classi.
È importante individuare il campo di variazione di tutti i dati, cioè individuare il valore più piccolo e quello più grande tra tutti i dati osservati: tutte le nostre osservazioni cadranno all’interno di questo campo. Poi possiamo suddividere questo campo in classi della stessa ampiezza.
Per le altezze, ad esempio, possiamo raggruppare in classi quelli la cui altezza è compresa tra £$155 \text{ cm}$£ e £$165 \text{ cm}$£, quelli tra £$165 \text{ cm}$£ e £$175 \text{ cm}$£ e così via.
Per calcolare la frequenza di ciascuna classe, basta sommare le singole frequenze dei dati che cadono in quella classe e il gioco è fatto!