Ανάλυση διακύμανσης (ANOVA)

Αλέξανδρος Ρέκκας

2025-12-12

Εισαγωγικά

Ορισμός

Η ανάλυση διακύμανσης είναι μία μέθοδος ελέγχου υποθέσεων για την αξιολόγηση διαφορών στις μέσες τιμές μεταξύ δύο ή περισσότερων ομάδων.

Ορολογίες

Η ανεξάρτητες μεταβλητές ονομάζονται παράγοντες (factors).


Οι διαφορετικές τιμές που μπορεί να πάρει ένας παράγοντας ονομάζονται επίπεδα (levels).

Ανάλυση διακύμανσης με έναν παράγοντα

Το πρόβλημα

Έρευνες έχουν δείξει ότι τα παιδιά μαθαίνουν καλύτερα όταν ο ενήλικας συμμετέχει ενεργά αλλά διακριτικά στο παιχνίδι τους. Θέλετε να το επιβεβαιώσετε πειραματικά.

Το πρόβλημα

Χωρίζετε τα παιδιά σε 3 ομάδες που παίζουν με τουβλάκια για 15 λεπτά, αλλά με διαφορετικό ρόλο του/της νηπιαγωγού:

  • Ομάδα 1: Ο/Η νηπιαγωγός είναι παρών/ούσα για ασφάλεια αλλά δεν μιλάει ούτε παρεμβαίνει.
  • Ομάδα 2: Ο/Η νηπιαγωγός δίνει συνεχώς εντολές.
  • Ομάδα 3: Ο/Η νηπιαγωγός ακολουθεί το ενδιαφέρον του παιδιού και κάνει ανοιχτές ερωτήσεις.

Το πρόβλημα

Μετράτε πόσες φορές το παιδί μίλησε ή απάντησε ολοκληρωμένα κατά τη διάρκεια του παιχνιδιού.

Ομάδα 1 Ομάδα 2 Ομάδα 3
6 8 10
7 9 11
8 10 12
9 11 13
10 12 14

Υποθέσεις

\[H_0: \mu_1 = \mu_2 = \mu_3\]

Η εναλλακτική υπόθεση λέει ότι ένα από τα \(\mu_1\), \(\mu_2\) και \(\mu_3\) διαφέρει.

Το στατιστικό

\[ F = \frac{\text{Διασπορα μεταξυ των ομαδων}}{\text{Διασπορα εντος των ομαδων}} \]

Διασπορά εντός των ομάδων

Η διασπορά εντός των ομάδων υπολογίζεται από τον τύπο:

\[ SS_{\text{ΕΝΤΟΣ}} = \sum SS_{\text{ΕΝΤΟΣ ΟΜΑΔΩΝ}} \]

Διασπορά μεταξύ των ομάδων

Μπορούμε να “σπάσουμε” τη συνολική διασπορά \(SS_{\text{ΣΥΝΟΛΙΚΗ}}\) στο παρακάτω άθροισμα:

\[ SS_{\text{ΣΥΝΟΛΙΚΗ}} = SS_{\text{ΕΝΤΟΣ}} + SS_{\text{ΜΕΤΑΞΥ}} \]

Είναι πιο εύκολο να υπολογίσουμε τη συνολική διασπορά και να λύσουμε ως προς \(SS_{\text{ΜΕΤΑΞΥ}}\).

\[ SS_{\text{ΣΥΝΟΛΙΚΗ}} = \sum{X^2} - \frac{(\sum X)^2}{n_1+n_2+n_3} \]

Διασπορά μεταξύ των ομάδων

Τότε η διασπορά μεταξύ των ομάδων θα είναι

\[ SS_{\text{ΜΕΤΑΞΥ}} = SS_{\text{ΣΥΝΟΛΙΚΗ}} - SS_{\text{ΕΝΤΟΣ}} \]

Μπορούμε πλέον να υπολογίσουμε το στατιστικό \(F\).

Κατανομή του στατιστικού \(F\)

Το στατιστικό \(F\) ακολουθεί την \(F\) κατανομή με βαθμούς ελευθερίας:

  • \(df_{\text{ΜΕΤΑΞΥ}} = \text{πληθος ομαδων} - 1\)
  • \(df_{\text{ΕΝΤΟΣ}} = \text{πληθος ατομων} - \text{πληθος ομαδων}\)

Γράφουμε \(F_{df_\text{ΜΕΤΑΞΥ};df_\text{ΕΝΤΟΣ}}\)

Έλεγχοι εκ των υστέρων (post-hoc)

Ακόμα και αν απορρίψουμε την \(H_0\) δεν μπρούμε να ξέρουμε ποια επίπεδα (levels) του παράγοντα (factor) διαφέρουν.


Αν είχαμε 3 ομάδες συνολικά, θα θέλαμε να συγκρίνουμε:

  • το \(\mu_1\) με το \(\mu_2\)
  • το \(\mu_1\) με το \(\mu_3\)
  • το \(\mu_2\) με το \(\mu_3\)

Έλεγχοι εκ των υστέρων (post-hoc)

ΠΡΟΣΟΧΗ

Όσο αυξάνουμε τα τεστ που πραγαμτοποιούμε, τόσο αυξάνουμε και την πιθανότητα για σφάλμα Τύπου I.


Χρειαζόμαστε μία μέθοδο η οποία θα ελέγχει το συνολικό σφάλμα Τύπου I.

Έλεγχος εκ των υστέρων: Tukey

\[ t_r = q \sqrt{\frac{MS_{\text{ΕΝΤΟΣ}}}{n}} \]

οπου \(n\) είναι το πλήθος των ατόμων σε κάθε ομάδα και

\[ MS_\text{ΕΝΤΟΣ} = \frac{SS_\text{ΕΝΤΟΣ}}{df_\text{ΕΝΤΟΣ}} \]

Το \(q\) είναι μία ποσότητα που θα μας δίνεται και ονομάζεται Studentized range.