Γραμμική παλινδρόμηση

Ανακεφαλαίωση

Αλέξανδρος Ρέκκας

2025-11-06

Απλή γραμμική παλινδρόμηση

Ορισμός

Έστω ότι έχουμε μετρήσει τις μεταβλξητές \(X\) και \(Y\) σε ένα δείγμα μεγέθους \(n=100\) ατόμων.

Θέλουμε να χρησιμοποιήσουμε τις μετρήσεις τις \(X\) για να προβλέψουμε τις τιμές της \(Y\), χρησιμοποιώντας μία ευθεία γραμμή:

\[ y_i= \beta_0 +\beta_1 x_i + \epsilon_i, \ i=1,\dots,100 \]

Οι εκτιμήσεις \(\hat{\beta_0}\) και \(\hat{\beta_1}\) ελαχιστοποιούν τις σφάλματα.

Ανάλυση διασποράς

“Σπάσαμε” την απόσταση \(y-\bar{y}\) στο άθροισμα (\(y-\hat{y}) + (\hat{y} - \bar{y})\)

Ορίσαμε τα αθροίσματα τετραγώνων:

\(SS_{TOT} = \sum(\bar{y} - y)^2\)
\(SS_{REG} = \sum(\bar{y} - \hat{y})^2\)
\(SS_{RES} = \sum(\hat{y} - y)^2\)

\[ SS_{TOT} = SS_{REG} + SS_{RES} \]

Αξιολόγηση της παλινδρόμησης

Ορίσαμε τον συντελεστή προσδιορισμού ως

\[ R^2 = \frac{SS_{REG}}{SS_{TOT}} = \frac{SS_{REG}}{SS_{REG} + SS_{RES}} \]

Μας εξηγεί τι ποσοστό τις συνολικής διασποράς της \(Y\) εξηγείται από την παλινδρόμηση της \(Y\) με τη \(X\) (τη γραμμή).

Πολλαπλή γραμμική παλινδρόμηση

Ορισμός

Τις περισσότερες φορές έχουμε παραπάνω από μία μεταβλητές (π.χ. 4) τις οποίες θέλουμε να χρησιμοποιήσουμε για να “εξηγήσουμε” τη μεταβλητή \(Y\).

\[ y_i = \beta_0 + \beta_1x_1+\beta_2x_2+\beta_3x_3 + \beta_4x_4 + \epsilon_i \]

Αξιολόγηση της παλινδρόμησης

Συντελεστής προσδιορισμού:

\[ R^2 = \frac{SS_{REG}}{SS_{TOT}} \]

Το \(R^2\) μπορεί μόνο να αυξηθεί ή να παραμείνει το ίδιο όσο προσθέτουμε περισσότερα \(x\).

Αξιολόγηση της παλινδρόμησης

Η λύση είναι ο προσαρμοσμένος συντελεστής προσδιορισμού:

\[ R_{adj}^2 = 1 - \frac{n - 1}{(n - (k + 1))} (1 - R^2) \]

To \(R_{adj}^2\) “τιμωρεί” το μεγάλο πλήθος μεταβλητών.

Στόχος

Μία νέα μεταβλητή στο μοντέλο της γραμμικής παλινδρόμησης πρέπει να εξηγεί αρκετά μεγάλο μέρος της διασποράς της \(Y\) ώστε να αξίζει να συμπεριληφθεί.

Έλεγχοι υποθέσεων

Τρία πράγματα μπορεί να χρειαστεί να ελέγξουμε:

Έλεγχος 1: Αξίζει να χρησιμοποιήσουμε παλινδρόμηση χρησιμοποιώντας οποιαδήποτε από τις μεταβλητές που διαθέτουμε;
Έλεγχος 2: Μήπως ο συντελεστής μίας συγκεκριμένης μεταβλητής είναι 0;
Έλεγχος 3: Μήπως ένα πιο απλό μοντέλο (με λιγότερες μεταβλητές) θα έκανε την ίδια δουλειά;

Έλεγχος 1

Η υπόθεση που θέλουμε να ελέγξουμε είναι:

\[ Η_0: \beta_1 = \beta_2 = \dots = \beta_k = 0 \]

Για τον έλεγχο της υπόθεσης χρησιμοποιούμε την ποσότητα:

\[ F^* = \frac{SS_{FULL}/df_{FULL}}{SS_{RES}/(n - k -1)} \]

Έλεγχος 2

Η υπόθεση που θέλουμε να ελέγξουμε είναι του τύπου:

\[ Η_0: \beta_5 = 0 \]

Για τον έλεγχο της υπολογίζουμε την ποσότητα

\[ \frac{\hat{\beta_5} - 0}{\hat{s(\beta)}} \sim t_{n-2} \]

Έλεγχος 3

Η υπόθεση που θέλουμε να ελέγξουμε είναι της μορφής:

\[ H_0: \beta_1 = \beta_2 = 0 \]

\[ F^* = \frac{\frac{SS_{RED} - SS_{FULL}}{df_{RED} - df_{FULL}}}{SSE_{FULL} - {df_{FULL}}} \]

Μερικός συντελεστής προσδιορισμού

Ορισμός

Ο μερικός συντελεστής προσδιορισμόυ μας δίνει το ποσοστό της διασποράς του \(Y\) που οι επιπλέον μεταβλητές το πλήρους μοντέλου εξηγούν η οποία δεν εξηγείται από το απλούστερο μοντέλο

\[ R^2_{FULL|RED} = \frac{SS_{RES}^{RED} - SS_{RES}^{FULL}}{SS_{RES}^{RED}} \]

Έλεγχος των προϋποθέσεων

Οι προϋποθέσεις ενός μοντέλου γραμμικής παλινδρόμησης είναι οι ακόλουθες:

Η μέση τιμή της \(Y\) για κάθε σετ των \((x_1, \dots, x_k)\) βρίσκεται πάνω στη γραμμή.
Τα σφάλματα είναι ανεξάρτητα.
Τα σφάλματα για κάθε σετ των \((x_1,\dots,x_k)\) είναι κανονικά κατανεμημένα.
Τα σφάλματα για κάθε σετ των \((x_1,\dots,x_k)\) έχουν ίσες διασπορές.

Παράδειγμα

Χρησιμοποιώντας τα δεδομένα της sample_data.csv υπολογίστε το μοντέλο γραμμικής παλινδρόμησης για την μέτρηση ικανότητας ανάγνωσης (child_reading_irt) με τις μεταβλητές:

Παράδειγμα

το φύλο (child_gender)
την ηλικία (child_age)
τη συχνότητα που οι γονείς διαβάζουν στα παιδιά (parent_read_to_child)
την κοινωνικο/οικονομική κατάσταση (socioeconomic_status)
το είδος τους σχολείου, δημόσιο/ιδιωτικό (school_type)
το μορφωτικό επίπεδο της μητέρας (mother_education)
το μορφωτικό επίπεδο του πατέρα (father_education)

Παράδειγμα

Τι ποσοστό της διασποράς της ικανότητας ανάγνωσης των παιδιών εξηγείται από το μοντέλο;
Έχει νόημα να κάνουμε την παλινδρόμηση;

Παράδειγμα

Αξίζει να προσθέσουμε την κοινωνικο/οικονομική κατάσταση στο μοντέλο;

Παράδειγμα

Μήπως ένα μοντέλο μόνο με την ηλικία, την κοινωνικο/οικονομική κατάσταση, το φύλο είναι αρκετό;

Παράδειγμα

Τι ποσοστό της διακύμανσης της ικανότητας της ανάγνωσης των παιδιών εξηγείται από τις υπόλοιπες μεταβλητές (συχνότητα που γονείς διαβάζουν στα παιδιά, μορφωτικό επίπεδο πατέρα/μητέρας, τύπος σχολείου) που δεν εξηγείται από το απλούστερο μοντέλο;

Παράδειγμα

Ελέγξτε κατά πόσο το μοντέλο ικανοποιεί τις προϋποθέσεις της παλινδρόμησης.