Ανακεφαλαίωση
2025-11-06
Έστω ότι έχουμε μετρήσει τις μεταβλξητές \(X\) και \(Y\) σε ένα δείγμα μεγέθους \(n=100\) ατόμων.
Θέλουμε να χρησιμοποιήσουμε τις μετρήσεις τις \(X\) για να προβλέψουμε τις τιμές της \(Y\), χρησιμοποιώντας μία ευθεία γραμμή:
\[ y_i= \beta_0 +\beta_1 x_i + \epsilon_i, \ i=1,\dots,100 \]
Οι εκτιμήσεις \(\hat{\beta_0}\) και \(\hat{\beta_1}\) ελαχιστοποιούν τις σφάλματα.
“Σπάσαμε” την απόσταση \(y-\bar{y}\) στο άθροισμα (\(y-\hat{y}) + (\hat{y} - \bar{y})\)
Ορίσαμε τα αθροίσματα τετραγώνων:
\[ SS_{TOT} = SS_{REG} + SS_{RES} \]
Ορίσαμε τον συντελεστή προσδιορισμού ως
\[ R^2 = \frac{SS_{REG}}{SS_{TOT}} = \frac{SS_{REG}}{SS_{REG} + SS_{RES}} \]
Μας εξηγεί τι ποσοστό τις συνολικής διασποράς της \(Y\) εξηγείται από την παλινδρόμηση της \(Y\) με τη \(X\) (τη γραμμή).
Τις περισσότερες φορές έχουμε παραπάνω από μία μεταβλητές (π.χ. 4) τις οποίες θέλουμε να χρησιμοποιήσουμε για να “εξηγήσουμε” τη μεταβλητή \(Y\).
\[ y_i = \beta_0 + \beta_1x_1+\beta_2x_2+\beta_3x_3 + \beta_4x_4 + \epsilon_i \]
Συντελεστής προσδιορισμού:
\[ R^2 = \frac{SS_{REG}}{SS_{TOT}} \]
Το \(R^2\) μπορεί μόνο να αυξηθεί ή να παραμείνει το ίδιο όσο προσθέτουμε περισσότερα \(x\).
Η λύση είναι ο προσαρμοσμένος συντελεστής προσδιορισμού:
\[ R_{adj}^2 = 1 - \frac{n - 1}{(n - (k + 1))} (1 - R^2) \]
To \(R_{adj}^2\) “τιμωρεί” το μεγάλο πλήθος μεταβλητών.
Στόχος
Μία νέα μεταβλητή στο μοντέλο της γραμμικής παλινδρόμησης πρέπει να εξηγεί αρκετά μεγάλο μέρος της διασποράς της \(Y\) ώστε να αξίζει να συμπεριληφθεί.
Τρία πράγματα μπορεί να χρειαστεί να ελέγξουμε:
Η υπόθεση που θέλουμε να ελέγξουμε είναι:
\[ Η_0: \beta_1 = \beta_2 = \dots = \beta_k = 0 \]
Για τον έλεγχο της υπόθεσης χρησιμοποιούμε την ποσότητα:
\[ F^* = \frac{SS_{FULL}/df_{FULL}}{SS_{RES}/(n - k -1)} \]
Η υπόθεση που θέλουμε να ελέγξουμε είναι του τύπου:
\[ Η_0: \beta_5 = 0 \]
Για τον έλεγχο της υπολογίζουμε την ποσότητα
\[ \frac{\hat{\beta_5} - 0}{\hat{s(\beta)}} \sim t_{n-2} \]
Η υπόθεση που θέλουμε να ελέγξουμε είναι της μορφής:
\[ H_0: \beta_1 = \beta_2 = 0 \]
\[ F^* = \frac{\frac{SS_{RED} - SS_{FULL}}{df_{RED} - df_{FULL}}}{SSE_{FULL} - {df_{FULL}}} \]
Ορισμός
Ο μερικός συντελεστής προσδιορισμόυ μας δίνει το ποσοστό της διασποράς του \(Y\) που οι επιπλέον μεταβλητές το πλήρους μοντέλου εξηγούν η οποία δεν εξηγείται από το απλούστερο μοντέλο
\[ R^2_{FULL|RED} = \frac{SS_{RES}^{RED} - SS_{RES}^{FULL}}{SS_{RES}^{RED}} \]
Οι προϋποθέσεις ενός μοντέλου γραμμικής παλινδρόμησης είναι οι ακόλουθες:
Χρησιμοποιώντας τα δεδομένα της sample_data.csv υπολογίστε το μοντέλο γραμμικής παλινδρόμησης για την μέτρηση ικανότητας ανάγνωσης (child_reading_irt) με τις μεταβλητές:
child_gender)child_age)parent_read_to_child)socioeconomic_status)school_type)mother_education)father_education)
Αξίζει να προσθέσουμε την κοινωνικο/οικονομική κατάσταση στο μοντέλο;
Μήπως ένα μοντέλο μόνο με την ηλικία, την κοινωνικο/οικονομική κατάσταση, το φύλο είναι αρκετό;
Τι ποσοστό της διακύμανσης της ικανότητας της ανάγνωσης των παιδιών εξηγείται από τις υπόλοιπες μεταβλητές (συχνότητα που γονείς διαβάζουν στα παιδιά, μορφωτικό επίπεδο πατέρα/μητέρας, τύπος σχολείου) που δεν εξηγείται από το απλούστερο μοντέλο;
Ελέγξτε κατά πόσο το μοντέλο ικανοποιεί τις προϋποθέσεις της παλινδρόμησης.

Ποσοτικές Μέθοδοι | Παιδαγωγικό Τμήμα Νηπιαγωγών - ΠΔΜ