Λογιστική παλινδρόμηση

Αλέξανδρος Ρέκκας

2025-11-13

Το πρόβλημα

Ορισμός του προβλήματος

Έστω ότι έχουμε παρατηρήσει τις μεταβλητές:

\(X\): το κοινωνικό/οικονομικό επίπεδο της οικογένειας
\(Y\): το παιδί γνωρίζει τα γράμματα

σε δείγμα μεγέθους \(n = 100\) ατόμων.

Η \(X\) είναι συνεχής.
H \(Y\) είναι δυαδική (ναι/όχι)

Ορισμός του προβλήματος

Λογιστική συνάρτηση

Λογιστική παλινδρόμηση

Ορισμός

Το μοντέλο της λογιστικής παλινδρόμησης έχει τη μορφή: \[ P(Y=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1X)}} \]

Ένας άλλος τρόπος γραφής του μοντέλου είναι: \[ \log\Big(\frac{P(Y = 1)}{1 - P(Y = 1)}\Big) = \beta_0 + \beta_1X \]

Ερμηνεία του μοντέλου

Ο λόγος \(P(Y = 1)/(1 - P(Y = 1))\) ονομάζεται λόγος συμπληρωματικών πιθανοτήτων (odds).

Άυξηση κατά μία μονάδα της τιμής της \(X\), συνεπάγεται αύξηση κατά \(\beta_1\) του λόγου συμπληρωματικών πιθανοτήτων της \(Y\).

Αξιολόγηση του μοντέλου

Συνάρτηση πιθανοφάνειας

Η συνάρτηση πιθανοφάνειας (likelihood function) μας δίνει την πιθανότητα εμφάνισης του δείγματος που συλλέχθηκε ως συνάρτηση των συντελεστών (\(\beta_0\) και \(\beta_1\)).

Συνήθως, δουλεύουμε με τον λογάριθμο της συνάρτησης πιθανοφάνειας:

\[ \text{log-likelihood} = \sum_{i = 1}^{100}[y_i\log(P(y_i)) + (1-y_i)\log(1-P(y_i))] \]

Απόκλιση

Για να αξιολογήσουμε ένα μοντέλο λογιστικής παλινδρόμησης χρησιμοποιούμε την απόκλιση (deviance):

\[ \text{Deviance} = -2\times\text{log-likelihood} \]

Την ποσότητα αυτή τη συμβολίζουμε με -2LL.

Δοκιμασία λόγου πιθανοφανειών

Για να αξιολογήσουμε αν είχε νόημα το μοντέλο που χρησιμοποιήσαμε χρησιμοποιούμε τον έλεγχο \(X^2\) .

Υπολογίζουμε το στατιστικό \[ \begin{aligned} \chi^2 &= (-2LL(\text{basic})) - (-2LL(\text{full})) \\ &= \operatorname{deviance}(\text{basic}) - \operatorname{deviance}(\text{full}) \end{aligned} \]

Οι βαθμοί ελευθερίας του ελέγχου είναι:

\[ \text{df} = k_{full} - k_{basic} \]

\(R^2\) στη λογιστική παλινδρόμηση

Δεν υπάρχει ακριβώς αντίστοιχο μέτρο με το \(R^2\) της γραμμικής παλινδρόμησης.

\[ R^2_{HL} = \frac{(\operatorname{-2LL}(\text{baseline})) - (\operatorname{-2LL}(\text{full}))}{\operatorname{-2LL}(\text{baseline})} \]