Στατιστική στην Εκπαιδευτική Έρευνα

4ο μάθημα

Αλέξανδρος Ρέκκας

2025-10-31

Ανακεφαλαίωση

Εκατοστημόρια


Τα εκατοστημόρια είναι μέτρα σχετικής θέσης.
Μας λένε πού βρίσκεται μια συγκεκριμένη τιμή σε σχέση με τις υπόλοιπες τιμές του συνόλου δεδομένων.


Ορισμός
Το \(k\)-οστό εκατοστημόριο (συμβολίζεται \(P_k\)) είναι η τιμή κάτω από την οποία βρίσκεται το \(k\%\) των παρατηρήσεων.

Εκατοστημόρια

Άσκηση

Βρείτε το 78% εκατοστημόριο των παρακάτω 9 μετρήσεων

[10, 16, 18, 22, 25, 29, 30, 35, 65]

Εκατοστημόρια

Άσκηση

Βρείτε το διατεταρτημοριακό εύρος των προηγούμενων μετρήσεων:

[10, 16, 18, 22, 25, 29, 30, 35, 65]

Θηκόγραμμα (box plot)

Άσκηση

Κατασκευάστε το θηκόγραμμα των προηγούμενων μετρήσεων

[10, 16, 18, 22, 25, 29, 30, 35, 65]

Διασπορά

Απόκλιση

  • Απόκλιση είναι η απόσταση μιας παρατήρησης (\(x_i\)) από τη μέση τιμή (\(μ\))
  • Απόκλιση = \(x_i - \mu\)

Απόκλιση

Παράδειγμα: Δεδομένα [ 2, 4, 5, 6, 8 ] \(\rightarrow\) μέση τιμή \(\mu = 5\)

  • \(2 - 5 = -3\)
  • \(4 - 5 = -1\)
  • \(5 - 5 = 0\)
  • \(6 - 5 = +1\)
  • \(8 - 5 = +3\)

Πρόβλημα: Αν τα αθροίσουμε: \(-3 - 1 + 0 + 1 + 3 = 0\). Το άθροισμα των αποκλίσεων είναι πάντα μηδέν.

Τετράγωνο των Αποκλίσεων

Για να λύσουμε το πρόβλημα με τις αρνητικές τιμές, υψώνουμε κάθε απόκλιση στο τετράγωνο.


Άθροισμα Τετραγώνων (Sum of Squares - \(SS\)): \[ SS = \sum_{i=1}^n (x_i - \mu)^2 \]

Διασπορά (\(s^2\))

Η Διασπορά είναι απλά η μέση τετραγωνική απόκλιση.

  • Βρίσκουμε το “μέσο όρο” των τετραγωνικών αποκλίσεων.
  • Διαιρούμε το Άθροισμα Τετραγώνων (\(SS\)) με το μέγεθος του δείγματος (\(n\)).

\[ s^2 = \frac{\sum_{i=1}^n(x_i - \mu)^2}{n} = \frac{SS}{n} \]

Τυπική απόκλιση (\(s\))

  • Η μονάδα μέτρησης της διασποράς είναι “τετραγωνική”, π.χ. αν η \(X\) ήταν μετρημένη σε μέτρα, η διασπορά εκφράζεται σε τετραγωνικά μέτρα.
  • Παίρνουμε την τετραγωνική ρίζα της διασποράς για να επιστρέψουμε στις αρχικές μονάδες μέτρησης.
  • Αυτό είναι η τυπική απόκλιση (standard deviation).

Τυπική απόκλιση (\(s\))

Ορισμός: \[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i = 1}^n (x_i - \mu)^2}{n}} \]

Το πρόβλημα με τα δείγματα

Η πραγματική μέση τιμή (\(\mu\)) δεν είναι (σχεδόν) ποτέ γνωστή.


Την εκτιμούμε από το δείγμα ως

\[ \mu \sim \bar{x} = \frac{\sum_{i=1}^nx_i}{n} \]

Σε αυτήν την περίπτωση τείνουμε να υπο-εκτιμούμε τις αποκλίσεις.

Διόρθωση

Διασπορά:

\[ s^2 = \frac{\sum_{i=1}^n (x_i - \bar{x})^2}{n - 1} = \frac{SS}{n - 1} \]


Τυπική απόκλιση: \[ s = \sqrt{s^2} = \sqrt{\frac{\sum_{i = 1}^n(x_i - \bar{x})^2}{n - 1}} \]

Ευχαριστώ