Σε τι βασίζεται η μέθοδος του κύριου συστατικού; Εφαρμογή της μεθόδου της κύριας συνιστώσας για την επεξεργασία πολυμεταβλητών στατιστικών δεδομένων. Εφαρμογή της Ανάλυσης Κύριων Στοιχείων

Μέθοδος κύριου στοιχείου(PCA - Principal component analysis) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων με τη μικρότερη απώλεια πληροφοριών. Εφευρέθηκε το 1901 από τον Karl Pearson και χρησιμοποιείται ευρέως σε πολλούς τομείς. Για παράδειγμα, για συμπίεση δεδομένων, "όραση υπολογιστή", αναγνώριση ορατού μοτίβου κ.λπ. Ο υπολογισμός των κύριων συνιστωσών μειώνεται στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Η μέθοδος του κύριου στοιχείου αναφέρεται συχνά ως Μεταμόρφωση Karhunen-Löwe(μετασχηματισμός Karhunen-Loeve) ή Ξενοδοχειακή μεταμόρφωση(ξενοδοχειακή μεταμόρφωση). Σε αυτό το θέμα εργάστηκαν επίσης οι μαθηματικοί Kosambi (1943), Pugachev (1953) και Obukhova (1954).

Το πρόβλημα της ανάλυσης κύριας συνιστώσας στοχεύει στην προσέγγιση (προσέγγιση) των δεδομένων από γραμμικές πολλαπλές μικρότερης διάστασης. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή πάνω στους οποίους η απόσταση ρίζας-μέσος τετραγώνου μεταξύ των σημείων είναι μέγιστη. Σε αυτή την περίπτωση, λειτουργεί κανείς με πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη δημιουργία στατιστικών δεδομένων.

Επιπλέον, το έργο της ανάλυσης του κύριου συστατικού μπορεί να είναι ο στόχος της κατασκευής για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή ενός τέτοιου ορθογώνιου μετασχηματισμού συντεταγμένων που, ως αποτέλεσμα, οι συσχετίσεις μεταξύ των επιμέρους συντεταγμένων θα εξαφανιστούν. Αυτή η έκδοση λειτουργεί με τυχαίες μεταβλητές.

Εικ.3

Το παραπάνω σχήμα δείχνει τα σημεία P i στο επίπεδο, p i είναι η απόσταση από το P i στην ευθεία AB. Ψάχνετε για μια ευθεία γραμμή ΑΒ ελαχιστοποιώντας το άθροισμα

Η μέθοδος των κύριων συνιστωσών ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης (προσέγγισης) ενός πεπερασμένου συνόλου σημείων με ευθείες γραμμές και επίπεδα. Για παράδειγμα, δίνεται ένα πεπερασμένο σύνολο διανυσμάτων. Για κάθε k = 0,1,...,n ? 1 μεταξύ όλων των k-διάστατων γραμμικών πολλαπλοτήτων σε ευρεθείσα τέτοια ώστε το άθροισμα των τετραγώνων αποκλίσεων του x i από το L k να είναι ελάχιστο:

που? Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα.

Οποιαδήποτε γραμμική πολλαπλή διαστάσεων k μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι στο i διατρέχουν την πραγματική γραμμή, ε; ορθοκανονικό σύνολο διανυσμάτων

πού είναι ο ευκλείδειος κανόνας; Ευκλείδειο γινόμενο κουκκίδας ή σε μορφή συντεταγμένων:

Λύση του προβλήματος της προσέγγισης για k = 0,1,...,n ; Το 1 δίνεται από ένα σύνολο ένθετων γραμμικών πολλαπλών

Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα κύριας συνιστώσας) και ένα διάνυσμα a 0 . Το διάνυσμα a 0 αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για το L 0:

Το αποτέλεσμα είναι ένα δείγμα μέσου όρου:

Γάλλος μαθηματικός Maurice Frechet Frechet Maurice Rene (09/02/1878 - 06/04/1973) - ένας εξαιρετικός Γάλλος μαθηματικός. Εργάστηκε στον τομέα της τοπολογίας και της συναρτησιακής ανάλυσης, της θεωρίας πιθανοτήτων. Συγγραφέας σύγχρονων εννοιών μετρικού χώρου, συμπαγούς και πληρότητας. Auth. το 1948 παρατήρησε ότι ο μεταβλητός ορισμός του μέσου όρου ως σημείου που ελαχιστοποιεί το άθροισμα των τετραγώνων αποστάσεων στα σημεία δεδομένων είναι πολύ βολικός για την κατασκευή στατιστικών σε έναν αυθαίρετο μετρικό χώρο και δημιούργησε μια γενίκευση της κλασικής στατιστικής για γενικούς χώρους, που ονομάζεται γενικευμένη μέθοδος ελάχιστων τετραγώνων.

Τα κύρια διανύσματα συστατικών μπορούν να βρεθούν ως λύσεις σε παρόμοια προβλήματα βελτιστοποίησης:

1) συγκεντρώστε τα δεδομένα (αφαιρέστε τον μέσο όρο):

2) βρείτε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα.

3) Αφαιρέστε από τα δεδομένα την προβολή στο πρώτο κύριο συστατικό:

4) βρείτε το δεύτερο κύριο συστατικό ως λύση στο πρόβλημα

Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές.

2k-1) Αφαιρέστε την προβολή στο (k ? 1)-ο κύριο στοιχείο (θυμηθείτε ότι οι προβολές στα προηγούμενα (k ? 2) κύρια συστατικά έχουν ήδη αφαιρεθεί):

2κ) βρίσκουμε κ-ο κύριοςσυστατικό ως λύση στο πρόβλημα:

Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές.

Ρύζι. 4

Το πρώτο κύριο συστατικό μεγιστοποιεί τη δειγματική διακύμανση της προβολής των δεδομένων.

Για παράδειγμα, ας υποθέσουμε ότι μας δίνεται ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων όπου ο αριθμητικός μέσος όρος του x i είναι μηδέν. Εργο? βρείτε έναν τέτοιο ορθογώνιο μετασχηματισμό σε ένα νέο σύστημα συντεταγμένων για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

1. Η δειγματική διακύμανση δεδομένων κατά μήκος της πρώτης συντεταγμένης (κύριο στοιχείο) είναι μέγιστη.

2. Η δειγματοληπτική διακύμανση δεδομένων κατά μήκος της δεύτερης συντεταγμένης (η δεύτερη κύρια συνιστώσα) είναι μέγιστη υπό την προϋπόθεση της ορθογωνικότητας προς την πρώτη συντεταγμένη.

3. Η δειγματοληπτική διασπορά δεδομένων κατά μήκος των τιμών της kth συντεταγμένης είναι μέγιστη υπό την προϋπόθεση της ορθογωνικότητας στο πρώτο k ? 1 συντεταγμένες;

Η δειγματική διακύμανση των δεδομένων κατά μήκος της κατεύθυνσης που δίνεται από το κανονικοποιημένο διάνυσμα a k είναι

(επειδή τα δεδομένα είναι κεντραρισμένα, η διακύμανση του δείγματος εδώ είναι ίδια με τη μέση τετραγωνική απόκλιση από το μηδέν).

Η επίλυση του προβλήματος της καλύτερης προσαρμογής αποδίδει το ίδιο σύνολο κύριων στοιχείων με την εύρεση ορθογώνιων προβολών με τη μεγαλύτερη σκέδαση, για έναν πολύ απλό λόγο:

και ο πρώτος όρος δεν εξαρτάται από ένα k .

Ο πίνακας μετατροπής δεδομένων σε κύρια στοιχεία δημιουργείται από τα διανύσματα "A" των κύριων στοιχείων:

Εδώ τα a i είναι ορθοκανονικά διανύσματα στηλών των κύριων συνιστωσών που είναι διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών, ενώ ο εκθέτης T σημαίνει μεταφορά. Ο πίνακας Α είναι ορθογώνιος: AA T = 1.

Μετά τον μετασχηματισμό, το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που καθιστά δυνατή την απόρριψη των υπόλοιπων και την εξέταση ενός χώρου μειωμένων διαστάσεων.

Η παλαιότερη μέθοδος επιλογής κύριου συστατικού είναι Ο κανόνας του Κάιζερ, Kaiser Johann Henrich Gustav (Kaiser Johann Henrich Gustav, 16/03/1853, Μπρέζνο, Πρωσία - 14/10/1940, Γερμανία) - ένας εξαιρετικός Γερμανός μαθηματικός, φυσικός, ερευνητής στον τομέα της φασματικής ανάλυσης. Auth. σύμφωνα με την οποία είναι σημαντικά εκείνα τα κύρια συστατικά για τα οποία

δηλαδή, το l i υπερβαίνει τη μέση τιμή του l (η μέση διακύμανση του δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας του Kaiser λειτουργεί καλά σε απλές περιπτώσεις όπου υπάρχουν πολλά κύρια στοιχεία με l i που είναι πολύ μεγαλύτερα από το μέσο όρο και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτό. Σε πιο περίπλοκες περιπτώσεις, μπορεί να δώσει πάρα πολλά σημαντικά κύρια στοιχεία. Εάν τα δεδομένα κανονικοποιηθούν στη διακύμανση του δείγματος μονάδας κατά μήκος των αξόνων, τότε ο κανόνας Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια στοιχεία είναι σημαντικά για τα οποία l i > 1.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των βασικών στοιχείων που απαιτούνται είναι σπασμένο κανόνα μπαστούνι, όταν το σύνολο των ιδιοτιμών (, i = 1,...n) που κανονικοποιούνται στο μοναδιαίο άθροισμα συγκρίνεται με την κατανομή των μηκών των θραυσμάτων ενός ζαχαροκάλαμου μοναδιαίου μήκους σπασμένο στο n ? 1ο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται ίσα σε όλο το μήκος του μπαστούνι). Αν L i (i = 1,...n) είναι τα μήκη των κομματιών του ζαχαροκάλαμου, αριθμημένα με φθίνουσα σειρά μήκους: , τότε η προσδοκία του L i:

Ας εξετάσουμε ένα παράδειγμα που συνίσταται στην εκτίμηση του αριθμού των κύριων συστατικών σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου στη διάσταση 5.

Ρύζι. 5.

Με τον κανόνα του σπασμένου καλάμια κ-ουένα ιδιοδιάνυσμα (με φθίνουσα σειρά ιδιοτιμών l i) αποθηκεύεται στη λίστα των κύριων συστατικών εάν

Το παραπάνω σχήμα δείχνει ένα παράδειγμα για την περίπτωση των 5 διαστάσεων:

l 1 =(1+1/2+1/3+1/4+1/5)/5; l 2 =(1/2+1/3+1/4+1/5)/5; l 3 \u003d (1/3 + 1/4 + 1/5) / 5;

l 4 \u003d (1/4 + 1/5) / 5; l 5 \u003d (1/5) / 5.

Για παράδειγμα, επιλεγμένο

0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα ενός σπασμένου μπαστουνιού, σε αυτό το παράδειγμα, πρέπει να μείνουν 2 κύρια εξαρτήματα:

Θα πρέπει μόνο να ληφθεί υπόψη ότι ο παραβιασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων συστατικών.

Μετά την προβολή στα πρώτα k κύρια στοιχεία c, είναι βολικό να ομαλοποιηθεί η διακύμανση της μονάδας (δείγμα) κατά μήκος των αξόνων. Η διασπορά κατά μήκος της i-ης κύριας συνιστώσας είναι ίση), επομένως για κανονικοποίηση είναι απαραίτητο να διαιρεθεί η αντίστοιχη συντεταγμένη με. Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Μετά την κανονικοποίηση, ο πίνακας συνδιακύμανσης προβολής δεδομένων γίνεται ενότητα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες τιμές και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τη σχέση ορθογωνικότητας διανύσματος). Η αντιστοίχιση από τον αρχικό χώρο δεδομένων στα πρώτα k κύρια στοιχεία μαζί με την κανονικοποίηση δίνεται από τον πίνακα

Είναι αυτός ο μετασχηματισμός που ονομάζεται συχνότερα μετασχηματισμός Karhunen-Loeve, δηλαδή η ίδια η μέθοδος των κύριων συστατικών. Εδώ το i είναι διανύσματα στηλών και ο εκθέτης T σημαίνει μεταθέτω.

Στις στατιστικές, όταν χρησιμοποιείται η μέθοδος των κύριων στοιχείων, χρησιμοποιούνται αρκετοί ειδικοί όροι.

Πίνακας Δεδομένων, όπου κάθε γραμμή είναι ένα διάνυσμα προεπεξεργασμένων δεδομένων (κεντρικά και σωστά κανονικοποιημένα), ο αριθμός των σειρών είναι m (ο αριθμός των διανυσμάτων δεδομένων), ο αριθμός των στηλών είναι n (η διάσταση του χώρου δεδομένων).

Φόρτωση Matrix(Φορτώσεις) , όπου κάθε στήλη είναι ένα διάνυσμα κύριας συνιστώσας, ο αριθμός των σειρών είναι n (διάσταση χώρου δεδομένων), ο αριθμός στηλών είναι k (ο αριθμός των διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Matrix χρέωσης(Βαθμολογίες)

όπου κάθε σειρά είναι η προβολή του διανύσματος δεδομένων σε k κύρια στοιχεία. αριθμός γραμμών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Βαθμολογίες Z)

όπου κάθε σειρά είναι η προβολή του διανύσματος δεδομένων στα k κύρια στοιχεία, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός γραμμών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτων (αποφάγια) (Σφάλματα ή υπολείμματα)

Βασικός τύπος:

Έτσι, η Μέθοδος Κύριων Συνιστωσών είναι μία από τις κύριες μεθόδους μαθηματικής στατιστικής. Ο κύριος σκοπός του είναι να διακρίνει την ανάγκη μελέτης συστοιχιών δεδομένων με ελάχιστη χρήση τους.

Σε μια προσπάθεια να περιγράψουν με ακρίβεια την περιοχή μελέτης, οι αναλυτές συχνά επιλέγουν μεγάλο αριθμό ανεξάρτητων μεταβλητών (p). Σε αυτήν την περίπτωση, μπορεί να προκύψει ένα σοβαρό σφάλμα: πολλές περιγραφικές μεταβλητές μπορούν να χαρακτηρίσουν την ίδια πλευρά της εξαρτημένης μεταβλητής και, ως αποτέλεσμα, να συσχετίζονται σε μεγάλο βαθμό μεταξύ τους. Η πολυσυγγραμμικότητα ανεξάρτητων μεταβλητών στρεβλώνει σοβαρά τα αποτελέσματα της μελέτης, επομένως θα πρέπει να εξαλειφθεί.

Η ανάλυση κύριας συνιστώσας (ως απλουστευμένο μοντέλο παραγοντικής ανάλυσης, καθώς αυτή η μέθοδος δεν χρησιμοποιεί μεμονωμένους παράγοντες που περιγράφουν μόνο μία μεταβλητή x i) σας επιτρέπει να συνδυάσετε την επιρροή μεταβλητών υψηλής συσχέτισης σε έναν παράγοντα που χαρακτηρίζει την εξαρτημένη μεταβλητή από μία μόνο πλευρά. Ως αποτέλεσμα της ανάλυσης που πραγματοποιήθηκε με τη μέθοδο των κύριων συνιστωσών, θα επιτύχουμε συμπίεση πληροφοριών στο απαιτούμενο μέγεθος, περιγραφή της εξαρτημένης μεταβλητής m (m

Πρώτα πρέπει να αποφασίσετε πόσους παράγοντες θα επισημάνετε σε αυτή τη μελέτη. Στο πλαίσιο της μεθόδου των κύριων συνιστωσών, ο πρώτος κύριος παράγοντας περιγράφει το μεγαλύτερο ποσοστό της διακύμανσης των ανεξάρτητων μεταβλητών, στη συνέχεια με φθίνουσα σειρά. Έτσι, κάθε επόμενο κύριο συστατικό, που προσδιορίζεται διαδοχικά, εξηγεί ένα όλο και μικρότερο μερίδιο της μεταβλητότητας των παραγόντων x i . Το καθήκον του ερευνητή είναι να προσδιορίσει πότε η μεταβλητότητα γίνεται πραγματικά μικρή και τυχαία. Με άλλα λόγια, πόσα κύρια στοιχεία πρέπει να επιλεγούν για περαιτέρω ανάλυση.

Υπάρχουν διάφορες μέθοδοι για την ορθολογική επιλογή του απαιτούμενου αριθμού παραγόντων. Το πιο χρησιμοποιημένο από αυτά είναι το κριτήριο Kaiser. Σύμφωνα με αυτό το κριτήριο, επιλέγονται μόνο εκείνοι οι παράγοντες των οποίων οι ιδιοτιμές είναι μεγαλύτερες από 1. Έτσι, ένας παράγοντας που δεν εξηγεί τη διακύμανση που ισοδυναμεί με τουλάχιστον τη διακύμανση μιας μεταβλητής παραλείπεται.



Ας αναλύσουμε τον Πίνακα 19 ενσωματωμένο στο SPSS:

Πίνακας 19. Συνολική επεξηγημένη διακύμανση

Συστατικό Αρχικές ιδιοτιμές Άθροισμα τετραγωνικών φορτίων περιστροφής
Σύνολο % διασπορά Σωρευτικό % Σύνολο % διασπορά Σωρευτικό %
διάσταση 0 5,442 90,700 90,700 3,315 55,246 55,246
,457 7,616 98,316 2,304 38,396 93,641
,082 1,372 99,688 ,360 6,005 99,646
,009 ,153 99,841 ,011 ,176 99,823
,007 ,115 99,956 ,006 ,107 99,930
,003 ,044 100,000 ,004 ,070 100,000
Μέθοδος εκχύλισης: Ανάλυση κύριου συστατικού.

Όπως φαίνεται από τον Πίνακα 19, σε αυτή τη μελέτη, οι μεταβλητές xi συσχετίζονται σε μεγάλο βαθμό μεταξύ τους (αυτό είχε επίσης εντοπιστεί νωρίτερα και φαίνεται από τον Πίνακα 5 "Συντελεστές συσχέτισης ζευγαριού"), και επομένως χαρακτηρίζουν την εξαρτημένη μεταβλητή Y σχεδόν από μία πλευρά: αρχικά, η πρώτη κύρια συνιστώσα εξηγεί το 90,7% της διακύμανσης xi , και μόνο η ιδιοτιμή που αντιστοιχεί στην πρώτη κύρια συνιστώσα είναι μεγαλύτερη από 1. Φυσικά, αυτό είναι ένα μειονέκτημα της επιλογής δεδομένων, αλλά αυτό το μειονέκτημα ήταν δεν είναι εμφανές κατά την ίδια την επιλογή.

Η ανάλυση στο πακέτο SPSS σας επιτρέπει να επιλέξετε μόνοι σας τον αριθμό των κύριων στοιχείων. Ας επιλέξουμε τον αριθμό 6 - ίσο με τον αριθμό των ανεξάρτητων μεταβλητών. Η δεύτερη στήλη του Πίνακα 19 δείχνει τα αθροίσματα των τετραγώνων των περιστροφικών φορτίων, από αυτά τα αποτελέσματα θα συμπεράνουμε τον αριθμό των παραγόντων. Οι ιδιοτιμές που αντιστοιχούν στα δύο πρώτα κύρια στοιχεία είναι μεγαλύτερες από 1 (55,246% και 38,396%, αντίστοιχα), επομένως, σύμφωνα με τη μέθοδο Kaiser, επιλέγουμε τα 2 πιο σημαντικά κύρια στοιχεία.

Η δεύτερη μέθοδος επιλογής του απαιτούμενου αριθμού παραγόντων είναι το κριτήριο «scree». Σύμφωνα με αυτή τη μέθοδο, οι ιδιοτιμές παρουσιάζονται με τη μορφή ενός απλού γραφήματος και επιλέγεται μια θέση στο γράφημα όπου η μείωση των ιδιοτιμών από αριστερά προς τα δεξιά επιβραδύνεται όσο το δυνατόν περισσότερο:

Εικόνα 3. Κριτήριο Scree

Όπως φαίνεται στο Σχήμα 3, η μείωση των ιδιοτιμών επιβραδύνεται ήδη από τη δεύτερη συνιστώσα, αλλά ο σταθερός ρυθμός μείωσης (πολύ μικρός) ξεκινά μόνο από την τρίτη συνιστώσα. Επομένως, τα δύο πρώτα κύρια στοιχεία θα επιλεγούν για περαιτέρω ανάλυση. Αυτό το συμπέρασμα είναι συνεπές με το συμπέρασμα που προέκυψε χρησιμοποιώντας τη μέθοδο Kaiser. Έτσι, επιλέγονται τελικά τα δύο πρώτα διαδοχικά ληφθέντα κύρια συστατικά.

Μετά την επισήμανση των κύριων συνιστωσών που θα χρησιμοποιηθούν σε περαιτέρω ανάλυση, είναι απαραίτητο να προσδιοριστεί η συσχέτιση των αρχικών μεταβλητών x i με τους ληφθέντες παράγοντες και, με βάση αυτό, να δοθούν τα ονόματα των συστατικών. Για ανάλυση, χρησιμοποιούμε τον πίνακα των συντελεστών φορτίων Α, τα στοιχεία του οποίου είναι οι συντελεστές συσχέτισης των παραγόντων με τις αρχικές ανεξάρτητες μεταβλητές:

Πίνακας 20. Πίνακας συντελεστικής φόρτισης

Στοιχεία μήτρας α
Συστατικό
Χ1 ,956 -,273 ,084 ,037 -,049 ,015
X2 ,986 -,138 ,035 -,080 ,006 ,013
Χ3 ,963 -,260 ,034 ,031 ,060 -,010
Χ4 ,977 ,203 ,052 -,009 -,023 -,040
Χ5 ,966 ,016 -,258 ,008 -,008 ,002
Χ6 ,861 ,504 ,060 ,018 ,016 ,023
Μέθοδος εκχύλισης: Ανάλυση κύριου συστατικού.
ένα. Εξαγόμενα συστατικά: 6

Σε αυτή την περίπτωση, η ερμηνεία των συντελεστών συσχέτισης είναι δύσκολη, επομένως, είναι αρκετά δύσκολο να ονομάσουμε τα δύο πρώτα κύρια στοιχεία. Επομένως, θα χρησιμοποιήσουμε περαιτέρω τη μέθοδο της ορθογώνιας περιστροφής του συστήματος συντεταγμένων Varimax, σκοπός της οποίας είναι η περιστροφή των παραγόντων με τέτοιο τρόπο ώστε να επιλέγεται η απλούστερη δομή παραγόντων για ερμηνεία:

Πίνακας 21. Συντελεστές ερμηνείας

Πίνακας περιστρεφόμενων συστατικών α
Συστατικό
Χ1 ,911 ,384 ,137 -,021 ,055 ,015
X2 ,841 ,498 ,190 ,097 ,000 ,007
Χ3 ,900 ,390 ,183 -,016 -,058 -,002
Χ4 ,622 ,761 ,174 ,022 ,009 ,060
Χ5 ,678 ,564 ,472 ,007 ,001 ,005
Χ6 ,348 ,927 ,139 ,001 -,004 -,016
Μέθοδος εκχύλισης: Ανάλυση κύριου συστατικού. Μέθοδος περιστροφής: Varimax με κανονικοποίηση Kaiser.
ένα. Η περιστροφή συνέκλινε σε 4 επαναλήψεις.

Ο Πίνακας 21 δείχνει ότι η πρώτη κύρια συνιστώσα σχετίζεται περισσότερο με τις μεταβλητές x1, x2, x3. και το δεύτερο - με τις μεταβλητές x4, x5, x6. Έτσι, μπορεί να συναχθεί το συμπέρασμα ότι όγκος επενδύσεων σε πάγια στοιχεία ενεργητικού στην περιοχή (μεταβλητή Υ)εξαρτάται από δύο παράγοντες:

- τον όγκο των ιδίων και των δανειακών κεφαλαίων που έλαβαν οι επιχειρήσεις της περιοχής για την περίοδο (το πρώτο στοιχείο, z1)·

- καθώς και για την ένταση των επενδύσεων των επιχειρήσεων της περιοχής σε χρηματοοικονομικά περιουσιακά στοιχεία και το ύψος των ξένων κεφαλαίων στην περιοχή (η δεύτερη συνιστώσα, z2).

Εικόνα 4. Scatterplot

Αυτό το γράφημα δείχνει απογοητευτικά αποτελέσματα. Στην αρχή της μελέτης, προσπαθήσαμε να επιλέξουμε τα δεδομένα έτσι ώστε η μεταβλητή Υ που προέκυψε να κατανεμηθεί κανονικά και πρακτικά τα καταφέραμε. Οι νόμοι κατανομής των ανεξάρτητων μεταβλητών απείχαν αρκετά από το κανονικό, αλλά προσπαθήσαμε να τους φέρουμε όσο το δυνατόν πιο κοντά κανονικός νόμος(επιλέξτε δεδομένα ανάλογα). Το σχήμα 4 δείχνει ότι η αρχική υπόθεση σχετικά με την εγγύτητα του νόμου κατανομής των ανεξάρτητων μεταβλητών με τον κανονικό νόμο δεν επιβεβαιώνεται: το σχήμα του νέφους πρέπει να μοιάζει με έλλειψη, στο κέντρο τα αντικείμενα πρέπει να βρίσκονται πιο πυκνά από ό,τι στις άκρες. Αξίζει να σημειωθεί ότι η δημιουργία ενός πολυμεταβλητού δείγματος στο οποίο όλες οι μεταβλητές κατανέμονται σύμφωνα με τον κανονικό νόμο είναι μια εργασία που μπορεί να γίνει με μεγάλη δυσκολία (εξάλλου, δεν έχει πάντα λύση). Ωστόσο, αυτός ο στόχος πρέπει να επιδιωχθεί: τότε τα αποτελέσματα της ανάλυσης θα είναι πιο ουσιαστικά και κατανοητά στην ερμηνεία. Δυστυχώς, στην περίπτωσή μας, όταν το μεγαλύτερο μέρος της εργασίας για την ανάλυση των συλλεγόμενων δεδομένων έχει γίνει, είναι μάλλον δύσκολο να αλλάξει το δείγμα. Αλλά περαιτέρω, σε επόμενες εργασίες, αξίζει να προσεγγίσουμε πιο σοβαρά την επιλογή ανεξάρτητων μεταβλητών και να φέρουμε τον νόμο της κατανομής τους όσο το δυνατόν πιο κοντά στο κανονικό.

Το τελευταίο στάδιο της ανάλυσης της κύριας συνιστώσας είναι η κατασκευή μιας εξίσωσης παλινδρόμησης για τις κύριες συνιστώσες (στην περίπτωση αυτή, για την πρώτη και τη δεύτερη κύρια συνιστώσα).

Χρησιμοποιώντας το SPSS, υπολογίζουμε τις παραμέτρους του μοντέλου παλινδρόμησης:

Πίνακας 22. Παράμετροι της εξίσωσης παλινδρόμησης της κύριας συνιστώσας

Μοντέλο Μη τυποποιημένοι συντελεστές Τυποποιημένοι συντελεστές t αξία
σι Std. Λάθος Βήτα
(Συνεχής) 47414,184 1354,505 35,005 ,001
Ζ1 26940,937 1366,763 ,916 19,711 ,001
Ζ2 6267,159 1366,763 ,213 4,585 ,001

Η εξίσωση παλινδρόμησης θα έχει τη μορφή:

y=47414.184 + 0.916*z1+0.213*z2,

(b0) (b1) (b2)

τότε. b0=47 414,184 δείχνει το σημείο τομής της άμεσης παλινδρόμησης με τον άξονα του προκύπτοντος δείκτη.

b1= 0,916 –με αύξηση της αξίας του παράγοντα z1 κατά 1, η αναμενόμενη μέση αξία του ποσού της επένδυσης σε πάγια στοιχεία ενεργητικού θα αυξηθεί κατά 0,916.

b2= 0,213 -με αύξηση της αξίας του συντελεστή z2 κατά 1, η αναμενόμενη μέση αξία του ποσού της επένδυσης σε πάγια στοιχεία ενεργητικού θα αυξηθεί κατά 0,213.

Σε αυτήν την περίπτωση, η τιμή tcr ("alpha"=0,001, "nu"=53) = 3,46 είναι μικρότερη από την τιμή tobs για όλους τους συντελεστές "beta". Επομένως, όλοι οι συντελεστές είναι σημαντικοί.

Πίνακας 24. Ποιότητα του μοντέλου παλινδρόμησης των κύριων συνιστωσών

Μοντέλο R R-τετράγωνο Ρυθμισμένο τετράγωνο R Std. σφάλμα εκτίμησης
διάσταση 0 .941a ,885 ,881 10136,18468
ένα. Προγνωστικά: (const) Z1, Z2
σι. Εξαρτημένη μεταβλητή: Υ

Ο Πίνακας 24 αντικατοπτρίζει τους δείκτες που χαρακτηρίζουν την ποιότητα του κατασκευασμένου μοντέλου, και συγκεκριμένα: R - πολλαπλός συντελεστής συσχέτισης - δείχνει ποια αναλογία της διακύμανσης Y εξηγείται από την παραλλαγή Z. R ^ 2 - το σύνολο προσδιορισμού - δείχνει το μερίδιο της εξηγούμενης διακύμανσης των αποκλίσεων Y από τη μέση τιμή του. Το τυπικό σφάλμα της εκτίμησης χαρακτηρίζει το σφάλμα του κατασκευασμένου μοντέλου. Ας συγκρίνουμε αυτούς τους δείκτες με αυτούς του μοντέλου παλινδρόμησης του νόμου ισχύος (η ποιότητά του αποδείχθηκε υψηλότερη από την ποιότητα του γραμμικού μοντέλου, επομένως το συγκρίνουμε με το μοντέλο ισχύος-νόμου):

Πίνακας 25. Μοντέλο παλινδρόμησης ποιότητας ισχύος

Έτσι, ο πολλαπλός συντελεστής συσχέτισης R και ο συντελεστής προσδιορισμού R^2 στο μοντέλο ισχύος είναι κάπως υψηλότεροι από ό,τι στο μοντέλο της κύριας συνιστώσας. Επίσης, το τυπικό σφάλμα του μοντέλου του κύριου εξαρτήματος είναι ΠΟΛΥ υψηλότερο από αυτό του μοντέλου ισχύος. Επομένως, η ποιότητα ενός μοντέλου παλινδρόμησης νόμου ισχύος είναι υψηλότερη από εκείνη ενός μοντέλου παλινδρόμησης που βασίζεται σε κύρια στοιχεία.

Ας επαληθεύσουμε το μοντέλο παλινδρόμησης των κύριων συνιστωσών, δηλ. να αναλύσουμε τη σημασία του. Ας ελέγξουμε την υπόθεση σχετικά με την ασημαντότητα του μοντέλου, υπολογίσουμε F(obs.) = 204.784 (υπολογισμένο στο SPSS), F(crit) (0.001; 2; 53) = 7.76. F(obs)>F(crit), επομένως, απορρίπτεται η υπόθεση για την ασημαντότητα του μοντέλου. Το μοντέλο είναι σημαντικό.

Έτσι, ως αποτέλεσμα της ανάλυσης συνιστωσών, διαπιστώθηκε ότι από τις επιλεγμένες ανεξάρτητες μεταβλητές xi, μπορούν να διακριθούν 2 κύριες συνιστώσες - z1 και z2, και το z1 επηρεάζεται περισσότερο από τις μεταβλητές x1, x2, x3 και z2 - από x4, x5, x6. Η εξίσωση παλινδρόμησης που βασίζεται στα κύρια στοιχεία αποδείχθηκε σημαντική, αν και είναι κατώτερη σε ποιότητα από την εξίσωση παλινδρόμησης ισχύος. Σύμφωνα με την εξίσωση παλινδρόμησης των κύριων συνιστωσών, το Y εξαρτάται θετικά τόσο από το Z1 όσο και από το Z2. Ωστόσο, η αρχική πολυσυγγραμμικότητα των μεταβλητών xi και το γεγονός ότι δεν κατανέμονται σύμφωνα με τον νόμο της κανονικής κατανομής μπορεί να παραμορφώσουν τα αποτελέσματα του κατασκευασμένου μοντέλου και να το καταστήσουν λιγότερο σημαντικό.

ανάλυση συστάδων

Το επόμενο στάδιο αυτής της μελέτης είναι η ανάλυση συστάδων. Το καθήκον της ανάλυσης συστάδων είναι να χωρίσει τις επιλεγμένες περιοχές (n=56) σε έναν σχετικά μικρό αριθμό ομάδων (συστάδες) με βάση τη φυσική τους εγγύτητα σε σχέση με τις τιμές των μεταβλητών x i. Κατά τη διεξαγωγή ανάλυσης συστάδων, υποθέτουμε ότι η γεωμετρική εγγύτητα δύο ή περισσότερων σημείων στο χώρο σημαίνει τη φυσική εγγύτητα των αντίστοιχων αντικειμένων, την ομοιογένειά τους (στην περίπτωσή μας, την ομοιογένεια των περιοχών ως προς τους δείκτες που επηρεάζουν τις επενδύσεις σε πάγια στοιχεία ενεργητικού).

Στο πρώτο στάδιο της ανάλυσης συστάδων, είναι απαραίτητο να προσδιοριστεί ο βέλτιστος αριθμός των κατανεμημένων συστάδων. Για να γίνει αυτό, είναι απαραίτητο να πραγματοποιηθεί ιεραρχική ομαδοποίηση - ο διαδοχικός συνδυασμός αντικειμένων σε συστάδες έως ότου απομείνουν δύο μεγάλα συμπλέγματα, που ενώνονται σε ένα στη μέγιστη απόσταση μεταξύ τους. Το αποτέλεσμα της ιεραρχικής ανάλυσης (συμπέρασμα για τον βέλτιστο αριθμό συστάδων) εξαρτάται από τη μέθοδο υπολογισμού της απόστασης μεταξύ των συστάδων. Έτσι, θα δοκιμάσουμε διάφορες μεθόδους και θα βγάλουμε τα κατάλληλα συμπεράσματα.

Μέθοδος πλησιέστερου γείτονα

Αν υπολογίσουμε την απόσταση μεταξύ μεμονωμένων αντικειμένων με έναν μόνο τρόπο - ως απλή Ευκλείδεια απόσταση - η απόσταση μεταξύ των συστάδων υπολογίζεται με διαφορετικές μεθόδους. Σύμφωνα με τη μέθοδο του πλησιέστερου γείτονα, η απόσταση μεταξύ των συστάδων αντιστοιχεί στην ελάχιστη απόσταση μεταξύ δύο αντικειμένων διαφορετικών συστάδων.

Η ανάλυση στο πακέτο SPSS προχωρά ως εξής. Αρχικά, υπολογίζεται ο πίνακας απόστασης μεταξύ όλων των αντικειμένων και, στη συνέχεια, με βάση τον πίνακα απόστασης, τα αντικείμενα συνδυάζονται διαδοχικά σε συμπλέγματα (για κάθε βήμα, ο πίνακας μεταγλωττίζεται εκ νέου). Τα βήματα της διαδοχικής συγχώνευσης παρουσιάζονται στον πίνακα:

Πίνακας 26 Βήματα συσσωμάτωσης. Μέθοδος πλησιέστερου γείτονα

Στάδιο Το σύμπλεγμα συγχωνεύτηκε με Πιθανότητα Επόμενο στάδιο
Συστάδα 1 Σύμπλεγμα 2 Συστάδα 1 Σύμπλεγμα 2
,003
,004
,004
,005
,005
,005
,005
,006
,007
,007
,009
,010
,010
,010
,010
,011
,012
,012
,012
,012
,012
,013
,014
,014
,014
,014
,015
,015
,016
,017
,018
,018
,019
,019
,020
,021
,021
,022
,024
,025
,027
,030
,033
,034
,042
,052
,074
,101
,103
,126
,163
,198
,208
,583
1,072

Όπως φαίνεται από τον Πίνακα 26, στο πρώτο στάδιο, τα στοιχεία 7 και 8 συνδυάστηκαν, καθώς η απόσταση μεταξύ τους ήταν ελάχιστη - 0,003. Επιπλέον, η απόσταση μεταξύ των συγχωνευμένων αντικειμένων αυξάνεται. Ο πίνακας δείχνει επίσης τον βέλτιστο αριθμό συστάδων. Για να το κάνετε αυτό, πρέπει να προσέξετε ποιο βήμα υπάρχει ένα απότομο άλμα στην τιμή της απόστασης και να αφαιρέσετε τον αριθμό αυτής της συσσωμάτωσης από τον αριθμό των υπό μελέτη αντικειμένων. Στην περίπτωσή μας: (56-53)=3 είναι ο βέλτιστος αριθμός συστάδων.

Εικόνα 5. Δενδρογράφημα. Μέθοδος πλησιέστερου γείτονα

Ένα παρόμοιο συμπέρασμα σχετικά με τον βέλτιστο αριθμό συστάδων μπορεί να γίνει κοιτάζοντας το δεντρόγραμμα (Εικ. 5): Θα πρέπει να επιλεγούν 3 συστάδες και το πρώτο σύμπλεγμα θα περιλαμβάνει αντικείμενα με αριθμό 1-54 (54 αντικείμενα συνολικά) και το δεύτερο και τρίτα συμπλέγματα - ένα αντικείμενο το καθένα (με αριθμό 55 και 56, αντίστοιχα). Αυτό το αποτέλεσμα υποδηλώνει ότι οι πρώτες 54 περιφέρειες είναι σχετικά ομοιογενείς ως προς τους δείκτες που επηρεάζουν τις επενδύσεις σε πάγια στοιχεία ενεργητικού, ενώ τα αντικείμενα με αριθμό 55 (Δημοκρατία του Νταγκεστάν) και 56 (περιφέρεια Νοβοσιμπίρσκ) ξεχωρίζουν σημαντικά από το γενικό υπόβαθρο. Αξίζει να σημειωθεί ότι αυτές οι οντότητες έχουν τους μεγαλύτερους όγκους επενδύσεων σε πάγια στοιχεία μεταξύ όλων των επιλεγμένων περιοχών. Το γεγονός αυτό αποδεικνύει για άλλη μια φορά την υψηλή εξάρτηση της μεταβλητής που προκύπτει (όγκος επενδύσεων) από τις επιλεγμένες ανεξάρτητες μεταβλητές.

Παρόμοιος συλλογισμός διεξάγεται και για άλλες μεθόδους υπολογισμού της απόστασης μεταξύ των συστάδων.

Μέθοδος Far Neighbor

Πίνακας 27 Βήματα συσσωμάτωσης. Μέθοδος Far Neighbor

Στάδιο Το σύμπλεγμα συγχωνεύτηκε με Πιθανότητα Στάδιο της πρώτης εμφάνισης του συμπλέγματος Επόμενο στάδιο
Συστάδα 1 Σύμπλεγμα 2 Συστάδα 1 Σύμπλεγμα 2
,003
,004
,004
,005
,005
,005
,005
,007
,009
,010
,010
,011
,011
,012
,012
,014
,014
,014
,017
,017
,018
,018
,019
,021
,022
,026
,026
,027
,034
,035
,035
,037
,037
,042
,044
,046
,063
,077
,082
,101
,105
,117
,126
,134
,142
,187
,265
,269
,275
,439
,504
,794
,902
1,673
2,449

Με τη μέθοδο του μακρινού γείτονα, η απόσταση μεταξύ των συστάδων υπολογίζεται ως η μέγιστη απόσταση μεταξύ δύο αντικειμένων σε δύο διαφορετικά συμπλέγματα. Σύμφωνα με τον Πίνακα 27, ο βέλτιστος αριθμός συστάδων είναι (56-53)=3.

Εικόνα 6. Δενδρογράφημα. Μέθοδος Far Neighbor

Σύμφωνα με το δενδρογράφημα, η βέλτιστη λύση θα ήταν επίσης η κατανομή 3 συστάδων: το πρώτο σύμπλεγμα θα περιλαμβάνει τις περιοχές με αριθμό 1-50 (50 περιοχές), το δεύτερο - με αριθμό 51-55 (5 περιοχές), το τρίτο - τον τελευταίο αριθμό περιοχής 56.

Μέθοδος κέντρου βάρους

Με τη μέθοδο του "κέντρου βάρους", η απόσταση μεταξύ των συστάδων λαμβάνεται ως η Ευκλείδεια απόσταση μεταξύ των "κέντρων βάρους" των συστάδων - ο αριθμητικός μέσος όρος των δεικτών τους x i .

Εικόνα 7. Δενδρογράφημα. Μέθοδος κέντρου βάρους

Το σχήμα 7 δείχνει ότι ο βέλτιστος αριθμός συστάδων είναι ο εξής: 1 σύμπλεγμα - 1-47 αντικείμενα. 2 σύμπλεγμα - 48-54 αντικείμενα (σύνολο 6). 3 σύμπλεγμα - 55 αντικείμενα. 4 σύμπλεγμα - 56 αντικείμενα.

Η αρχή της "μέσης σύνδεσης"

Σε αυτή την περίπτωση, η απόσταση μεταξύ των συστάδων είναι ίση με τη μέση τιμή των αποστάσεων μεταξύ όλων των πιθανών ζευγών παρατηρήσεων, με τη μία παρατήρηση να λαμβάνεται από ένα σύμπλεγμα και τη δεύτερη, αντίστοιχα, από μια άλλη.

Η ανάλυση του πίνακα βημάτων συσσωμάτωσης έδειξε ότι ο βέλτιστος αριθμός συστάδων είναι (56-52)=4. Ας συγκρίνουμε αυτό το συμπέρασμα με το συμπέρασμα που προκύπτει από την ανάλυση του δενδρογράμματος. Το σχήμα 8 δείχνει ότι το σύμπλεγμα 1 θα περιλαμβάνει αντικείμενα με αριθμό 1-50, σύμπλεγμα 2 - αντικείμενα 51-54 (4 αντικείμενα), σύμπλεγμα 3 - περιοχή 55, σύμπλεγμα 4 - περιοχή 56.

Εικόνα 8. Δενδρογράφημα. Μέθοδος "μέσης σύνδεσης"

ΕΦΑΡΜΟΓΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΥΡΙΟΥ ΣΤΟΙΧΕΙΟΥ

ΓΙΑ ΕΠΕΞΕΡΓΑΣΙΑ ΠΟΛΥΔΙΑΣΤΑΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Εξετάζονται τα θέματα επεξεργασίας πολυδιάστατων στατιστικών δεδομένων της αξιολόγησης της βαθμολογίας των μαθητών με βάση την εφαρμογή της μεθόδου των κύριων συνιστωσών.

Λέξεις-κλειδιά: πολυμεταβλητή ανάλυση δεδομένων, μείωση διαστάσεων, ανάλυση κύριου συστατικού, βαθμολογία.

Στην πράξη, συναντά κανείς συχνά μια κατάσταση όπου το αντικείμενο μελέτης χαρακτηρίζεται από ποικίλες παραμέτρους, καθεμία από τις οποίες μετριέται ή αξιολογείται. Η ανάλυση της αρχικής συστοιχίας δεδομένων που ελήφθη ως αποτέλεσμα της μελέτης πολλών αντικειμένων του ίδιου τύπου είναι ένα πρακτικά άλυτο έργο. Επομένως, ο ερευνητής χρειάζεται να αναλύσει τις συνδέσεις και τις αλληλεξαρτήσεις μεταξύ των αρχικών παραμέτρων για να απορρίψει ορισμένες από αυτές ή να τις αντικαταστήσει με μικρότερο αριθμό οποιωνδήποτε συναρτήσεων από αυτές, διατηρώντας, αν είναι δυνατόν, όλες τις πληροφορίες που περιέχονται σε αυτές.

Από αυτή την άποψη, προκύπτουν τα καθήκοντα μείωσης διαστάσεων, δηλ. η μετάβαση από τον αρχικό πίνακα δεδομένων σε έναν σημαντικά μικρότερο αριθμό δεικτών που επιλέγονται μεταξύ των αρχικών ή που λαμβάνονται με κάποιο μετασχηματισμό (με τη μικρότερη απώλεια πληροφοριών που περιέχονται στον αρχικό πίνακα ), και ταξινόμηση - διαχωρισμός των υπό εξέταση συλλογών αντικειμένων σε ομοιογενείς (κατά κάποια έννοια) ομάδες. Εάν, για μεγάλο αριθμό ετερογενών και στοχαστικά αλληλένδετων δεικτών, προέκυψαν τα αποτελέσματα μιας στατιστικής έρευνας ενός ολόκληρου συνόλου αντικειμένων, τότε για να λυθούν τα προβλήματα ταξινόμησης και μείωσης των διαστάσεων, θα πρέπει να χρησιμοποιηθούν τα εργαλεία της πολυμεταβλητής στατιστικής ανάλυσης, στο ιδίως, η μέθοδος των κύριων συστατικών.


Το άρθρο προτείνει μια τεχνική για την εφαρμογή της μεθόδου του κύριου στοιχείου για την επεξεργασία πολυμεταβλητών στατιστικών δεδομένων. Ως παράδειγμα, δίνεται η λύση του προβλήματος της στατιστικής επεξεργασίας των πολυμεταβλητών αποτελεσμάτων των αξιολογήσεων των μαθητών.

1. Ορισμός και υπολογισμός των κύριων συνιστωσών..png" height="22 src="> χαρακτηριστικά. Ως αποτέλεσμα, λαμβάνουμε πολυδιάστατες παρατηρήσεις, καθεμία από τις οποίες μπορεί να αναπαρασταθεί ως διανυσματική παρατήρηση

όπου https://pandia.ru/text/79/206/images/image005.png" height="22 src=">.png" height="22 src="> είναι το σύμβολο της λειτουργίας μεταφοράς.

Οι πολυδιάστατες παρατηρήσεις που προκύπτουν πρέπει να υποβάλλονται σε στατιστική επεξεργασία..png" height="22 src=">.png" height="22 src=">.png" width="132" height="25 src=">.png" width ="33" height="22 src="> επέτρεψε μετασχηματισμούς των χαρακτηριστικών που μελετήθηκαν 0 " style="border-collapse:collapse">

είναι η συνθήκη κανονικοποίησης.

– συνθήκη ορθογωνικότητας

Λήφθηκε με παρόμοιο μετασχηματισμό https://pandia.ru/text/79/206/images/image018.png" width="79" height="23 src="> και αντιπροσωπεύει τα κύρια στοιχεία. Από αυτά, σε περαιτέρω ανάλυση , εξαιρούνται οι μεταβλητές με ελάχιστη διακύμανση , π.χ. μήτρας είναι ίσες με τις διακυμάνσεις των κύριων συνιστωσών.

Έτσι, το πρώτο κύριο στοιχείο https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src="> είναι ένας τόσο κανονικοποιημένος-κεντρικός γραμμικός συνδυασμός αυτών των δεικτών , που μεταξύ όλων των άλλων παρόμοιων συνδυασμών, έχει την υψηλότερη διασπορά..png" width="12" height="22 src="> προσαρμοσμένο διάνυσμα μήτρας https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">.png" width="80" height="23 src= "> είναι ένας τόσο κανονικοποιημένος-κεντρικός γραμμικός συνδυασμός αυτών των δεικτών, ο οποίος δεν συσχετίζεται με https://pandia.ru/text/79/206/images/image013.png" width="80" height="23 src= ">. png" width="80" height="23 src="> μετρώνται σε διαφορετικές μονάδες, τότε τα αποτελέσματα της μελέτης που χρησιμοποιούν τα κύρια στοιχεία θα εξαρτηθούν σημαντικά από την επιλογή της κλίμακας και τη φύση των μονάδων μέτρησης , και οι προκύπτοντες γραμμικοί συνδυασμοί των αρχικών μεταβλητών θα είναι δύσκολο να ερμηνευτούν. Από αυτή την άποψη, με διαφορετικές μονάδες μέτρησης των αρχικών χαρακτηριστικών DIV_ADBLOCK310 ">


https://pandia.ru/text/79/206/images/image030.png" width="17" height="22 src=">.png" width="56" height="23 src=">. Μετά από έναν τέτοιο μετασχηματισμό, τα κύρια στοιχεία αναλύονται σε σχέση με τις τιμές https://pandia.ru/text/79/206/images/image033.png" width="17" height="22 src="> , που είναι επίσης ένας πίνακας συσχέτισης https://pandia.ru/text/79/206/images/image035.png" width="162" height="22 src=">.png" width="13" height=" 22 src="> προς Εγώ- η λειτουργία πηγής ..png" width="14" height="22 src=">.png" width="10" height="22 src="> ισούται με τη διακύμανση v- το κύριο συστατικόhttps://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> χρησιμοποιούνται για την ουσιαστική ερμηνεία των κύριων στοιχείων..png" πλάτος ="20" height="22 src=">.png" width="251" height="25 src=">

Για τους υπολογισμούς, οι διανυσματικές παρατηρήσεις συγκεντρώνονται σε ένα δείγμα μήτρας, στον οποίο οι σειρές αντιστοιχούν στα ελεγχόμενα χαρακτηριστικά και οι στήλες αντιστοιχούν στα αντικείμενα μελέτης (η διάσταση του πίνακα είναι https://pandia.ru/text/ 79/206/images/image043.png" width="348 "height="67 src=">

Αφού κεντράρουμε τα αρχικά δεδομένα, βρίσκουμε τον πίνακα συσχέτισης του δείγματος χρησιμοποιώντας τον τύπο

https://pandia.ru/text/79/206/images/image045.png" width="204" height="69 src=">

Στοιχεία διαγώνιου πίνακα https://pandia.ru/text/79/206/images/image047.png" width="206" height="68 src=">

Τα εκτός διαγώνια στοιχεία αυτού του πίνακα είναι δειγματοληπτικές εκτιμήσεις των συντελεστών συσχέτισης μεταξύ του αντίστοιχου ζεύγους χαρακτηριστικών.

Συνθέστε τη χαρακτηριστική εξίσωση για τον πίνακα 0 " style="margin-left:5.4pt;border-collapse:collapse">

Βρείτε όλες τις ρίζες του:

Τώρα, για να βρούμε τα συστατικά των κύριων διανυσμάτων, αντικαθιστούμε διαδοχικά αριθμητικές τιμές https://pandia.ru/text/79/206/images/image065.png" width="16" height="22 src=" >.png" width="102 "height="24 src=">

Για παράδειγμα, με https://pandia.ru/text/79/206/images/image069.png" width="262" height="70 src=">

Είναι προφανές ότι το προκύπτον σύστημα εξισώσεων είναι συνεπές λόγω ομοιογένειας και είναι αόριστο, δηλαδή έχει ένα άπειρο σύνολο λύσεων. Για να βρούμε τη μοναδική λύση που μας ενδιαφέρει, χρησιμοποιούμε τις ακόλουθες διατάξεις:

1. Για τις ρίζες του συστήματος, η σχέση μπορεί να γραφτεί

https://pandia.ru/text/79/206/images/image071.png" width="20" height="23 src="> – αλγεβρική προσθήκη ι-ο στοιχείο οποιουδήποτε Εγώη σειρά του πίνακα συστήματος.

2. Η παρουσία της συνθήκης κανονικοποίησης (2) διασφαλίζει τη μοναδικότητα της λύσης του εξεταζόμενου συστήματος εξισώσεων..png" width="13" height="22 src=">, προσδιορίζονται μοναδικά, εκτός από το ότι όλες Ωστόσο, τα πρόσημα των συστατικών ιδιοδιανύσματα δεν παίζουν σημαντικό ρόλο, καθώς η αλλαγή τους δεν επηρεάζει το αποτέλεσμα της ανάλυσης, μπορούν να χρησιμεύσουν μόνο για να υποδείξουν αντίθετες τάσεις στην αντίστοιχη κύρια συνιστώσα.

Έτσι, παίρνουμε το δικό μας διάνυσμα https://pandia.ru/text/79/206/images/image025.png" width="15" height="22 src=">:

https://pandia.ru/text/79/206/images/image024.png" width="12" height="22 src="> έλεγχος με ισότητα

https://pandia.ru/text/79/206/images/image076.png" width="503" height="22">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png" width="595" height="22 src=">

https://pandia.ru/text/79/206/images/image080.png" width="589" height="22 src=">

όπου https://pandia.ru/text/79/206/images/image082.png" width="16" height="22 src=">.png" width="23" height="22 src="> είναι οι τυποποιημένες τιμές των αντίστοιχων αρχικών χαρακτηριστικών.

Συνθέστε έναν ορθογώνιο γραμμικό πίνακα μετασχηματισμού https://pandia.ru/text/79/206/images/image086.png" width="94" height="22 src=">

Εφόσον, σύμφωνα με τις ιδιότητες των κύριων συνιστωσών, το άθροισμα των διακυμάνσεων των αρχικών χαρακτηριστικών είναι ίσο με το άθροισμα των διακυμάνσεων όλων των κύριων στοιχείων, τότε, λαμβάνοντας υπόψη το γεγονός ότι θεωρήσαμε κανονικοποιημένα αρχικά χαρακτηριστικά, μπορεί να εκτιμήσει ποιο μέρος της συνολικής μεταβλητότητας των αρχικών χαρακτηριστικών εξηγεί καθένα από τα κύρια συστατικά. Για παράδειγμα, για τα δύο πρώτα κύρια στοιχεία έχουμε:

Έτσι, σύμφωνα με το κριτήριο πληροφόρησης που χρησιμοποιείται για τα κύρια στοιχεία που βρέθηκαν από τον πίνακα συσχέτισης, τα πρώτα επτά κύρια στοιχεία εξηγούν το 88,97% της συνολικής μεταβλητότητας των δεκαπέντε αρχικών χαρακτηριστικών.

Χρησιμοποιώντας τη μήτρα γραμμικού μετασχηματισμού https://pandia.ru/text/79/206/images/image038.png" width="10" height="22 src="> (για τα πρώτα επτά κύρια στοιχεία):

https://pandia.ru/text/79/206/images/image090.png" width="16" height="22 src="> - ο αριθμός των διπλωμάτων που ελήφθησαν στο διαγωνισμό επιστημονικών και διατριβών· https:/ /pandia .ru/text/79/206/images/image092.png" width="16" height="22 src=">.png" width="22" height="22 src=">.png" πλάτος =" 22" height="22 src=">.png" width="22" height="22 src="> – βραβεία και έπαθλα που λαμβάνονται σε περιφερειακούς, περιφερειακούς και αστικούς αθλητικούς αγώνες.

3..png" width="16" height="22 src=">(αριθμός πιστοποιητικών με βάση τα αποτελέσματα συμμετοχής σε διαγωνισμούς επιστημονικών και διπλωματικών εργασιών).

4..png" width="22" height="22 src=">(βραβεία και βραβεία που λαμβάνονται σε πανεπιστημιακούς διαγωνισμούς).

6. Το έκτο κύριο στοιχείο συσχετίζεται θετικά με το DIV_ADBLOCK311">

4. Το τρίτο βασικό συστατικό είναι η δραστηριότητα των μαθητών στην εκπαιδευτική διαδικασία.

5. Η τέταρτη και έκτη συνιστώσα είναι η επιμέλεια των φοιτητών κατά το εαρινό και το φθινοπωρινό εξάμηνο, αντίστοιχα.

6. Η πέμπτη κύρια συνιστώσα είναι ο βαθμός συμμετοχής σε πανεπιστημιακούς αθλητικούς αγώνες.

Στο μέλλον, για τη διενέργεια όλων των απαραίτητων υπολογισμών κατά τον προσδιορισμό των κύριων στοιχείων, προτείνεται η χρήση εξειδικευμένων στατιστικών συστημάτων λογισμικού, όπως το STATISTICA, που θα διευκολύνει σημαντικά τη διαδικασία ανάλυσης.

Η διαδικασία προσδιορισμού των κύριων στοιχείων που περιγράφονται σε αυτό το άρθρο στο παράδειγμα της αξιολόγησης της βαθμολογίας των φοιτητών προτείνεται να χρησιμοποιηθεί για τη βεβαίωση πτυχιούχων και μεταπτυχιακών.

ΒΙΒΛΙΟΓΡΑΦΙΑ

1. Εφαρμοσμένες στατιστικές: Ταξινόμηση και μείωση διαστάσεων: Αναφ. εκδ. / , ; εκδ. . - Μ.: Οικονομικά και στατιστική, 1989. - 607 σελ.

2. Εγχειρίδιο εφαρμοσμένης στατιστικής: σε 2 τόμους: [αν. από τα αγγλικά] / επιμ. E. Lloyd, W. Lederman, . - Μ.: Οικονομικά και στατιστική, 1990. - Τ. 2. - 526 σελ.

3. Εφαρμοσμένες στατιστικές. Βασικές αρχές Οικονομετρίας. Σε 2 τόμους Τ.1. Θεωρία πιθανοτήτων και εφαρμοσμένες στατιστικές: σπουδές. για πανεπιστήμια / , V. S. Mkhitaryan. - 2η έκδ., Rev. - M: UNITY-DANA, 2001. - 656 p.

4. Afifi, A. Statistical analysis: a computer-assisted προσέγγιση: [μτφρ. από τα αγγλικά] / A. Afifi, S. Eisen. - M .: Mir, 1982. - 488 p.

5. Dronov, στατιστική ανάλυση: σχολικό βιβλίο. επίδομα / . - Μπάρνα 3. – 213 σελ.

6. Anderson, T. Εισαγωγή στην πολυμεταβλητή στατιστική ανάλυση / T. Anderson; ανά. από τα Αγγλικά. [και τα λοιπά.]; εκδ. . - Μ .: Πολιτεία. Εκδοτικός Οίκος Φυσ.-Μαθηματ. λιτ., 1963. - 500 σελ.

7. Lawley, D. Η παραγοντική ανάλυση ως στατιστική μέθοδος / D. Lawley, A. Maxwell; ανά. από τα Αγγλικά. . – Μ.: Μιρ, 1967. – 144 σελ.

8. Dubrov, στατιστικές μέθοδοι: σχολικό βιβλίο /,. - Μ.: Οικονομικά και στατιστική, 2003. - 352 σελ.

9. Kendall, M. Multivariate statistical analysis and time series / M. Kendall, A. Stuart· per. από τα Αγγλικά. , ; εκδ. , . – Μ.: Nauka, 1976. – 736 σ.

10. Beloglazov, Analysis in Problems of qualimetry of Education, Izv. ΕΤΡΕΞΑ. Θεωρία και συστήματα ελέγχου. - 2006. - Αρ. 6. - S. 39 - 52.

Το υλικό ελήφθη από τη συντακτική επιτροπή στις 8 Νοεμβρίου 2011.

Η εργασία πραγματοποιήθηκε στο πλαίσιο του ομοσπονδιακού προγράμματος στόχου "Επιστημονικό και επιστημονικό-παιδαγωγικό προσωπικό της καινοτόμου Ρωσίας" για την περίοδο 2009-2013. (κρατική σύμβαση Αρ. Π770).

Μέθοδος κύριου στοιχείου

Μέθοδος κύριου στοιχείου(Αγγλικά) Ανάλυση κύριου συστατικού, PCA ) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων, χάνοντας τη μικρότερη ποσότητα πληροφοριών. Εφευρέθηκε από τον K. Pearson (Eng. Καρλ Πίρσον ) στο δ. Χρησιμοποιείται σε πολλούς τομείς, όπως η αναγνώριση προτύπων, η όραση υπολογιστή, η συμπίεση δεδομένων κ.λπ. Ο υπολογισμός των κύριων στοιχείων περιορίζεται στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Μερικές φορές καλείται η μέθοδος του κύριου συστατικού Μεταμόρφωση Karhunen-Loeve(Αγγλικά) Karhunen-Loeve) ή τον μετασχηματισμό Hotelling (eng. Ξενοδοχειακή μεταμόρφωση). Άλλοι τρόποι μείωσης της διάστασης δεδομένων είναι η μέθοδος των ανεξάρτητων στοιχείων, η πολυδιάστατη κλίμακα, καθώς και πολλές μη γραμμικές γενικεύσεις: η μέθοδος των κύριων καμπυλών και πολλαπλών, η μέθοδος των ελαστικών χαρτών, η αναζήτηση της καλύτερης προβολής (eng. Επιδίωξη προβολής), μέθοδοι νευρωνικών δικτύων του «σημαδιού συμφόρησης» κ.λπ.

Επίσημη δήλωση του προβλήματος

Το πρόβλημα ανάλυσης κύριου στοιχείου έχει τουλάχιστον τέσσερις βασικές εκδόσεις:

  • κατά προσέγγιση δεδομένα με γραμμικές πολλαπλές μικρότερης διάστασης.
  • βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη.
  • Βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η απόσταση ρίζας-μέσος τετραγώνου μεταξύ των σημείων είναι μέγιστη.
  • για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή, κατασκευάστε έναν τέτοιο ορθογώνιο μετασχηματισμό συντεταγμένων που, ως αποτέλεσμα, οι συσχετίσεις μεταξύ των επιμέρους συντεταγμένων θα εξαφανιστούν.

Οι τρεις πρώτες εκδόσεις λειτουργούν σε πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη δημιουργία στατιστικών δεδομένων. Η τέταρτη έκδοση λειτουργεί με τυχαίες μεταβλητές. Τα πεπερασμένα σύνολα εμφανίζονται εδώ ως δείγματα από μια δεδομένη κατανομή και λύση των τριώντων πρώτων προβλημάτων - ως προσέγγιση στον «αληθινό» μετασχηματισμό Karhunen-Loeve. Αυτό εγείρει ένα πρόσθετο και όχι αρκετά τετριμμένο ερώτημα σχετικά με την ακρίβεια αυτής της προσέγγισης.

Προσέγγιση δεδομένων με γραμμικές πολλαπλές

Εικονογράφηση για το διάσημο έργο του K. Pearson (1901): δίνονται σημεία σε ένα επίπεδο, - η απόσταση από μια ευθεία γραμμή. Ψάχνετε για μια ευθεία γραμμή που ελαχιστοποιεί το άθροισμα

Η μέθοδος των κύριων συνιστωσών ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης ενός πεπερασμένου συνόλου σημείων με ευθείες γραμμές και επίπεδα (K. Pearson, 1901). Δίνεται ένα πεπερασμένο σύνολο διανυσμάτων . Για καθεμία από όλες τις διαστάσεις γραμμικές πολλαπλότητες βρείτε τέτοιες ώστε το άθροισμα των τετραγωνικών αποκλίσεων από είναι ελάχιστο:

,

όπου είναι η Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα. Οποιαδήποτε γραμμική πολλαπλότητα διαστάσεων μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι τρέχουν πάνω από την πραγματική γραμμή και είναι ένα ορθοκανονικό σύνολο διανυσμάτων

,

όπου είναι ο Ευκλείδειος κανόνας, είναι το Ευκλείδειο βαθμωτό γινόμενο ή σε συντεταγμένη μορφή:

.

Η λύση του προβλήματος της προσέγγισης για δίνεται από ένα σύνολο ένθετων γραμμικών πολλαπλών , . Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα κύριας συνιστώσας) και ένα διάνυσμα . Το διάνυσμα αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για:

.

Τα κύρια διανύσματα συνιστωσών μπορούν να βρεθούν ως λύσεις σε προβλήματα βελτιστοποίησης του ίδιου τύπου:

1) συγκεντρώστε τα δεδομένα (αφαίρεση του μέσου όρου): . Τώρα ; 2) βρείτε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα. . Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. 3) Αφαιρέστε από τα δεδομένα την προβολή στην πρώτη κύρια συνιστώσα: ; 4) βρείτε το δεύτερο κύριο στοιχείο ως λύση στο πρόβλημα. Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. … 2k-1) Αφαιρέστε την προβολή στο -ο κύριο στοιχείο (υπενθυμίζουμε ότι οι προβολές στα προηγούμενα κύρια στοιχεία έχουν ήδη αφαιρεθεί): ; 2κ) βρείτε το k-ο κύριο στοιχείο ως λύση στο πρόβλημα: . Εάν η λύση δεν είναι μοναδική, τότε επιλέξτε μία από αυτές. …

Σε κάθε προπαρασκευαστικό βήμα, αφαιρούμε την προβολή στην προηγούμενη κύρια συνιστώσα. Τα διανύσματα που βρέθηκαν είναι ορθοκανονικά απλώς ως αποτέλεσμα της επίλυσης του περιγραφόμενου προβλήματος βελτιστοποίησης, ωστόσο, προκειμένου να αποφευχθούν σφάλματα υπολογισμού από την παραβίαση της αμοιβαίας ορθογωνικότητας των διανυσμάτων κύριας συνιστώσας, μπορούν να συμπεριληφθούν στις συνθήκες του προβλήματος βελτιστοποίησης.

Η μη μοναδικότητα στον ορισμό, πέρα ​​από την ασήμαντη αυθαιρεσία στην επιλογή του σημείου (και να λύσει το ίδιο πρόβλημα), μπορεί να είναι πιο σημαντική και να προέρχεται, για παράδειγμα, από συνθήκες συμμετρίας δεδομένων. Το τελευταίο κύριο συστατικό είναι ένα μοναδιαίο διάνυσμα ορθογώνιο σε όλα τα προηγούμενα.

Αναζήτηση για ορθογώνιες προβολές με τη μεγαλύτερη σκέδαση

Το πρώτο κύριο συστατικό μεγιστοποιεί τη διακύμανση του δείγματος της προβολής δεδομένων

Ας μας δοθεί ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων (ο αριθμητικός μέσος όρος είναι μηδέν). Το καθήκον είναι να βρεθεί ένας τέτοιος ορθογώνιος μετασχηματισμός σε ένα νέο σύστημα συντεταγμένων, για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

Η θεωρία αποσύνθεσης μοναδικής τιμής δημιουργήθηκε από τον J. J. Sylvester (Eng. Τζέιμς Τζόζεφ Σιλβέστερ ) στο δ. και εκτίθεται σε όλα λεπτομερείς οδηγούςστη θεωρία των μητρών.

Ένας απλός επαναληπτικός αλγόριθμος αποσύνθεσης μοναδικής τιμής

Η κύρια διαδικασία είναι η αναζήτηση για την καλύτερη προσέγγιση ενός αυθαίρετου πίνακα με έναν πίνακα της μορφής (όπου είναι διάνυσμα διαστάσεων και διάνυσμα διαστάσεων) με τη μέθοδο των ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Για ένα σταθερό διάνυσμα, οι τιμές που παρέχουν το ελάχιστο στη φόρμα καθορίζονται μοναδικά και ρητά από τις ισότητες:

Ομοίως, για ένα σταθερό διάνυσμα, προσδιορίζονται οι ακόλουθες τιμές:

Ως αρχική προσέγγιση του διανύσματος, παίρνουμε ένα τυχαίο διάνυσμα μοναδιαίου μήκους, υπολογίζουμε το διάνυσμα και μετά υπολογίζουμε το διάνυσμα για αυτό το διάνυσμα, κ.λπ. Κάθε βήμα μειώνει την τιμή του . Ως κριτήριο διακοπής χρησιμοποιείται η μικρότητα της σχετικής μείωσης της τιμής του βήματος ελαχιστοποιημένης συνάρτησης ανά επανάληψη () ή η μικρότητα της ίδιας της τιμής.

Ως αποτέλεσμα, για τον πίνακα, λάβαμε την καλύτερη προσέγγιση από έναν πίνακα της μορφής (εδώ, ο εκθέτης υποδηλώνει τον αριθμό προσέγγισης). Περαιτέρω, αφαιρούμε τον προκύπτοντα πίνακα από τον πίνακα και για τον προκύπτον πίνακα απόκλισης αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου και ούτω καθεξής, έως ότου, για παράδειγμα, ο κανόνας γίνει αρκετά μικρός. Ως αποτέλεσμα, λάβαμε μια επαναληπτική διαδικασία για την αποσύνθεση ενός πίνακα ως άθροισμα πινάκων της κατάταξης 1, δηλαδή . Υποθέτουμε και κανονικοποιούμε τα διανύσματα : Ως αποτέλεσμα, προκύπτει μια προσέγγιση μοναδικών αριθμών και ενικών διανυσμάτων (δεξιά - και αριστερά - ).

Στα πλεονεκτήματα αυτού του αλγορίθμου συγκαταλέγεται η εξαιρετική του απλότητα και η δυνατότητα μεταφοράς σχεδόν χωρίς αλλαγές σε δεδομένα με κενά, καθώς και σταθμισμένα δεδομένα.

Υπάρχουν διάφορες τροποποιήσεις του βασικού αλγορίθμου που βελτιώνουν την ακρίβεια και τη σταθερότητα. Για παράδειγμα, τα διανύσματα των κύριων συνιστωσών για διαφορετικά θα πρέπει να είναι ορθογώνια "κατ' κατασκευή", ωστόσο, με μεγάλο αριθμό επαναλήψεων (μεγάλη διάσταση, πολλά στοιχεία), συσσωρεύονται μικρές αποκλίσεις από την ορθογωνικότητα και μπορεί να απαιτείται ειδική διόρθωση σε κάθε βήμα, διασφαλίζοντας την ορθογωνία του με τα κύρια στοιχεία που βρέθηκαν προηγουμένως.

Αποσύνθεση μοναδικής τιμής τανυστών και μέθοδος κύριας συνιστώσας τανυστή

Συχνά ένα διάνυσμα δεδομένων έχει την πρόσθετη δομή ενός ορθογώνιου πίνακα (για παράδειγμα, μιας επίπεδης εικόνας) ή ακόμη και ενός πολυδιάστατου πίνακα - δηλαδή, ενός τανυστή : , . Σε αυτή την περίπτωση, είναι επίσης αποτελεσματικό να χρησιμοποιηθεί η αποσύνθεση της μοναδικής τιμής. Ο ορισμός, οι βασικοί τύποι και οι αλγόριθμοι μεταφέρονται πρακτικά χωρίς αλλαγές: αντί για μια μήτρα δεδομένων, έχουμε μια τιμή -index , όπου ο πρώτος δείκτης είναι ο αριθμός του σημείου δεδομένων (τανυστής).

Η κύρια διαδικασία είναι η αναζήτηση για την καλύτερη προσέγγιση του τανυστή με έναν τανυστή της μορφής (όπου - -διάνυσμα διαστάσεων ( - αριθμός σημείων δεδομένων), - διάνυσμα διάστασης στο ) με τη μέθοδο των ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Εάν δίνονται όλα τα διανύσματα παραγόντων εκτός από ένα , τότε αυτό το υπόλοιπο προσδιορίζεται ρητά από επαρκείς ελάχιστες συνθήκες.

Ως αρχική προσέγγιση των διανυσμάτων (), παίρνουμε τυχαία διανύσματα μοναδιαίου μήκους, υπολογίζουμε το διάνυσμα , στη συνέχεια για αυτό το διάνυσμα και αυτά τα διανύσματα υπολογίζουμε το διάνυσμα, κ.λπ. (κύκλος στους δείκτες) Κάθε βήμα μειώνει την τιμή του . Ο αλγόριθμος προφανώς συγκλίνει. Ως κριτήριο διακοπής χρησιμοποιείται η μικρότητα της σχετικής μείωσης της τιμής της συνάρτησης που πρέπει να ελαχιστοποιηθεί ανά κύκλο ή η μικρότητα της ίδιας της τιμής. Επιπλέον, αφαιρούμε την προκύπτουσα προσέγγιση από τον τανυστή και για το υπόλοιπο αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου και ούτω καθεξής, έως ότου, για παράδειγμα, ο κανόνας του επόμενου υπολοίπου γίνει αρκετά μικρός.

Αυτή η πολυσυστατική αποσύνθεση μοναδικής τιμής (μέθοδος τανυστή των κύριων στοιχείων) χρησιμοποιείται με επιτυχία στην επεξεργασία εικόνων, σημάτων βίντεο και, ευρύτερα, οποιωνδήποτε δεδομένων έχουν δομή πίνακα ή τανυστή.

Πίνακας μετασχηματισμού σε κύρια στοιχεία

Ο πίνακας μετασχηματισμού δεδομένων σε κύρια συστατικά αποτελείται από διανύσματα κύριας συνιστώσας διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών:

(σημαίνει μεταφορά),

Δηλαδή, ο πίνακας είναι ορθογώνιος.

Το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που σας επιτρέπει να μετακινηθείτε σε χώρο χαμηλότερων διαστάσεων.

Υπολειμματική διασπορά

Αφήστε τα δεδομένα να είναι κεντραρισμένα, . Όταν τα διανύσματα δεδομένων αντικαθίστανται από την προβολή τους στα πρώτα κύρια στοιχεία, εισάγεται το μέσο τετράγωνο του σφάλματος ανά ένα διάνυσμα δεδομένων:

όπου είναι οι ιδιοτιμές του εμπειρικού πίνακα συνδιακύμανσης, ταξινομημένες σε φθίνουσα σειρά, λαμβάνοντας υπόψη την πολλαπλότητα.

Αυτή η τιμή ονομάζεται υπολειμματική διασπορά. αξία

που ονομάζεται εξηγημένη διακύμανση. Το άθροισμά τους είναι ίσο με τη διακύμανση του δείγματος. Το αντίστοιχο τετράγωνο σχετικό σφάλμα είναι ο λόγος της υπολειπόμενης διακύμανσης προς τη διακύμανση του δείγματος (δηλ. αναλογία ανεξήγητης διακύμανσης):

Το σχετικό σφάλμα αξιολογεί τη δυνατότητα εφαρμογής της μεθόδου του κύριου στοιχείου με προβολή στα πρώτα στοιχεία.

Σχόλιο: στους περισσότερους υπολογιστικούς αλγόριθμους, οι ιδιοτιμές με τα αντίστοιχα ιδιοδιανύσματα - κύρια συστατικά υπολογίζονται με τη σειρά "από το μεγαλύτερο στο μικρότερο". Για τον υπολογισμό, αρκεί να υπολογίσουμε τις πρώτες ιδιοτιμές και το ίχνος του εμπειρικού πίνακα συνδιακύμανσης (το άθροισμα των διαγώνιων στοιχείων, δηλαδή οι διακυμάνσεις κατά μήκος των αξόνων). Τότε

Επιλογή των κύριων εξαρτημάτων σύμφωνα με τον κανόνα Kaiser

Η προσέγγιση στόχος για την εκτίμηση του αριθμού των κύριων συστατικών με την απαιτούμενη αναλογία της επεξηγημένης διακύμανσης είναι τυπικά πάντα εφαρμόσιμη, αλλά σιωπηρά προϋποθέτει ότι δεν υπάρχει διαχωρισμός σε «σήμα» και «θόρυβο» και οποιαδήποτε προκαθορισμένη ακρίβεια έχει νόημα. Επομένως, ένα άλλο ευρετικό είναι συχνά πιο παραγωγικό, με βάση την υπόθεση της παρουσίας ενός «σήματος» (σχετικά μικρής διάστασης, σχετικά μεγάλου πλάτους) και «θορύβου» (μεγάλη διάσταση, σχετικά μικρό πλάτος). Από αυτή την άποψη, η μέθοδος του κύριου στοιχείου λειτουργεί σαν ένα φίλτρο: το σήμα περιέχεται κυρίως στην προβολή στα πρώτα κύρια στοιχεία και στα υπόλοιπα εξαρτήματα το ποσοστό του θορύβου είναι πολύ υψηλότερο.

Ερώτηση: πώς να υπολογίσετε τον αριθμό των απαραίτητων κύριων εξαρτημάτων εάν η αναλογία σήματος προς θόρυβο δεν είναι γνωστή εκ των προτέρων;

Η απλούστερη και παλαιότερη μέθοδος επιλογής κύριου συστατικού δίνει Ο κανόνας του Κάιζερ(Αγγλικά) Ο κανόνας του Κάιζερ): αυτά τα κύρια συστατικά είναι σημαντικά για τα οποία

υπερβαίνει δηλαδή τον μέσο όρο (μέση διακύμανση δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας του Kaiser λειτουργεί καλά σε απλές περιπτώσεις όπου υπάρχουν πολλά κύρια στοιχεία με , τα οποία είναι πολύ μεγαλύτερα από το μέσο όρο και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτό. Σε πιο περίπλοκες περιπτώσεις, μπορεί να δώσει πάρα πολλά σημαντικά κύρια στοιχεία. Εάν τα δεδομένα κανονικοποιηθούν στη διακύμανση του δείγματος μονάδας κατά μήκος των αξόνων, τότε ο κανόνας Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια στοιχεία είναι σημαντικά για τα οποία

Εκτίμηση του αριθμού των κύριων εξαρτημάτων με χρήση του κανόνα του σπασμένου ζαχαροκάλαμου

Παράδειγμα: εκτίμηση του αριθμού των κύριων συστατικών με τον κανόνα του σπασμένου ζαχαροκάλαμου στη διάσταση 5.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των βασικών στοιχείων που απαιτούνται είναι σπασμένο κανόνα μπαστούνι(Αγγλικά) Μοντέλο σπασμένο μπαστούνι) . Το σύνολο των ιδιοτιμών που κανονικοποιούνται στο μοναδιαίο άθροισμα (, ) συγκρίνεται με την κατανομή των μηκών των θραυσμάτων ενός ζαχαροκάλαμου μοναδιαίου μήκους που έχει σπάσει στο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται εξίσου σε όλο το μήκος του μπαστούνι). Έστω () τα μήκη των κομματιών ζαχαροκάλαμου που λήφθηκαν, αριθμημένα με φθίνουσα σειρά μήκους: . Δεν είναι δύσκολο να βρεις τη μαθηματική προσδοκία:

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, το ου ιδιοδιάνυσμα (σε φθίνουσα σειρά ιδιοτιμής) αποθηκεύεται στη λίστα των κύριων στοιχείων εάν

Στο Σχ. δίνεται ένα παράδειγμα για την περίπτωση των 5 διαστάσεων:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Για παράδειγμα, επιλεγμένο

=0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα ενός σπασμένου μπαστουνιού, σε αυτό το παράδειγμα, πρέπει να μείνουν 2 κύρια εξαρτήματα:

Σύμφωνα με τους χρήστες, ο σπασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων συστατικών.

Ομαλοποίηση

Κανονικοποίηση μετά από αναγωγή στα κύρια συστατικά

Μετάπροβολή στα πρώτα κύρια στοιχεία με αυτό είναι βολικό να ομαλοποιηθεί σε μονάδα (δείγμα) διακύμανση κατά μήκος των αξόνων. Η διασπορά κατά μήκος της κύριας συνιστώσας είναι ίση με ), επομένως για την κανονικοποίηση είναι απαραίτητο να διαιρεθεί η αντίστοιχη συντεταγμένη με . Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Μετά την κανονικοποίηση, ο πίνακας συνδιακύμανσης προβολής δεδομένων γίνεται ενότητα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες τιμές και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τη σχέση ορθογωνικότητας διανύσματος). Η αντιστοίχιση από τον αρχικό χώρο δεδομένων στα πρώτα κύρια στοιχεία μαζί με την κανονικοποίηση δίνεται από τον πίνακα

.

Είναι αυτός ο μετασχηματισμός που ονομάζεται πιο συχνά μετασχηματισμός Karhunen-Loeve. Εδώ, είναι διανύσματα στηλών και ο εκθέτης σημαίνει μετατόπιση.

Κανονικοποίηση πριν από τον υπολογισμό των κύριων συστατικών

Προειδοποίηση: δεν πρέπει να συγχέουμε την κανονικοποίηση που πραγματοποιήθηκε μετά τη μετατροπή στα κύρια συστατικά με την κανονικοποίηση και την "αδιάστατη" όταν προεπεξεργασία δεδομένωνπραγματοποιείται πριν από τον υπολογισμό των κύριων συνιστωσών. Απαιτείται προκανονικοποίηση για μια λογική επιλογή μιας μέτρησης στην οποία θα υπολογιστεί η καλύτερη προσέγγιση των δεδομένων ή θα αναζητηθούν οι κατευθύνσεις της μεγαλύτερης διασποράς (η οποία είναι ισοδύναμη). Για παράδειγμα, εάν τα δεδομένα είναι τρισδιάστατα διανύσματα "μέτρων, λίτρων και χιλιογράμμων", τότε χρησιμοποιώντας την τυπική Ευκλείδεια απόσταση, μια διαφορά 1 μέτρου στην πρώτη συντεταγμένη θα έχει την ίδια συμβολή με μια διαφορά 1 λίτρου στη δεύτερη , ή 1 κιλό στο τρίτο . Συνήθως, τα συστήματα των μονάδων στα οποία παρουσιάζονται τα αρχικά δεδομένα δεν αντικατοπτρίζουν με ακρίβεια τις ιδέες μας για τις φυσικές κλίμακες κατά μήκος των αξόνων και πραγματοποιείται "αδιάστατο": κάθε συντεταγμένη χωρίζεται σε μια συγκεκριμένη κλίμακα που καθορίζεται από τα δεδομένα, τους σκοπούς της επεξεργασίας τους και των διαδικασιών μέτρησης και συλλογής δεδομένων.

Υπάρχουν τρεις ουσιαστικά διαφορετικές τυπικές προσεγγίσεις για μια τέτοια κανονικοποίηση: διακύμανση μονάδαςκατά μήκος των αξόνων (οι κλίμακες κατά μήκος των αξόνων είναι ίσες με τις μέσες τετραγωνικές αποκλίσεις - μετά από αυτόν τον μετασχηματισμό, ο πίνακας συνδιακύμανσης συμπίπτει με τον πίνακα των συντελεστών συσχέτισης), ίση ακρίβεια μέτρησης(η κλίμακα κατά μήκος του άξονα είναι ανάλογη με την ακρίβεια μέτρησης μιας δεδομένης τιμής) και επάνω ίσες αξιώσειςστο πρόβλημα (η κλίμακα κατά μήκος του άξονα καθορίζεται από την απαιτούμενη ακρίβεια της πρόβλεψης μιας δεδομένης τιμής ή την επιτρεπόμενη παραμόρφωσή της - το επίπεδο ανοχής). Η επιλογή της προεπεξεργασίας επηρεάζεται από την ουσιαστική δήλωση του προβλήματος, καθώς και από τις συνθήκες συλλογής δεδομένων (για παράδειγμα, εάν η συλλογή δεδομένων είναι ουσιαστικά ελλιπής και τα δεδομένα θα εξακολουθήσουν να λαμβάνονται, τότε δεν είναι λογικό να επιλέξετε αυστηρά την κανονικοποίηση ανά μονάδα διακύμανσης, ακόμα κι αν αυτό αντιστοιχεί στο νόημα του προβλήματος, καθώς αυτό περιλαμβάνει επανακανονικοποίηση όλων των δεδομένων μετά τη λήψη ενός νέου τμήματος· είναι πιο λογικό να επιλέξετε κάποια κλίμακα που να υπολογίζει χονδρικά την τυπική απόκλιση και στη συνέχεια να μην την αλλάξετε) .

Η προ-κανονικοποίηση στη διακύμανση μονάδας κατά μήκος των αξόνων καταστρέφεται με την περιστροφή του συστήματος συντεταγμένων εάν οι άξονες δεν είναι κύρια στοιχεία και η κανονικοποίηση κατά την προεπεξεργασία δεδομένων δεν αντικαθιστά την κανονικοποίηση μετά την αναγωγή στα κύρια στοιχεία.

Μηχανική αναλογία και ανάλυση κύριων συστατικών για σταθμισμένα δεδομένα

Εάν αντιστοιχίσουμε μια μονάδα μάζας σε κάθε διάνυσμα δεδομένων, τότε ο εμπειρικός πίνακας συνδιακύμανσης θα συμπίπτει με τον τανυστή αδράνειας αυτού του συστήματος σημειακών μαζών (διαιρούμενος με τη συνολική μάζα) και το πρόβλημα των κύριων συστατικών θα συμπίπτει με το πρόβλημα της τανυστής αδράνειας προς τους κύριους άξονες. Μπορείτε να χρησιμοποιήσετε επιπλέον ελευθερία στην επιλογή των τιμών μάζας για να λάβετε υπόψη τη σημασία των σημείων δεδομένων ή την αξιοπιστία των τιμών τους (οι υψηλότερες μάζες εκχωρούνται σε σημαντικά δεδομένα ή δεδομένα από πιο αξιόπιστες πηγές). Αν στο διάνυσμα δεδομένων δίνεται μια μάζα,τότε αντί του εμπειρικού πίνακα συνδιακύμανσης παίρνουμε

Όλες οι περαιτέρω λειτουργίες για αναγωγή στις κύριες συνιστώσες εκτελούνται με τον ίδιο τρόπο όπως στην κύρια έκδοση της μεθόδου: αναζητούμε μια ορθοκανονική ιδιοβάση, την ταξινομούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα της προσέγγισης δεδομένων κατά τα πρώτα συστατικά (με τα αθροίσματα των ιδιοτιμών), κανονικοποιούνται κ.λπ. .

Ένας γενικότερος τρόπος ζύγισης δίνει μεγιστοποιώντας το σταθμισμένο άθροισμα των αποστάσεων κατά ζεύγημεταξύ των προβολών. Για κάθε δύο σημεία δεδομένων, εισάγεται ένα βάρος. και . Αντί για τον εμπειρικό πίνακα συνδιακύμανσης, χρησιμοποιούμε

Για , ο συμμετρικός πίνακας είναι θετικός ορισμένος επειδή η τετραγωνική μορφή είναι θετική:

Στη συνέχεια, αναζητούμε μια ορθοκανονική ιδιοβάση , την ταξινομούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα της προσέγγισης των δεδομένων από τις πρώτες συνιστώσες, κ.λπ. - ακριβώς όπως στον κύριο αλγόριθμο.

Αυτή η μέθοδος εφαρμόζεται αν υπάρχουν τάξεις: για διαφορετικές κατηγορίες, το βάρος επιλέγεται να είναι μεγαλύτερο από ό,τι για βαθμούς της ίδιας κατηγορίας. Ως αποτέλεσμα, στην προβολή στα σταθμισμένα κύρια στοιχεία, οι διαφορετικές κατηγορίες «απομακρύνονται» κατά μεγαλύτερη απόσταση.

Άλλη εφαρμογή - μειώνοντας την επίδραση μεγάλων αποκλίσεων(outlayers, eng. Εξωφρενικό ), το οποίο μπορεί να παραμορφώσει την εικόνα λόγω της χρήσης της απόστασης rms: εάν επιλέξετε , τότε η επίδραση των μεγάλων αποκλίσεων θα μειωθεί. Έτσι, η περιγραφόμενη τροποποίηση της μεθόδου του κύριου συστατικού είναι πιο ισχυρή από την κλασική.

Ειδική ορολογία

Στις στατιστικές, όταν χρησιμοποιείται η μέθοδος των κύριων στοιχείων, χρησιμοποιούνται αρκετοί ειδικοί όροι.

Πίνακας Δεδομένων; κάθε σειρά είναι ένα διάνυσμα προεπεξεργασμένοδεδομένα ( κεντραρισμένοςκαι σωστά κανονικοποιημένη), αριθμός σειρών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (διάσταση του χώρου δεδομένων).

Φόρτωση Matrix(Φορτώσεις) ; κάθε στήλη είναι το διάνυσμα του κύριου στοιχείου, ο αριθμός των σειρών είναι (διάσταση χώρου δεδομένων), ο αριθμός στηλών είναι (ο αριθμός των διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Matrix χρέωσης(βαθμολογίες) ; Κάθε σειρά είναι η προβολή του διανύσματος δεδομένων στα κύρια στοιχεία. αριθμός γραμμών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Ζ-βαθμολογίες) ; Κάθε σειρά είναι η προβολή του διανύσματος δεδομένων στα κύρια στοιχεία, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός γραμμών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτωναποφάγια) (Σφάλματα ή υπολείμματα) .

Βασικός τύπος:

Όρια εφαρμογής και περιορισμοί αποτελεσματικότητας της μεθόδου

Η μέθοδος του κύριου συστατικού είναι πάντα εφαρμόσιμη. Η ευρέως διαδεδομένη δήλωση ότι εφαρμόζεται μόνο σε κανονικά κατανεμημένα δεδομένα (ή σε κατανομές κοντά στο κανονικό) είναι εσφαλμένη: στην αρχική διατύπωση του K. Pearson, το πρόβλημα του προσεγγίσειςένα πεπερασμένο σύνολο δεδομένων και δεν υπάρχει καν υπόθεση για τη στατιστική παραγωγή τους, για να μην αναφέρουμε την κατανομή.

Ωστόσο, η μέθοδος δεν μειώνει πάντα αποτελεσματικά τη διάσταση υπό δεδομένους περιορισμούς στην ακρίβεια. Οι ευθείες γραμμές και τα επίπεδα δεν παρέχουν πάντα καλή προσέγγιση. Για παράδειγμα, τα δεδομένα μπορεί να ακολουθούν κάποια καμπύλη με καλή ακρίβεια και αυτή η καμπύλη μπορεί να είναι δύσκολο να εντοπιστεί στο χώρο δεδομένων. Σε αυτήν την περίπτωση, η μέθοδος του κύριου στοιχείου για αποδεκτή ακρίβεια θα απαιτήσει πολλά στοιχεία (αντί για ένα) ή δεν θα δώσει καθόλου μείωση διαστάσεων με αποδεκτή ακρίβεια. Για την αντιμετώπιση τέτοιων κύριων συνιστωσών «καμπύλων», επινοείται η μέθοδος των κύριων πολλαπλών και διάφορες εκδοχές της μεθόδου μη γραμμικής κύριας συνιστώσας. Περισσότερο πρόβλημα μπορεί να παρέχει σύνθετα δεδομένα τοπολογίας. Έχουν επίσης εφευρεθεί διάφορες μέθοδοι για την προσέγγισή τους, όπως αυτοοργάνωση χαρτών Kohonen, νευρικό αέριο ή τοπολογικές γραμματικές. Εάν τα δεδομένα παράγονται στατιστικά με μια πολύ μη κανονική κατανομή, τότε είναι χρήσιμο να μεταβείτε από τα κύρια στοιχεία σε ανεξάρτητα εξαρτήματα, τα οποία δεν είναι πλέον ορθογώνια στο αρχικό προϊόν κουκκίδων. Τέλος, για ισότροπη κατανομή (έστω και κανονική), αντί για ελλειψοειδές σκέδασης, παίρνουμε μια σφαίρα και είναι αδύνατο να μειωθεί η διάσταση με μεθόδους προσέγγισης.

Παραδείγματα χρήσης

Οπτικοποίηση δεδομένων

Η οπτικοποίηση δεδομένων είναι μια παρουσίαση σε οπτική μορφή πειραματικών δεδομένων ή των αποτελεσμάτων μιας θεωρητικής μελέτης.

Η πρώτη επιλογή στην οπτικοποίηση ενός συνόλου δεδομένων είναι η ορθογώνια προβολή στο επίπεδο των δύο πρώτων κύριων στοιχείων (ή ο τρισδιάστατος χώρος των τριών πρώτων κύριων στοιχείων). Το επίπεδο σχεδίασης είναι ουσιαστικά μια επίπεδη δισδιάστατη "οθόνη" τοποθετημένη με τέτοιο τρόπο ώστε να παρέχει μια "εικόνα" των δεδομένων με τη μικρότερη παραμόρφωση. Μια τέτοια προβολή θα είναι βέλτιστη (μεταξύ όλων των ορθογώνιων προβολών σε διαφορετικές δισδιάστατες οθόνες) από τρεις απόψεις:

  1. Το ελάχιστο άθροισμα των τετραγωνικών αποστάσεων από τα σημεία δεδομένων έως τις προβολές στο επίπεδο των πρώτων κύριων στοιχείων, δηλαδή η οθόνη βρίσκεται όσο το δυνατόν πιο κοντά στο νέφος των σημείων.
  2. Το ελάχιστο άθροισμα παραμορφώσεων των τετραγωνικών αποστάσεων μεταξύ όλων των ζευγών σημείων από το σύννεφο δεδομένων μετά την προβολή των σημείων στο επίπεδο.
  3. Ελάχιστο άθροισμα παραμορφώσεων τετραγώνου απόστασης μεταξύ όλων των σημείων δεδομένων και του «κέντρου βάρους» τους.

Η οπτικοποίηση δεδομένων είναι μια από τις πιο ευρέως χρησιμοποιούμενες εφαρμογές της ανάλυσης κύριων συστατικών και των μη γραμμικών γενικεύσεών της.

Συμπίεση εικόνας και βίντεο

Για να μειωθεί ο χωρικός πλεονασμός των pixel κατά την κωδικοποίηση εικόνων και βίντεο, χρησιμοποιούνται γραμμικοί μετασχηματισμοί μπλοκ pixel. Η επακόλουθη κβαντοποίηση των λαμβανόμενων συντελεστών και η κωδικοποίηση χωρίς απώλειες καθιστούν δυνατή τη λήψη σημαντικών συντελεστών συμπίεσης. Η χρήση του μετασχηματισμού PCA ως γραμμικού μετασχηματισμού είναι βέλτιστη για ορισμένους τύπους δεδομένων όσον αφορά το μέγεθος των δεδομένων που προκύπτουν με την ίδια παραμόρφωση. Προς το παρόν, αυτή η μέθοδος δεν χρησιμοποιείται ενεργά, κυρίως λόγω της υψηλής υπολογιστικής πολυπλοκότητας. Επίσης, η συμπίεση δεδομένων μπορεί να επιτευχθεί απορρίπτοντας τους τελευταίους συντελεστές μετασχηματισμού.

Μείωση θορύβου στις εικόνες

Χημειομετρία

Η μέθοδος του κύριου συστατικού είναι μια από τις κύριες μεθόδους στη χημειομετρία. Χημειομετρία ). Σας επιτρέπει να διαιρέσετε τη μήτρα των αρχικών δεδομένων X σε δύο μέρη: "με νόημα" και "θόρυβος". Σύμφωνα με τον πιο δημοφιλή ορισμό, «Η χημειομετρία είναι η χημική επιστήμη που εφαρμόζει μαθηματικές, στατιστικές και άλλες μεθόδους που βασίζονται στην τυπική λογική για να κατασκευάσει ή να επιλέξει βέλτιστες μεθόδους μέτρησης και πειραματικά σχέδια και να εξάγει τις πιο σημαντικές πληροφορίες στην ανάλυση πειραματικών δεδομένων. "

Ψυχοδιαγνωστικά

  1. ανάλυση δεδομένων (περιγραφή των αποτελεσμάτων ερευνών ή άλλων μελετών, που παρουσιάζονται με τη μορφή συστοιχιών αριθμητικών δεδομένων).
  2. περιγραφή κοινωνικών φαινομένων (κατασκευή μοντέλων φαινομένων, συμπεριλαμβανομένων μαθηματικών μοντέλων).

Στην πολιτική επιστήμη, η μέθοδος του κύριου συστατικού ήταν το κύριο εργαλείο του έργου «Πολιτικός Άτλας της Νεωτερικότητας» για γραμμική και μη γραμμική ανάλυση των αξιολογήσεων 192 χωρών του κόσμου σύμφωνα με πέντε ειδικά αναπτυγμένους ολοκληρωμένους δείκτες (πρότυπο ζωής, διεθνής επιρροή, απειλές, κρατισμός και δημοκρατία). Για τη χαρτογράφηση των αποτελεσμάτων αυτής της ανάλυσης, έχει αναπτυχθεί ένα ειδικό GIS (Σύστημα Γεωπληροφοριών) που συνδυάζει τον γεωγραφικό χώρο με τον χώρο χαρακτηριστικών. Οι χάρτες δεδομένων πολιτικού άτλαντα έχουν επίσης δημιουργηθεί χρησιμοποιώντας δισδιάστατες κύριες πολλαπλές σε 5D χώρο εξοχής ως φόντο. Η διαφορά μεταξύ ενός χάρτη δεδομένων και ενός γεωγραφικού χάρτη είναι ότι σε έναν γεωγραφικό χάρτη υπάρχουν κοντινά αντικείμενα που έχουν παρόμοιες γεωγραφικές συντεταγμένες, ενώ σε έναν χάρτη δεδομένων υπάρχουν αντικείμενα (χώρες) με παρόμοια χαρακτηριστικά (δείκτες) κοντά.

Η πηγή για την ανάλυση είναι ο πίνακας δεδομένων

διαστάσεις
, η i-η γραμμή της οποίας χαρακτηρίζει την i-η παρατήρηση (αντικείμενο) για όλους τους k δείκτες
. Τα αρχικά δεδομένα κανονικοποιούνται, για τα οποία υπολογίζονται οι μέσες τιμές των δεικτών
, καθώς και τις τιμές των τυπικών αποκλίσεων
. Στη συνέχεια ο πίνακας των κανονικοποιημένων τιμών

με στοιχεία

Ο πίνακας των ζευγαρωμένων συντελεστών συσχέτισης υπολογίζεται:

Τα μεμονωμένα στοιχεία βρίσκονται στην κύρια διαγώνιο του πίνακα
.

Το μοντέλο ανάλυσης συνιστωσών δημιουργείται παρουσιάζοντας τα αρχικά κανονικοποιημένα δεδομένα ως γραμμικό συνδυασμό κύριων στοιχείων:

που - «βάρος», δηλ. συντελεστής φόρτισης -ο κύριο συστατικό επάνω -η μεταβλητή;

-έννοια το κύριο συστατικό για η παρατήρηση (αντικείμενο), όπου
.

Σε μορφή μήτρας, το μοντέλο έχει τη μορφή

εδώ
- μήτρα των κύριων συνιστωσών της διάστασης
,

- πίνακας παραγοντικών φορτίων ίδιας διάστασης.

Μήτρα
περιγράφει παρατηρήσεις στο διάστημα κύρια εξαρτήματα. Σε αυτή την περίπτωση, τα στοιχεία του πίνακα
κανονικοποιούνται και τα κύρια στοιχεία δεν συσχετίζονται μεταξύ τους. Από αυτό προκύπτει ότι
, που είναι η μήτρα ταυτότητας της διάστασης
.

Στοιχείο μήτρες χαρακτηρίζει τη στενότητα της γραμμικής σχέσης μεταξύ της αρχικής μεταβλητής και κύριο συστατικό , επομένως, παίρνει τις τιμές
.

Πίνακας συσχέτισης μπορεί να εκφραστεί με βάση τον πίνακα φόρτισης παραγόντων .

Οι μονάδες βρίσκονται κατά μήκος της κύριας διαγώνιου του πίνακα συσχέτισης και, κατ' αναλογία με τον πίνακα συνδιακύμανσης, αντιπροσωπεύουν τις διακυμάνσεις των χρησιμοποιούμενων -χαρακτηριστικά, αλλά σε αντίθεση με το τελευταίο, λόγω κανονικοποίησης, αυτές οι διακυμάνσεις είναι ίσες με 1. Η συνολική διακύμανση ολόκληρου του συστήματος - Χαρακτηριστικά στο σετ δείγματος όγκου
ισούται με το άθροισμα αυτών των μονάδων, δηλ. ίσο με το ίχνος του πίνακα συσχέτισης
.

Οι πίνακες συσχέτισης μπορούν να μετατραπούν σε διαγώνιο ένα, δηλαδή σε πίνακα, του οποίου όλες οι τιμές, εκτός από τις διαγώνιες, είναι ίσες με μηδέν:

,

που
είναι ένας διαγώνιος πίνακας με ιδιοτιμές στην κύρια διαγώνιο του πίνακας συσχέτισης, είναι ένας πίνακας του οποίου οι στήλες είναι τα ιδιοδιανύσματα του πίνακα συσχέτισης . Εφόσον ο πίνακας R είναι θετικός ορισμένος, δηλ. οι κύριες δευτερεύουσες τιμές του είναι θετικές, τότε όλες οι ιδιοτιμές
για κάθε
.

Ιδιοτιμές βρίσκονται ως ρίζες της χαρακτηριστικής εξίσωσης

Ιδιοδιάνυσμα που αντιστοιχεί στην ιδιοτιμή μήτρα συσχέτισης , ορίζεται ως μη μηδενική λύση της εξίσωσης

Κανονικοποιημένο ιδιοδιάνυσμα ισοδυναμεί

Η εξαφάνιση των εκτός διαγώνιων όρων σημαίνει ότι τα χαρακτηριστικά γίνονται ανεξάρτητα το ένα από το άλλο (
στο
).

Συνολική διακύμανση ολόκληρου του συστήματος οι μεταβλητές στο δείγμα παραμένουν οι ίδιες. Ωστόσο, οι αξίες του αναδιανέμονται. Η διαδικασία για την εύρεση των τιμών αυτών των διακυμάνσεων είναι η εύρεση των ιδιοτιμών πίνακας συσχέτισης για καθένα από αυτά - σημάδια. Το άθροισμα αυτών των ιδιοτιμών
είναι ίσο με το ίχνος του πίνακα συσχέτισης, δηλ.
, δηλαδή τον αριθμό των μεταβλητών. Αυτές οι ιδιοτιμές είναι οι τιμές της διακύμανσης χαρακτηριστικών
σε συνθήκες όπου τα ζώδια θα ήταν ανεξάρτητα το ένα από το άλλο.

Στη μέθοδο του κύριου συστατικού, ο πίνακας συσχέτισης υπολογίζεται πρώτα από τα αρχικά δεδομένα. Στη συνέχεια, γίνεται ο ορθογώνιος μετασχηματισμός του και, μέσω αυτού, εντοπίζονται οι παραγοντικές φορτίσεις για όλα μεταβλητές και
παράγοντες (πίνακας παραγοντικών φορτίων), ιδιοτιμές και να προσδιορίσετε τα βάρη των παραγόντων.

Ο πίνακας φόρτισης συντελεστών Α μπορεί να οριστεί ως
, ένα -η στήλη του πίνακα Α - ως
.

Βάρος παραγόντων
ή
αντανακλά το μερίδιο στη συνολική διακύμανση που συνεισφέρει αυτός ο παράγοντας.

Τα συντελεστικά φορτία ποικίλλουν από -1 έως +1 και είναι ανάλογα με τους συντελεστές συσχέτισης. Στον πίνακα των συντελεστών φορτίων, είναι απαραίτητο να γίνει διάκριση μεταξύ σημαντικών και ασήμαντων φορτίων χρησιμοποιώντας το Student's t-test
.

Άθροισμα τετραγωνικών φορτίων -ο παράγοντας σε όλα -τα χαρακτηριστικά ισούται με την ιδιοτιμή αυτού του παράγοντα
. Τότε
-συμβολή της i-ης μεταβλητής σε % στον σχηματισμό του j-ου παράγοντα.

Το άθροισμα των τετραγώνων όλων των φορτώσεων παραγόντων σε μια σειρά είναι ίσο με ένα, η πλήρης διακύμανση μιας μεταβλητής και όλων των παραγόντων σε όλες τις μεταβλητές είναι ίσο με τη συνολική διακύμανση (δηλ. το ίχνος ή η σειρά του πίνακα συσχέτισης ή το άθροισμα των ιδιοτιμών του)
.

Γενικά, η παραγοντική δομή του i-ου χαρακτηριστικού αναπαρίσταται στη μορφή
, το οποίο περιλαμβάνει μόνο σημαντικά φορτία. Χρησιμοποιώντας τον πίνακα φόρτωσης παραγόντων, μπορείτε να υπολογίσετε τις τιμές όλων των παραγόντων για κάθε παρατήρηση του αρχικού δείγματος χρησιμοποιώντας τον τύπο:

,

που είναι η τιμή του j-ου παράγοντα στην t-η παρατήρηση, - τυποποιημένη τιμή του i-ου χαρακτηριστικού της t-ης παρατήρησης του αρχικού δείγματος. – παραγοντικό φορτίο, είναι η ιδιοτιμή που αντιστοιχεί στον παράγοντα j. Αυτές οι υπολογισμένες τιμές χρησιμοποιούνται ευρέως για τη γραφική αναπαράσταση των αποτελεσμάτων της παραγοντικής ανάλυσης.

Σύμφωνα με τον πίνακα των φορτίων παραγόντων, ο πίνακας συσχέτισης μπορεί να αποκατασταθεί:
.

Το τμήμα της διακύμανσης μιας μεταβλητής που εξηγείται από τα κύρια συστατικά ονομάζεται κοινότητα.

,

που είναι ο αριθμός της μεταβλητής, και - τον αριθμό του κύριου στοιχείου. Οι συντελεστές συσχέτισης που ανακατασκευάζονται μόνο από τα κύρια στοιχεία θα είναι μικρότεροι από τους αρχικούς σε απόλυτη τιμή και στη διαγώνιο δεν θα υπάρχει 1, αλλά οι τιμές της κοινότητας.

Συγκεκριμένη συμβολή Το κύριο συστατικό καθορίζεται από τον τύπο

.

Η συνολική συνεισφορά των
Τα κύρια συστατικά προσδιορίζονται από την έκφραση

.

Συνήθως χρησιμοποιείται για ανάλυση
τα πρώτα κύρια συστατικά, των οποίων η συμβολή στη συνολική διακύμανση υπερβαίνει το 60-70%.

Ο πίνακας φόρτωσης παραγόντων Α χρησιμοποιείται για την ερμηνεία των κύριων συνιστωσών και συνήθως λαμβάνονται υπόψη τιμές πάνω από 0,5.

Οι τιμές των κύριων συστατικών δίνονται από τον πίνακα