Πρώτο κύριο συστατικό. Μέθοδος κύριου συστατικού. Εκτίμηση του αριθμού των κύριων συστατικών με τον διακεκομμένο κανόνα του ζαχαροκάλαμου

Μέθοδος κύριου συστατικούή ανάλυση συστατικώνΗ ανάλυση κύριου συστατικού (PCA) είναι μια από τις πιο σημαντικές μεθόδους στο οπλοστάσιο ενός ζωολόγου ή οικολόγου. Δυστυχώς, σε εκείνες τις περιπτώσεις όπου είναι αρκετά κατάλληλο να χρησιμοποιηθεί η ανάλυση συστατικών, χρησιμοποιείται συχνά η ανάλυση συστάδων.

Μια τυπική εργασία για την οποία είναι χρήσιμη η ανάλυση συστατικών είναι η εξής: υπάρχει ένα συγκεκριμένο σύνολο αντικειμένων, καθένα από τα οποία χαρακτηρίζεται από έναν ορισμένο (αρκετά μεγάλο) αριθμό χαρακτηριστικών. Ο ερευνητής ενδιαφέρεται για τα μοτίβα που αντικατοπτρίζονται στην ποικιλομορφία αυτών των αντικειμένων. Στην περίπτωση που υπάρχει λόγος να πιστεύουμε ότι τα αντικείμενα κατανέμονται σε ιεραρχικά δευτερεύουσες ομάδες, μπορείτε να χρησιμοποιήσετε την ανάλυση συστάδων - τη μέθοδο ταξινόμηση(διανομή ανά ομάδα). Εάν δεν υπάρχει λόγος να περιμένουμε ότι η ποικιλία των αντικειμένων αντικατοπτρίζει κάποιο είδος ιεραρχίας, είναι λογικό να χρησιμοποιηθεί χειροτονία(παραγγελία ρύθμισης). Εάν κάθε αντικείμενο χαρακτηρίζεται από αρκετά μεγάλο αριθμό χαρακτηριστικών (τουλάχιστον, τέτοιος αριθμός χαρακτηριστικών που δεν μπορεί να αντικατοπτριστεί επαρκώς σε ένα γράφημα), είναι βέλτιστο να ξεκινήσει η μελέτη των δεδομένων με την ανάλυση των κύριων στοιχείων. Γεγονός είναι ότι αυτή η μέθοδος είναι ταυτόχρονα μια μέθοδος μείωσης της διάστασης (αριθμός μετρήσεων) των δεδομένων.

Εάν η ομάδα αντικειμένων που εξετάζουμε χαρακτηρίζεται από τις τιμές ενός χαρακτηριστικού, για να χαρακτηρίσετε την ποικιλομορφία τους, μπορείτε να χρησιμοποιήσετε ένα ιστόγραμμα (για συνεχή χαρακτηριστικά) ή ένα γράφημα ράβδων (για να χαρακτηρίσετε τις συχνότητες ενός διακριτού χαρακτηριστικού). Εάν τα αντικείμενα χαρακτηρίζονται από δύο χαρακτηριστικά, μπορείτε να χρησιμοποιήσετε ένα δισδιάστατο διάγραμμα διασποράς, εάν είναι τρισδιάστατο. Και αν υπάρχουν πολλά σημάδια; Μπορείτε να δοκιμάσετε σε ένα δισδιάστατο γράφημα για να απεικονίσετε τη σχετική θέση των αντικειμένων μεταξύ τους στον πολυδιάστατο χώρο. Συνήθως, μια τέτοια μείωση της διάστασης σχετίζεται με την απώλεια πληροφοριών. Από τις διάφορες πιθανές μεθόδους μιας τέτοιας απεικόνισης, πρέπει να επιλέξει κανείς αυτή στην οποία η απώλεια πληροφοριών θα είναι ελάχιστη.

Ας εξηγήσουμε αυτό που ειπώθηκε χρησιμοποιώντας το απλούστερο παράδειγμα: τη μετάβαση από τον δισδιάστατο χώρο στον μονοδιάστατο. Ο ελάχιστος αριθμός σημείων που ορίζει ένας δισδιάστατος χώρος (επίπεδο) είναι 3. Στο σχ. Το 9.1.1 δείχνει τη θέση τριών σημείων στο επίπεδο. Οι συντεταγμένες αυτών των σημείων είναι εύκολο να διαβαστούν από το ίδιο το σχέδιο. Πώς να επιλέξετε μια ευθεία που θα φέρει τις μέγιστες πληροφορίες σχετικά με την παρεμβολή των σημείων;

Ρύζι. 9.1.1. Τρία σημεία σε ένα επίπεδο που ορίζονται από δύο χαρακτηριστικά. Σε ποια γραμμή θα προβληθεί η μέγιστη διασπορά αυτών των σημείων;

Εξετάστε την προβολή των σημείων στη γραμμή Α (εμφανίζεται με μπλε χρώμα). Οι συντεταγμένες των προβολών αυτών των σημείων στην ευθεία Α είναι οι εξής: 2, 8, 10. Η μέση τιμή είναι 6 2/3. Διασπορά (2-6 2/3) + (8-6 2/3) + (10-6 2/3) = 34 2/3.

Τώρα εξετάστε τη γραμμή Β (εμφανίζεται με πράσινο). Συντεταγμένες σημείων - 2, 3, 7; ο μέσος όρος είναι 4, η διακύμανση είναι 14. Έτσι, η γραμμή Β αντικατοπτρίζει μικρότερο ποσοστό της διακύμανσης από τη γραμμή Α.

Τι είναι αυτό το μερίδιο; Δεδομένου ότι οι γραμμές Α και Β είναι ορθογώνιες (κάθετες), οι αναλογίες της συνολικής διακύμανσης που προβάλλονται στα Α και Β δεν τέμνονται. Αυτό σημαίνει ότι η συνολική διακύμανση της θέσης των σημείων που μας ενδιαφέρουν μπορεί να υπολογιστεί ως το άθροισμα αυτών των δύο όρων: 34 2/3 + 14 = 48 2/3. Ταυτόχρονα, το 71,2% της συνολικής διακύμανσης προβάλλεται στη γραμμή Α και το 28,8% στη γραμμή Β.

Και πώς να προσδιορίσετε ποια γραμμή θα επηρεαστεί από το μέγιστο μερίδιο διακύμανσης; Αυτή η γραμμή θα αντιστοιχεί στη γραμμή παλινδρόμησης για τα σημεία ενδιαφέροντος, η οποία συμβολίζεται ως C (κόκκινο). Αυτή η γραμμή θα αντικατοπτρίζει το 77,2% της συνολικής διακύμανσης και αυτή είναι η μέγιστη δυνατή τιμή για μια δεδομένη θέση σημείων. Μια τέτοια ευθεία γραμμή, πάνω στην οποία προβάλλεται το μέγιστο κλάσμα της συνολικής διακύμανσης, ονομάζεται ο πρώτος κύριο συστατικό .

Και σε ποια γραμμή να αντικατοπτρίζεται το υπόλοιπο 22,8% της συνολικής διακύμανσης; Σε ευθεία γραμμή κάθετη στο πρώτο κύριο συστατικό. Αυτή η ευθεία γραμμή θα είναι επίσης η κύρια συνιστώσα, επειδή το μέγιστο δυνατό μερίδιο διακύμανσης θα αντικατοπτρίζεται σε αυτήν (φυσικά, χωρίς να λαμβάνεται υπόψη αυτή που επηρέασε την πρώτη κύρια συνιστώσα). Ετσι είναι - δεύτερο κύριο συστατικό.

Υπολογίζοντας αυτά τα κύρια στοιχεία χρησιμοποιώντας Statistica (θα περιγράψουμε τον διάλογο λίγο αργότερα), έχουμε την εικόνα που φαίνεται στο Σχ. 9.1.2. Οι συντεταγμένες των σημείων στα κύρια στοιχεία εμφανίζονται σε τυπικές αποκλίσεις.


Ρύζι. 9.1.2. Η θέση των τριών σημείων φαίνεται στο Σχ. 9.1.1, στο επίπεδο δύο κύριων συνιστωσών. Γιατί αυτά τα σημεία βρίσκονται σε σχέση μεταξύ τους διαφορετικά από ό,τι στο Σχ. 9.1.1;

Στο σχ. 9.1.2 αλλάζει η θέση των πόντων. Προκειμένου να ερμηνευτούν σωστά τέτοιες εικόνες στο μέλλον, θα πρέπει να ληφθούν υπόψη οι λόγοι για τις διαφορές στη θέση των σημείων στο Σχ. 1 και 9.1.2 για λεπτομέρειες. Το σημείο 1 και στις δύο περιπτώσεις βρίσκεται στα δεξιά (έχει μεγαλύτερη συντεταγμένη σύμφωνα με το πρώτο χαρακτηριστικό και το πρώτο κύριο στοιχείο) από το σημείο 2. Αλλά, για κάποιο λόγο, το σημείο 3 στην αρχική θέση είναι κάτω από τα άλλα δύο σημεία (έχει τη μικρότερη τιμή του χαρακτηριστικού 2), και πάνω από δύο άλλα σημεία στο επίπεδο των κύριων συνιστωσών (έχει μεγάλη συντεταγμένη κατά μήκος του δεύτερου στοιχείου). Αυτό οφείλεται στο γεγονός ότι η ανάλυση του κύριου στοιχείου βελτιστοποιεί τη διακύμανση των αρχικών δεδομένων που προβάλλονται στους άξονες που επιλέγει. Εάν το κύριο στοιχείο συσχετίζεται με κάποιον αρχικό άξονα, το στοιχείο και ο άξονας μπορούν να κατευθυνθούν προς την ίδια κατεύθυνση (έχουν θετική συσχέτιση) ή προς αντίθετες κατευθύνσεις (έχουν αρνητικές συσχετίσεις). Και οι δύο αυτές επιλογές είναι ισοδύναμες. Ο αλγόριθμος ανάλυσης του κύριου στοιχείου μπορεί να "αναποδογυρίσει" ή να μην "ανατρέψει" οποιοδήποτε επίπεδο. δεν πρέπει να εξαχθούν συμπεράσματα από αυτό.

Ωστόσο, τα σημεία στο Σχ. 9.1.2 δεν είναι απλώς «ανάποδα» σε σύγκριση με τις σχετικές θέσεις τους στο σχ. 9.1.1; Η θέση τους έχει επίσης αλλάξει κατά κάποιο τρόπο. Οι διαφορές μεταξύ των σημείων κατά μήκος του δεύτερου κύριου στοιχείου φαίνεται να ενισχύονται. Το 22,76% της συνολικής διακύμανσης που αποδίδεται στη δεύτερη συνιστώσα «μετακίνησε» τα σημεία κατά την ίδια απόσταση με το 77,24% της διακύμανσης που αποδίδεται στην πρώτη κύρια συνιστώσα.

Προκειμένου η θέση των σημείων στο επίπεδο των κύριων στοιχείων να αντιστοιχεί στην πραγματική τους θέση, αυτό το επίπεδο θα πρέπει να παραμορφωθεί. Στο σχ. 9.1.3. φαίνονται δύο ομόκεντροι κύκλοι. Οι ακτίνες τους συσχετίζονται ως η αναλογία των διασπορών που ανακλάται από το πρώτο και το δεύτερο κύριο συστατικό. Η εικόνα που αντιστοιχεί στο Σχ. Το 9.1.2 παραμορφώνεται έτσι ώστε η τυπική απόκλιση του πρώτου κύριου στοιχείου να αντιστοιχεί στον μεγαλύτερο κύκλο και του δεύτερου στο μικρότερο.


Ρύζι. 9.1.3. Λάβαμε υπόψη ότι το πρώτο κύριο συστατικό έχει 6 Ομεγαλύτερο ποσοστό διακύμανσης από το δεύτερο. Για να γίνει αυτό, παραμορφώσαμε το Σχ. 9.1.2, τοποθετώντας το κάτω από δύο ομόκεντρους κύκλους, οι ακτίνες των οποίων συσχετίζονται, ως το ποσοστό των αποκλίσεων που αποδίδονται στα κύρια στοιχεία. Αλλά η θέση των σημείων εξακολουθεί να μην αντιστοιχεί στην αρχική που φαίνεται στο Σχ. 9.1.1!

Γιατί είναι η σχετική θέση των σημείων στο Σχ. Το 9.1.3 δεν αντιστοιχεί σε αυτό της εικ. 9.1.1; Στο αρχικό σχήμα, εικ. Τα 9,1 σημεία βρίσκονται σύμφωνα με τις συντεταγμένες τους και όχι σύμφωνα με τις αναλογίες διακύμανσης που εμπίπτουν σε κάθε άξονα. Απόσταση 1 μονάδας σύμφωνα με το πρώτο χαρακτηριστικό (κατά μήκος της τετμημένης) στο Σχ. 1, υπάρχει μικρότερη αναλογία της διακύμανσης των σημείων κατά μήκος αυτού του άξονα από μια απόσταση 1 μονάδας σύμφωνα με το δεύτερο χαρακτηριστικό (κατά μήκος της τεταγμένης). Και στο σχήμα 9.1.1, οι αποστάσεις μεταξύ των σημείων καθορίζονται από τις ίδιες τις μονάδες στις οποίες μετρώνται τα χαρακτηριστικά με τις οποίες περιγράφονται.

Ας περιπλέκουμε λίγο το έργο. Τραπέζι Το 9.1.1 δείχνει τις συντεταγμένες 10 σημείων σε 10-διάστατο χώρο. Τα πρώτα τρία σημεία και οι δύο πρώτες διαστάσεις είναι το παράδειγμα που μόλις εξετάσαμε.

Πίνακας 9.1.1. Σημεία συντεταγμένων για περαιτέρω ανάλυση

Συντεταγμένες

Για εκπαιδευτικούς σκοπούς, πρώτα θα εξετάσουμε μόνο μέρος των δεδομένων από τον Πίνακα. 9.1.1. Στο σχ. 9.1.4 βλέπουμε τη θέση των δέκα σημείων στο επίπεδο των δύο πρώτων χαρακτηριστικών. Σημειώστε ότι το πρώτο κύριο στοιχείο (γραμμή C) πήγε ελαφρώς διαφορετικά από ό,τι στην προηγούμενη περίπτωση. Δεν είναι περίεργο: η θέση του επηρεάζεται από όλα τα σημεία που εξετάζονται.


Ρύζι. 9.1.4. Αυξήσαμε τους βαθμούς. Το πρώτο βασικό στοιχείο προχωρά ήδη κάπως διαφορετικά, επειδή επηρεάστηκε από τα πρόσθετα σημεία

Στο σχ. Το 9.1.5 δείχνει τη θέση των 10 σημείων που έχουμε εξετάσει στο επίπεδο των δύο πρώτων συνιστωσών. Παρακαλώ σημειώστε: όλα έχουν αλλάξει, όχι μόνο η αναλογία διακύμανσης που αποδίδεται σε κάθε κύριο στοιχείο, αλλά ακόμη και η θέση των πρώτων τριών σημείων!


Ρύζι. 9.1.5. Ταξινόμηση στο επίπεδο των πρώτων κύριων συνιστωσών των 10 σημείων, που περιγράφεται στον πίνακα. 9.1.1. Λαμβάνονται υπόψη μόνο οι τιμές των δύο πρώτων χαρακτηριστικών, οι τελευταίες 8 στήλες του πίνακα. 9.1.1 δεν χρησιμοποιείται

Γενικά, αυτό είναι φυσικό: αφού τα κύρια εξαρτήματα βρίσκονται διαφορετικά, τότε έχει αλλάξει και η σχετική θέση των σημείων.

Οι δυσκολίες στη σύγκριση της θέσης των σημείων στο επίπεδο των κύριων στοιχείων και στο αρχικό επίπεδο των τιμών των χαρακτηριστικών τους μπορεί να προκαλέσουν σύγχυση: γιατί να χρησιμοποιήσετε μια τόσο δύσκολη στην ερμηνεία μέθοδο; Η απάντηση είναι απλή. Στην περίπτωση που τα συγκριτικά αντικείμενα περιγράφονται από δύο μόνο χαρακτηριστικά, είναι πολύ πιθανό να χρησιμοποιηθεί η χειροτονία τους από αυτά τα αρχικά χαρακτηριστικά. Όλα τα πλεονεκτήματα της ανάλυσης του κύριου στοιχείου εμφανίζονται στην περίπτωση πολυδιάστατων δεδομένων. Σε αυτήν την περίπτωση, η μέθοδος του κύριου συστατικού αποδεικνύεται ότι είναι αποτελεσματικός τρόποςμειώνοντας τη διάσταση των δεδομένων.

9.2. Μεταβείτε στα αρχικά δεδομένα με μεγάλο αριθμό διαστάσεων

Ας εξετάσουμε μια πιο περίπλοκη περίπτωση: ας αναλύσουμε τα δεδομένα που παρουσιάζονται στον πίνακα. 9.1.1 και για τα δέκα κριτήρια. Στο σχ. Το 9.2.1 δείχνει πώς ονομάζεται το παράθυρο της μεθόδου που μας ενδιαφέρει.


Ρύζι. 9.2.1. Εκτελέστε τη μέθοδο Principal Component Method

Θα μας ενδιαφέρει μόνο η επιλογή των χαρακτηριστικών για ανάλυση, αν και ο διάλογος Statistica επιτρέπει πολύ πιο ακριβή συντονισμό (Εικ. 9.2.2).


Ρύζι. 9.2.2. Επιλογή μεταβλητών για ανάλυση

Μετά την εκτέλεση της ανάλυσης, εμφανίζεται ένα παράθυρο των αποτελεσμάτων της με πολλές καρτέλες (Εικ. 9.2.3). Όλα τα κύρια παράθυρα είναι διαθέσιμα από την πρώτη καρτέλα.


Ρύζι. 9.2.3. Η πρώτη καρτέλα του πλαισίου διαλόγου Αποτελέσματα ανάλυσης κύριου στοιχείου

Μπορείτε να δείτε ότι η ανάλυση εντόπισε 9 κύρια συστατικά και περιέγραψε χρησιμοποιώντας αυτά το 100% της διακύμανσης που αντικατοπτρίζεται σε 10 αρχικά χαρακτηριστικά. Αυτό σημαίνει ότι ένα χαρακτηριστικό ήταν περιττό, περιττό.

Ας ξεκινήσουμε την προβολή των αποτελεσμάτων με το κουμπί "Vordinates παράγοντας περίπτωσης γραφικής παράστασης, 2D": θα εμφανίσει τη θέση των σημείων στο επίπεδο που ορίζονται από τα δύο κύρια στοιχεία. Κάνοντας κλικ σε αυτό το κουμπί, θα μπούμε σε ένα παράθυρο διαλόγου όπου θα είναι απαραίτητο να υποδείξουμε ποια στοιχεία θα χρησιμοποιήσουμε. είναι φυσικό να ξεκινήσει η ανάλυση με την πρώτη και τη δεύτερη συνιστώσα. Το αποτέλεσμα φαίνεται στο Σχ. 9.2.4.


Ρύζι. 9.2.4. Ταξινόμηση των εξεταζόμενων αντικειμένων στο επίπεδο των δύο πρώτων κύριων συνιστωσών

Η θέση των σημείων έχει αλλάξει, και αυτό είναι φυσικό: νέα χαρακτηριστικά εμπλέκονται στην ανάλυση. Στο σχ. Το 9.2.4 αντικατοπτρίζει περισσότερο από το 65% της συνολικής ποικιλομορφίας στη θέση των σημείων μεταξύ τους, και αυτό είναι ήδη ένα μη τετριμμένο αποτέλεσμα. Για παράδειγμα, επιστροφή στο τραπέζι. 1, μπορείτε να επαληθεύσετε ότι τα σημεία 4 και 7, καθώς και τα 8 και 10 είναι πολύ κοντά το ένα στο άλλο. Ωστόσο, οι διαφορές μεταξύ τους μπορεί να σχετίζονται με άλλα κύρια στοιχεία που δεν φαίνονται στο σχήμα: ωστόσο, αντιπροσωπεύουν επίσης το ένα τρίτο της εναπομένουσας μεταβλητότητας.

Παρεμπιπτόντως, κατά την ανάλυση της τοποθέτησης σημείων στο επίπεδο των κύριων εξαρτημάτων, μπορεί να είναι απαραίτητο να αναλυθούν οι αποστάσεις μεταξύ τους. Ο ευκολότερος τρόπος για να λάβετε έναν πίνακα αποστάσεων μεταξύ σημείων είναι να χρησιμοποιήσετε τη μονάδα ανάλυσης συστάδων.

Και πώς σχετίζονται τα επιλεγμένα κύρια στοιχεία με τα αρχικά χαρακτηριστικά; Αυτό μπορείτε να το βρείτε κάνοντας κλικ στο κουμπί (Εικ. 9.2.3) Plot var. συντεταγμένες συντελεστών, 2D. Το αποτέλεσμα φαίνεται στο Σχ. 9.2.5.


Ρύζι. 9.2.5. Προβολές των αρχικών χαρακτηριστικών στο επίπεδο των δύο πρώτων κύριων στοιχείων

Εξετάζουμε το επίπεδο των δύο κύριων συστατικών "από πάνω". Τα αρχικά χαρακτηριστικά, που δεν έχουν καμία σχέση με τα κύρια στοιχεία, θα είναι κάθετα (ή σχεδόν κάθετα) σε αυτά και θα αντικατοπτρίζονται σε σύντομες γραμμές που τελειώνουν κοντά στην αρχή. Έτσι, το χαρακτηριστικό αριθμός 6 σχετίζεται λιγότερο από όλα με τα δύο πρώτα κύρια συστατικά (αν και δείχνει μια ορισμένη θετική συσχέτιση με το πρώτο συστατικό). Τα τμήματα που αντιστοιχούν σε εκείνα τα χαρακτηριστικά που αντανακλώνται πλήρως στο επίπεδο των κύριων στοιχείων θα τελειώνουν σε έναν κύκλο μοναδιαίας ακτίνας που περικλείει το κέντρο του σχεδίου.

Για παράδειγμα, μπορείτε να δείτε ότι το πρώτο κύριο συστατικό επηρεάστηκε περισσότερο από τα χαρακτηριστικά 10 (θετικά συσχετισμένα) και 7 και 8 (αρνητικά συσχετισμένα). Για να εξετάσετε τη δομή τέτοιων συσχετίσεων με περισσότερες λεπτομέρειες, μπορείτε να κάνετε κλικ στο κουμπί Συντεταγμένες συντελεστών μεταβλητών και να λάβετε τον πίνακα που φαίνεται στο Σχήμα. 9.2.6.


Ρύζι. 9.2.6. Συσχετισμοί μεταξύ των αρχικών χαρακτηριστικών και των επιλεγμένων κύριων στοιχείων (Παράγοντες)

Το κουμπί Eigenvalues ​​εμφανίζει τιμές που καλούνται ιδιοτιμές των κύριων συστατικών... Στο επάνω μέρος του παραθύρου που φαίνεται στο Σχ. 9.2.3, τέτοιες τιμές προκύπτουν για τα πρώτα συστατικά. το κουμπί Scree plot τα δείχνει σε μια ευανάγνωστη μορφή (Εικ. 9.2.7).


Ρύζι. 9.2.7. Ιδιοτιμές των επιλεγμένων κύριων συνιστωσών και η αναλογία της συνολικής διακύμανσης που αντικατοπτρίζεται από αυτά

Πρώτα, πρέπει να καταλάβετε τι ακριβώς δείχνει η ιδιοτιμή. Είναι ένα μέτρο της διακύμανσης που αντικατοπτρίζεται στο κύριο συστατικό, μετρούμενο στο ποσό της διακύμανσης που αποδίδεται σε κάθε χαρακτηριστικό στα αρχικά δεδομένα. Εάν η ιδιοτιμή του πρώτου κύριου στοιχείου είναι 3,4, αυτό σημαίνει ότι αντικατοπτρίζει μεγαλύτερη διακύμανση από τρία χαρακτηριστικά από το αρχικό σύνολο. Οι ιδιοτιμές σχετίζονται γραμμικά με το κλάσμα της διακύμανσης που αποδίδεται στο κύριο συστατικό, το μόνο πράγμα είναι ότι το άθροισμα των ιδιοτιμών είναι ίσο με τον αριθμό των αρχικών χαρακτηριστικών και το άθροισμα των κλασμάτων της διακύμανσης είναι 100%.

Και τι σημαίνει ότι οι πληροφορίες σχετικά με τη μεταβλητότητα για 10 χαρακτηριστικά αντικατοπτρίστηκαν σε 9 κύρια συστατικά; Το ότι μία από τις αρχικές ενδείξεις ήταν περιττή δεν πρόσθεσε καμία νέα πληροφορία. Και έτσι ήταν? στο σχ. Το 9.2.8 δείχνει πώς δημιουργήθηκε το σύνολο σημείων, όπως φαίνεται στον πίνακα. 9.1.1.

ΕΦΑΡΜΟΓΗ ΤΗΣ ΜΕΘΟΔΟΥ ΚΥΡΙΩΝ ΣΥΣΤΑΤΙΚΩΝ

ΓΙΑ ΕΠΕΞΕΡΓΑΣΙΑ ΠΟΛΥΔΙΑΣΤΑΤΩΝ ΣΤΑΤΙΣΤΙΚΩΝ ΔΕΔΟΜΕΝΩΝ

Εξετάζονται τα θέματα επεξεργασίας πολυδιάστατων στατιστικών δεδομένων της αξιολόγησης βαθμολόγησης των μαθητών με βάση την εφαρμογή της μεθόδου των κύριων συνιστωσών.

Λέξεις κλειδιά: πολυμεταβλητή ανάλυση δεδομένων, μείωση διαστάσεων, ανάλυση κύριου συστατικού, βαθμολογία.

Στην πράξη, συχνά πρέπει να αντιμετωπίσουμε μια κατάσταση όπου το αντικείμενο της έρευνας χαρακτηρίζεται από πολλές διαφορετικές παραμέτρους, καθεμία από τις οποίες μετριέται ή αξιολογείται. Η ανάλυση της σειράς των αρχικών δεδομένων που ελήφθησαν ως αποτέλεσμα της μελέτης πολλών αντικειμένων του ίδιου τύπου είναι ένα πρακτικά άλυτο πρόβλημα. Επομένως, ο ερευνητής χρειάζεται να αναλύσει τις συνδέσεις και τις αλληλεξαρτήσεις μεταξύ των αρχικών παραμέτρων για να απορρίψει κάποιες από αυτές ή να τις αντικαταστήσει με μικρότερο αριθμό οποιωνδήποτε συναρτήσεων από αυτές, διατηρώντας, αν είναι δυνατόν, όλες τις πληροφορίες που περιέχονται σε αυτές.

Από αυτή την άποψη, προκύπτει το πρόβλημα της μείωσης της διάστασης, δηλαδή της μετάβασης από τον αρχικό πίνακα δεδομένων σε έναν σημαντικά μικρότερο αριθμό δεικτών που επιλέγονται από τον αριθμό των αρχικών ή που λαμβάνονται από κάποιο μετασχηματισμό τους (με τη μικρότερη απώλεια πληροφοριών που περιέχεται στον αρχικό πίνακα), και ταξινόμηση - διαίρεση των εξεταζόμενων συλλογών αντικειμένων σε ομοιογενείς (κατά μία έννοια) ομάδες. Εάν λήφθηκαν τα αποτελέσματα μιας στατιστικής έρευνας ενός ολόκληρου συνόλου αντικειμένων για μεγάλο αριθμό διαφορετικών τύπων και στοχαστικά αλληλένδετων δεικτών, τότε για την επίλυση των προβλημάτων ταξινόμησης και μείωσης διαστάσεων, θα πρέπει να χρησιμοποιηθεί η εργαλειοθήκη της πολυμεταβλητής στατιστικής ανάλυσης, ιδίως τη μέθοδο του κύριου συστατικού.


Το άρθρο προτείνει μια μεθοδολογία για την εφαρμογή της μεθόδου των κύριων στοιχείων για την επεξεργασία πολυμεταβλητών στατιστικών δεδομένων. Ως παράδειγμα, δίνεται η λύση του προβλήματος της στατιστικής επεξεργασίας των πολυδιάστατων αποτελεσμάτων της αξιολόγησης της βαθμολογίας των μαθητών.

1. Προσδιορισμός και υπολογισμός των κύριων συνιστωσών..png "height =" 22 src = "> χαρακτηριστικά. Ως αποτέλεσμα, λαμβάνουμε πολυδιάστατες παρατηρήσεις, καθεμία από τις οποίες μπορεί να αναπαρασταθεί ως διανυσματική παρατήρηση

όπου https://pandia.ru/text/79/206/images/image005.png "height =" 22 src = ">. png" height = "22 src ="> είναι το σύμβολο της λειτουργίας μεταφοράς.

Οι λαμβανόμενες πολυμεταβλητές παρατηρήσεις πρέπει να υποβληθούν σε στατιστική επεξεργασία..png "height =" 22 src = ">. Png" height = "22 src =">. Png "width =" 132 "height =" 25 src = ">. Png" width = "33" height = "22 src ="> επιτρεπόμενοι μετασχηματισμοί των χαρακτηριστικών που μελετήθηκαν 0 "style =" border-collapse: collapse ">

- κατάσταση ομαλοποίησης.

- κατάσταση ορθογωνικότητας

Λαμβάνεται από έναν τέτοιο μετασχηματισμό https://pandia.ru/text/79/206/images/image018.png "width =" 79 "height =" 23 src = "> και αντιπροσωπεύει τα κύρια συστατικά. Οι μεταβλητές με ελάχιστη διακύμανση εξαιρούνται από αυτά σε περαιτέρω ανάλυση. , δηλαδή..png "width =" 131 "height =" 22 src = "> σε μετασχηματισμό (2) .. png" width = "13" height = "22 src ="> αυτού του πίνακα είναι ίσες με τις διακυμάνσεις των κύριων συνιστωσών.

Έτσι, το πρώτο κύριο στοιχείο https://pandia.ru/text/79/206/images/image013.png "width =" 80 "height =" 23 src = "> είναι ένας τόσο κανονικοποιημένος-κεντρικός γραμμικός συνδυασμός αυτών των δεικτών , ο οποίος μεταξύ όλων των άλλων παρόμοιων συνδυασμών έχει τη μεγαλύτερη διακύμανση..png "width =" 12 "height =" 22 src = "> ιδιοδιάνυσμα μήτρας https://pandia.ru/text/79/206/images/image025.png "width =" 15 "height =" 22 src = ">. png" πλάτος = "80" ύψος = "23 src = " > είναι ένας κανονικοποιημένος-κεντρικός γραμμικός συνδυασμός αυτών των δεικτών που δεν συσχετίζεται με https://pandia.ru/text/79/206/images/image013.png" πλάτος = "80" ύψος = "23 src =">. png "width =" 80 "height =" 23 src = "> μετρώνται σε διαφορετικές μονάδες, τα αποτελέσματα της μελέτης που χρησιμοποιούν τα κύρια στοιχεία θα εξαρτηθούν σημαντικά από την επιλογή της κλίμακας και τη φύση των μονάδων και τους γραμμικούς συνδυασμούς που προκύπτουν των αρχικών μεταβλητών θα είναι δύσκολο να ερμηνευθούν. Από αυτή την άποψη, με διαφορετικές μονάδες μέτρησης για τα αρχικά χαρακτηριστικά DIV_ADBLOCK310 ">


https://pandia.ru/text/79/206/images/image030.png "width =" 17 "height =" 22 src = ">. png" πλάτος = "56" ύψος = "23 src =">. Μετά από έναν τέτοιο μετασχηματισμό, τα κύρια στοιχεία αναλύονται σε σχέση με τις τιμές https://pandia.ru/text/79/206/images/image033.png "width =" 17 "height =" 22 src = "> , που είναι ταυτόχρονα ένας πίνακας συσχέτισης https://pandia.ru/text/79/206/images/image035.png "width =" 162 "height =" 22 src = ">. png" width = "13" height = "22 src = "> ενεργό Εγώ- το αρχικό χαρακτηριστικό ..png "width =" 14 "height =" 22 src = ">. png" width = "10" height = "22 src ="> είναι ίσο με τη διακύμανση v- τα κύρια συστατικά ύψος = "22 src =">. png "width =" 251 "height =" 25 src = ">

Για να πραγματοποιήσουμε υπολογισμούς, συγκεντρώνουμε διανυσματικές παρατηρήσεις σε ένα δείγμα μήτρας, στον οποίο οι σειρές αντιστοιχούν στα ελεγχόμενα χαρακτηριστικά και οι στήλες αντιστοιχούν στα αντικείμενα μελέτης (η διάσταση του πίνακα - https://pandia.ru/text/ 79/206/images/image043.png "width =" 348 "height =" 67 src = ">

Αφού κεντράρουμε τα αρχικά δεδομένα, βρίσκουμε τον πίνακα συσχέτισης του δείγματος με τον τύπο

https://pandia.ru/text/79/206/images/image045.png "width =" 204 "height =" 69 src = ">

Διαγώνια στοιχεία της μήτρας https://pandia.ru/text/79/206/images/image047.png "width =" 206 "height =" 68 src = ">

Τα εκτός διαγώνια στοιχεία αυτού του πίνακα αντιπροσωπεύουν δειγματοληπτικές εκτιμήσεις των συντελεστών συσχέτισης μεταξύ του αντίστοιχου ζεύγους χαρακτηριστικών.

Σχεδιάστε τη χαρακτηριστική εξίσωση για τον πίνακα 0 "style =" margin-left: 5.4pt; border-collapse: collapse ">

Βρίσκουμε όλες τις ρίζες του:

Τώρα, για να βρούμε τα συστατικά των κύριων διανυσμάτων, αντικαθιστούμε διαδοχικά τις αριθμητικές τιμές https://pandia.ru/text/79/206/images/image065.png "width =" 16 "height =" 22 src = ">. Png" width = "102 "height =" 24 src = ">

Για παράδειγμα, στη διεύθυνση https://pandia.ru/text/79/206/images/image069.png "width =" 262 "height =" 70 src = ">

Προφανώς, το προκύπτον σύστημα εξισώσεων είναι συνεπές λόγω ομοιογένειας και αόριστο, δηλαδή έχει ένα άπειρο σύνολο λύσεων. Για να βρούμε τη μοναδική λύση που μας ενδιαφέρει, θα χρησιμοποιήσουμε τις ακόλουθες διατάξεις:

1. Για τις ρίζες του συστήματος, η σχέση μπορεί να γραφτεί

https://pandia.ru/text/79/206/images/image071.png "width =" 20 "height =" 23 src = "> - αλγεβρική προσθήκη ιτο στοιχείο οποιουδήποτε Εγώ-η σειρά του πίνακα συστήματος.

2. Η παρουσία της συνθήκης κανονικοποίησης (2) διασφαλίζει τη μοναδικότητα της λύσης του υπό εξέταση συστήματος..png "width =" 13 "height =" 22 src = ">, προσδιορίζονται μοναδικά, εκτός από το ότι μπορούν Όλα αλλάζουν πρόσημο ταυτόχρονα.Ωστόσο, τα πρόσημα των συστατικών ιδιοδιανυσμάτων δεν παίζουν σημαντικό ρόλο, καθώς η αλλαγή τους δεν επηρεάζει το αποτέλεσμα της ανάλυσης, μπορούν να χρησιμεύσουν μόνο για να υποδείξουν αντίθετες τάσεις στην αντίστοιχη κύρια συνιστώσα.

Έτσι, παίρνουμε το δικό μας διάνυσμα https://pandia.ru/text/79/206/images/image025.png "width =" 15 "height =" 22 src = ">:

https://pandia.ru/text/79/206/images/image024.png "width =" 12 "height =" 22 src = "> έλεγχος για ισότητα

https://pandia.ru/text/79/206/images/image076.png "width =" 503 "height =" 22 ">

… … … … … … … … …

https://pandia.ru/text/79/206/images/image078.png "width =" 595 "height =" 22 src = ">

https://pandia.ru/text/79/206/images/image080.png "width =" 589 "height =" 22 src = ">

όπου https://pandia.ru/text/79/206/images/image082.png "width =" 16 "height =" 22 src = ">. png" πλάτος = "23" ύψος = "22 src ="> - τυποποιημένες τιμές των αντίστοιχων αρχικών χαρακτηριστικών.

Δημιουργήστε έναν ορθογώνιο γραμμικό πίνακα μετασχηματισμού https://pandia.ru/text/79/206/images/image086.png "width =" 94 "height =" 22 src = ">

Εφόσον, σύμφωνα με τις ιδιότητες των κύριων συστατικών, το άθροισμα των διακυμάνσεων των αρχικών χαρακτηριστικών είναι ίσο με το άθροισμα των διακυμάνσεων όλων των κύριων συνιστωσών, τότε, λαμβάνοντας υπόψη ότι θεωρήσαμε τα κανονικοποιημένα αρχικά χαρακτηριστικά, είναι είναι δυνατόν να εκτιμηθεί πόσο από τη συνολική μεταβλητότητα των αρχικών χαρακτηριστικών εξηγείται από καθένα από τα κύρια συστατικά. Για παράδειγμα, για τα δύο πρώτα κύρια στοιχεία έχουμε:

Έτσι, σύμφωνα με το κριτήριο της πληροφόρησης που χρησιμοποιείται για τα κύρια συστατικά που βρέθηκαν από τον πίνακα συσχέτισης, τα πρώτα επτά κύρια στοιχεία εξηγούν το 88,97% της συνολικής μεταβλητότητας των δεκαπέντε αρχικών χαρακτήρων.

Χρησιμοποιώντας τη μήτρα γραμμικού μετασχηματισμού https://pandia.ru/text/79/206/images/image038.png "width =" 10 "height =" 22 src = "> (για τα πρώτα επτά κύρια στοιχεία):

https://pandia.ru/text/79/206/images/image090.png "width =" 16 "height =" 22 src = "> - ο αριθμός των διπλωμάτων που ελήφθησαν στο διαγωνισμό επιστημονικών και διπλωματικών εργασιών· https: // pandia .ru / text / 79/206 / images / image092.png "width =" 16 "height =" 22 src = ">. png" πλάτος = "22" ύψος = "22 src =">. png " width =" 22 "height =" 22 src = ">. Png" width = "22" height = "22 src ="> - βραβεία και έπαθλα που λαμβάνονται σε περιφερειακούς, περιφερειακούς και αστικούς αθλητικούς αγώνες.

3..png "width =" 16 "height =" 22 src = "> (ο αριθμός των πιστοποιητικών με βάση τα αποτελέσματα συμμετοχής σε διαγωνισμούς επιστημονικών και διπλωματικών εργασιών).

4..png "width =" 22 "height =" 22 src = "> (βραβεία και βραβεία που λαμβάνονται σε πανεπιστημιακούς διαγωνισμούς).

6. Το έκτο κύριο στοιχείο συσχετίζεται θετικά με το DIV_ADBLOCK311 ">

4. Το τρίτο βασικό συστατικό είναι η δραστηριότητα των μαθητών στην εκπαιδευτική διαδικασία.

5. Η τέταρτη και η έκτη συνιστώσα είναι η επιμέλεια των φοιτητών κατά το εαρινό και χειμερινό εξάμηνο, αντίστοιχα.

6. Η πέμπτη κύρια συνιστώσα είναι ο βαθμός συμμετοχής σε αθλητικούς αγώνες του πανεπιστημίου.

Στο μέλλον, για τη διενέργεια όλων των απαραίτητων υπολογισμών για την επιλογή των κύριων στοιχείων, προτείνεται η χρήση εξειδικευμένων στατιστικών συστημάτων λογισμικού, για παράδειγμα, STATISTICA, τα οποία θα διευκολύνουν σημαντικά τη διαδικασία ανάλυσης.

Η διαδικασία προσδιορισμού των κύριων στοιχείων που περιγράφονται σε αυτό το άρθρο στο παράδειγμα της αξιολόγησης της βαθμολογίας των φοιτητών προτείνεται να χρησιμοποιηθεί για τη βεβαίωση πτυχιούχων και μεταπτυχιακών.

ΒΙΒΛΙΟΓΡΑΦΙΑ

1. Εφαρμοσμένες στατιστικές: Ταξινόμηση και μείωση διαστάσεων: αναφ. εκδ. /,; εκδ. ... - Μ .: Οικονομικά και στατιστική, 1989. - 607 σελ.

2. Εγχειρίδιο Εφαρμοσμένης Στατιστικής: σε 2 τόμους: [αν. από τα αγγλικά] / επιμ. E. Lloyd, W. Lederman,. - Μ.: Οικονομικά και στατιστική, 1990. - Τ. 2. - 526 σελ.

3. Εφαρμοσμένες στατιστικές. Βασικές αρχές Οικονομετρίας. Σε 2 τόμους.Τόμος 1. Θεωρία πιθανοτήτων και εφαρμοσμένες στατιστικές: σχολικό βιβλίο. για πανεπιστήμια /, B. S. Mkhitaryan. - 2η έκδ., Rev. - M: UNITY-DANA, 2001. - 656 p.

4. Afifi, A. Statistical analysis: a computer-based προσέγγιση: [μτφρ. από τα αγγλικά] / A. Afifi, S. Eisen. - M .: Mir, 1982. - 488 p.

5. Dronov, στατιστική ανάλυση: σχολικό βιβλίο. εγχειρίδιο /. - Μπάρνα3. - 213 σελ.

6. Anderson, T. Εισαγωγή στην πολυμεταβλητή στατιστική ανάλυση / T. Anderson; ανά. από τα Αγγλικά [και τα λοιπά.]; εκδ. ... - Μ .: Πολιτεία. εκδοτικός οίκος φυσ.-ματ. lit., 1963 .-- 500 p.

7. Lawley, D. Η παραγοντική ανάλυση ως στατιστική μέθοδος / D. Lawley, A. Maxwell; ανά. από τα Αγγλικά ... - M .: Mir, 1967 .-- 144 p.

8. Dubrov, στατιστικές μέθοδοι: σχολικό βιβλίο /,. - Μ .: Οικονομικά και στατιστική, 2003 .-- 352 σελ.

9. Kendall, M. Πολυμεταβλητή στατιστική ανάλυση και χρονοσειρές / M. Kendall, A. Stewart· μετάφρ. από τα Αγγλικά , εκδ. , - M .: Nauka, 1976. - 736 σ.

10. Beloglazov, ανάλυση στα προβλήματα της ποιότητας της εκπαίδευσης / // Izv. RAS. Θεωρία και συστήματα ελέγχου. - 2006. - Αρ. 6. - S. 39 - 52.

Το υλικό παρελήφθη από τη συντακτική επιτροπή στις 8 Νοεμβρίου 11.

Η εργασία πραγματοποιήθηκε στο πλαίσιο του ομοσπονδιακού προγράμματος στόχου "Επιστημονικό και επιστημονικό-παιδαγωγικό προσωπικό της καινοτόμου Ρωσίας" για την περίοδο 2009-2013. (κρατική σύμβαση Αρ. Π770).

Σε αυτό το άρθρο, θα ήθελα να μιλήσω για το πώς ακριβώς λειτουργεί η μέθοδος ανάλυσης κύριου συστατικού (PCA) από την άποψη της διαίσθησης πίσω από τη μαθηματική της συσκευή. Όσο πιο απλό γίνεται, αλλά αναλυτικό.

Γενικά, τα μαθηματικά είναι μια πολύ όμορφη και κομψή επιστήμη, αλλά μερικές φορές η ομορφιά τους κρύβεται πίσω από ένα σωρό στρώματα αφαίρεσης. Είναι καλύτερο να δείξουμε αυτήν την ομορφιά με απλά παραδείγματα που, ας πούμε, μπορούν να στραφούν, να παίξουν και να αγγιχτούν, γιατί τελικά όλα αποδεικνύονται πολύ πιο εύκολα από ό,τι φαίνεται με την πρώτη ματιά - το πιο σημαντικό είναι να καταλάβουμε και φαντάζομαι.

Στην ανάλυση δεδομένων, όπως και σε κάθε άλλη ανάλυση, μερικές φορές είναι χρήσιμο να δημιουργηθεί ένα απλοποιημένο μοντέλο που να περιγράφει την πραγματική κατάσταση των πραγμάτων όσο το δυνατόν ακριβέστερα. Συμβαίνει συχνά τα ζώδια να εξαρτώνται αρκετά το ένα από το άλλο και η ταυτόχρονη παρουσία τους να είναι περιττή.

Για παράδειγμα, η κατανάλωση καυσίμου μας μετριέται σε λίτρα ανά 100 km και στις ΗΠΑ σε μίλια ανά γαλόνι. Με την πρώτη ματιά, οι μεγάλοι είναι διαφορετικοί, αλλά στην πραγματικότητα εξαρτώνται αυστηρά ο ένας από τον άλλον. Σε ένα μίλι 1600 χλμ, και σε ένα γαλόνι 3,8 λίτρα. Το ένα ζώδιο εξαρτάται αυστηρά από το άλλο, γνωρίζοντας το ένα, γνωρίζουμε το άλλο.

Αλλά πολύ πιο συχνά συμβαίνει ότι τα χαρακτηριστικά εξαρτώνται το ένα από το άλλο όχι τόσο αυστηρά και (τι είναι σημαντικό!) Όχι τόσο καθαρά. Ο κυβισμός του κινητήρα γενικά έχει θετική επίδραση στην επιτάχυνση στα 100 km/h, αλλά αυτό δεν ισχύει πάντα. Και μπορεί επίσης να αποδειχθεί ότι λαμβάνοντας υπόψη παράγοντες που δεν είναι ορατοί με την πρώτη ματιά (όπως η βελτίωση της ποιότητας καυσίμου, η χρήση ελαφρύτερων υλικών και άλλα σύγχρονα επιτεύγματα), το έτος του αυτοκινήτου δεν είναι ισχυρό, αλλά επηρεάζει επίσης την επιτάχυνσή του.

Γνωρίζοντας τις εξαρτήσεις και τη δύναμή τους, μπορούμε να εκφράσουμε πολλά χαρακτηριστικά μέσω ενός, να συγχωνευθούμε, ας πούμε, και να εργαστούμε με ένα απλούστερο μοντέλο. Φυσικά, πιθανότατα δεν θα είναι δυνατό να αποφευχθεί η απώλεια πληροφοριών, αλλά η μέθοδος PCA θα μας βοηθήσει να την ελαχιστοποιήσουμε.

Πιο αυστηρά, αυτή η μέθοδος προσεγγίζει ένα ν-διάστατο νέφος παρατήρησης σε ένα ελλειψοειδές (επίσης n-διάστατο), οι ημιάξονες του οποίου θα είναι τα μελλοντικά κύρια συστατικά. Και όταν προβάλλεται σε τέτοιους άξονες (μειώνοντας τη διάσταση), διατηρείται ο μεγαλύτερος όγκος πληροφοριών.

Βήμα 1. Προετοιμάστε τα δεδομένα

Εδώ, για λόγους απλότητας του παραδείγματος, δεν θα πάρω πραγματικά σύνολα δεδομένων εκπαίδευσης για δεκάδες χαρακτηριστικά και εκατοντάδες παρατηρήσεις, αλλά θα φτιάξω το δικό μου, όσο το δυνατόν πιο απλό παράδειγμα παιχνιδιού. 2 χαρακτηριστικά και 10 παρατηρήσεις θα είναι αρκετές για να περιγράψουν τι, και το πιο σημαντικό - γιατί, συμβαίνει στα έγκατα του αλγορίθμου.

Ας δημιουργήσουμε μια επιλογή:

X = np.arange (1,11) y = 2 * x + np.random.randn (10) * 2 X = np.vstack ((x, y)) εκτύπωση X OUT: [[1.3. 4. 5. 6. 7. 8. 9. 10.] [2.73446908 4.35122722 7.21132988 11.24872601 9.58103444 12.09865079 13.78122722 13.78103201.

Σε αυτό το δείγμα, έχουμε δύο χαρακτηριστικά που συσχετίζονται στενά μεταξύ τους. Χρησιμοποιώντας τον αλγόριθμο PCA, μπορούμε εύκολα να βρούμε μια δυνατότητα συνδυασμού και, με το κόστος ορισμένων πληροφοριών, να εκφράσουμε και τα δύο αυτά χαρακτηριστικά σε ένα νέο. Ας το καταλάβουμε λοιπόν!

Ας ξεκινήσουμε με μερικά στατιστικά στοιχεία. Θυμηθείτε ότι οι ροπές χρησιμοποιούνται για να περιγράψουν μια τυχαία μεταβλητή. Χρειαζόμαστε - χαλάκι. προσδοκία και διακύμανση. Μπορούμε να το πούμε αυτό φίλε. Η προσδοκία είναι το «κέντρο βάρους» μιας ποσότητας και η διακύμανση είναι οι «διαστάσεις» της. Σε γενικές γραμμές, ματ. Η προσδοκία καθορίζει τη θέση της τυχαίας μεταβλητής και η διακύμανση καθορίζει το μέγεθός της.

Η ίδια η διαδικασία προβολής σε ένα διάνυσμα δεν επηρεάζει τις μέσες τιμές με κανέναν τρόπο, καθώς για να ελαχιστοποιηθεί η απώλεια πληροφοριών, το διάνυσμά μας πρέπει να περάσει από το κέντρο του δείγματός μας. Επομένως, δεν υπάρχει τίποτα ανησυχητικό εάν κεντράρουμε το δείγμα μας - το μετατοπίζουμε γραμμικά έτσι ώστε οι μέσες τιμές των χαρακτηριστικών να είναι ίσες με 0. Αυτό θα απλοποιήσει σημαντικά τους περαιτέρω υπολογισμούς μας (αν και αξίζει να σημειωθεί ότι είναι δυνατό να γίνει χωρίς κεντράρισμα).
Ο χειριστής αντίστροφος στη μετατόπιση θα είναι ίσος με το διάνυσμα των αρχικών μέσων τιμών - θα χρειαστεί για την επαναφορά του δείγματος στην αρχική του διάσταση.

Xcentered = (X - x.mean (), X - y.mean ()) m = (x.mean (), y.mean ()) εκτύπωση Xκεντρική εκτύπωση "Mean vector:", m OUT: (πίνακας ([ -4.5, -3.5, -2.5, -1.5, -0.5, 0.5, 1.5, 2.5, 3.5, 4.5]), array ([- 8,44644233, -8,32845585, -4,93314426, -2,56723136, 1.01013247, 0.58413394, 1.86599939, 7.00558491, 4.21440647, 9.59501658])) Μέσο διάνυσμα: (5.5, 10.314393916)

Η διακύμανση, ωστόσο, εξαρτάται σε μεγάλο βαθμό από τις τάξεις μεγέθους της τυχαίας μεταβλητής, δηλ. ευαίσθητο στην απολέπιση. Επομένως, εάν οι μονάδες μέτρησης των χαρακτηριστικών διαφέρουν πολύ ως προς τη σειρά τους, συνιστάται ιδιαίτερα η τυποποίησή τους. Στην περίπτωσή μας, οι τιμές δεν διαφέρουν πολύ με τη σειρά, επομένως για λόγους απλότητας του παραδείγματος, δεν θα εκτελέσουμε αυτήν τη λειτουργία.

Βήμα 2. Πίνακας συνδιακύμανσης

Στην περίπτωση μιας πολυδιάστατης τυχαίας μεταβλητής (τυχαίο διάνυσμα), η θέση του κέντρου θα εξακολουθεί να είναι ματ. προσδοκίες των προβολών του στον άξονα. Αλλά για να περιγράψουμε το σχήμα του, δεν αρκούν πλέον μόνο οι διασπορές του κατά μήκος των αξόνων. Κοιτάξτε αυτά τα γραφήματα, και οι τρεις τυχαίες μεταβλητές έχουν τον ίδιο μέσο όρο και διακύμανση και οι προβολές τους στους άξονες θα είναι γενικά οι ίδιες!


Απαιτείται ένας πίνακας συνδιακύμανσης για να περιγραφεί το σχήμα ενός τυχαίου διανύσματος.

Αυτή είναι μια μήτρα με (i, j)-στοιχείο είναι ένας συσχετισμός χαρακτηριστικών (X i, X j). Ας θυμηθούμε τον τύπο συνδιακύμανσης:

Στην περίπτωσή μας, απλοποιείται, αφού E (X i) = E (X j) = 0:

Σημειώστε ότι όταν X i = X j:

και αυτό ισχύει για τυχόν τυχαίες μεταβλητές.

Έτσι, στον πίνακα μας στη διαγώνιο θα υπάρχουν οι διακυμάνσεις των χαρακτηριστικών (αφού i = j), και στα υπόλοιπα κελιά - οι συνδιακυμάνσεις των αντίστοιχων ζευγών χαρακτηριστικών. Και λόγω της συμμετρίας της συνδιακύμανσης, ο πίνακας θα είναι επίσης συμμετρικός.

Σχόλιο:Ο πίνακας συνδιακύμανσης είναι μια γενίκευση της διακύμανσης στην περίπτωση των πολυμεταβλητών τυχαίων μεταβλητών - περιγράφει επίσης το σχήμα (spread) μιας τυχαίας μεταβλητής, καθώς και τη διακύμανση.

Πράγματι, η διακύμανση μιας μονοδιάστατης τυχαίας μεταβλητής είναι ένας πίνακας συνδιακύμανσης 1x1, στον οποίο ο μόνος όρος της δίνεται από τον τύπο Cov (X, X) = Var (X).

Ας σχηματίσουμε λοιπόν τον πίνακα συνδιακύμανσης Σ για το δείγμα μας. Για να γίνει αυτό, υπολογίστε τις διακυμάνσεις X i και X j, καθώς και τη συνδιακύμανσή τους. Μπορείτε να χρησιμοποιήσετε τον παραπάνω τύπο, αλλά εφόσον έχουμε οπλιστεί με Python, τότε είναι αμαρτία να μην χρησιμοποιήσετε τη συνάρτηση numpy.cov (X)... Λαμβάνει ως είσοδο μια λίστα με όλα τα χαρακτηριστικά μιας τυχαίας μεταβλητής και επιστρέφει τον πίνακα συνδιακύμανσής της και όπου X είναι ένα n-διάστατο τυχαίο διάνυσμα (n είναι ο αριθμός των σειρών). Η συνάρτηση είναι εξαιρετική για τον υπολογισμό της αμερόληπτης διακύμανσης, για τη συνδιακύμανση δύο μεγεθών και για τη σύνταξη ενός πίνακα συνδιακύμανσης.
(Για υπενθύμιση, στην Python, ένας πίνακας αναπαρίσταται ως ένας πίνακας στηλών από πίνακες σειρών.)

Covmat = np.cov (Xcentered) print covmat, "n" print "Variance of X:", np.cov (Xcentered) print "Variance of Y:", np.cov (Xcentered) print "Covariance X and Y:" , np.cov (Xcentered) OUT: [[9.16666667 17.93002811] [17.93002811 37.26438587]] Διακύμανση του Χ: 9.166666666667 Διακύμανση του Χ: 9.166666666667 Συνέπεια:

Βήμα 3. Ιδιοδιανύσματα και τιμές (ζεύγη ειδών)

Εντάξει, πήραμε έναν πίνακα που περιγράφει το σχήμα της τυχαίας μεταβλητής μας, από τον οποίο μπορούμε να πάρουμε τις διαστάσεις της σε x και y (δηλαδή X 1 και X 2), καθώς και ένα κατά προσέγγιση σχήμα στο επίπεδο. Τώρα πρέπει να βρούμε τέτοια ένα διάνυσμα (στην περίπτωσή μας, μόνο ένα), στο οποίο θα μεγιστοποιηθεί το μέγεθος (διακύμανση) της προβολής του δείγματός μας σε αυτό.

Σχόλιο:Η γενίκευση της διακύμανσης σε υψηλότερες διαστάσεις είναι ένας πίνακας συνδιακύμανσης και οι δύο έννοιες είναι ισοδύναμες. Όταν προβάλλεται σε ένα διάνυσμα, η διακύμανση της προβολής μεγιστοποιείται και όταν προβάλλεται σε χώρους μεγάλων τάξεων, μεγιστοποιείται ολόκληρος ο πίνακας συνδιακύμανσής της.

Λοιπόν, πάρτε ένα μοναδιαίο διάνυσμα πάνω στο οποίο θα προβάλλουμε το τυχαίο μας διάνυσμα X. Τότε η προβολή σε αυτό θα είναι ίση με v T X. Η διακύμανση της προβολής στο διάνυσμα θα είναι ίση με Var (v T X), αντίστοιχα. Γενικά, σε διανυσματική μορφή (για κεντρικές τιμές), η διακύμανση εκφράζεται ως εξής:

Αντίστοιχα, η διακύμανση της προβολής είναι:

Είναι εύκολο να δούμε ότι η διακύμανση μεγιστοποιείται στη μέγιστη τιμή του v T Σv. Εδώ είναι χρήσιμη η στάση του Rayleigh. Χωρίς να μπω πολύ βαθιά στα μαθηματικά, θα πω απλώς ότι η σχέση Rayleigh έχει μια ειδική περίπτωση για πίνακες συνδιακύμανσης:

Ο τελευταίος τύπος θα πρέπει να είναι γνωστός από το θέμα της αποσύνθεσης μήτρας σε ιδιοδιανύσματα και τιμές. Το x είναι ένα ιδιοδιάνυσμα και το λ είναι μια ιδιοτιμή. Ο αριθμός των ιδιοδιανυσμάτων και των τιμών είναι ίσος με το μέγεθος του πίνακα (και οι τιμές μπορούν να επαναληφθούν).

Παρεμπιπτόντως, στα αγγλικά, ονομάζονται ιδιοτιμές και διανύσματα ιδιοτιμέςκαι ιδιοδιανύσματααντίστοιχα.
Μου ακούγεται πολύ πιο ωραίο (και πιο λακωνικό) από τους όρους μας.

Έτσι, η κατεύθυνση της μέγιστης διακύμανσης στην προβολή συμπίπτει πάντα με το ιδιοδιάνυσμα που έχει τη μέγιστη ιδιοτιμή ίση με την τιμή αυτής της διακύμανσης.

Και αυτό ισχύει επίσης για προβολές σε μεγαλύτερο αριθμό διαστάσεων - η διακύμανση (πίνακας συνδιακύμανσης) της προβολής σε ένα χώρο διαστάσεων m θα είναι μέγιστη προς την κατεύθυνση των m διανυσμάτων με μέγιστες ιδιοτιμές.

Η διάσταση του δείγματός μας είναι ίση με δύο και ο αριθμός των ιδιοδιανυσμάτων σε αυτό, αντίστοιχα, είναι 2. Ας τα βρούμε.

Η numpy βιβλιοθήκη υλοποιεί τη συνάρτηση numpy.linalg.eig (X)όπου Χ είναι τετράγωνος πίνακας. Επιστρέφει 2 πίνακες - έναν πίνακα τιμών ευρετηρίου και έναν πίνακα διανυσμάτων ευρετηρίου (διανύσματα στήλης). Και τα διανύσματα κανονικοποιούνται - το μήκος τους είναι 1. Ακριβώς αυτό που χρειάζεστε. Αυτά τα 2 διανύσματα ορίζουν μια νέα βάση για το δείγμα, έτσι ώστε οι άξονές του να συμπίπτουν με τους ημιάξονες της προσεγγιστικής έλλειψης του δείγματός μας.



Σε αυτό το γράφημα, προσεγγίσαμε το δείγμα μας με μια έλλειψη με ακτίνες 2 σίγμα (δηλαδή, θα πρέπει να περιέχει το 95% όλων των παρατηρήσεων - τις οποίες, καταρχήν, παρατηρούμε εδώ). Ανέστρεψα το μεγαλύτερο διάνυσμα (η συνάρτηση eig (X) το κατεύθυνε προς την αντίθετη κατεύθυνση) - μας ενδιαφέρει η κατεύθυνση, όχι ο προσανατολισμός του διανύσματος.

Βήμα 4. Μείωση διαστάσεων (προβολή)

Το μεγαλύτερο διάνυσμα έχει κατεύθυνση παρόμοια με τη γραμμή παλινδρόμησης και προβάλλοντας το δείγμα μας σε αυτό, θα χάσουμε πληροφορίες συγκρίσιμες με το άθροισμα των υπολειπόμενων όρων της παλινδρόμησης (μόνο η απόσταση είναι τώρα Ευκλείδεια και όχι δέλτα κατά μήκος του Y). Στην περίπτωσή μας, η σχέση μεταξύ των χαρακτηριστικών είναι πολύ ισχυρή, έτσι ώστε η απώλεια πληροφοριών να είναι ελάχιστη. Η «τιμή» της προβολής - η διακύμανση που βασίζεται στο μικρότερο ιδιοδιάνυσμα - είναι πολύ μικρή, όπως φαίνεται από το προηγούμενο διάγραμμα.

Σχόλιο:τα διαγώνια στοιχεία του πίνακα συνδιακύμανσης δείχνουν τη διακύμανση στην αρχική βάση και τις ιδιοτιμές του στη νέα (στις κύριες συνιστώσες).

Συχνά απαιτείται η εκτίμηση του ποσού των χαμένων (και διατηρούμενων) πληροφοριών. Είναι πιο βολικό να το παρουσιάζουμε ως ποσοστό. Παίρνουμε τις διακυμάνσεις κατά μήκος καθενός από τους άξονες και διαιρούμε με το συνολικό άθροισμα των διακυμάνσεων κατά μήκος των αξόνων (δηλαδή το άθροισμα όλων των ιδιοτιμών του πίνακα συνδιακύμανσης).
Έτσι, το μεγαλύτερο μας διάνυσμα περιγράφει 45.994 / 46.431 * 100% = 99,06%, και το μικρότερο, αντίστοιχα, είναι περίπου 0,94%. Αφήνοντας ένα μικρότερο διάνυσμα και προβάλλοντας τα δεδομένα σε ένα μεγαλύτερο, θα χάσουμε λιγότερο από 1% των πληροφοριών! Εξαιρετικό αποτέλεσμα!

Σχόλιο:Στην πράξη, στις περισσότερες περιπτώσεις, εάν η συνολική απώλεια πληροφοριών δεν είναι μεγαλύτερη από 10-20%, τότε μπορείτε να μειώσετε με ασφάλεια τη διάσταση.

Για να πραγματοποιηθεί η προβολή, όπως αναφέρθηκε προηγουμένως στο βήμα 3, είναι απαραίτητο να πραγματοποιηθεί η πράξη v T X (το διάνυσμα πρέπει να έχει μήκος 1). Ή, αν δεν έχουμε ένα διάνυσμα, αλλά ένα υπερεπίπεδο, τότε αντί για το διάνυσμα v T παίρνουμε τον πίνακα των διανυσμάτων βάσης V T. Το διάνυσμα (ή μήτρα) που θα προκύψει θα είναι ένας πίνακας προβολών των παρατηρήσεών μας.

V = (-vecs, -vecs) Xnew = κουκκίδα (v, Xcentered) εκτύπωση Xnew OUT: [-9.56404107 -9.02021624 -5.52974822 -2.96481262 0.68933859 0.68933859 0.68933859 0.68933859 0.68933859 0.68933859 0.68933859 0.68933859 0.68933859 0.7474.

τελεία (X, Y)- όρος γινόμενο (έτσι πολλαπλασιάζουμε διανύσματα και πίνακες στην Python)

Είναι εύκολο να διαπιστωθεί ότι οι τιμές προβολής αντιστοιχούν στην εικόνα στο προηγούμενο γράφημα.

Βήμα 5. Ανάκτηση δεδομένων

Είναι βολικό να εργάζεστε με μια προβολή, να δημιουργείτε υποθέσεις στη βάση της και να αναπτύσσετε μοντέλα. Αλλά τα βασικά συστατικά που λαμβάνονται δεν θα έχουν πάντα ένα σαφές νόημα, κατανοητό σε έναν ξένο. Μερικές φορές είναι χρήσιμο να αποκωδικοποιήσουμε, για παράδειγμα, ανιχνευμένα ακραία σημεία για να δούμε τι αξίζουν οι παρατηρήσεις.

είναι πολύ απλό. Έχουμε όλες τις πληροφορίες που χρειαζόμαστε, δηλαδή τις συντεταγμένες των διανυσμάτων βάσης στην αρχική βάση (τα διανύσματα στα οποία προβάλλαμε) και το μέσο διάνυσμα (για να ακυρώσουμε το κεντράρισμα). Πάρτε, για παράδειγμα, τη μεγαλύτερη τιμή: 10.596 ... και αποκωδικοποιήστε την. Για να το κάνετε αυτό, πολλαπλασιάστε το στα δεξιά με το μεταφερόμενο διάνυσμα και προσθέστε το διάνυσμα των μέσων, ή, γενικά, για ολόκληρο το δείγμα: X T v T + m

Xrestored = dot (Xnew, v) + m print "Restored:", Xrestored print "Original:", X [:, 9] OUT: Restored: [10.13864361 19.84190935] Πρωτότυπο: [10. 19.9094105]

Η διαφορά είναι μικρή, αλλά υπάρχει. Άλλωστε, οι χαμένες πληροφορίες δεν αποκαθίστανται. Ωστόσο, εάν η απλότητα είναι πιο σημαντική από την ακρίβεια, η ανακατασκευασμένη τιμή είναι μια εξαιρετική προσέγγιση της αρχικής.

Αντί για συμπέρασμα - έλεγχος του αλγόριθμου

Έτσι, αναλύσαμε τον αλγόριθμο, δείξαμε πώς λειτουργεί σε ένα παράδειγμα παιχνιδιού, τώρα μένει μόνο να το συγκρίνουμε με το PCA που εφαρμόζεται στο sklearn - τελικά, θα το χρησιμοποιήσουμε.

Από το sklearn.decomposition εισαγωγή PCA pca = PCA (n_components = 1) XPCAreduced = pca.fit_transform (μεταφορά (X))

Παράμετρος n_componentsυποδεικνύει τον αριθμό των διαστάσεων στις οποίες θα γίνει η προβολή, δηλαδή σε πόσες διαστάσεις θέλουμε να μειώσουμε το σύνολο δεδομένων μας. Με άλλα λόγια, αυτά είναι τα n διανύσματα με τις μεγαλύτερες ιδιοτιμές. Ας ελέγξουμε το αποτέλεσμα της μείωσης των διαστάσεων:

Εκτύπωση "μας μειώνεται X: n", xnew εκτύπωσης "Sklearn μειωμένη X: n", XPCAreduced OUT: μας μειώνεται X: [. Sk] [-9,56404106 -9,02021625 -5,52974822 -2,96481262 0,68933859 0,74406645 2,33433492 7,39307974 5,3212742 10,59672425 ] [-9,02021625] [-5.52974822] [-2.96481262] [0.68933859] [0.74406645] [2.33433492] [7.39307974] [5.3212742] [10.5967242]

Επιστρέψαμε το αποτέλεσμα ως πίνακα διανυσμάτων στηλών των παρατηρήσεων (αυτό είναι πιο κανονικό όσον αφορά τη γραμμική άλγεβρα), ενώ το PCA στο sklearn επιστρέφει έναν κατακόρυφο πίνακα.

Κατ 'αρχήν, αυτό δεν είναι κρίσιμο, αξίζει απλώς να σημειωθεί ότι στη γραμμική άλγεβρα είναι κανονική η εγγραφή πινάκων μέσω διανυσμάτων στηλών και στην ανάλυση δεδομένων (και άλλες περιοχές που σχετίζονται με το DB) οι παρατηρήσεις (συναλλαγές, εγγραφές) συνήθως γράφονται σε σειρές .

Ας ελέγξουμε άλλες παραμέτρους του μοντέλου - η συνάρτηση έχει μια σειρά από χαρακτηριστικά που σας επιτρέπουν να έχετε πρόσβαση σε ενδιάμεσες μεταβλητές:

Διάνυσμα μέσων: σημαίνω_
- Διάνυσμα (μήτρα) προβολή: συστατικά_
- Διασπορά αξόνων προβολής (επιλεκτική): εξηγείται_διακύμανση_
- Μερίδιο πληροφοριών (μερίδιο συνολικής διακύμανσης): εξηγείται_αναλογία_διακύμανσης_

Σχόλιο:εξηγείται_διακύμανση_ δείχνει εκλεκτικόςδιακύμανση, ενώ η συνάρτηση cov () υπολογίζει τον πίνακα συνδιακύμανσης αμερόληπτοςδιαφορά!

Ας συγκρίνουμε τις τιμές που λάβαμε με τις τιμές της συνάρτησης βιβλιοθήκης.

Εκτύπωση "Mean vector:", pca.mean_, m print "Projection:", pca.components_, v print "Explained variance ratio:", pca.explained_variance_ratio_, l / άθροισμα (l) OUT: Μέσο διάνυσμα: [5.5 10.31439392] (5.5, 10,314393916) Προβολή: [[0,43774316 0,89910006]] (0,43774316434772387, 0,89910006232167594) Επεξήγηση διακύμανσης: [41.39455058] 45.9939450918 Επεξήγηση αναλογία διακύμανσης: [0,99058588] 0.990585881238

Η μόνη διαφορά είναι στις διακυμάνσεις, αλλά όπως αναφέρθηκε, χρησιμοποιήσαμε τη συνάρτηση cov (), η οποία χρησιμοποιεί την αμερόληπτη διακύμανση, ενώ το χαρακτηριστικό εξηγημένο_διακύμανση_ επιστρέφει το δείγμα. Διαφέρουν μόνο στο ότι το πρώτο διαιρείται με (n-1) για να ληφθεί ο αναμενόμενος μέσος όρος και το δεύτερο - με n. Είναι εύκολο να ελέγξετε ότι 45,99 ∙ (10 - 1) / 10 = 41,39.

Όλες οι άλλες τιμές είναι ίδιες, πράγμα που σημαίνει ότι οι αλγόριθμοί μας είναι ισοδύναμοι. Και τέλος, σημειώνω ότι τα χαρακτηριστικά του αλγόριθμου της βιβλιοθήκης έχουν μικρότερη ακρίβεια, καθώς είναι πιθανώς βελτιστοποιημένο για απόδοση ή απλώς στρογγυλοποιεί τις τιμές για λόγους ευκολίας (ή έχω κάποιες δυσλειτουργίες).

Σχόλιο:η μέθοδος βιβλιοθήκης προβάλλεται αυτόματα στους άξονες που μεγιστοποιούν τη διακύμανση. Αυτό δεν είναι πάντα λογικό. Για παράδειγμα, σε αυτό το σχήμα, η ανακριβής μείωση της διάστασης θα οδηγήσει στο γεγονός ότι η ταξινόμηση θα καταστεί αδύνατη. Ωστόσο, η προβολή σε ένα μικρότερο διάνυσμα θα μειώσει με επιτυχία τη διάσταση και θα διατηρήσει τον ταξινομητή.

Έτσι, εξετάσαμε τις αρχές του αλγορίθμου PCA και την εφαρμογή του στο sklearn. Ελπίζω ότι αυτό το άρθρο ήταν αρκετά σαφές για όσους μόλις αρχίζουν να εξοικειώνονται με την ανάλυση δεδομένων, και επίσης τουλάχιστον λίγο ενημερωτικό για όσους γνωρίζουν καλά αυτόν τον αλγόριθμο. Η διαισθητική παρουσίαση είναι εξαιρετικά χρήσιμη για την κατανόηση του τρόπου λειτουργίας της μεθόδου και η κατανόηση είναι πολύ σημαντική για τη σωστή ρύθμιση του επιλεγμένου μοντέλου. Ευχαριστώ για την προσοχή!

ΥΣΤΕΡΟΓΡΑΦΟ .:Παρακαλώ μην επιπλήξετε τον συγγραφέα για πιθανές ανακρίβειες. Ο ίδιος ο συγγραφέας βρίσκεται στη διαδικασία εξοικείωσης με την ανάλυση δεδομένων και θέλει να βοηθήσει άλλους σαν αυτόν στη διαδικασία να κατακτήσουν αυτόν τον εκπληκτικό τομέα γνώσης! Αλλά η εποικοδομητική κριτική και οι ποικίλες εμπειρίες είναι ευπρόσδεκτες!

Μέθοδος κύριου συστατικού(PCA - Principal component analysis) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων με τη μικρότερη απώλεια πληροφοριών. Εφευρέθηκε το 1901 από τον Karl Pearson και χρησιμοποιείται ευρέως σε πολλούς τομείς. Για παράδειγμα, για συμπίεση δεδομένων, «όραση υπολογιστή», αναγνώριση ορατών μοτίβων κ.λπ. Ο υπολογισμός των κύριων συνιστωσών ανάγεται στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Η ανάλυση του κύριου συστατικού αναφέρεται συχνά ως Μεταμόρφωση Karhunen-Loewe(μετασχηματισμός Karhunen-Loeve) ή Ξενοδοχειακός μετασχηματισμός(ξενοδοχειακή μεταμόρφωση). Σε αυτό το θέμα εργάστηκαν και οι μαθηματικοί Kosambi (1943), Pugachev (1953) και Obukhova (1954).

Η κύρια εργασία ανάλυσης συνιστωσών στοχεύει στην προσέγγιση (προσέγγιση) των δεδομένων με γραμμικές πολλαπλότητες χαμηλότερης διάστασης. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη. βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η απόσταση ρίζας-μέσος τετραγώνου μεταξύ των σημείων είναι μέγιστη. Σε αυτή την περίπτωση, λειτουργεί κανείς με πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη δημιουργία στατιστικών δεδομένων.

Επιπλέον, το έργο της ανάλυσης του κύριου συστατικού μπορεί να είναι ο στόχος της κατασκευής για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή ενός τέτοιου ορθογώνιου μετασχηματισμού συντεταγμένων που, ως αποτέλεσμα της συσχέτισης μεταξύ μεμονωμένων συντεταγμένων, θα μετατραπεί στο μηδέν. Αυτή η έκδοση λειτουργεί τυχαίες μεταβλητές.

Εικ. 3

Στο παραπάνω σχήμα, τα σημεία P i δίνονται στο επίπεδο, p i είναι η απόσταση από το P i στην ευθεία ΑΒ. Ψάχνετε για μια ευθεία γραμμή ΑΒ που ελαχιστοποιεί το άθροισμα

Η μέθοδος της κύριας συνιστώσας ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης (προσέγγισης) ενός πεπερασμένου συνόλου σημείων με ευθείες γραμμές και επίπεδα. Για παράδειγμα, δίνεται ένα πεπερασμένο σύνολο διανυσμάτων. Για κάθε k = 0,1, ..., n; 1 μεταξύ όλων των k-διάστατων γραμμικών πολλαπλών σε ευρεσιτεχνία ώστε το άθροισμα των τετραγώνων των αποκλίσεων του x i από το L k να είναι ελάχιστο:

όπου? Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα.

Οποιαδήποτε γραμμική πολλαπλότητα διαστάσεων k μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι στο i διατρέχουν την πραγματική γραμμή, και; ορθοκανονικό σύνολο διανυσμάτων

που είναι ο Ευκλείδειος κανόνας; Ευκλείδειο γινόμενο κουκκίδας ή σε μορφή συντεταγμένων:

Λύση του προβλήματος της προσέγγισης για k = 0,1, ..., n; Το 1 δίνεται από ένα σύνολο ενσωματωμένων γραμμικών πολλαπλών

Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα των κύριων συνιστωσών) και ένα διάνυσμα a 0. Το διάνυσμα a 0 αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για το L 0:

Το αποτέλεσμα είναι ένα δείγμα μέσου όρου:

Ο Γάλλος μαθηματικός Maurice Fréchet Fréchet Maurice Réné (09/02/1878 - 06/04/1973) είναι ένας εξαιρετικός Γάλλος μαθηματικός. Εργάστηκε στον τομέα της τοπολογίας και της συναρτησιακής ανάλυσης, της θεωρίας πιθανοτήτων. Ο συγγραφέας των σύγχρονων εννοιών του μετρικού χώρου, της συμπαγούς και της πληρότητας. Auth. το 1948 παρατήρησε ότι ο μεταβλητός ορισμός του μέσου όρου, ως σημείου που ελαχιστοποιεί το άθροισμα των τετραγωνικών αποστάσεων στα σημεία δεδομένων, είναι πολύ βολικός για την κατασκευή στατιστικών σε έναν αυθαίρετο μετρικό χώρο, και δημιούργησε μια γενίκευση της κλασικής στατιστικής για γενικούς χώρους, που ονομάζεται η μέθοδος των γενικευμένων ελαχίστων τετραγώνων.

Τα κύρια διανύσματα συνιστωσών μπορούν να βρεθούν ως λύσεις στον ίδιο τύπο προβλημάτων βελτιστοποίησης:

1) συγκεντρώστε τα δεδομένα (αφαιρέστε τον μέσο όρο):

2) βρίσκουμε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα.

3) Αφαιρέστε την προβολή στο πρώτο κύριο στοιχείο από τα δεδομένα:

4) βρείτε το δεύτερο κύριο στοιχείο ως λύση στο πρόβλημα

Εάν η λύση δεν είναι μοναδική, τότε επιλέγουμε μία από αυτές.

2k-1) Αφαιρέστε την προβολή στο (k? 1) το κύριο στοιχείο (υπενθυμίζουμε ότι οι προβολές στα προηγούμενα (k? 2) κύρια συστατικά έχουν ήδη αφαιρεθεί):

2κ) βρίσκουμε το kth κύριο συστατικό ως λύση στο πρόβλημα:

Εάν η λύση δεν είναι μοναδική, τότε επιλέγουμε μία από αυτές.

Ρύζι. 4

Το πρώτο κύριο συστατικό μεγιστοποιεί τη δειγματική διακύμανση της προβολής των δεδομένων.

Για παράδειγμα, ας υποθέσουμε ότι μας δίνεται ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων όπου ο αριθμητικός μέσος όρος x i είναι μηδέν. Εργο? βρείτε έναν τέτοιο ορθογώνιο μετασχηματισμό σε ένα νέο σύστημα συντεταγμένων για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

1. Η δειγματοληπτική διασπορά των δεδομένων κατά μήκος της πρώτης συντεταγμένης (κύριο στοιχείο) είναι μέγιστη.

2. Η δειγματοληπτική διασπορά των δεδομένων κατά μήκος της δεύτερης συντεταγμένης (δεύτερη κύρια συνιστώσα) είναι μέγιστη εάν είναι ορθογώνια προς την πρώτη συντεταγμένη.

3. Η δειγματοληπτική διασπορά των δεδομένων κατά μήκος των τιμών της k-ης συντεταγμένης είναι μέγιστη, με την προϋπόθεση ότι το πρώτο k είναι ορθογώνιο; 1 συντεταγμένες;

Η δειγματική διακύμανση των δεδομένων κατά μήκος της κατεύθυνσης που καθορίζεται από το κανονικοποιημένο διάνυσμα a k είναι

(εφόσον τα δεδομένα είναι κεντραρισμένα, η διακύμανση του δείγματος εδώ είναι το μέσο τετράγωνο της απόκλισης από το μηδέν).

Η λύση στο πρόβλημα της καλύτερης προσέγγισης δίνει το ίδιο σύνολο κύριων συνιστωσών με την αναζήτηση ορθογώνιων προβολών με τη μεγαλύτερη σκέδαση, για έναν πολύ απλό λόγο:

και ο πρώτος όρος δεν εξαρτάται από ένα κ.

Ο πίνακας μετασχηματισμού των δεδομένων σε κύρια στοιχεία κατασκευάζεται από τα διανύσματα "Α" των κύριων συνιστωσών:

Εδώ τα a i είναι ορθοκανονικά διανύσματα στηλών των κύριων συνιστωσών, διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών, ο εκθέτης T σημαίνει μεταφορά. Ο πίνακας Α είναι ορθογώνιος: AA T = 1.

Μετά τον μετασχηματισμό, το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που καθιστά δυνατή την απόρριψη των υπόλοιπων και την εξέταση του χώρου μειωμένης διάστασης.

Η παλαιότερη μέθοδος επιλογής κύριου συστατικού είναι Ο κανόνας του Κάιζερ, Kaiser Johann Henrich Gustav (16.03.1853, Brezno, Πρωσία - 14.10.1940, Γερμανία) - ένας εξαιρετικός Γερμανός μαθηματικός, φυσικός, ερευνητής στον τομέα της φασματικής ανάλυσης. Auth. για τα οποία αυτά τα κύρια συστατικά είναι σημαντικά για τα οποία

δηλαδή, το l i είναι μεγαλύτερο από το μέσο όρο του l (μέση διακύμανση δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας Kaiser λειτουργεί καλά σε απλές περιπτώσεις όταν υπάρχουν πολλά κύρια στοιχεία με l i πολύ μεγαλύτερο από το μέσο όρο και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτό. Σε πιο περίπλοκες περιπτώσεις, μπορεί να δώσει πάρα πολλά σημαντικά κύρια στοιχεία. Εάν τα δεδομένα κανονικοποιηθούν σε μια διακύμανση μοναδιαίου δείγματος κατά μήκος των αξόνων, τότε ο κανόνας Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια συστατικά για τα οποία l i> 1 είναι σημαντικά.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των απαιτούμενων κύριων στοιχείων είναι σπασμένο κανόνα μπαστούνι, όταν το σύνολο των ιδιοτιμών που κανονικοποιούνται στο μοναδιαίο άθροισμα (, i = 1, ... n) συγκρίνεται με την κατανομή των μηκών των θραυσμάτων ενός ζαχαροκάλαμου μοναδιαίου μήκους σπασμένο σε n; 1ο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται εξίσου σε όλο το μήκος του μπαστούνι). Αν L i (i = 1, ... n) είναι τα μήκη των κομματιών του ζαχαροκάλαμου, αριθμημένα με φθίνουσα σειρά μήκους:, τότε η μαθηματική προσδοκία του L i:

Ας δούμε ένα παράδειγμα εκτίμησης του αριθμού των κύριων εξαρτημάτων χρησιμοποιώντας τον κανόνα σπασμένο μπαστούνι στη διάσταση 5.

Ρύζι. 5.

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, το kth ιδιοδιάνυσμα (σε φθίνουσα σειρά ιδιοτιμών l i) αποθηκεύεται στη λίστα των κύριων στοιχείων εάν

Το παραπάνω σχήμα δείχνει ένα παράδειγμα για την περίπτωση των 5 διαστάσεων:

l 1 = (1 + 1/2 + 1/3 + 1/4 + 1/5) / 5; l 2 = (1/2 + 1/3 + 1/4 + 1/5) / 5; l 3 = (1/3 + 1/4 + 1/5) / 5;

l 4 = (1/4 + 1/5) / 5; l 5 = (1/5) / 5.

Για παράδειγμα, επιλεγμένο

0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, θα πρέπει να μείνουν 2 κύρια συστατικά σε αυτό το παράδειγμα:

Θα πρέπει μόνο να ληφθεί υπόψη ότι ο παραβιασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων συστατικών.

Μετά την προβολή στα πρώτα k κύρια εξαρτήματα με, είναι βολικό να ομαλοποιηθεί η διακύμανση της μονάδας (δείγμα) κατά μήκος των αξόνων. Η διακύμανση κατά μήκος της κύριας συνιστώσας είναι ίση με), επομένως, για κανονικοποίηση, η αντίστοιχη συντεταγμένη πρέπει να διαιρεθεί με. Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Ο πίνακας συνδιακύμανσης της προβολής δεδομένων μετά την κανονικοποίηση γίνεται μονάδα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες ποσότητες και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τον λόγο ορθογωνικότητας διανυσμάτων). Η αντιστοίχιση από το χώρο των αρχικών δεδομένων στα πρώτα k κύρια συστατικά, μαζί με την κανονικοποίηση, δίνεται από τον πίνακα

Είναι αυτός ο μετασχηματισμός που ονομάζεται συνήθως μετασχηματισμός Karhunen-Loeve, δηλαδή η ίδια η μέθοδος του κύριου συστατικού. Εδώ το a i είναι διανύσματα στηλών και ο εκθέτης T σημαίνει μεταφορά.

Στις στατιστικές, όταν χρησιμοποιείται η ανάλυση του κύριου στοιχείου, χρησιμοποιούνται αρκετοί τεχνικοί όροι.

Πίνακας δεδομένων, όπου κάθε σειρά είναι ένα διάνυσμα προεπεξεργασμένων δεδομένων (κεντρικά και σωστά κανονικοποιημένα), ο αριθμός των σειρών είναι m (ο αριθμός των διανυσμάτων δεδομένων), ο αριθμός των στηλών είναι n (η διάσταση του χώρου δεδομένων).

Φόρτωση μήτρας(Φορτώσεις), όπου κάθε στήλη είναι ένα διάνυσμα κύριας συνιστώσας, ο αριθμός των σειρών είναι n (η διάσταση του χώρου δεδομένων), ο αριθμός στηλών είναι k (ο αριθμός των διανυσμάτων κύριας συνιστώσας που επιλέχθηκαν για προβολή).

Πίνακας λογαριασμών(Βαθμολογίες)

όπου κάθε σειρά είναι η προβολή του διανύσματος δεδομένων σε k κύρια στοιχεία. αριθμός σειρών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Ζ-βαθμολογίες)

όπου κάθε σειρά είναι η προβολή του διανύσματος δεδομένων σε k κύριες συνιστώσες, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός σειρών - m (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - k (αριθμός διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτων (αποφάγια) (Σφάλματα ή υπολείμματα)

Βασικός τύπος:

Έτσι, η Μέθοδος Κύριων Συνιστωσών είναι μία από τις κύριες μεθόδους μαθηματικής στατιστικής. Ο κύριος σκοπός του είναι να διακρίνει την ανάγκη μελέτης συνόλων δεδομένων με ελάχιστη χρήση τους.

Μέθοδος κύριου συστατικού

Μέθοδος κύριου συστατικού(eng. Ανάλυση κύριου συστατικού, PCA ) είναι ένας από τους κύριους τρόπους μείωσης της διάστασης των δεδομένων, χάνοντας τη μικρότερη ποσότητα πληροφοριών. Εφευρέθηκε από τον K. Pearson (eng. Καρλ Πίρσον ) στο δ. Χρησιμοποιείται σε πολλούς τομείς, όπως η αναγνώριση προτύπων, η όραση υπολογιστή, η συμπίεση δεδομένων κ.λπ. Ο υπολογισμός των κύριων στοιχείων περιορίζεται στον υπολογισμό των ιδιοδιανυσμάτων και των ιδιοτιμών του πίνακα συνδιακύμανσης των αρχικών δεδομένων. Η μέθοδος του κύριου συστατικού ονομάζεται μερικές φορές Μεταμόρφωση Karhunen-Loewe(eng. Karhunen-loeve) ή τον μετασχηματισμό της Hotelling (eng. Ξενοδοχειακή μεταμόρφωση). Άλλοι τρόποι μείωσης της διάστασης των δεδομένων είναι η μέθοδος των ανεξάρτητων στοιχείων, η πολυδιάστατη κλίμακα, καθώς και πολλές μη γραμμικές γενικεύσεις: η μέθοδος των κύριων καμπυλών και πολλαπλών, η μέθοδος των ελαστικών χαρτών, η εύρεση της καλύτερης προβολής (eng. Επιδίωξη προβολής), μέθοδοι νευρωνικών δικτύων «συμφόρησης» κ.λπ.

Επίσημη δήλωση προβλήματος

Το πρόβλημα ανάλυσης κύριου στοιχείου έχει τουλάχιστον τέσσερις βασικές εκδόσεις:

  • κατά προσέγγιση δεδομένα με γραμμικές πολλαπλές μικρότερης διάστασης.
  • βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η εξάπλωση των δεδομένων (δηλαδή η τυπική απόκλιση από τη μέση τιμή) είναι μέγιστη.
  • Βρείτε υποχώρους χαμηλότερης διάστασης, στην ορθογώνια προβολή στην οποία η απόσταση ρίζας-μέσος τετραγώνου μεταξύ των σημείων είναι μέγιστη.
  • Για μια δεδομένη πολυδιάστατη τυχαία μεταβλητή, κατασκευάστε έναν τέτοιο ορθογώνιο μετασχηματισμό συντεταγμένων που, ως αποτέλεσμα της συσχέτισης μεταξύ των επιμέρους συντεταγμένων, θα μετατραπεί στο μηδέν.

Οι τρεις πρώτες εκδόσεις λειτουργούν σε πεπερασμένα σύνολα δεδομένων. Είναι ισοδύναμα και δεν χρησιμοποιούν καμία υπόθεση σχετικά με τη δημιουργία στατιστικών δεδομένων. Η τέταρτη έκδοση λειτουργεί με τυχαίες μεταβλητές. Τα πεπερασμένα σύνολα εμφανίζονται εδώ ως δείγματα από μια δεδομένη κατανομή και η λύση των τριών πρώτων προβλημάτων ως προσέγγιση στον "αληθινό" μετασχηματισμό Karhunen-Loeve. Αυτό εγείρει ένα πρόσθετο και όχι εντελώς ασήμαντο ερώτημα σχετικά με την ακρίβεια αυτής της προσέγγισης.

Τοποθέτηση δεδομένων με γραμμικές πολλαπλές

Εικονογράφηση για το διάσημο έργο του K. Pearson (1901): δίνονται σημεία σε ένα επίπεδο, - η απόσταση από την ευθεία γραμμή. Ψάχνετε για μια ευθεία γραμμή που ελαχιστοποιεί το ποσό

Η μέθοδος της κύριας συνιστώσας ξεκίνησε με το πρόβλημα της καλύτερης προσέγγισης ενός πεπερασμένου συνόλου σημείων με ευθείες γραμμές και επίπεδα (K. Pearson, 1901). Δίνεται ένα πεπερασμένο σύνολο διανυσμάτων. Για καθεμία, μεταξύ όλων των διαστάσεων γραμμικών πολλαπλών σε, βρείτε τέτοια ώστε το άθροισμα των τετραγώνων των αποκλίσεων από να είναι ελάχιστο:

,

όπου είναι η Ευκλείδεια απόσταση από ένα σημείο σε μια γραμμική πολλαπλότητα. Οποιαδήποτε γραμμική πολλαπλότητα διαστάσεων μπορεί να οριστεί ως ένα σύνολο γραμμικών συνδυασμών, όπου οι παράμετροι διατρέχουν την πραγματική γραμμή και είναι ένα ορθοκανονικό σύνολο διανυσμάτων

,

όπου ο Ευκλείδειος κανόνας είναι το Ευκλείδειο βαθμωτό γινόμενο ή σε συντεταγμένη μορφή:

.

Η λύση στο πρόβλημα προσέγγισης για δίνεται από ένα σύνολο ενσωματωμένων γραμμικών πολλαπλών,. Αυτές οι γραμμικές πολλαπλότητες ορίζονται από ένα ορθοκανονικό σύνολο διανυσμάτων (διανύσματα των κύριων συνιστωσών) και ένα διάνυσμα. Το διάνυσμα αναζητείται ως λύση στο πρόβλημα ελαχιστοποίησης για:

.

Τα κύρια διανύσματα συνιστωσών μπορούν να βρεθούν ως λύσεις στον ίδιο τύπο προβλημάτων βελτιστοποίησης:

1) συγκεντρώστε τα δεδομένα (αφαιρέστε τον μέσο όρο):. Τώρα ; 2) βρίσκουμε το πρώτο κύριο συστατικό ως λύση στο πρόβλημα. ... Εάν η λύση δεν είναι μοναδική, τότε επιλέγουμε μία από αυτές. 3) Αφαιρέστε από τα δεδομένα την προβολή στο πρώτο κύριο συστατικό:; 4) βρίσκουμε το δεύτερο κύριο συστατικό ως λύση στο πρόβλημα. Εάν η λύση δεν είναι μοναδική, τότε επιλέγουμε μία από αυτές. … 2k-1) Αφαιρέστε την προβολή στο -ο κύριο στοιχείο (υπενθυμίζουμε ότι οι προβολές στα προηγούμενα κύρια στοιχεία έχουν ήδη αφαιρεθεί):; 2κ) βρίσκουμε το k-ο κύριο στοιχείο ως λύση στο πρόβλημα:. Εάν η λύση δεν είναι μοναδική, τότε επιλέγουμε μία από αυτές. ...

Σε κάθε προπαρασκευαστικό βήμα, αφαιρέστε την προβολή στο προηγούμενο κύριο στοιχείο. Τα διανύσματα που βρέθηκαν είναι ορθοκανονικά απλώς ως αποτέλεσμα της επίλυσης του περιγραφόμενου προβλήματος βελτιστοποίησης, ωστόσο, προκειμένου να αποτραπούν υπολογιστικά σφάλματα από την παραβίαση της αμοιβαίας ορθογωνικότητας των διανυσμάτων των κύριων συνιστωσών, μπορούν να συμπεριληφθούν στις συνθήκες του προβλήματος βελτιστοποίησης.

Η μη μοναδικότητα στον ορισμό, εκτός από την επιπόλαιη αυθαιρεσία στην επιλογή του σημείου (και λύνουν το ίδιο πρόβλημα), μπορεί να είναι πιο ουσιαστική και να προκύψει, για παράδειγμα, από τις συνθήκες συμμετρίας δεδομένων. Το τελευταίο κύριο συστατικό είναι ένα μοναδιαίο διάνυσμα ορθογώνιο σε όλα τα προηγούμενα.

Βρείτε τις Ορθογώνιες Προβολές με την Πιο Σκέδαση

Το πρώτο κύριο συστατικό μεγιστοποιεί τη διακύμανση του δείγματος της προβολής δεδομένων

Ας μας δοθεί ένα κεντραρισμένο σύνολο διανυσμάτων δεδομένων (ο αριθμητικός μέσος όρος είναι μηδέν). Το καθήκον είναι να βρεθεί ένας τέτοιος ορθογώνιος μετασχηματισμός σε ένα νέο σύστημα συντεταγμένων για το οποίο θα ισχύουν οι ακόλουθες συνθήκες:

Η θεωρία αποσύνθεσης μοναδικής τιμής δημιουργήθηκε από τον J.J. Sylvester (eng. Τζέιμς Τζόζεφ Σιλβέστερ ) στο Γ. και παρουσιάζεται σε όλα τα αναλυτικά εγχειρίδια για τη θεωρία μητρών.

Απλός επαναληπτικός αλγόριθμος αποσύνθεσης ενικής τιμής

Η κύρια διαδικασία είναι να βρεθεί η καλύτερη προσέγγιση ενός αυθαίρετου πίνακα με έναν πίνακα της μορφής (όπου είναι ένα διάνυσμα -διάστατο και - είναι ένα διάνυσμα διαστάσεων) με τη μέθοδο των ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Με ένα σταθερό διάνυσμα, οι τιμές που δίνουν το ελάχιστο στη φόρμα καθορίζονται μοναδικά και ρητά από τις ισότητες:

Ομοίως, με ένα σταθερό διάνυσμα, προσδιορίζονται οι τιμές:

Ως αρχική προσέγγιση του διανύσματος, παίρνουμε ένα τυχαίο διάνυσμα μοναδιαίου μήκους, υπολογίζουμε το διάνυσμα, υπολογίζουμε το διάνυσμα για αυτό το διάνυσμα και ούτω καθεξής. Κάθε βήμα μειώνει την τιμή. Ως κριτήριο διακοπής χρησιμοποιείται η μικρότητα της σχετικής μείωσης της τιμής του βήματος ελαχιστοποιημένης συνάρτησης ανά επανάληψη () ή η μικρότητα της ίδιας της τιμής.

Ως αποτέλεσμα, η καλύτερη προσέγγιση λήφθηκε για τον πίνακα από έναν πίνακα της μορφής (εδώ ο εκθέτης υποδηλώνει τον αριθμό προσέγγισης). Περαιτέρω, αφαιρούμε τον προκύπτοντα πίνακα από τον πίνακα και για τον προκύπτον πίνακα απόκλισης αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου κ.λπ., έως ότου, για παράδειγμα, ο κανόνας γίνει αρκετά μικρός. Ως αποτέλεσμα, πήραμε μια επαναληπτική διαδικασία για την αποσύνθεση ενός πίνακα με τη μορφή ενός αθροίσματος πινάκων της κατάταξης 1, δηλαδή. Υποθέτουμε και κανονικοποιούμε διανύσματα: Ως αποτέλεσμα, προκύπτει μια προσέγγιση μοναδικών αριθμών και μοναδικών διανυσμάτων (δεξιά - και αριστερά -).

Στα πλεονεκτήματα αυτού του αλγορίθμου συγκαταλέγεται η εξαιρετική του απλότητα και η δυνατότητα μεταφοράς σχεδόν αμετάβλητου σε δεδομένα με κενά, καθώς και σταθμισμένα δεδομένα.

Υπάρχουν διάφορες τροποποιήσεις στον βασικό αλγόριθμο για τη βελτίωση της ακρίβειας και της σταθερότητας. Για παράδειγμα, τα διανύσματα των κύριων συνιστωσών για διαφορετικά θα πρέπει να είναι ορθογώνια "κατά κατασκευή", ωστόσο, με μεγάλο αριθμό επαναλήψεων (μεγάλη διάσταση, πολλά συστατικά), συσσωρεύονται μικρές αποκλίσεις από την ορθογωνικότητα και μπορεί να απαιτείται ειδική διόρθωση σε κάθε βήμα για να εξασφαλιστεί η ορθογωνία του με τα κύρια στοιχεία που βρέθηκαν προηγουμένως.

Μέθοδος αποσύνθεσης μοναδικής τιμής και κύριας συνιστώσας τανυστή

Συχνά ένα διάνυσμα δεδομένων έχει την πρόσθετη δομή ενός ορθογώνιου πίνακα (για παράδειγμα, μιας επίπεδης εικόνας) ή ακόμη και ενός πολυδιάστατου πίνακα - δηλαδή, ενός τανυστή:,. Σε αυτή την περίπτωση, είναι επίσης αποτελεσματική η χρήση της αποσύνθεσης μοναδικής τιμής. Ο ορισμός, οι βασικοί τύποι και οι αλγόριθμοι μεταφέρονται πρακτικά αμετάβλητοι: αντί για τον πίνακα δεδομένων, έχουμε την τιμή -δείκτη, όπου ο πρώτος δείκτης είναι ο αριθμός του σημείου (τανυστής) των δεδομένων.

Η κύρια διαδικασία είναι να βρεθεί η καλύτερη προσέγγιση ενός τανυστή με έναν τανυστή της μορφής (όπου είναι το διάνυσμα διαστάσεων (είναι ο αριθμός των σημείων δεδομένων), είναι το διάνυσμα της διάστασης στο) με τη μέθοδο των ελαχίστων τετραγώνων:

Η λύση σε αυτό το πρόβλημα δίνεται με διαδοχικές επαναλήψεις χρησιμοποιώντας σαφείς τύπους. Εάν δίνονται όλα τα διανύσματα-παράγοντες εκτός από ένα, τότε αυτό το υπόλοιπο προσδιορίζεται ρητά από επαρκείς προϋποθέσειςελάχιστο.

Ως αρχική προσέγγιση των διανυσμάτων (), λαμβάνουμε τυχαία διανύσματα μοναδιαίου μήκους, υπολογίζουμε ένα διάνυσμα και, στη συνέχεια, υπολογίζουμε ένα διάνυσμα για αυτό το διάνυσμα και αυτά τα διανύσματα, κ.λπ. (κυκλικά επαναλαμβανόμενες πάνω από τους δείκτες) Κάθε βήμα μειώνει την τιμή. Ο αλγόριθμος προφανώς συγκλίνει. Ως κριτήριο διακοπής χρησιμοποιείται η μικρότητα της σχετικής μείωσης στην τιμή της ελαχιστοποιημένης συνάρτησης ανά κύκλο ή η μικρότητα της ίδιας της τιμής. Περαιτέρω, αφαιρούμε την ληφθείσα προσέγγιση από τον τανυστή και για το υπόλοιπο αναζητούμε ξανά την καλύτερη προσέγγιση του ίδιου τύπου κ.λπ., έως ότου, για παράδειγμα, ο κανόνας του επόμενου υπολοίπου γίνει αρκετά μικρός.

Αυτή η πολυσυστατική αποσύνθεση μοναδικής τιμής (μέθοδος κύριας συνιστώσας τανυστή) χρησιμοποιείται με επιτυχία στην επεξεργασία εικόνων, σημάτων βίντεο και, ευρύτερα, οποιωνδήποτε δεδομένων έχουν δομή πίνακα ή τανυστή.

Πίνακας μετατροπής σε κύρια στοιχεία

Ο πίνακας μετασχηματισμού δεδομένων σε κύριες συνιστώσες αποτελείται από διανύσματα των κύριων συνιστωσών, διατεταγμένα σε φθίνουσα σειρά ιδιοτιμών:

(σημαίνει μεταφορά),

Δηλαδή, ο πίνακας είναι ορθογώνιος.

Το μεγαλύτερο μέρος της παραλλαγής δεδομένων θα συγκεντρωθεί στις πρώτες συντεταγμένες, γεγονός που σας επιτρέπει να μετακινηθείτε σε χώρο χαμηλότερων διαστάσεων.

Υπολειμματική διακύμανση

Αφήστε τα δεδομένα να είναι κεντραρισμένα,. Κατά την αντικατάσταση των διανυσμάτων δεδομένων με την προβολή τους στις πρώτες κύριες συνιστώσες, το μέσο τετράγωνο του σφάλματος εισάγεται ανά ένα διάνυσμα δεδομένων:

όπου οι ιδιοτιμές του εμπειρικού πίνακα συνδιακύμανσης, ταξινομημένες σε φθίνουσα σειρά, λαμβάνοντας υπόψη την πολλαπλότητα.

Αυτή η ποσότητα ονομάζεται υπολειπόμενη διακύμανση... Η ποσότητα

που ονομάζεται εξηγημένη διακύμανση... Το άθροισμά τους είναι ίσο με τη διακύμανση του δείγματος. Το αντίστοιχο τετράγωνο σχετικό σφάλμα είναι ο λόγος της υπολειπόμενης διακύμανσης προς τη διακύμανση του δείγματος (δηλ. αναλογία ανεξήγητης διακύμανσης):

Με βάση το σχετικό σφάλμα, εκτιμάται η δυνατότητα εφαρμογής της μεθόδου του κύριου στοιχείου με προβολή στα πρώτα στοιχεία.

Σχόλιο: στους περισσότερους υπολογιστικούς αλγόριθμους, οι ιδιοτιμές με τα αντίστοιχα ιδιοδιανύσματα - τα κύρια στοιχεία υπολογίζονται με τη σειρά "από το μεγάλο στο μικρότερο". Για τον υπολογισμό, αρκεί να υπολογιστούν οι πρώτες ιδιοτιμές και το ίχνος του εμπειρικού πίνακα συνδιακύμανσης, (το άθροισμα των διαγώνιων στοιχείων, δηλαδή οι διακυμάνσεις κατά μήκος των αξόνων). Τότε

Επιλογή των κύριων εξαρτημάτων σύμφωνα με τον κανόνα Kaiser

Η προσέγγιση στόχος για την εκτίμηση του αριθμού των κύριων στοιχείων με βάση το απαιτούμενο κλάσμα της επεξηγημένης διακύμανσης είναι τυπικά πάντα εφαρμόσιμη, αλλά σιωπηρά προϋποθέτει ότι δεν υπάρχει διαχωρισμός σε «σήμα» και «θόρυβο» και οποιαδήποτε προκαθορισμένη ακρίβεια έχει νόημα. Επομένως, μια διαφορετική ευρετική που βασίζεται στην υπόθεση της παρουσίας ενός «σήματος» (σχετικά μικρής διάστασης, σχετικά μεγάλου πλάτους) και «θορύβου» (μεγάλη διάσταση, σχετικά μικρό πλάτος) είναι συχνά πιο παραγωγική. Από αυτή την άποψη, η μέθοδος των κύριων εξαρτημάτων λειτουργεί σαν φίλτρο: το σήμα περιέχεται κυρίως στην προβολή στα πρώτα κύρια εξαρτήματα και στα υπόλοιπα εξαρτήματα η αναλογία θορύβου είναι πολύ μεγαλύτερη.

Το ερώτημα είναι: πώς να εκτιμηθεί ο αριθμός των απαιτούμενων κύριων εξαρτημάτων εάν η αναλογία σήματος προς θόρυβο δεν είναι γνωστή εκ των προτέρων;

Η απλούστερη και παλαιότερη μέθοδος για την επιλογή των κύριων εξαρτημάτων δίνει Ο κανόνας του Κάιζερ(eng. Ο κανόνας του Κάιζερ): εκείνα τα κύρια συστατικά είναι σημαντικά για τα οποία

υπερβαίνει δηλαδή τον μέσο όρο (μέση διακύμανση δείγματος των συντεταγμένων του διανύσματος δεδομένων). Ο κανόνας Kaiser λειτουργεί καλά σε απλές περιπτώσεις, όταν υπάρχουν πολλά κύρια στοιχεία με πολύ υψηλότερο από το μέσο όρο και οι υπόλοιπες ιδιοτιμές είναι μικρότερες από αυτό. Σε πιο περίπλοκες περιπτώσεις, μπορεί να δώσει πάρα πολλά σημαντικά κύρια στοιχεία. Εάν τα δεδομένα κανονικοποιηθούν σε μια διακύμανση μοναδιαίου δείγματος κατά μήκος των αξόνων, τότε ο κανόνας Kaiser παίρνει μια ιδιαίτερα απλή μορφή: μόνο εκείνα τα κύρια στοιχεία είναι σημαντικά για τα οποία

Εκτίμηση του αριθμού των κύριων συστατικών με τον διακεκομμένο κανόνα του ζαχαροκάλαμου

Παράδειγμα: Εκτίμηση του αριθμού των κύριων συστατικών με τον σπασμένο κανόνα ζαχαροκάλαμου στη διάσταση 5.

Μία από τις πιο δημοφιλείς ευρετικές προσεγγίσεις για την εκτίμηση του αριθμού των απαιτούμενων κύριων στοιχείων είναι σπασμένο κανόνα μπαστούνι(eng. Μοντέλο σπασμένο μπαστούνι). Το σύνολο των ιδιοτιμών που κανονικοποιούνται στο μοναδιαίο άθροισμα (,) συγκρίνεται με την κατανομή των μηκών των θραυσμάτων του καλαμιού μοναδιαίου μήκους που έχει σπάσει στο τυχαία επιλεγμένο σημείο (τα σημεία θραύσης επιλέγονται ανεξάρτητα και κατανέμονται εξίσου το μήκος του καλαμιού). Έστω () τα μήκη των κομματιών του ζαχαροκάλαμου, αριθμημένα με φθίνουσα σειρά μήκους:. Δεν είναι δύσκολο να βρεις τη μαθηματική προσδοκία:

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, το ιδιοδιάνυσμα (σε φθίνουσα σειρά ιδιοτιμής) αποθηκεύεται στη λίστα των κύριων στοιχείων εάν

Στο Σχ. δίνεται ένα παράδειγμα για την 5-διάστατη περίπτωση:

=(1+1/2+1/3+1/4+1/5)/5; =(1/2+1/3+1/4+1/5)/5; =(1/3+1/4+1/5)/5; =(1/4+1/5)/5; =(1/5)/5.

Για παράδειγμα, επιλεγμένο

=0.5; =0.3; =0.1; =0.06; =0.04.

Σύμφωνα με τον κανόνα του σπασμένου ζαχαροκάλαμου, θα πρέπει να μείνουν 2 κύρια συστατικά σε αυτό το παράδειγμα:

Σύμφωνα με εκτιμήσεις των χρηστών, ο σπασμένος κανόνας του ζαχαροκάλαμου τείνει να υποτιμά τον αριθμό των σημαντικών κύριων συστατικών.

Ομαλοποίηση

Κανονικοποίηση μετά από αναγωγή στα κύρια συστατικά

Μετάτης προβολής στα πρώτα κύρια εξαρτήματα με, είναι βολικό να ομαλοποιηθεί η διασπορά στη μονάδα (δείγμα) κατά μήκος των αξόνων. Η διακύμανση κατά μήκος της κύριας συνιστώσας x είναι ίση με), επομένως, για κανονικοποίηση, είναι απαραίτητο να διαιρεθεί η αντίστοιχη συντεταγμένη με. Αυτός ο μετασχηματισμός δεν είναι ορθογώνιος και δεν διατηρεί το γινόμενο κουκίδων. Ο πίνακας συνδιακύμανσης της προβολής δεδομένων μετά την κανονικοποίηση γίνεται μονάδα, οι προβολές σε οποιεσδήποτε δύο ορθογώνιες κατευθύνσεις γίνονται ανεξάρτητες ποσότητες και οποιαδήποτε ορθοκανονική βάση γίνεται η βάση των κύριων συνιστωσών (θυμηθείτε ότι η κανονικοποίηση αλλάζει τον λόγο ορθογωνικότητας διανυσμάτων). Η αντιστοίχιση από τον αρχικό χώρο δεδομένων στα πρώτα κύρια στοιχεία, μαζί με την κανονικοποίηση, δίνεται από τον πίνακα

.

Είναι αυτός ο μετασχηματισμός που ονομάζεται συνήθως μετασχηματισμός Karhunen-Loewe. Εδώ είναι διανύσματα στηλών και εκθέτης σημαίνει μεταφορά.

Κανονικοποίηση πριν από τον υπολογισμό των κύριων συνιστωσών

Μια προειδοποίηση: δεν πρέπει να συγχέουμε την κανονικοποίηση που πραγματοποιήθηκε μετά τη μετατροπή στα κύρια συστατικά, με την κανονικοποίηση και την «μη διαστασιοποίηση» στο προεπεξεργασία δεδομένωνπραγματοποιείται πριν από τον υπολογισμό των κύριων συνιστωσών. Απαιτείται προκαταρκτική κανονικοποίηση για μια λογική επιλογή της μέτρησης στην οποία θα υπολογιστεί η καλύτερη προσέγγιση των δεδομένων ή θα αναζητηθούν οι κατευθύνσεις της μεγαλύτερης διασποράς (που είναι ισοδύναμο). Για παράδειγμα, εάν τα δεδομένα είναι τρισδιάστατα διανύσματα "μέτρων, λίτρων και χιλιογράμμων", τότε χρησιμοποιώντας την τυπική Ευκλείδεια απόσταση, μια διαφορά 1 μέτρου στην πρώτη συντεταγμένη θα έχει την ίδια συμβολή με μια διαφορά 1 λίτρου στη δεύτερη , ή 1 κιλό στο τρίτο ... Συνήθως, τα συστήματα των μονάδων στα οποία παρουσιάζονται τα αρχικά δεδομένα δεν αντικατοπτρίζουν επακριβώς τις ιδέες μας για τις φυσικές κλίμακες κατά μήκος των αξόνων και πραγματοποιείται "αδιάσταση": κάθε συντεταγμένη χωρίζεται σε μια συγκεκριμένη κλίμακα που καθορίζεται από τα δεδομένα, τους σκοπούς της επεξεργασίας τους και των διαδικασιών μέτρησης και συλλογής δεδομένων.

Υπάρχουν τρεις ουσιαστικά διαφορετικές τυπικές προσεγγίσεις για μια τέτοια κανονικοποίηση: διακύμανση μονάδαςκατά μήκος των αξόνων (οι κλίμακες κατά μήκος των αξόνων είναι ίσες με τις μέσες τετραγωνικές αποκλίσεις - μετά από αυτόν τον μετασχηματισμό, ο πίνακας συνδιακύμανσης συμπίπτει με τον πίνακα των συντελεστών συσχέτισης), ίση ακρίβεια μέτρησης(η κλίμακα κατά μήκος του άξονα είναι ανάλογη με την ακρίβεια μέτρησης της δεδομένης ποσότητας) και ίσες αξιώσειςστο πρόβλημα (η κλίμακα κατά μήκος του άξονα καθορίζεται από την απαιτούμενη ακρίβεια πρόβλεψης μιας δεδομένης τιμής ή την επιτρεπόμενη παραμόρφωσή της - το επίπεδο ανοχής). Η επιλογή της προεπεξεργασίας επηρεάζεται από την ουσιαστική διατύπωση του προβλήματος, καθώς και από τις συνθήκες συλλογής δεδομένων (για παράδειγμα, εάν η συλλογή δεδομένων είναι θεμελιωδώς ελλιπής και τα δεδομένα εξακολουθούν να φθάνουν, τότε είναι παράλογο να επιλέξετε την κανονικοποίηση αυστηρά σε διακύμανση μονάδας, ακόμα κι αν αυτό αντιστοιχεί στο νόημα του προβλήματος, καθώς αυτό συνεπάγεται την εκ νέου κανονικοποίηση όλων των δεδομένων μετά τη λήψη ενός νέου τμήματος· είναι πιο λογικό να επιλέξετε μια συγκεκριμένη κλίμακα που υπολογίζει χονδρικά την τυπική απόκλιση και στη συνέχεια να μην την αλλάξετε ).

Η προ-κανονικοποίηση στη διασπορά μονάδας κατά μήκος των αξόνων καταστρέφεται με την περιστροφή του συστήματος συντεταγμένων εάν οι άξονες δεν είναι κύρια στοιχεία και η κανονικοποίηση κατά την προεπεξεργασία δεδομένων δεν αντικαθιστά την κανονικοποίηση μετά την αναγωγή στα κύρια στοιχεία.

Μηχανική αναλογία και ανάλυση κύριων συστατικών για σταθμισμένα δεδομένα

Εάν συσχετίσουμε κάθε διάνυσμα δεδομένων με μια μονάδα μάζας, τότε ο εμπειρικός πίνακας συνδιακύμανσης θα συμπίπτει με τον τανυστή αδράνειας αυτού του συστήματος σημειακών μαζών (διαιρούμενος με τη συνολική μάζα) και το πρόβλημα των κύριων συστατικών - με το πρόβλημα της μείωσης του τανυστή αδράνειας προς τους κύριους άξονες. Η πρόσθετη ελευθερία στην επιλογή των τιμών μάζας μπορεί να χρησιμοποιηθεί για να ληφθεί υπόψη η σημασία των σημείων δεδομένων ή η αξιοπιστία των τιμών τους (μεγαλύτερες μάζες εκχωρούνται σε σημαντικά δεδομένα ή δεδομένα από πιο αξιόπιστες πηγές). Αν στο διάνυσμα δεδομένων δίνεται μάζα,τότε αντί του εμπειρικού πίνακα συνδιακύμανσης λαμβάνουμε

Όλες οι περαιτέρω λειτουργίες για αναγωγή στα κύρια συστατικά εκτελούνται με τον ίδιο τρόπο όπως στην κύρια έκδοση της μεθόδου: αναζητούμε μια ορθοκανονική ιδιοβάση, την τακτοποιούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα της προσέγγισης των δεδομένων κατά την πρώτη συστατικά (με τα αθροίσματα ιδιοτιμών), κανονικοποίηση, κ.λπ. ...

Μια γενικότερη μέθοδος ζύγισης δίνει μεγιστοποιώντας το σταθμισμένο άθροισμα των αποστάσεων κατά ζεύγημεταξύ των προβολών. Για κάθε δύο σημεία δεδομένων, εισάγεται ένα βάρος. και . Αντί για τον εμπειρικό πίνακα συνδιακύμανσης, χρησιμοποιήστε

Διότι, ο συμμετρικός πίνακας είναι θετικός ορισμένος, αφού η τετραγωνική μορφή είναι θετική:

Στη συνέχεια, αναζητούμε μια ορθοκανονική σωστή βάση, την ταξινομούμε με φθίνουσα σειρά ιδιοτιμών, υπολογίζουμε το σταθμισμένο μέσο σφάλμα της προσέγγισης των δεδομένων με τα πρώτα συστατικά κ.λπ. - ακριβώς όπως στον κύριο αλγόριθμο.

Αυτή η μέθοδος εφαρμόζεται αν υπάρχουν τάξεις: για διαφορετικές κατηγορίες, το βάρος επιλέγεται να είναι μεγαλύτερο από ό,τι για σημεία της ίδιας κατηγορίας. Ως αποτέλεσμα, στην προβολή πάνω στα ζυγισμένα κύρια εξαρτήματα, διαφορετικές κατηγορίες "απομακρύνονται" σε μεγαλύτερη απόσταση.

Μια άλλη εφαρμογή είναι μειώνοντας την επίδραση μεγάλων αποκλίσεων(δαπανών, Ελλ. Εξωφρενικό ), το οποίο μπορεί να παραμορφώσει την εικόνα λόγω της χρήσης της απόστασης rms: εάν επιλεγεί, η επίδραση μεγάλων αποκλίσεων θα μειωθεί. Έτσι, η περιγραφόμενη τροποποίηση της μεθόδου του κύριου συστατικού είναι πιο ισχυρή από την κλασική.

Ειδική ορολογία

Στις στατιστικές, όταν χρησιμοποιείται η ανάλυση του κύριου στοιχείου, χρησιμοποιούνται αρκετοί τεχνικοί όροι.

Πίνακας δεδομένων; κάθε σειρά είναι ένα διάνυσμα προεπεξεργασμένοδεδομένα ( κεντραρισμένοςκαι σωστά κανονικοποιημένη), αριθμός σειρών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (διάσταση χώρου δεδομένων).

Φόρτωση μήτρας(Φορτώσεις) κάθε στήλη είναι ένα διάνυσμα των κύριων στοιχείων, ο αριθμός των σειρών είναι (διάσταση του χώρου δεδομένων), ο αριθμός των στηλών είναι (ο αριθμός των διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας λογαριασμών(Βαθμολογίες) Κάθε σειρά είναι η προβολή του διανύσματος δεδομένων στα κύρια στοιχεία. αριθμός γραμμών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας βαθμολογίας Z(Ζ-βαθμολογίες); Κάθε σειρά είναι η προβολή του διανύσματος δεδομένων στα κύρια στοιχεία, κανονικοποιημένη στη διακύμανση του δείγματος μονάδας. αριθμός γραμμών - (αριθμός διανυσμάτων δεδομένων), αριθμός στηλών - (αριθμός διανυσμάτων των κύριων στοιχείων που επιλέχθηκαν για προβολή).

Πίνακας σφαλμάτωναποφάγια) (Σφάλματα ή υπολείμματα).

Βασικός τύπος:

Όρια εφαρμογής και περιορισμοί αποτελεσματικότητας της μεθόδου

Η ανάλυση του κύριου συστατικού είναι πάντα εφαρμόσιμη. Η ευρέως διαδεδομένη δήλωση ότι ισχύει μόνο για κανονικά κατανεμημένα δεδομένα (ή για κατανομές κοντά στο κανονικό) είναι εσφαλμένη: στην αρχική διατύπωση του K. Pearson, το πρόβλημα τίθεται σχετικά με προσεγγίσειςπεπερασμένο σύνολο δεδομένων και δεν υπάρχει καν υπόθεση για τη στατιστική τους παραγωγή, για να μην αναφέρουμε την κατανομή.

Ωστόσο, η μέθοδος δεν μειώνει πάντα αποτελεσματικά τη διάσταση υπό τους δεδομένους περιορισμούς ακρίβειας. Οι γραμμές και τα επίπεδα δεν παρέχουν πάντα καλή προσέγγιση. Για παράδειγμα, τα δεδομένα μπορεί να ακολουθούν μια καμπύλη με καλή ακρίβεια και αυτή η καμπύλη μπορεί να είναι δύσκολο να τοποθετηθεί στο χώρο δεδομένων. Σε αυτήν την περίπτωση, η ανάλυση του κύριου στοιχείου θα απαιτήσει πολλά στοιχεία (αντί για ένα) για αποδεκτή ακρίβεια, ή δεν θα δώσει καθόλου μείωση της διάστασης με αποδεκτή ακρίβεια. Για να δουλέψουμε με τέτοιες "καμπύλες" κύριων εξαρτημάτων, εφευρέθηκε η μέθοδος των κύριων πολλαπλών και διάφορες εκδοχές της μη γραμμικής μεθόδου των κύριων εξαρτημάτων. Τα δεδομένα με πολύπλοκη τοπολογία μπορεί να είναι πιο ενοχλητικά. Έχουν επίσης εφευρεθεί διάφορες μέθοδοι για την προσέγγισή τους, όπως αυτοοργάνωση χαρτών Kohonen, νευρικό αέριο ή τοπολογικές γραμματικές. Εάν τα δεδομένα παράγονται στατιστικά με μια κατανομή που είναι πολύ διαφορετική από την κανονική, τότε για να προσεγγίσουμε την κατανομή είναι χρήσιμο να μεταβούμε από τα κύρια στοιχεία σε ανεξάρτητα εξαρτήματαπου δεν είναι πλέον ορθογώνια στο αρχικό προϊόν κουκκίδων. Τέλος, για ισοτροπική κατανομή (ακόμη και κανονική), αντί για ένα ελλειψοειδές σκέδασης, παίρνουμε μια μπάλα και είναι αδύνατο να μειωθεί η διάσταση με μεθόδους προσέγγισης.

Παραδείγματα χρήσης

Οπτικοποίηση δεδομένων

Οπτικοποίηση δεδομένων - η παρουσίαση σε οπτική μορφή πειραματικών δεδομένων ή των αποτελεσμάτων μιας θεωρητικής μελέτης.

Η πρώτη επιλογή στην οπτικοποίηση ενός συνόλου δεδομένων είναι η ορθογώνια προβολή στο επίπεδο των δύο πρώτων κύριων συνιστωσών (ή στον τρισδιάστατο χώρο των τριών πρώτων κύριων συνιστωσών). Το επίπεδο σχεδίασης είναι ουσιαστικά μια επίπεδη, δισδιάστατη "οθόνη" τοποθετημένη ώστε να παρέχει μια "εικόνα" των δεδομένων με τη μικρότερη παραμόρφωση. Μια τέτοια προβολή θα είναι βέλτιστη (μεταξύ όλων των ορθογώνιων προβολών σε διαφορετικές δισδιάστατες οθόνες) από τρεις απόψεις:

  1. Το ελάχιστο άθροισμα των τετραγωνικών αποστάσεων από τα δεδομένα δείχνει στις προβολές στο επίπεδο των πρώτων κύριων στοιχείων, δηλαδή, η οθόνη βρίσκεται όσο το δυνατόν πιο κοντά στο νέφος σημείων.
  2. Το ελάχιστο ποσό παραμόρφωσης των τετραγώνων των αποστάσεων μεταξύ όλων των ζευγών σημείων από το σύννεφο δεδομένων μετά την προβολή των σημείων στο επίπεδο.
  3. Το άθροισμα των παραμορφώσεων των τετραγώνων των αποστάσεων μεταξύ όλων των σημείων δεδομένων και του «κέντρου βάρους» τους είναι ελάχιστο.

Η οπτικοποίηση δεδομένων είναι μια από τις πιο ευρέως χρησιμοποιούμενες εφαρμογές της ανάλυσης κύριων συνιστωσών και των μη γραμμικών γενικεύσεών της.

Συμπίεση εικόνων και βίντεο

Για να μειωθεί ο χωρικός πλεονασμός των pixel κατά την κωδικοποίηση εικόνων και βίντεο, χρησιμοποιούνται γραμμικοί μετασχηματισμοί μπλοκ pixel. Η επακόλουθη κβαντοποίηση των λαμβανόμενων συντελεστών και η κωδικοποίηση χωρίς απώλειες επιτρέπουν τη λήψη σημαντικών αναλογιών συμπίεσης. Η χρήση του μετασχηματισμού PCA ως γραμμικού μετασχηματισμού είναι βέλτιστη για ορισμένους τύπους δεδομένων όσον αφορά το μέγεθος των δεδομένων που λαμβάνονται με την ίδια παραμόρφωση. Προς το παρόν, αυτή η μέθοδος δεν χρησιμοποιείται ενεργά, κυρίως λόγω της μεγάλης υπολογιστικής πολυπλοκότητας. Επίσης, η συμπίεση δεδομένων μπορεί να επιτευχθεί με την απόρριψη των τελευταίων συντελεστών μετατροπής.

Μείωση του θορύβου στις εικόνες

Χημειομετρία

Η ανάλυση των κύριων συστατικών είναι μία από τις κύριες μεθόδους στη χημειομετρία (eng. Χημειομετρία ). Επιτρέπει τη διαίρεση του πίνακα των αρχικών δεδομένων X σε δύο μέρη: "με νόημα" και "θόρυβος". Σύμφωνα με τον πιο δημοφιλή ορισμό, «Η χημειομετρία είναι ένας χημικός κλάδος που χρησιμοποιεί μαθηματικές, στατιστικές και άλλες μεθόδους που βασίζονται στην τυπική λογική για την κατασκευή ή την επιλογή βέλτιστων μεθόδων μέτρησης και πειραματικών σχεδίων, καθώς και για την εξαγωγή των πιο σημαντικών πληροφοριών στην ανάλυση πειραματικών δεδομένα."

Ψυχοδιαγνωστικά

  1. ανάλυση δεδομένων (περιγραφή των αποτελεσμάτων ερευνών ή άλλων μελετών, που παρουσιάζονται με τη μορφή συστοιχιών αριθμητικών δεδομένων).
  2. περιγραφή κοινωνικών φαινομένων (κατασκευή μοντέλων φαινομένων, συμπεριλαμβανομένων μαθηματικών μοντέλων).

Στην πολιτική επιστήμη, η μέθοδος του κύριου συστατικού ήταν το κύριο εργαλείο του έργου Political Atlas of Modernity για γραμμική και μη γραμμική ανάλυση των αξιολογήσεων 192 χωρών του κόσμου σύμφωνα με πέντε ειδικά αναπτυγμένους ολοκληρωμένους δείκτες (βιοτικό επίπεδο, διεθνής επιρροή, απειλές, κρατισμός και δημοκρατία). Για τη χαρτογράφηση των αποτελεσμάτων αυτής της ανάλυσης έχει αναπτυχθεί ένα ειδικό GIS (Σύστημα Γεωγραφικών Πληροφοριών) που συνδυάζει τον γεωγραφικό χώρο με τον χώρο χαρακτηριστικών. Οι χάρτες δεδομένων πολιτικού άτλαντα έχουν επίσης δημιουργηθεί χρησιμοποιώντας δισδιάστατες κύριες πολλαπλότητες στον πενταδιάστατο χώρο των χωρών ως υπόστρωμα. Η διαφορά μεταξύ ενός χάρτη δεδομένων και ενός γεωγραφικού χάρτη είναι ότι σε έναν γεωγραφικό χάρτη υπάρχουν αντικείμενα που έχουν παρόμοιες γεωγραφικές συντεταγμένες κοντά, ενώ σε έναν χάρτη δεδομένων υπάρχουν αντικείμενα (χώρες) με παρόμοια χαρακτηριστικά (δείκτες) κοντά.