Επιστήμονες από το Εθνικό Μετσόβιο Πολυτεχνείο της Ελλάδας δημοσιεύσαν μελέτη που προτείνει μια νέα τεχνική πρόβλεψης οικιακών φωτοβολταϊκών, η οποία προστατεύει το απόρρητο των καταναλωτών.
Η ομάδα αποτελούμενη από τους κ.κ. Βασίλη Μιχαλακόπουλο, Ευστάθιο Σαραντινόπουλο, Ελισσαίο Σάρμα και Βαγγέλη Μαρινάκη, ξεκίνησε από το γεγονός ότι οι τεχνικές μηχανικής μάθησης έχουν σημαντικές δυνατότητες στην παροχή ακριβών προβλέψεων για την παραγωγή οικιακών φωτοβολταϊκών χρονοσειρών (PV).
Αυτή η πρόοδος, ωστόσο, εισάγει μια κρίσιμη ανησυχία: την ανάγκη να δοθεί προτεραιότητα και να διατηρηθεί το απόρρητο όταν πρόκειται για ευαίσθητα προσωπικά δεδομένα σε αυτά τα μοντέλα μηχανικής μάθησης. Η διατήρηση της εμπιστευτικότητας των μεμονωμένων πληροφοριών καθίσταται ζωτικής σημασίας και η πρόκληση ενισχύεται από το σημαντικό μέγεθος των συνόλων δεδομένων καθιστώντας τη διαδικασία πιο περίπλοκη.
Η εργασία τους διερεύνησε τα υπάρχοντα μοντέλα μάθησης που διατηρούν το απόρρητο στο πλαίσιο της οικιακής παραγωγής φωτοβολταϊκών που βασίζονται σε μεγάλα δεδομένα. Αξιοποιώντας τις τεχνικές FL, προτείνουν ένα πλαίσιο που επιτρέπει τη συλλογική εκπαίδευση μοντέλων σε αποκεντρωμένα ενεργειακά δεδομένα προσανατολιστών χωρίς να διακυβεύονται ευαίσθητες πληροφορίες. Πριν από την ομοσπονδιακή προσέγγιση, μια εκτεταμένη διαδικασία συντονισμού υπερπαραμέτρων εκτελείται ξεχωριστά για κάθε μοντέλο Long Short-Term Memory (LSTM) που εκπαιδεύεται σε διακριτά οικιακά δεδομένα. Στη συνέχεια, μια σειρά αλγορίθμων ομαδοποίησης χρησιμοποιεί τις υπερπαραμέτρους των μοντέλων ως χώρο εισόδου, καθεμία από τις οποίες αντιπροσωπεύει τον αντίστοιχο προσανατολιστή και υποβάλλονται σε αξιολόγηση αξιοποιώντας καθιερωμένους δείκτες ως μετρήσεις. Αυτή η μέθοδος όχι μόνο βελτιστοποιεί τα μεμονωμένα μοντέλα LSTM, αλλά διατηρεί επίσης το απόρρητο διασφαλίζοντας ότι τα ευαίσθητα δεδομένα παραμένουν αποκεντρωμένα καθ' όλη τη διάρκεια της διαδικασίας.
Η προτεινόμενη λύση συγκεντρώνει τα βάρη των τοπικά εκπαιδευμένων LSTM χρησιμοποιώντας τον αλγόριθμο FedAvg, ενσωματώνοντας παράλληλα τον διαφορικό συγκεντρωτή απορρήτου. Η λύση μας υποβλήθηκε σε πειραματισμό στον οποίο συμμετείχαν τριάντα ενεργειακοί καταναλωτές, χρησιμοποιώντας δεδομένα αξίας σχεδόν τεσσάρων ετών. Επιλέχθηκαν διάφορα σενάρια, που περιλαμβάνουν τόσο τοπική μάθηση όσο και κεντρικές μεθόδους μάθησης.
Άλλα μοντέλα
«Το υπό εξέταση σύνολο δεδομένων προέρχεται από το δίκτυο ηλεκτρικής ενέργειας του Terni της Ιταλίας, το οποίο περιλαμβάνει δεδομένα από 30 μικρής κλίμακας προμηθευτές ηλεκτρικής ενέργειας που χρησιμοποιούν φωτοβολταϊκά συστήματα για την παραγωγή ενέργειας», εξήγησε η ομάδα στο περιοδικό PV. «Μετά την κανονικοποίηση, χωρίζουμε το σύνολο δεδομένων σε δύο υποσύνολα: ένα σετ εκπαίδευσης για εκπαίδευση μοντέλων και ένα σύνολο δοκιμών για την αξιολόγηση της απόδοσης του μοντέλου σε αόρατα δεδομένα. Αυτό το τμήμα ακολουθεί μια διαίρεση 80-20, με τα δεδομένα από τον Ιανουάριο του 2015 έως τον Δεκέμβριο του 2017 να προορίζονται για εκπαίδευση και τα δεδομένα που εκτείνονται από τον Ιανουάριο του 2018 έως τον Δεκέμβριο του 2019 να διατίθενται για δοκιμές.»
Στη συνέχεια, οι ερευνητές συνέκριναν το μοντέλο FL-LSTM στο ίδιο σύνολο δεδομένων με διάφορες μεθόδους εκμάθησης. Το πρώτο ήταν η τοπική μάθηση, η οποία λειτουργεί σε ένα πλήρως ιδιωτικό, τοπικό περιβάλλον. Το δεύτερο ήταν η κεντρική μάθηση, η οποία συνήθως προσφέρει μεγαλύτερη ακρίβεια, αλλά θυσιάζει την ιδιωτικότητα. Το τρίτο μοντέλο ήταν FL ενισχυμένο με διαφορικό απόρρητο (DP) για να ελαχιστοποιηθεί η πιθανότητα αναγνώρισης μεμονωμένων συνεισφορών, χρησιμοποιώντας πολλαπλασιαστές θορύβου που έχουν οριστεί σε 0,2, 0,25, 0,3 ή 0,4.
«Για την αξιολόγηση της απόδοσης των μοντέλων, χρησιμοποιούνται δύο βασικές μετρήσεις: μέσο απόλυτο σφάλμα (MAE) και ριζικό μέσο τετραγωνικό σφάλμα (RMSE)», εξήγησε η ομάδα. «Η επιλογή του MAE επιτρέπει μια ολοκληρωμένη επισκόπηση των περιθωρίων σφάλματος των μοντέλων μας, ιδιαίτερα λόγω της ανθεκτικότητάς του έναντι των ακραίων τιμών – ένα αξιοσημείωτο χαρακτηριστικό του συνόλου δεδομένων μας. Αντίθετα, το RMSE δίνει έμφαση στην ευαισθησία σε μεγαλύτερα σφάλματα, κάτι που είναι κρίσιμο για την αξιολόγηση της ακρίβειας της πρόβλεψης παραγωγής, καθώς υπογραμμίζει τον αντίκτυπο των ουσιαστικών αποκλίσεων περισσότερο από το MAE».
«Στην αναζήτηση για ένα επίπεδο θορύβου που θα παρείχε παρόμοια απόδοση με την εφαρμογή non-DP FL, αντιμετωπίσαμε μια ενδιαφέρουσα ανωμαλία. Η βέλτιστη αναλογία θορύβου προς απόδοση παρατηρήθηκε σε πολλαπλασιαστή θορύβου 0,2, ο οποίος απροσδόκητα απέδωσε καλύτερα αποτελέσματα από το FL», σημείωσε η ομάδα. "Τα πειράματά μας με πολλαπλασιαστές θορύβου υψηλότερους από 0,2 κατέδειξαν την αναμενόμενη υποβάθμιση στην προγνωστική ακρίβεια με τον πολλαπλασιαστή 0,4 να καθιστά το μοντέλο αδύναμο να συγκλίνει."
Η ομάδα είπε ότι «ο κύριος περιορισμός αφορούσε το περιορισμένο μέγεθος του συνόλου δεδομένων σχετικά με τον αριθμό των συμμετεχόντων πελατών. Αυτή η μελέτη χρησιμεύει ως βάση. Η προσθήκη περισσότερων αγοραστών με την πάροδο του χρόνου θα αύξανε σίγουρα την απόδοση των FL και FL-DP. Έχοντας αυτό υπόψη, τα αποτελέσματά μας υποδεικνύουν ότι για μικρότερα σύνολα δεδομένων με λίγους συμμετέχοντες πελάτες, η κεντρική μάθηση υπερτερεί της FL ως προς την ακρίβεια, παρόλο που και οι δύο προσεγγίσεις αξιοποιούν τα διαθέσιμα συλλογικά δεδομένα. Παρόλα αυτά, το FL προσφέρει οφέλη σχετικά με το κόστος ιδιωτικότητας και επικοινωνίας.»