EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων

2025 Συγγραφέας: Ian Gardner | [email protected]. Τελευταία τροποποίηση: 2025-01-24 11:00

Ως μία από τις κύριες εφαρμογές στην όραση του υπολογιστή, η ανίχνευση αντικειμένων γίνεται ολοένα και πιο σημαντική σε σενάρια που απαιτούν υψηλή ακρίβεια αλλά έχουν περιορισμένους υπολογιστικούς πόρους, όπως ρομποτική και αυτοκίνητα χωρίς οδηγό. Δυστυχώς, πολλοί σύγχρονοι ανιχνευτές υψηλής ακρίβειας δεν πληρούν αυτούς τους περιορισμούς. Το πιο σημαντικό, οι εφαρμογές ανίχνευσης αντικειμένων πραγματικού κόσμου εκτελούνται σε διαφορετικές πλατφόρμες, οι οποίες συχνά απαιτούν διαφορετικούς πόρους.

Έτσι, το φυσικό ερώτημα είναι πώς να σχεδιάσετε ακριβείς και αποτελεσματικούς ανιχνευτές αντικειμένων που μπορούν επίσης να προσαρμοστούν σε ένα ευρύ φάσμα περιορισμών πόρων;

EfficientDet: Scalable and Efficient Object Detection, που υιοθετήθηκε στο CVPR 2020, εισάγει μια νέα οικογένεια επεκτάσιμων και αποτελεσματικών ανιχνευτών αντικειμένων. Βασιζόμενη σε προηγούμενες εργασίες για την κλιμάκωση νευρωνικών δικτύων (EfficientNet) και ενσωματώνοντας ένα νέο αμφίδρομο λειτουργικό δίκτυο (BiFPN) και νέους κανόνες κλιμάκωσης, το EfficientDet επιτυγχάνει σύγχρονη ακρίβεια ενώ είναι 9 φορές μικρότερο και χρησιμοποιεί σημαντικά λιγότερο υπολογισμό από τους γνωστούς σύγχρονους ανιχνευτές. Το παρακάτω σχήμα δείχνει τη γενική αρχιτεκτονική δικτύου των μοντέλων.

Βελτιστοποίηση αρχιτεκτονικής μοντέλου

Η ιδέα πίσω από το EfficientDet πηγάζει από μια προσπάθεια εξεύρεσης λύσεων για τη βελτίωση της υπολογιστικής απόδοσης εξετάζοντας συστηματικά προηγούμενα προηγμένα μοντέλα ανίχνευσης. Σε γενικές γραμμές, οι ανιχνευτές αντικειμένων έχουν τρία κύρια συστατικά: μια ραχοκοκαλιά που εξάγει χαρακτηριστικά από μια δεδομένη εικόνα. ένα δίκτυο αντικειμένων που λαμβάνει πολλαπλά επίπεδα λειτουργιών από τη ραχοκοκαλιά ως είσοδο και εξάγει μια λίστα συνδυασμένων λειτουργιών που αντιπροσωπεύουν χαρακτηριστικά χαρακτηριστικά της εικόνας. και ένα τελικό δίκτυο τάξης / πλαισίου που χρησιμοποιεί συνδυασμένες συναρτήσεις για την πρόβλεψη της κλάσης και της θέσης κάθε αντικειμένου.

Αφού εξετάσαμε τις επιλογές σχεδιασμού για αυτά τα στοιχεία, εντοπίσαμε πολλές βασικές βελτιστοποιήσεις για τη βελτίωση της απόδοσης και της αποδοτικότητας. Οι προηγούμενοι ανιχνευτές χρησιμοποιούν ως επί το πλείστον τα ResNets, ResNeXt ή AmoebaNet ως ραχοκοκαλιά, τα οποία είτε είναι λιγότερο ισχυρά είτε έχουν χαμηλότερη απόδοση από τα EfficientNets. Με την αρχική εφαρμογή του σκελετού EfficientNet, μπορεί να επιτευχθεί πολύ περισσότερη αποδοτικότητα. Για παράδειγμα, ξεκινώντας με μια γραμμή βάσης RetinaNet που χρησιμοποιεί ένα κορμό ResNet-50, η μελέτη κατάλυσης δείχνει ότι η απλή αντικατάσταση του ResNet-50 με το EfficientNet-B3 μπορεί να βελτιώσει την ακρίβεια κατά 3%, μειώνοντας παράλληλα τον υπολογισμό κατά 20%. Μια άλλη βελτιστοποίηση είναι η βελτίωση της αποτελεσματικότητας των λειτουργικών δικτύων. Ενώ οι περισσότεροι από τους προηγούμενους ανιχνευτές χρησιμοποιούν απλώς το Downlink Pyramid Network (FPN), διαπιστώνουμε ότι το κατάντη FPN περιορίζεται εγγενώς σε μια μονόδρομη ροή πληροφοριών. Εναλλακτικά FPN όπως το PANet προσθέτουν επιπλέον ανάντη στο κόστος του επιπλέον υπολογισμού.

Πρόσφατες προσπάθειες για χρήση του Neural Architecture Search (NAS) ανακάλυψαν μια πιο περίπλοκη αρχιτεκτονική NAS-FPN. Ωστόσο, ενώ αυτή η δομή δικτύου είναι αποτελεσματική, είναι επίσης ακανόνιστη και εξαιρετικά βελτιστοποιημένη για μια συγκεκριμένη εργασία, καθιστώντας δύσκολη την προσαρμογή σε άλλες εργασίες. Για την επίλυση αυτών των προβλημάτων, προτείνουμε ένα νέο δίκτυο δύο κατευθύνσεων συναρτήσεων BiFPN, το οποίο υλοποιεί την ιδέα του συνδυασμού λειτουργιών πολλαπλών επιπέδων από FPN / PANet / NAS-FPN, το οποίο επιτρέπει τη μετάδοση πληροφοριών τόσο από πάνω προς τα κάτω όσο και από από κάτω προς τα πάνω. χρησιμοποιώντας τακτικές και αποτελεσματικές συνδέσεις.

Για να βελτιώσουμε περαιτέρω την αποτελεσματικότητα, προτείνουμε μια νέα γρήγορη κανονικοποιημένη τεχνική σύνθεσης. Οι παραδοσιακές προσεγγίσεις αντιμετωπίζουν συνήθως όλες τις εισόδους στο FPN με τον ίδιο τρόπο, ακόμη και σε διαφορετικές αναλύσεις. Ωστόσο, παρατηρούμε ότι τα χαρακτηριστικά εισαγωγής με διαφορετικές αναλύσεις συχνά συμβάλλουν άνισα στις λειτουργίες εξόδου. Έτσι, προσθέτουμε επιπλέον βάρος σε κάθε λειτουργία εισόδου και αφήνουμε στο δίκτυο να μάθει τη σημασία του καθενός. Θα αντικαταστήσουμε επίσης όλες τις συνηθισμένες συνελεύσεις με λιγότερο ακριβές, βαθιά διαχωρίσιμες συνελεύσεις. Με αυτήν τη βελτιστοποίηση, το BiFPN βελτιώνει περαιτέρω την ακρίβεια κατά 4%, ενώ μειώνει το υπολογιστικό κόστος κατά 50%.

Η τρίτη βελτιστοποίηση περιλαμβάνει την επίτευξη του καλύτερου συμβιβασμού μεταξύ ακρίβειας και αποτελεσματικότητας υπό διάφορους περιορισμούς πόρων. Η προηγούμενη δουλειά μας έδειξε ότι η συγχύση του βάθους, του πλάτους και της ανάλυσης ενός δικτύου μπορεί να βελτιώσει σημαντικά την απόδοση αναγνώρισης εικόνας. Εμπνευσμένη από αυτήν την ιδέα, προτείνουμε μια νέα μέθοδο σύνθετης κλιμάκωσης για ανιχνευτές αντικειμένων που αυξάνει συλλογικά την ανάλυση / βάθος / πλάτος. Κάθε στοιχείο δικτύου, π.χ. δίκτυο πρόβλεψης κορμού, αντικειμένου και μπλοκ / κλάσης, θα έχει έναν σύνθετο παράγοντα κλιμάκωσης που ελέγχει όλες τις διαστάσεις κλιμάκωσης χρησιμοποιώντας ευρετικούς κανόνες. Αυτή η προσέγγιση διευκολύνει τον προσδιορισμό του τρόπου κλιμάκωσης του μοντέλου υπολογίζοντας έναν παράγοντα κλίμακας για έναν δεδομένο περιορισμό πόρων στόχου.

Συνδυάζοντας το νέο ραχοκοκαλιά και το BiFPN, σχεδιάζουμε πρώτα μια μικρή γραμμή βάσης EfficientDet-D0 και μετά εφαρμόζουμε σύνθετη κλίμακα για να πάρουμε το EfficientDet-D1 σε D7. Κάθε σειριακό μοντέλο έχει υψηλότερο υπολογιστικό κόστος, καλύπτοντας ένα ευρύ φάσμα περιορισμών πόρων από 3 δισεκατομμύρια FLOP έως 300 δισεκατομμύρια FLOPS και παρέχει μεγαλύτερη ακρίβεια.

Μοντέλο απόδοσης

Αξιολόγηση EfficientDet στο σύνολο δεδομένων COCO, ένα σύνολο δεδομένων αναφοράς που χρησιμοποιείται ευρέως για την ανίχνευση αντικειμένων. Το EfficientDet-D7 επιτυγχάνει μέση μέση ακρίβεια (mAP) 52,2, η οποία είναι 1,5 μονάδες υψηλότερη από το προηγούμενο σύγχρονο μοντέλο, χρησιμοποιώντας 4 φορές λιγότερες παραμέτρους και 9,4 φορές λιγότερους υπολογισμούς

Συγκρίναμε επίσης το μέγεθος παραμέτρου και τον λανθάνοντα χρόνο CPU / GPU μεταξύ EfficientDet και προηγούμενων μοντέλων. Με παρόμοιους περιορισμούς ακρίβειας, τα μοντέλα EfficientDet τρέχουν 2-4 φορές πιο γρήγορα στην GPU και 5-11 φορές πιο γρήγορα στον επεξεργαστή από άλλους ανιχνευτές. Ενώ τα μοντέλα EfficientDet προορίζονται κυρίως για ανίχνευση αντικειμένων, δοκιμάζουμε επίσης την αποτελεσματικότητά τους σε άλλες εργασίες όπως η σημασιολογική τμηματοποίηση. Για να εκτελέσουμε εργασίες τμηματοποίησης, τροποποιούμε ελαφρώς το EfficientDet-D4 αντικαθιστώντας την απώλεια και απώλεια κεφαλής και κεφαλής ανίχνευσης, διατηρώντας παράλληλα την ίδια κλίμακα κορμού και το BiFPN. Συγκρίνουμε αυτό το μοντέλο με προηγούμενα σύγχρονα μοντέλα τμηματοποίησης για το Pascal VOC 2012, ένα ευρέως χρησιμοποιούμενο σύνολο δεδομένων δοκιμής τμηματοποίησης.

Δεδομένης της εξαιρετικής απόδοσής τους, το EfficientDet αναμένεται να χρησιμεύσει ως ένα νέο θεμέλιο για τη μελλοντική έρευνα ανίχνευσης αντικειμένων και ενδεχομένως να κάνει εξαιρετικά ακριβή μοντέλα ανίχνευσης αντικειμένων χρήσιμα σε πολλές πραγματικές εφαρμογές. Άνοιξε λοιπόν όλα τα σημεία διακοπής του κώδικα και το προκατασκευασμένο μοντέλο στο Github.com.

Συνιστάται:

Όλα τα πλεονεκτήματα και τα μειονεκτήματα του Xiaomi Mi Pad 4 και αν συγκρίνεται με το IPad

Το Xiaomi Mi Pad 4 είναι ένα tablet που έχει υψηλή απόδοση και κοστίζει σχετικά λίγα χρήματα. Αλλά αξίζει την προσοχή των καταναλωτών και υπάρχει ανάγκη για αυτό; Σχέδιο Η εμφάνιση της συσκευής είναι ευχάριστη, φαίνεται αρκετά καλή - το πίσω μεταλλικό πλαίσιο είναι λακωνικό και δεν αφήνει δακτυλικά αποτυπώματα και λεκέδες από μόνο του, και ως εκ τούτου το κάλυμμα απαιτείται μόνο για την ασφάλεια της συσκευής

Lenovo Phab και Lenovo Phab Plus: επισκόπηση και προδιαγραφές

Το Lenovo Phab Plus είναι ένα smartphone, το μέγεθος του οποίου είναι συγκρίσιμο με ένα μικρό tablet, έχει πολύ καλά τεχνικά χαρακτηριστικά και προσιτή χαμηλή τιμή. Τα smartphone της Lenovo επιτυγχάνουν μια καλή ισορροπία μεταξύ τιμής και ποιότητας, παρέχοντας στους χρήστες ένα προσιτό προϊόν υψηλής ποιότητας

Alcatel Idol 5 και 5s: αναθεώρηση και προδιαγραφές, σύγκριση με το Idol 4 και 4s

Το 2017, η Alcatel ευχαρίστησε και πάλι τους καταναλωτές με τις συσκευές της - το είδωλο 5 και την καλύτερη έκδοση του ειδώλου 5. Αλλά είναι τόσο καλά σε σύγκριση με την προηγούμενη γενιά της σειράς; Για να απαντήσουμε σε αυτήν την ερώτηση, ας δούμε τα χαρακτηριστικά των νέων smartphone

Samsung Galaxy S8 και S8 Plus (Samsung S8 και S8 Plus) - αναθεώρηση και παρουσίαση νέων ναυαρχίδων, προδιαγραφών, φωτογραφιών, ημερομηνίας κυκλοφορίας, τιμής, αγοράς, βίντεο

Τα Samsung Galaxy S8 και S8 Plus είναι η όγδοη γενιά των smartphone της σειράς Galaxy S της Samsung Electronics που είναι ισχυρά και ισχυρά. Χαρακτηριστικά Samsung Galaxy S8 και S8 Plus Το Samsung Galaxy S8 κυκλοφόρησε παράλληλα με το S8 Plus στις 29 Μαρτίου 2017

Πώς να δημιουργήσετε μια αποτελεσματική διαφήμιση πώλησης στο Avito

Σε συνθήκες υψηλού ανταγωνισμού σε αυτόν τον ιστότοπο Διαδικτύου, πρέπει να σκεφτείτε προσεκτικά κάθε στοιχείο της διαφήμισης. Τι πρέπει να ληφθεί υπόψη προκειμένου η διαφήμισή σας να παρατηρηθεί μεταξύ παρόμοιων; Ακόμα και έχοντας ένα μοναδικό και χρήσιμο αντικείμενο, είναι πολύ εύκολο να μην το πουλήσετε αν δημιουργήσετε μια διαφήμιση που δεν θα προσελκύσει την προσοχή ακόμη και ενός πολύ ενδιαφερόμενου αγοραστή

EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων

Πίνακας περιεχομένων:

Βελτιστοποίηση αρχιτεκτονικής μοντέλου

Μοντέλο απόδοσης

Συνιστάται:

Όλα τα πλεονεκτήματα και τα μειονεκτήματα του Xiaomi Mi Pad 4 και αν συγκρίνεται με το IPad

Lenovo Phab και Lenovo Phab Plus: επισκόπηση και προδιαγραφές

Alcatel Idol 5 και 5s: αναθεώρηση και προδιαγραφές, σύγκριση με το Idol 4 και 4s

Samsung Galaxy S8 και S8 Plus (Samsung S8 και S8 Plus) - αναθεώρηση και παρουσίαση νέων ναυαρχίδων, προδιαγραφών, φωτογραφιών, ημερομηνίας κυκλοφορίας, τιμής, αγοράς, βίντεο

Πώς να δημιουργήσετε μια αποτελεσματική διαφήμιση πώλησης στο Avito

Πώς να επαναφέρετε μια κάρτα Beeline

Πώς να γράψετε ένα μήνυμα από υπολογιστή σε κελί

Πώς να στείλετε ένα "beacon" από το Megafon

Πώς να δανειστείτε χρήματα από το Megafon

Πώς να αναγνωρίσετε ένα άτομο από τον αριθμό του κινητού τηλεφώνου του δωρεάν

Τι κύματα πιάνει η τηλεόραση

Πώς να συνδέσετε μια ψηφιακή βιντεοκάμερα

Πώς να ελέγξετε μια ψηφιακή φωτογραφική μηχανή SLR

Πώς να αγοράσετε μια οθόνη οικιακού κινηματογράφου: χαρακτηριστικά επιλογής

Πώς να κερδίσετε χρήματα με μια κάμερα

Πώς να αγοράσετε λογισμικό για το Apple Ipod

Πώς να προσθέσετε μια φωτογραφία στο χάρτη

Πώς να μεταφέρετε βίντεο από τηλέφωνο σε υπολογιστή

Πώς να ακούσετε ένα ηχητικό βιβλίο

Πώς να ακούσετε ηχητικά βιβλία