EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων

Πίνακας περιεχομένων:

EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων
EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων

Βίντεο: EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων

Βίντεο: EfficientDet: Προς κλιμάκωση και αποτελεσματική ανίχνευση αντικειμένων
Βίντεο: [DeepReader] EfficientDet: Scalable and Efficient Object Detection 2024, Νοέμβριος
Anonim

Ως μία από τις κύριες εφαρμογές στην όραση του υπολογιστή, η ανίχνευση αντικειμένων γίνεται ολοένα και πιο σημαντική σε σενάρια που απαιτούν υψηλή ακρίβεια αλλά έχουν περιορισμένους υπολογιστικούς πόρους, όπως ρομποτική και αυτοκίνητα χωρίς οδηγό. Δυστυχώς, πολλοί σύγχρονοι ανιχνευτές υψηλής ακρίβειας δεν πληρούν αυτούς τους περιορισμούς. Το πιο σημαντικό, οι εφαρμογές ανίχνευσης αντικειμένων πραγματικού κόσμου εκτελούνται σε διαφορετικές πλατφόρμες, οι οποίες συχνά απαιτούν διαφορετικούς πόρους.

Επεκτάσιμη και αποτελεσματική ανίχνευση αντικειμένων
Επεκτάσιμη και αποτελεσματική ανίχνευση αντικειμένων

Έτσι, το φυσικό ερώτημα είναι πώς να σχεδιάσετε ακριβείς και αποτελεσματικούς ανιχνευτές αντικειμένων που μπορούν επίσης να προσαρμοστούν σε ένα ευρύ φάσμα περιορισμών πόρων;

EfficientDet: Scalable and Efficient Object Detection, που υιοθετήθηκε στο CVPR 2020, εισάγει μια νέα οικογένεια επεκτάσιμων και αποτελεσματικών ανιχνευτών αντικειμένων. Βασιζόμενη σε προηγούμενες εργασίες για την κλιμάκωση νευρωνικών δικτύων (EfficientNet) και ενσωματώνοντας ένα νέο αμφίδρομο λειτουργικό δίκτυο (BiFPN) και νέους κανόνες κλιμάκωσης, το EfficientDet επιτυγχάνει σύγχρονη ακρίβεια ενώ είναι 9 φορές μικρότερο και χρησιμοποιεί σημαντικά λιγότερο υπολογισμό από τους γνωστούς σύγχρονους ανιχνευτές. Το παρακάτω σχήμα δείχνει τη γενική αρχιτεκτονική δικτύου των μοντέλων.

Εικόνα
Εικόνα

Βελτιστοποίηση αρχιτεκτονικής μοντέλου

Η ιδέα πίσω από το EfficientDet πηγάζει από μια προσπάθεια εξεύρεσης λύσεων για τη βελτίωση της υπολογιστικής απόδοσης εξετάζοντας συστηματικά προηγούμενα προηγμένα μοντέλα ανίχνευσης. Σε γενικές γραμμές, οι ανιχνευτές αντικειμένων έχουν τρία κύρια συστατικά: μια ραχοκοκαλιά που εξάγει χαρακτηριστικά από μια δεδομένη εικόνα. ένα δίκτυο αντικειμένων που λαμβάνει πολλαπλά επίπεδα λειτουργιών από τη ραχοκοκαλιά ως είσοδο και εξάγει μια λίστα συνδυασμένων λειτουργιών που αντιπροσωπεύουν χαρακτηριστικά χαρακτηριστικά της εικόνας. και ένα τελικό δίκτυο τάξης / πλαισίου που χρησιμοποιεί συνδυασμένες συναρτήσεις για την πρόβλεψη της κλάσης και της θέσης κάθε αντικειμένου.

Αφού εξετάσαμε τις επιλογές σχεδιασμού για αυτά τα στοιχεία, εντοπίσαμε πολλές βασικές βελτιστοποιήσεις για τη βελτίωση της απόδοσης και της αποδοτικότητας. Οι προηγούμενοι ανιχνευτές χρησιμοποιούν ως επί το πλείστον τα ResNets, ResNeXt ή AmoebaNet ως ραχοκοκαλιά, τα οποία είτε είναι λιγότερο ισχυρά είτε έχουν χαμηλότερη απόδοση από τα EfficientNets. Με την αρχική εφαρμογή του σκελετού EfficientNet, μπορεί να επιτευχθεί πολύ περισσότερη αποδοτικότητα. Για παράδειγμα, ξεκινώντας με μια γραμμή βάσης RetinaNet που χρησιμοποιεί ένα κορμό ResNet-50, η μελέτη κατάλυσης δείχνει ότι η απλή αντικατάσταση του ResNet-50 με το EfficientNet-B3 μπορεί να βελτιώσει την ακρίβεια κατά 3%, μειώνοντας παράλληλα τον υπολογισμό κατά 20%. Μια άλλη βελτιστοποίηση είναι η βελτίωση της αποτελεσματικότητας των λειτουργικών δικτύων. Ενώ οι περισσότεροι από τους προηγούμενους ανιχνευτές χρησιμοποιούν απλώς το Downlink Pyramid Network (FPN), διαπιστώνουμε ότι το κατάντη FPN περιορίζεται εγγενώς σε μια μονόδρομη ροή πληροφοριών. Εναλλακτικά FPN όπως το PANet προσθέτουν επιπλέον ανάντη στο κόστος του επιπλέον υπολογισμού.

Πρόσφατες προσπάθειες για χρήση του Neural Architecture Search (NAS) ανακάλυψαν μια πιο περίπλοκη αρχιτεκτονική NAS-FPN. Ωστόσο, ενώ αυτή η δομή δικτύου είναι αποτελεσματική, είναι επίσης ακανόνιστη και εξαιρετικά βελτιστοποιημένη για μια συγκεκριμένη εργασία, καθιστώντας δύσκολη την προσαρμογή σε άλλες εργασίες. Για την επίλυση αυτών των προβλημάτων, προτείνουμε ένα νέο δίκτυο δύο κατευθύνσεων συναρτήσεων BiFPN, το οποίο υλοποιεί την ιδέα του συνδυασμού λειτουργιών πολλαπλών επιπέδων από FPN / PANet / NAS-FPN, το οποίο επιτρέπει τη μετάδοση πληροφοριών τόσο από πάνω προς τα κάτω όσο και από από κάτω προς τα πάνω. χρησιμοποιώντας τακτικές και αποτελεσματικές συνδέσεις.

Εικόνα
Εικόνα

Για να βελτιώσουμε περαιτέρω την αποτελεσματικότητα, προτείνουμε μια νέα γρήγορη κανονικοποιημένη τεχνική σύνθεσης. Οι παραδοσιακές προσεγγίσεις αντιμετωπίζουν συνήθως όλες τις εισόδους στο FPN με τον ίδιο τρόπο, ακόμη και σε διαφορετικές αναλύσεις. Ωστόσο, παρατηρούμε ότι τα χαρακτηριστικά εισαγωγής με διαφορετικές αναλύσεις συχνά συμβάλλουν άνισα στις λειτουργίες εξόδου. Έτσι, προσθέτουμε επιπλέον βάρος σε κάθε λειτουργία εισόδου και αφήνουμε στο δίκτυο να μάθει τη σημασία του καθενός. Θα αντικαταστήσουμε επίσης όλες τις συνηθισμένες συνελεύσεις με λιγότερο ακριβές, βαθιά διαχωρίσιμες συνελεύσεις. Με αυτήν τη βελτιστοποίηση, το BiFPN βελτιώνει περαιτέρω την ακρίβεια κατά 4%, ενώ μειώνει το υπολογιστικό κόστος κατά 50%.

Η τρίτη βελτιστοποίηση περιλαμβάνει την επίτευξη του καλύτερου συμβιβασμού μεταξύ ακρίβειας και αποτελεσματικότητας υπό διάφορους περιορισμούς πόρων. Η προηγούμενη δουλειά μας έδειξε ότι η συγχύση του βάθους, του πλάτους και της ανάλυσης ενός δικτύου μπορεί να βελτιώσει σημαντικά την απόδοση αναγνώρισης εικόνας. Εμπνευσμένη από αυτήν την ιδέα, προτείνουμε μια νέα μέθοδο σύνθετης κλιμάκωσης για ανιχνευτές αντικειμένων που αυξάνει συλλογικά την ανάλυση / βάθος / πλάτος. Κάθε στοιχείο δικτύου, π.χ. δίκτυο πρόβλεψης κορμού, αντικειμένου και μπλοκ / κλάσης, θα έχει έναν σύνθετο παράγοντα κλιμάκωσης που ελέγχει όλες τις διαστάσεις κλιμάκωσης χρησιμοποιώντας ευρετικούς κανόνες. Αυτή η προσέγγιση διευκολύνει τον προσδιορισμό του τρόπου κλιμάκωσης του μοντέλου υπολογίζοντας έναν παράγοντα κλίμακας για έναν δεδομένο περιορισμό πόρων στόχου.

Συνδυάζοντας το νέο ραχοκοκαλιά και το BiFPN, σχεδιάζουμε πρώτα μια μικρή γραμμή βάσης EfficientDet-D0 και μετά εφαρμόζουμε σύνθετη κλίμακα για να πάρουμε το EfficientDet-D1 σε D7. Κάθε σειριακό μοντέλο έχει υψηλότερο υπολογιστικό κόστος, καλύπτοντας ένα ευρύ φάσμα περιορισμών πόρων από 3 δισεκατομμύρια FLOP έως 300 δισεκατομμύρια FLOPS και παρέχει μεγαλύτερη ακρίβεια.

Μοντέλο απόδοσης

Αξιολόγηση EfficientDet στο σύνολο δεδομένων COCO, ένα σύνολο δεδομένων αναφοράς που χρησιμοποιείται ευρέως για την ανίχνευση αντικειμένων. Το EfficientDet-D7 επιτυγχάνει μέση μέση ακρίβεια (mAP) 52,2, η οποία είναι 1,5 μονάδες υψηλότερη από το προηγούμενο σύγχρονο μοντέλο, χρησιμοποιώντας 4 φορές λιγότερες παραμέτρους και 9,4 φορές λιγότερους υπολογισμούς

Εικόνα
Εικόνα

Συγκρίναμε επίσης το μέγεθος παραμέτρου και τον λανθάνοντα χρόνο CPU / GPU μεταξύ EfficientDet και προηγούμενων μοντέλων. Με παρόμοιους περιορισμούς ακρίβειας, τα μοντέλα EfficientDet τρέχουν 2-4 φορές πιο γρήγορα στην GPU και 5-11 φορές πιο γρήγορα στον επεξεργαστή από άλλους ανιχνευτές. Ενώ τα μοντέλα EfficientDet προορίζονται κυρίως για ανίχνευση αντικειμένων, δοκιμάζουμε επίσης την αποτελεσματικότητά τους σε άλλες εργασίες όπως η σημασιολογική τμηματοποίηση. Για να εκτελέσουμε εργασίες τμηματοποίησης, τροποποιούμε ελαφρώς το EfficientDet-D4 αντικαθιστώντας την απώλεια και απώλεια κεφαλής και κεφαλής ανίχνευσης, διατηρώντας παράλληλα την ίδια κλίμακα κορμού και το BiFPN. Συγκρίνουμε αυτό το μοντέλο με προηγούμενα σύγχρονα μοντέλα τμηματοποίησης για το Pascal VOC 2012, ένα ευρέως χρησιμοποιούμενο σύνολο δεδομένων δοκιμής τμηματοποίησης.

Εικόνα
Εικόνα

Δεδομένης της εξαιρετικής απόδοσής τους, το EfficientDet αναμένεται να χρησιμεύσει ως ένα νέο θεμέλιο για τη μελλοντική έρευνα ανίχνευσης αντικειμένων και ενδεχομένως να κάνει εξαιρετικά ακριβή μοντέλα ανίχνευσης αντικειμένων χρήσιμα σε πολλές πραγματικές εφαρμογές. Άνοιξε λοιπόν όλα τα σημεία διακοπής του κώδικα και το προκατασκευασμένο μοντέλο στο Github.com.

Συνιστάται: