Το IP του νευρικού δικτύου στοχεύει στην επεξεργασία πολύπλοκων ομιλιών από το SoCs
Οι πόροι επαρκούν για την αναγνώριση της φωνής μακριά από το πεδίο, όπου ο χρήστης απέχει μερικά μέτρα από το μικρόφωνο. Οι ψηφιακοί βοηθοί εγχώριων ελεγχόμενων φωνών και η ψυχαγωγία αυτοκινήτων προορίζονται για εφαρμογές.
Γιατί να επεξεργαστείτε την ομιλία στο τοπικό PCB;
"Οι αλγόριθμοι αναγνώρισης ομιλίας που βασίζονται στο νευρικό δίκτυο εκτελούν περισσότερες εργασίες σε τοπικό επίπεδο και όχι σε σύννεφο, λόγω προβλημάτων λανθάνουσας απόστασης, ιδιωτικότητας και διαθεσιμότητας του δικτύου", δήλωσε ο Cadence.
Ονομάζεται HiFi 5, έχει δύο φορές την ικανότητα επεξεργασίας ήχου και τέσσερις φορές την επεξεργασία του νευρικού δικτύου (NN) του προηγούμενου HiFi 4 DSP.
"Στόχος μας είναι να διαθέσουμε μια μεγάλη μηχανή λεξιλογίου διαθέσιμη σε τοπικό επίπεδο, ικανή να επεξεργάζεται τη φυσική γλώσσα", ανέφερε ο διευθυντής μάρκετινγκ του Cadence Gerard Andrews στο Electronics Weekly. "Εξετάσαμε νευρωνικά δίκτυα ανοιχτού κώδικα αναγνώρισης ομιλίας και σχεδιάσαμε το HiFi 5 για την εκτέλεση αυτών των τύπων δικτύου.
Τα στοιχεία επεξεργασίας περιλαμβάνουν:
- Πέντε πολύ μακρές αρχιτεκτονικές λέξεων εντολών (VLIW) - αρχιτεκτονική δόγματος ικανές να εκδώσουν δύο φορτία 128-bit ανά κύκλο
- DSP πολλαπλασιαστές-συσσωρευτές:
Υποστήριξη για 8 κύκλους 32x32bit MAC / cycle ή 16 16x16bit MAC / cycle
Προαιρετικά οκτώ μεταβλητές MAC μονού ακριβείας ανά κύκλο - Συσσωρευτές νευρωνικού δικτύου-πολλαπλασιαστές:
32 16 × 8 MAC / κύκλος ή 16 × 4 MAC / κύκλος
Προαιρετικά 16 MAC μεταβλητής θέσης μισής ακρίβειας ανά κύκλο
Οι MAC DSP, σύμφωνα με τον Andrews, περιλαμβάνουν, για παράδειγμα, υποστήριξη για κορεσμό, ενώ οι MAC MAC για το νευρικό δίκτυο βελτιστοποιούνται για τον πολλαπλασιασμό μιας διανυσματικής τιμής από μια μήτρα. "Σε τόσα πολλά νευρικά δίκτυα, καταλήγετε να περάσετε ένα τεράστιο χρονικό διάστημα πολλαπλασιάζοντας ένα διάνυσμα με μια μήτρα", είπε, προσθέτοντας ότι: η επιλογή του αριθμού των MAC που πρέπει να συμπεριληφθεί και ποιοι τύποι δεδομένων και τα μήκη βάρους που υποστηρίζουν ήταν με βάση την εργασία με τους πελάτες HiFi 4.
Τα μαθηματικά με κυμαινόμενα σημεία έχουν ενσωματωθεί για δύο περιπτώσεις χρήσης - μία ακρίβεια για το φωνητικό μπροστινό μέρος για σχηματισμό δέσμης και ακύρωση ηχώ, και ημι-ακρίβεια για ορισμένα νευρωνικά δίκτυα. "Το κυμαινόμενο σημείο δίνει ένα γρήγορο χρόνο στην αγορά", δήλωσε ο Andrews. "Για παράδειγμα, εάν αναπτύξετε κάτι επιπλέου στο MatLab, η μετατροπή του σε σταθερό σημείο είναι αρκετά χρονοβόρα".
Ο πολλαπλασιαστής υποστηρίζει 8bit βάρη, διότι "η μεγάλη τάση είναι να ποσοτικοποιηθούν έως και 8bit βάρη για την αναγνώριση ομιλίας, η οποία δεν χρειάζεται να ανταλλάξει πάρα πολύ στην ακρίβεια. Βλέπετε χαρτιά που παρουσιάζονται όπου οι άνθρωποι προσπαθούν να κατεβούν σε 4bits ", δήλωσε ο Andrews. "Αναμένουμε ότι οι περισσότεροι αλγόριθμοι θα επωφεληθούν από τον πολλαπλασιαστή μας 16x8bit: 16bits για δεδομένα από το μικρόφωνο και 8bits για τα βάρη."

Για άλλα σχήματα βαρύτητας, η λειτουργία 4bit, 2bit και 1bit είναι διαθέσιμη καθώς και 8bit.
Η Ambiq Micro, παραγωγός μικροελεγκτών που βασίστηκε σε διαδικασίες υπο-ορίου πυριτίου για εξοικονόμηση ενέργειας, ήταν ο πρώτος πελάτης HiFi 5.
"Προκειμένου να ανταποκριθεί στην εξαιρετικά δύσκολη πρόκληση της χρήσης υπολογιστών υψηλής έντασης, βασισμένων σε νευρωνικά δίκτυα και αλγορίθμων αναγνώρισης ομιλίας σε συσκευές ευαίσθητες στην ενέργεια, η Ambiq Micro επέλεξε να είναι ο πρώτος κάτοχος πυριτίου του HiFi 5 DSP της Cadence", δήλωσε ο Ambiq vp marketing Ααρών Γκρασσιάν. "Η μεταφορά του HiFi 5 DSP στην πλατφόρμα βελτιστοποιημένης ισχύος Ambiq Micro επιτρέπει στους σχεδιαστές προϊόντων, τους ODM και τους OEM να αξιοποιήσουν στο έπακρο την τεχνολογία από ηγέτες λογισμικού ήχου όπως το DSP Concepts και το Sensory προσθέτοντας ενσωματωμένη φωνή, εντολή και έλεγχο και conversational UI σε φορητά, κινητά προϊόντα χωρίς να θυσιάζεται η ποιότητα ή η διάρκεια ζωής της μπαταρίας. "
Υποστηρίζοντας την πνευματική ιδιοκτησία, υπάρχει μια βιβλιοθήκη βελτιστοποιημένων λειτουργιών βιβλιοθήκης που χρησιμοποιούνται συνήθως στην επεξεργασία νευρωνικών δικτύων - ειδικά για την επεξεργασία ομιλίας. Αυτές οι λειτουργίες αποσκοπούν στην ενσωμάτωση στα δημοφιλή πλαίσια εκμάθησης μηχανών.
Το HiFi 5 είναι επίσης συμβατό με τη βιβλιοθήκη των υφιστάμενων βιβλιοθηκών με κωδικοποιητές ήχου και φωνής και πακέτα λογισμικού βελτίωσης ήχου, βελτιστοποιημένα για παλαιότερες εκδόσεις της σειράς HiFi της εταιρείας.
