Τι είναι το Voicebox; Πολυγλωσσικό AI που δημιουργεί ομιλία της Meta

click fraud protection

Το νέο AI της Meta, το Voicebox, μπορεί να δημιουργήσει ομιλία από μηνύματα κειμένου, να αντιστοιχίσει ήχο από σύντομα δείγματα για να μιμηθεί πραγματικές φωνές και να επεξεργαστεί το θόρυβο του περιβάλλοντος.

Μετα παρουσίασε ένα νέο μοντέλο AI που ονομάζεται Voicebox που μπορεί να παράγει ομιλία σε πολλές γλώσσες και διαλέκτους και να ενεργεί.σαν γόμα για επεξεργασία ήχου’ για να καθαρίσετε εγγραφές που διαφορετικά θα καταστραφούν από τον θόρυβο του περιβάλλοντος ή από σφάλματα ομιλίας. Η εταιρεία έχει χύνει τα πάντα στην τεχνητή νοημοσύνη, με σχέδια να ενσωματώσει την τεχνολογία σε όλο το οικοσύστημα των κοινωνικών εφαρμογών της. Τον Μάιο, ο Μέτα μοιράστηκε μια επίδειξη ενός Μοντέλο AI που ονομάζεται ImageBind που μπορεί να δημιουργήσει αποτελέσματα χρησιμοποιώντας πολλαπλούς τύπους δεδομένων ταυτόχρονα, όπως ήχο, εικόνες και κείμενο.

Το Voicebox είναι ένα παραγωγικό μοντέλο AI για ομιλία. Σε ένα ανάρτηση, Το Meta δείχνει πώς μπορεί να μετατρέψει τα μηνύματα κειμένου σε προφορικό ήχο σε διάφορες φωνές και στυλ ομιλίας. Σύμφωνα με την εταιρεία, μπορεί να τροφοδοτηθεί με ένα σύντομο δείγμα ήχου και να ταιριάζει με αυτή τη φωνή στα αποτελέσματά του. Επί του παρόντος, μπορεί να διαβάζει κείμενο σε έξι γλώσσες — Αγγλικά, Γαλλικά, Γερμανικά, Ισπανικά, Πολωνικά και Πορτογαλικά — και μπορεί να λαμβάνει μηνύματα από μια γλώσσα και να τα μιλάει δυνατά σε άλλη. Το Voicebox βρίσκεται ακόμα στο στάδιο της έρευνας, αλλά ο διευθύνων σύμβουλος της Meta Mark Zuckerberg ήδη λέει ότι είναι "

ίσως το πιο ευέλικτο μοντέλο παραγωγής ομιλίας εκεί έξω.”

Σε τι θα μπορούσε να χρησιμοποιηθεί το Voicebox AI

Σε ένα παράδειγμα των δυνατοτήτων επεξεργασίας ήχου, το Meta χρησιμοποιεί το Voicebox για να επεξεργαστεί τον ήχο ενός σκύλου που γαβγίζει από ένα ηχογραφημένο δείγμα ομιλίας. Το εργαλείο δεν αφαιρεί απλώς το θόρυβο του περιβάλλοντος, αλλά μπορεί αναγέννηση των επηρεαζόμενων προφορικών στοιχείων για απρόσκοπτα αποτελέσματα. Εάν κάποιος σκοντάφτει στα λόγια του σε μια ηχογράφηση, το Voicebox θα μπορούσε να χρησιμοποιηθεί για εναλλαγή σε μια διορθωμένη έκδοση χωρίς στην πραγματικότητα να απαιτείται η επανεγγραφή της ομιλίας. Ο Meta λέει ότι το εργαλείο μπορεί να μιμηθεί το στυλ ομιλίας ενός ατόμου χρησιμοποιώντας μόνο δύο δευτερόλεπτα ήχου αναφοράς.

Αυτός ο τύπος τεχνολογίας θα μπορούσε να χρησιμοποιηθεί στο μέλλον για να βοηθήσει τους δημιουργούς να επεξεργάζονται εύκολα κομμάτια ήχου, να επιτρέπουν άτομα με προβλήματα όρασης οι άνθρωποι να ακούν γραπτά μηνύματα από φίλους στη φωνή τους και να επιτρέπουν στους ανθρώπους να μιλούν οποιαδήποτε ξένη γλώσσα στη δική τους φωνή», σημειώνει η ανάρτηση του ιστολογίου. Η Meta λέει επίσης ότι το Voicebox θα μπορούσε να χρησιμοποιηθεί για τη βελτίωση των φωνών των εικονικών βοηθών και NPC βιντεοπαιχνιδιών (χαρακτήρες χωρίς παίκτη), βοηθώντας τους να ακούγονται πιο ρεαλιστές. Με τις μεταφραστικές του ικανότητες, θα μπορούσε επίσης να βοηθήσει τους ανθρώπους να επικοινωνούν γύρω από τα γλωσσικά εμπόδια.

Ωστόσο, υπάρχουν προφανείς ανησυχίες που συνοδεύουν ένα μοντέλο AI που μπορεί να μιμηθεί τη φωνή ενός ατόμου. Έτσι, ενώ η Meta κάνει συχνά τα ερευνητικά της έργα τεχνητής νοημοσύνης ανοιχτού κώδικα, δεν δημοσιεύει τον κώδικα για το Voicebox δημόσια. Αντίθετα, θα πρέπει απλώς να περιμένουμε και να δούμε τι Μετα το επιφυλάσσει.

Πηγή: Meta 1, 2