Πώς η Meta ελπίζει να ωθήσει το AI στο επόμενο επίπεδο με το Open-Source ImageBind του

click fraud protection

Η Meta ανακοίνωσε ένα νέο μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα που ονομάζεται ImageBind που στοχεύει να μιμηθεί καλύτερα τον τρόπο με τον οποίο μαθαίνουν οι άνθρωποι αναφέροντας πολλούς τύπους δεδομένων.

Μεταισχυρίζεται ότι το νέο μοντέλο ανοιχτού κώδικα AI, ImageBind, είναι ένα βήμα προς συστήματα που μιμούνται καλύτερα τον τρόπο με τον οποίο οι άνθρωποι μάθουν, σχεδιάζοντας συνδέσεις μεταξύ πολλών τύπων δεδομένων ταυτόχρονα, παρόμοια με το πώς οι άνθρωποι βασίζονται σε πολλά αισθήσεις. Το βασικό ενδιαφέρον για τη γενετική τεχνητή νοημοσύνη έχει εκραγεί τα τελευταία χρόνια με την άνοδο των παραγωγών κειμένου σε εικόνα όπως το DALL-E του OpenAI και μοντέλων συνομιλίας όπως το ChatGPT. Αυτά τα συστήματα εκπαιδεύονται χρησιμοποιώντας τεράστια σύνολα δεδομένων ενός συγκεκριμένου τύπου υλικού, όπως εικόνες ή κείμενο, ώστε τελικά να μάθουν να παράγουν το δικό τους.

Με ImageBind, το Meta στοχεύει στη διευκόλυνση ανάπτυξη μοντέλων AI που μπορεί να καταλάβει τη μεγαλύτερη εικόνα. Λαμβάνοντας περισσότερα "

ολιστικήΗ προσέγγιση της μηχανικής μάθησης, μπορεί να συνδέσει έξι διαφορετικούς τύπους δεδομένων: κείμενο, οπτικό (εικόνα/βίντεο), ήχο, βάθος, θερμοκρασία και κίνηση. Η δυνατότητα δημιουργίας συνδέσεων μεταξύ περισσότερων τύπων δεδομένων επιτρέπει στο μοντέλο τεχνητής νοημοσύνης να αναλάβει πιο σύνθετες εργασίες — και να παράγει πιο σύνθετα αποτελέσματα. Το ImageBind θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία γραφικών με βάση ηχητικά κλιπ και αντίστροφα, σύμφωνα με το Meta, ή για προσθήκη περιβαλλοντικών στοιχείων για μια πιο καθηλωτική εμπειρία.

Σύμφωνα με το Meta, «Το ImageBind εξοπλίζει τα μηχανήματα με μια ολιστική κατανόηση που συνδέει τα αντικείμενα σε μια φωτογραφία με το πώς θα ακούγονται, το τρισδιάστατο σχήμα τους, το πόσο ζεστά ή κρύα είναι και πώς κινούνται.Τα τρέχοντα μοντέλα τεχνητής νοημοσύνης έχουν πιο περιορισμένο πεδίο εφαρμογής. Μπορούν να μάθουν, για παράδειγμα, να εντοπίζουν μοτίβα σε σύνολα δεδομένων εικόνων για να δημιουργούν με τη σειρά τους πρωτότυπες εικόνες από μηνύματα κειμένου, αλλά αυτό που οραματίζεται η Meta πηγαίνει πολύ πιο μακριά.

Οι στατικές εικόνες θα μπορούσαν να μετατραπούν σε κινούμενες σκηνές χρησιμοποιώντας ηχητικές προτροπές, λέει ο Meta, ή το μοντέλο θα μπορούσε να χρησιμοποιηθεί ως "ένας πλούσιος τρόπος για να εξερευνήσετε αναμνήσεις" επιτρέποντας σε ένα άτομο να αναζητά τα μηνύματα και τις βιβλιοθήκες πολυμέσων του για συγκεκριμένα συμβάντα ή συνομιλίες χρησιμοποιώντας μηνύματα κειμένου, ήχου και εικόνας. Θα μπορούσε να πάρει κάτι σαν μικτή πραγματικότητα σε ένα νέο επίπεδο. Οι μελλοντικές εκδόσεις θα μπορούσαν να φέρουν ακόμη περισσότερους τύπους δεδομένων για να προωθήσουν περαιτέρω τις δυνατότητές τους, όπως "σήματα αφής, ομιλίας, όσφρησης και fMRI εγκεφάλου" προς την "ενεργοποιούν πλουσιότερα μοντέλα τεχνητής νοημοσύνης με επίκεντρο τον άνθρωπο.”

Ωστόσο, το ImageBind είναι ακόμα στα σπάργανα και το Μετα Οι ερευνητές προσκαλούν άλλους να εξερευνήσουν το μοντέλο τεχνητής νοημοσύνης ανοιχτού κώδικα και να βασιστούν σε αυτό. Η ομάδα δημοσίευσε μια εργασία μαζί με την ανάρτηση ιστολογίου που περιγράφει λεπτομερώς την έρευνα και ο κώδικας είναι διαθέσιμος στο GitHub.

Πηγή: Μετα, GitHub