Η επανάσταση του AI είναι έτοιμη να πάει πολύ πιο πέρα από τα ρομποτικά προγράμματα συνομιλίας.

Από τα νέα βακτήρια που καταναλώνουν πλαστικό και τις νέες θεραπείες για τον καρκίνο ως τα αυτόνομα ρομπότ-βοηθούς και τα αυτο-οδηγούμενα αυτοκίνητα, η παραγωγική τεχνητή νοημοσύνη που έγινε γνωστή ως κινητήρια δύναμη του ChatGPT πρόκειται να αλλάξει τις ζωές μας σε τέτοιον βαθμό που τα σημερινά ρομποτικά προγράμματα συνομιλίας θα μοιάζουν με παιχνιδάκια.

Ενώ τείνουμε να εξισώνουμε τη σημερινή έκρηξη της τεχνητής νοημοσύνης με τους υπολογιστές που έχουν τη δυνατότητα να μιλούν, να γράφουν, να γράφουν κώδικα και να δημιουργούν εικόνες, οι περισσότερες από αυτές τις μορφές έκφρασης βασίζονται σε μια υποκείμενη τεχνολογία που καλείται «μετασχηματιστής», η οποία έχει πολύ ευρύτερες εφαρμογές.

AI αλγορίθμος

Οι μετασχηματιστές, που για πρώτη φορά παρουσιάστηκαν το 2017 σε ένα άρθρο ερευνητών της Google, είναι ένα είδος AI αλγορίθμου που επιτρέπει στους υπολογιστές να αντιληφθούν την υποκείμενη δομή οποιουδήποτε σωρού δεδομένων – είτε πρόκειται για λέξεις είτε για δεδομένα οδήγησης είτε για τα αμινοξέα μιας πρωτεΐνης – ώστε να μπορέσει να παραγάγει κάτι αντίστοιχο.

Οι μετασχηματιστές άνοιξαν τον δρόμο ώστε να μπορέσει η OpenAI να κυκλοφορήσει το ChatGPT πριν από δύο χρόνια. Τώρα, μια σειρά από εταιρείες δουλεύουν πάνω στη δυνατότητα αξιοποίησης της καινοτομίας αυτής με νέους τρόπους: από τη Waymo και τα ρομπο-ταξί της έως μια startup στον χώρο της βιολογίας, που ονομάζεται EvolutionaryScale και διαθέτει συστήματα τεχνητής νοημοσύνης τα οποία σχεδιάζουν νέα μόρια πρωτεϊνών.

Οι εφαρμογές αυτής της ριζοσπαστικής καινοτομίας είναι τόσο ευρείες ώστε στα επτά χρόνια που μεσολάβησαν από τότε που δημοσιεύτηκε η έρευνα της Google, οι αναφορές σε αυτήν σε άλλες επιστημονικές δημοσιεύσεις έχουν ξεπεράσει τις 140.000.

Δεν θα ήταν υπερβολή να πούμε ότι αυτή η συλλογή αλγορίθμων είναι ο λόγος που η Nvidia είναι σήμερα η εταιρεία με τη μεγαλύτερη αξία στον κόσμο, που τα data centers ξεπηδούν σε κάθε γωνιά των ΗΠΑ και του πλανήτη, αυξάνοντας την κατανάλωση και τις τιμές της ηλεκτρικής ενέργειας, και που οι διευθύνοντες σύμβουλοι των εταιρειών AI συχνά – και ίσως λανθασμένα – υποστηρίζουν ότι η τεχνητή νοημοσύνη ανθρώπινου επιπέδου είναι προ των πυλών.

Καθολική μάθηση

Οι άνθρωποι λειτουργούσαν πάντα με τη βεβαιότητα ότι το σύμπαν είναι οργανωμένο με τάξη – ακόμη και αν διαφωνούσαν για το αν η τάξη αυτή είχε θεϊκή προέλευση. Η σύγχρονη AI είναι, κατά μία έννοια, μία ακόμα επιβεβαίωση της ιδέας ότι όλοι οι ερευνητές από την εποχή του Κοπέρνικου έκαναν πραγματικές ανακαλύψεις.

Η σύγχρονη AI είναι εδώ και καιρό καλή στο να αναγνωρίζει την ύπαρξη μοτίβων στις πληροφορίες. Ωστόσο, οι παλαιότερες προσεγγίσεις έθεταν σοβαρά όρια στο τι παραπάνω θα μπορούσε να κάνει. Στην περίπτωση της γλώσσας, για παράδειγμα, τα περισσότερα συστήματα τεχνητής νοημοσύνης μπορούσαν απλώς να επεξεργαστούν μία λέξη τη φορά και να τις αξιολογούν μόνο με τη σειρά που διάβαζαν, κάτι που περιόριζε τη δυνατότητά τους να κατανοήσουν το νόημα αυτών των λέξεων.

Οι ερευνητές της Google που συνέγραψαν αυτό το ρηξικέλευθο άρθρο το 2017 εστίαζαν στη διαδικασία της μετάφρασης. Συνειδητοποίησαν ότι ένα σύστημα AI που μπορούσε να αφομοιώσει όλες τις λέξεις σε ένα τμήμα γραπτού λόγου και να δώσει μεγαλύτερη βαρύτητα στο νόημα ορισμένων από αυτές τις λέξεις έναντι άλλων – με άλλα λόγια, που μπορούσε να διαβάσει κάνοντας συσχετίσεις με τα συμφραζόμενα – θα μπορούσε να κάνει πολύ καλύτερες μεταφράσεις.

Για παράδειγμα, στην πρόταση «έφτασα στη σκηνή αφού διέσχισα το πλήθος», ένα πρόγραμμα AI βασισμένο σε μετασχηματιστή, το οποίο ξέρει ότι η πρόταση τελειώνει στη λέξη «πλήθος» αντί για τη λέξη «δρόμος», είναι σε θέση να μεταφράσει τη «σκηνή» ως υπερυψωμένη κατασκευή και όχι ως πρόχειρο κατάλυμα όπου κοιμάται κανείς στο ύπαιθρο.

Με άλλα λόγια, ο ρόλος των μετασχηματιστών είναι να κατανοούν πώς κάθε νέα πληροφορία που εισάγεται στο σύστημα συσχετίζεται με κάθε άλλη πληροφορία που έχει ήδη αποθηκεύσει, λέει ο Tim Dettmers, ερευνητής της AI στο μη κερδοσκοπικό Allen Institute for Artificial Intelligence.

Προβλέπουν

Αυτό το επίπεδο κατανόησης στο πλαίσιο των συμφραζομένων επιτρέπει στα συστήματα τεχνητής νοημοσύνης που βασίζονται σε μετασχηματιστές όχι μόνο να αναγνωρίζουν μοτίβα, αλλά να προβλέπουν τι θα ήταν λογικό να ακολουθήσει – και έτσι να παράγουν τη δική τους νέα πληροφορία. Αυτή η δυνατότητα επεκτείνεται και σε άλλα δεδομένα πέρα από τις λέξεις.

«Κατά μία έννοια, τα μοντέλα ανακαλύπτουν τη λανθάνουσα δομή των δεδομένων» λέει ο Alexander Rives, επιστημονικός υπεύθυνος της EvolutionaryScale, την οποία ίδρυσε πέρυσι μαζί με άλλους, αφού προηγουμένως είχε εργαστεί στον τομέα της τεχνητής νοημοσύνης για λογαριασμό της Meta Platforms, της μητρικής εταιρείας του Facebook.

Η EvolutionaryScale εκπαιδεύει την τεχνητή νοημοσύνη της στις δημοσιευμένες αλληλουχίες κάθε πρωτεΐνης που έχουν στη διάθεσή τους οι ερευνητές της εταιρείας και σε καθετί που ξέρουμε για αυτές. Χρησιμοποιώντας τα στοιχεία αυτά και χωρίς τη βοήθεια ανθρώπων μηχανικών, η τεχνητή νοημοσύνη της εταιρείας έχει τη δυνατότητα να προσδιορίσει τη σχέση ανάμεσα σε μια δεδομένη ακολουθία μοριακών δομικών στοιχείων και τον τρόπο με τον οποίο λειτουργεί στον κόσμο η πρωτεΐνη που δημιουργεί πλέον η τεχνητή νοημοσύνη.

Μια παλαιότερη σχετική έρευνα, η οποία εστίαζε περισσότερο στη δομή παρά στη λειτουργία των πρωτεϊνών, είναι ο λόγος που ο επικεφαλής του τμήματος AI της Google, Demis Hassabis, βραβεύτηκε το 2024, από κοινού με άλλους επιστήμονες, με το Νομπέλ Χημείας. Το σύστημα που ανέπτυξε ο ίδιος και η ομάδα του, το οποίο ονομάζεται AlphaFold, βασίζεται επίσης σε μετασχηματιστές.

Ηδη η EvolutionaryScale έχει δημιουργήσει ένα μόριο που αποδεικνύει την ορθότητα της ιδέας. Είναι μια πρωτεΐνη που λειτουργεί σαν εκείνη που κάνει τις μέδουσες να εκπέμπουν φως, αλλά η ακολουθία που επινόησε η AI είναι ριζικά διαφορετική από ό,τι άλλο έχει ως τώρα επινοήσει η φύση.

Απώτερος στόχος της εταιρείας είναι να δώσει τη δυνατότητα σε εταιρείες πάσης φύσεως – από φαρμακευτικές που παράγουν νέα φάρμακα έως εταιρείες συνθετικών χημικών που δουλεύουν πάνω σε νέα ένζυμα – να ανακαλύψουν ουσίες που θα ήταν αδύνατο να ανακαλυφθούν χωρίς αυτή την τεχνολογία. Τέτοιες εφαρμογές θα μπορούσαν να αφορούν βακτήρια με πρωτοποριακά ένζυμα ώστε να μπορούν να αποσυνθέσουν πλαστικά, ή νέα φάρμακα που θα είναι σχεδιασμένα ειδικά για τον συγκεκριμένο καρκίνο κάθε ασθενούς ξεχωριστά.

Μετασχηματιστές

Ο στόχος του Karol Haussman είναι να δημιουργήσει μια καθολική AI που μπορεί να τροφοδοτεί κάθε ρομποτικό σύστημα. «Θέλουμε να φτιάξουμε ένα μοντέλο που να μπορεί να ελέγχει οποιοδήποτε ρομποτικό σύστημα για την εκτέλεση οποιασδήποτε εργασίας, συμπεριλαμβανομένων όλων των ρομποτικών συστημάτων που υπάρχουν και των ρομποτικών συστημάτων που δεν έχουν ακόμη κατασκευαστεί» λέει.

Πριν από έναν χρόνο περίπου ο Haussman ίδρυσε μία startup με έδρα το Σαν Φρανσίσκο, που ονομάζεται Physical Inteligence, ενώ παλιότερα εργαζόταν στο τμήμα AI της Google, DeepMind. Η εταιρεία του έχει ως αφετηρία μια παραλλαγή του ίδιου μεγάλου γλωσσικού μοντέλου που χρησιμοποιούμε όταν μπαίνουμε στο ChatGPT. Τα πιο πρόσφατα από αυτά τα μοντέλα ενσωματώνουν και μπορούν να επεξεργάζονται και εικόνες, αποτελώντας κλειδί για τον τρόπο λειτουργίας των ρομποτικών συστημάτων του Χάουσμαν. Σε μια πρόσφατη επίδειξη, ένα ζευγάρι ρομποτικών χεριών της Physical Intelligence κάνει αυτό που – όσο απίστευτο κι αν φαίνεται – αποτελεί μία από τις δυσκολότερες αποστολές για κάθε είδος ρομπότ: το δίπλωμα των ρούχων. Τα ρούχα μπορεί να έχουν πολλά διαφορετικά σχήματα και απαιτούν εκπληκτική ευκαμψία και επιδεξιότητα για να διπλωθούν, οπότε οι σχεδιαστές ρομποτικών συστημάτων δεν μπορούν να φτιάξουν μια αλληλουχία ενεργειών που θα λέει στο ρομπότ πώς ακριβώς να κινήσει τα μέλη του για να πιάσει και να διπλώσει τα ρούχα.

Το σύστημα της Physical Intelligence μπορεί να βγάλει τα ρούχα από το στεγνωτήριο και να τα διπλώσει καλά χρησιμοποιώντας ένα σύστημα που έμαθε μόνο του τον τρόπο να το κάνει αυτό, χωρίς να του έχει δοθεί ανθρώπινη βοήθεια εκτός από ένα βουνό δεδομένων το οποίο έπρεπε να αφομοιώσει. Η επίδειξη αυτή και άλλες παρόμοιες έκαναν τόση εντύπωση ώστε μέσα στον Νοέμβριο η εταιρεία συγκέντρωσε κεφάλαια ύψους 400 εκατ. δολ. από επενδυτές, μεταξύ των οποίων ο Τζεφ Μπέζος και η OpenAI.

Τον Οκτώβριο, ερευνητές του MIT ανακοίνωσαν ότι ακολουθούν μια παρόμοια στρατηγική, βασισμένη σε μετασχηματιστές, προκειμένου να δημιουργήσουν ρομποτικούς εγκεφάλους οι οποίοι θα μπορούν να αφομοιώνουν τεράστιες ποσότητες δεδομένων από διάφορες πηγές και μετά να λειτουργούν με ευελιξία σε ένα ευρύ φάσμα από περιβάλλοντα. Σε μία περίπτωση κατέγραψαν σε πολλά σύντομα βίντεο ένα κανονικό ρομποτικό χέρι να βάζει σκυλοτροφή σε ένα μπολ, και μετά χρησιμοποίησαν τα βίντεο για να εκπαιδεύσουν ένα AI ρομπότ να κάνει το ίδιο.

Με οδηγό τα ρομπότ

Οπως και στη ρομποτική, οι ερευνητές και οι εταιρείες που εργάζονται πάνω στα αυτο-οδηγούμενα αυτοκίνητα προσπαθούν να βρουν τον τρόπο να χρησιμοποιήσουν «οπτικά γλωσσικά μοντέλα» που βασίζονται σε μετασχηματιστές τα οποία να μπορούν να δέχονται και να συσχετίζουν όχι μόνο λέξεις αλλά και εικόνες.

Η Nuro, με έδρα την Καλιφόρνια, η Wayne, με έδρα το Λονδίνο, και η Waymo, που ανήκει στη μητρική της Google, είναι μερικές από τις εταιρείες που δουλεύουν με τέτοια μοντέλα. Πρόκειται για μια διαφορετική προσέγγιση σε σχέση με τα προ-μετασχηματιστών συστήματα αυτο-οδήγησης, τα οποία χρησιμοποιούσαν έναν συνδυασμό οδηγιών γραμμένων από ανθρώπους και παλαιότερων τύπων AI για να επεξεργάζονται στοιχεία που λαμβάνονταν από αισθητήρες και να εντοπίζουν αντικείμενα στον δρόμο. Τα νέα μοντέλα, που βασίζονται σε μετασχηματιστές, αποτελούν ουσιαστικά έναν συντομότερο τρόπο να δοθούν στα συστήματα αυτο-οδήγησης γενικές γνώσεις για τον κόσμο που πριν ήταν πολύ δύσκολο να τους παρασχεθούν.

Για παράδειγμα, σε ένα πρόσφατο άρθρο τους, οι ερευνητές της Waymo έδειξαν πώς, αξιοποιώντας την εμπορική εφαρμογή AI της Google, που λέγεται Gemini, θα μπορούσε να δώσει στο σύστημα αυτο-οδήγησης της εταιρείας τη δυνατότητα να αναγνωρίζει και να παραχωρεί προτεραιότητα σε αντικείμενα για τα οποία δεν έχει εκπαιδευτεί, όπως έναν σκύλο που διασχίζει τον δρόμο.

Περισσότερο βοηθός

Οσο ισχυρά και αν είναι τα συστήματα αυτά, δεν παύουν να έχουν όρια και να μην είναι προβλέψιμα, πράγμα που σημαίνει ότι δεν θα είναι ικανά να αυτοματοποιήσουν πλήρως τις δουλειές των ανθρώπων, λέει ο Dettmer. Η AI που βρίσκεται στην καρδιά της EvolutionaryScale για παράδειγμα, μπορεί να δημιουργεί νέα μόρια για να δοκιμαστούν στο εργαστήριο, αλλά η σύνθεσή τους και τα πειράματα θα πρέπει τελικά να γίνουν από ανθρώπους. Και τα μοντέλα που βασίζονται σε μετασχηματιστές απέχουν πολύ από το να είναι αρκετά αξιόπιστα ώστε να αναλάβουν πλήρως την οδήγηση οχημάτων.

Ενας ακόμη περιορισμός είναι ότι τα συστήματα αυτά είναι τόσο έξυπνα όσο τα δεδομένα επί των οποίων εκπαιδεύονται. Τα μεγάλα γλωσσικά μοντέλα, όπως εκείνα της OpenAI, αρχίζουν να προσκρούουν στους περιορισμούς που θέτει ο διαθέσιμος όγκος χρήσιμων γραπτών λέξεων που υπάρχουν στον κόσμο – και αυτό με το Διαδίκτυο γεμάτο κείμενα. Για να μάθουν με αυτόν τον τρόπο τα ρομπότ ή τα αυτο-οδηγούμενα αυτοκίνητα, χρειάζονται τεράστιες ποσότητες δεδομένων σχετικά με το τι συμβαίνει όταν καλούνται να λειτουργήσουν στον πραγματικό κόσμο – ένας από τους λόγους για τους οποίους οι εταιρείες έχουν επιδοθεί σε έναν πραγματικό αγώνα δρόμου για την απόκτηση τέτοιων δεδομένων.

Οι περιορισμοί αυτοί είναι εμφανείς στα ρομπότ της Physical Intelligence. Το σύστημά τους δίδαξε τον εαυτό του να διπλώνει τα ρούχα αλλά, για να μπορέσει να έρθει στο σπίτι σας και να αναλάβει το συγκεκριμένο καθήκον, θα πρέπει να μάθει εκ νέου τη διαδικασία με έναν τρόπο προσαρμοσμένο στο δικό σας νοικοκυριό. Μια τέτοια εκπαίδευση του μοντέλου θα απαιτούσε τεράστια ποσότητα χρόνου εκ μέρους ενός τεχνικού, καθώς και χρήματα.

«Θέλω να είμαι σίγουρος ότι οριοθετώ τις προσδοκίες» λέει ο διευθύνων σύμβουλος Hausman. «Οσο περήφανοι και να είμαστε για τα επιτεύγματά μας, είμαστε ακόμη στην αρχή».