Ο όρος «Τεχνητή Νοημοσύνη» (ΤΝ) καθιερώθηκε από τον John McCarthy, ο οποίος αργότερα διακρίθηκε ως καθηγητής ΤΝ στο MIT, στη διάρκεια της Διάσκεψης του Dartmouth το 1956. Η συγκεκριμένη διάσκεψη θεωρείται ευρέως ως το σημείο καθιέρωσης της ΤΝ ως ανεξάρτητου πεδίου μελέτης, ορίζοντας την ατζέντα για τις επόμενες δεκαετίες. Δέκα χρόνια αργότερα, ο συνεργάτης του McCarthy και επίσης επιφανής ερευνητής στα αρχικά στάδια της ΤΝ, Marvin Minsky, ξεκίνησε το θερινό πρόγραμμα στην Υπολογιστική Όραση (ΥΟ) για προπτυχιακούς φοιτητές του MIT, το οποίο συχνά αναφέρεται ως ένα από τα θεμελιώδη γεγονότα στην ιστορία του πεδίου.
Ο κύριος στόχος του προγράμματος ήταν να καταστήσει δυνατή την ανάλυση αντικειμένων και σκηνών από έναν υπολογιστή μέσω εικόνων. Αυτό περιελάμβανε τη σύνδεση μιας κάμερας με τον υπολογιστή, με σκοπό να μάθει να διαχωρίζει σχήματα, να ταξινομεί αντικείμενα και να ερμηνεύει απλές σκηνές. Υπάρχει η φήμη ότι αυτό το πρόγραμμα θεωρήθηκε κατάλληλο για φοιτητές προπτυχιακού επιπέδου επειδή ο Minsky θεωρούσε ότι οι προκλήσεις της ΥΟ θα ήταν σχετικά απλές στην επίλυση. Αυτή η υπόθεση, βέβαια, αποδείχθηκε πολύ μακριά από την πραγματικότητα.
Η ΥΟ ασχολείται με την καταγραφή, επεξεργασία, ανάλυση, σύνθεση και κατανόηση ψηφιακών εικόνων, καθιστώντας τη μία από τις πλέον δημοφιλείς και ενεργές περιοχές της επιστήμης υπολογιστών και της μηχανικής. Η έμπνευση των πρώτων μελετών προέκυψε από το ανθρώπινο οπτικό σύστημα. Για παράδειγμα, το 1970, οι Marr και Poggio διατύπωσαν μια θεωρία για την ανθρώπινη στερεοσκοπική όραση που έβαλε τις βάσεις για τη μελλοντική πρόοδο στην τριδιάστατη υπολογιστική αντίληψη και την υπολογιστική στερεοσκοπική όραση. Τη δεκαετία του ’80 και του ’90, η ΥΟ επικεντρώθηκε σε ερωτήματα όπως «Τι μπορεί να πει ο υπολογιστής για μια εικόνα ή ένα βίντεο βάσει ενός δεδομένου μοντέλου;». Ως απάντηση σε αυτά τα ερωτήματα, σχεδιάστηκαν πολύπλοκα μαθηματικά μοντέλα. Προσωπικότητες του επιπέδου του David Mumford, νικητή του μεταλλίου Fields στα μαθηματικά, ενδιαφέρθηκαν για τον τομέα, αναπτύσσοντας τεχνικές για την κατάτμηση εικόνων, τον εντοπισμό ακμών και την αποσύνθεση των εικόνων σε αρχετυπικά σχήματα, όπως κύκλους και τετράγωνα, καθώς και τον καθορισμό κανόνων για την αναγνώριση αντικειμένων στις εικόνες. Παρά τη μαθηματική τους κομψότητα, λίγα από αυτά τα μοντέλα ήταν αποτελεσματικά σε εφαρμογές με πραγματικές εικόνες.
Το 1999 αποτέλεσε ένα κομβικό έτος για την ΥΟ με την παρουσίαση του μετασχηματισμού SIFT, μιας μεθόδου που εντοπίζει και περιγράφει τοπικά χαρακτηριστικά σε εικόνες (π.χ., τοπικά ιστογράμματα κατευθυνόμενων κλίσεων, τα οποία περιγράφουν το τοπικό σχήμα της εικόνας, τέτοια τοπικά χαρακτηριστικά είναι σχετικά αμετάβλητα σε μετασχηματισμούς εικόνας όπως περιστροφή και κλιμάκωση αλλά και στον φωτισμό). Ο μετασχηματισμός SIFT και άλλες συναφείς μέθοδοι περιγραφής εικόνων (π.χ., HOG) όταν συνδυάστηκαν με απλά στατιστικά μοντέλα της εποχής, προκάλεσαν μια σημαντική μετάβαση στην ΥΟ, καθιστώντας για πρώτη φορά δυνατές εφαρμογές όπως η αναγνώριση αντικειμένων, η τριδιάστατη ανακατασκευή σκηνής, η ρομποτική πλοήγηση και χαρτογράφηση, και όλα αυτά χρησιμοποιώντας εικόνες από τον πραγματικό κόσμο εκτός εργαστηρίου. Περίπου μια δεκαετία μετά την παρουσίαση του SIFT, η κοινότητα της ΥΟ αντιμετώπισε μια ακόμη πιο σημαντική αλλαγή παραδείγματος. Το 2012, ένα βαθύ συνελικτικό δίκτυο, το AlexNet, ξεπέρασε κατά πολύ τα πιο προχωρημένα μοντέλα της εποχής σε αναγνώριση αντικειμένων, μεταμορφώνοντας έτσι την ίδια την ΥΟ και τον τρόπο που προσεγγίζουμε τα δεδομένα. Το βασικό ερώτημα στη ΥΟ, τώρα, αλλάζει στο: «Τι μπορώ να πω για μια εικόνα ή ένα βίντεο βάσει των διαθέσιμων εικόνων και δεδομένων στο διαδίκτυο, χωρίς να βασίζομαι σε προκαθορισμένα μοντέλα;».
Η βαθιά μάθηση
Τα βαθιά συνελικτικά δίκτυα (νευρωνικά δίκτυα που περιλαμβάνουν στρώματα που εκτελούν μια μαθηματική πράξη γνωστή ως συνέλιξη) και η βαθιά μάθηση, γενικότερα, αναδύθηκαν ως καινοτόμες τεχνολογίες μετά από εξέλιξη δεκαετιών. Η επικράτησή τους απαιτούσε συντονισμένη επιστημονική προσπάθεια, καθώς και αξιοποίηση της αυξανόμενης υπολογιστικής ισχύος σε συνδυασμό με τον πλέον μεγάλο όγκο δεδομένων. Η σημαντική αλλαγή που εμφανίστηκε το 2012 οφείλεται, μεταξύ άλλων, στην ανάπτυξη των Μονάδων Επεξεργασίας Γραφικών (GPUs), οι οποίες αρχικά σχεδιάστηκαν για επιτάχυνση γραφικών και επεξεργασία εικόνων και σήμερα είναι κρίσιμες στην εκπαίδευση προηγμένων μοντέλων βαθιάς μάθησης. Η εξέλιξη του διαδικτύου, που διευκόλυνε την κοινοποίηση και διαμοίραση ψηφιακού περιεχομένου, έπαιξε επίσης έναν αποφασιστικό ρόλο. Στην εποχή του «χρυσού πυρετού» της ΥΟ και της ΤΝ, η NVIDIA, η βασική εταιρεία που κατασκευάζει GPUs και αρχικά εστίαζε στα παιχνίδια και τα εξειδικευμένα γραφικά, ανέβασε τη χρηματιστηριακή της αξία στα 1,3 τρισεκατομμύρια δολάρια, επιβεβαιώνοντας τη ρήση ότι κατά τους χρυσούς πυρετούς, τα κέρδη βρίσκονται στην πώληση των «φτυαριών».
Η ενσωμάτωση της βαθιάς μάθησης στην YO έχει προκαλέσει πληθώρα επιτυχιών και έχει οδηγήσει στην ανάπτυξη πολλαπλών εφαρμογών. Η βαθιά μάθηση αποτελεί πλέον θεμελιώδες εργαλείο στη δημιουργία αξιόπιστων συστημάτων αναγνώρισης προσώπου, που χρησιμοποιούνται από τον έλεγχο συνόρων μέχρι την ασφάλεια κινητών τηλεφώνων. Έχει επίσης διευκολύνει τη δημιουργία μοντέλων ικανών να αναγνωρίζουν και να καθορίζουν με ακρίβεια τη θέση και το μέγεθος πολλαπλών αντικειμένων εντός εικόνας, σε πραγματικό χρόνο. Τέτοια συστήματα βαθιάς μάθησης είναι κρίσιμα για τη λειτουργία αυτόνομων οχημάτων, καθώς επιτρέπουν την ακριβή αναγνώριση και ερμηνεία του περιβάλλοντος για την ασφαλή πλοήγηση. Στον όμορο χώρο της ανάλυσης ιατρικής εικόνας η βαθιά μάθηση έχει φέρει επανάσταση στην αυτόματη διάγνωση ασθενειών, στην ανίχνευση καρκινικών κυττάρων από ιστολογικά δείγματα, στην πρόβλεψη εξέλιξης των παθήσεων και στον χειρουργικό προγραμματισμό. Σε πολλές από αυτές τις εφαρμογές η ΤΝ είχε καλύτερη επίδοση από εκπαιδευμένους ακτινολόγους.
Η βαθιά μάθηση έχει επαναπροσδιορίσει όχι μόνο τον τρόπο με τον οποίο ανιχνεύουμε και αναγνωρίζουμε αντικείμενα από εικόνες αλλά και τη διαδικασία παραγωγής και σύνθεσης νέων εικόνων, μια δυνατότητα που παλαιότερα ήταν προνόμιο ειδικευμένων γραφικών στούντιο. Προηγμένα μοντέλα, όπως τα Γεννητικά Ανταγωνιστικά Δίκτυα (GANs) και τα μοντέλα διάχυσης (diffusion models), μπορούν να δημιουργούν εικόνες απευθείας από κειμενικές περιγραφές, εμπλουτίζοντας την αλληλεπίδραση μεταξύ οπτικής πληροφορίας και κειμένου. Η συγχώνευση νευρωνικών μοντέλων επεξεργασίας φυσικής γλώσσας, φωνής και εικόνας έχει επιτρέψει τη δημιουργία προηγμένων μοντέλων, όπως το Gemini της Google, που ανοίγουν νέους δρόμους για τη δημιουργία πολυμεσικού περιεχομένου και την επίλυση προκλήσεων σε ευρεία γκάμα τομέων. Αυτές οι τεχνολογίες μας φέρνουν ένα βήμα πιο κοντά στη δημιουργία ψηφιακών ανθρωπόμορφων χαρακτήρων με πειστική αλληλεπίδραση, που κάνουν την πραγματικότητα ταινιών όπως η «Her» πιο εφικτή πολύ συντομότερα από ό,τι αναμέναμε.
Τι περιμένουμε σήμερα
Οι παλαιότερες προβλέψεις πολλών από εμάς που ασχολούμαστε με την ΥΟ και γενικότερα την ΤΝ ωχριούν συγκρινόμενες με αυτά που καταφέραμε τα τελευταία δέκα χρόνια και το μέλλον φαντάζει συναρπαστικό. Οι μελλοντικές απειλές που προσωπικά αναγνωρίζω διαφέρουν σημαντικά από τις απεικονίσεις της επιστημονικής φαντασίας, όπου η ΤΝ γίνεται αυτοσυνείδητη και αντιτίθεται ξαφνικά στην ανθρωπότητα. Προβλήματα θα προκύψουν κυρίως όταν η YO και τα συστήματα ΤΝ χρησιμοποιηθούν υπερβολικά για την αυτόματη λήψη αποφάσεων, όπως σε αυτοκίνητα αυτόνομης οδήγησης. Η έλλειψη διαφάνειας στα σύγχρονα μοντέλα βαθιάς μάθησης εγείρει ζητήματα έλλειψης εξήγησης στη λήψη αποφάσεων. Επίσης, η διαδικασία δημιουργίας των συστημάτων από τα δεδομένα εκπαίδευσης και μόνο δεν διασφαλίζει αυτόματα τη συμμόρφωση και την ευθυγράμμιση των συστημάτων ΤΝ με εντολές και ανθρώπινες αξίες.
Ο Στέφανος Ζαφειρίου είναι Καθηγητής Υπολογιστικής Όρασης και Μηχανικής Μάθησης στο Imperial College London και ερευνητής στο Ερευνητικό Κέντρο «Αθηνά»