Τεχνητή νοημοσύνη της Google θριαμβεύει στο Γκο

Πολλοί παίκτες και προγραμματιστές πίστευαν ότι οι υπολογιστές δεν θα κέρδιζαν ποτέ τους ανθρώπους στο κινεζικό επιτραπέζιο Γκο, μακράν πιο περίπλοκο από το σκάκι. Κι όμως, ένας αλγόριθμος μάθησης της Google νίκησε για πρώτη φορά επαγγελματία παίκτη, μια εξέλιξη που χαρακτηρίζεται κομβικής σημασίας για την τεχνητή νοημοσύνη.

29.01.2016 15:29

Science

Βαγγέλης Πρατικάκης

Τεχνητή νοημοσύνη της Google θριαμβεύει στο Γκο

29.01.2016 15:29

Science

Βαγγέλης Πρατικάκης

Πολλοί παίκτες και προγραμματιστές πίστευαν ότι οι υπολογιστές δεν θα κέρδιζαν ποτέ τους ανθρώπους στο κινεζικό επιτραπέζιο Γκο, μακράν πιο περίπλοκο από το σκάκι. Κι όμως, ένας αλγόριθμος μάθησης της Google νίκησε για πρώτη φορά επαγγελματία παίκτη, μια εξέλιξη που χαρακτηρίζεται κομβικής σημασίας για την τεχνητή νοημοσύνη.

Πολλοί παίκτες και προγραμματιστές πίστευαν ότι οι υπολογιστές δεν θα κέρδιζαν ποτέ τους ανθρώπους στο κινεζικό επιτραπέζιο Γκο, μακράν πιο περίπλοκο από το σκάκι. Κι όμως, ένας αλγόριθμος μάθησης της Google νίκησε για πρώτη φορά επαγγελματία παίκτη, μια εξέλιξη που χαρακτηρίζεται κομβικής σημασίας για την τεχνητή νοημοσύνη.

Ο θρίαμβος των μηχανών

Η πρώτη μεγάλη νίκη των υπολογιστών ήρθε το 1997, όταν ο υπολογιστής Deep Blue της IBM νίκησε τον τότε παγκόσμιο πρωταθλητή στο σκάκι Γκάρι Κασπάροφ. Έκτοτε οι αλγόριθμοι έχουν κατατροπώσει τους ανθρώπους στη ντάμα, το τάβλι και το τηλεπαιχνίδι Jeopardy!.

Η DeepMind, μια λονδρέζικη εταιρεία τεχνητής νοημοσύνης που εξαγοράστηκε από τη Google πριν από δύο χρόνια, αναφέρει στο περιοδικό Nature ότι κατάφερε να κάνει το ίδιο με το Γκο.

Ο αλγόριθμος AlphaGo της εταιρείας, ένα «νευρωνικό δίκτυο» που μιμείται την αρχιτεκτονική του ανθρώπινου εγκεφάλου, νίκησε τον Φαν Χούι, ευρωπαίο πρωταθλητή του Γκο, και στις πέντε αναμετρήσεις τους σε συνθήκες επίσημου τουρνουά. Κέρδισε επίσης στο 99,8% των παρτίδων ενάντια σε άλλα προγράμματα που παίζουν Γκο.

«Πολλοί θα σοκαριστούν αφού για πολλά χρόνια θεωρούσαν ότι οι υπολογιστές δεν θα κατάφερναν ποτέ να κερδίσουν τους ανθρώπους στο Γκο» σχολιάζει στο δικτυακό τόπο του Science ο Ρεμί Κουλόμ, ερευνητής της τεχνητής νοημοσύνης στη Γαλλία, ο οποίος είχε δημιουργήσει το προηγούμενο καλύτερο πρόγραμμα στο Γκο με την ονομασία Crazy Stone.

«Η δημοσίευση αυτή θα έχει τεράστιο και άμεσο αντίκτυπο» εκτιμά από την πλευρά του ο Τζόναθαν Σέφερμ, ειδικός του Πανεπιστημίου της Αλμπέρτα στο Έντμοντον.

Δύσκολο παιχνίδι στρατηγικής

Εκ πρώτης όψεως το Γκο φαίνεται απλό. Το ταμπλό του είναι ένας πίνακας με 19 επί 19 τετράγωνα, στα οποία οι δύο παίκτες παίζουν εναλλάξ τοποθετώντας μαύρα ή άσπρα πετραδάκια. Κάθε παίκτης προσπαθεί να περικυκλώσει τα πούλια του αντιπάλου του έτσι ώστε να μην υπάρχουν ελεύθερες θέσεις γύρω του. Τα περικυκλωμένα πούλια απομακρύνονται από το ταμπλό και η τελική βαθμολογία υπολογίζεται από την περιοχή που ελέγχει ο κάθε παίκτης και τον αριθμό των πετρών που κατάφερε να φυλακίσει.

Το Γκο είναι δύσκολο για τους υπολογιστές για δύο λόγους: πρώτον, σε μια τυπική αναμέτρηση των 150 κινήσεων οι πιθανές διατάξεις των πετρών στο ταμπλό φτάνει τις 10¹⁷⁰-ένας αριθμός μεγαλύτερος από τον αριθμό όλων των ατόμων στο Σύμπαν. Αυτό σημαίνει ότι θα ήταν πρακτικά αδύνατο να εξετάσει ένας υπολογιστής όλες τις δυνατές κινήσεις και τις εκβάσεις τους.

Δεύτερον, είναι δύσκολο να εκτιμήσει κανείς ποιος παίκτης έχει το πάνω χέρι απλά κοιτώντας το ταμπλό -σε αντίθεση με παιχνίδια σαν το σκάκι, όπου οι παίκτες έχουν μια εικόνα για το ποιος προηγείται από τον αριθμό των πιονιών που έχουν αποσπάσει από τον αντίπαλο.

Σε αντίθεση με άλλα προγράμματα Γκο, τα οποία δημιουργήθηκαν ειδικά για να παίζουν το παιχνίδι, ο αλγόριθμος AlphaGo δεν διδάχθηκε καν τους κανόνες του παιχνιδιού -είναι ένας αλγόριθμος μάθησης που βελτιώνεται με την εμπειρία.

Πώς έμαθε το πρόγραμμα

Το πρόγραμμα αρχικά μελέτησε 50 εκατομμύρια κινήσεις από παιχνίδια επαγγελματιών παικτών και έμαθε έτσι να προβλέπει ποια είναι η καλύτερη κίνηση. Έπαιξε επίσης εκατομμύρια παρτίδες εναντίον του εαυτού του και διδάχτηκε να εκτιμά ποιος παίκτης έχει το πάνω χέρι υπολογίζοντας την πιθανότητα να κερδίσει τελικά το παιχνίδι η μία ή η άλλη πλευρά.

Το AlphaGo μπορεί να μαθαίνει επειδή βασίζεται σε ένα δίκτυο από εικονικούς νευρώνες που συνδέονται μεταξύ τους με εικονικές συνάψεις, οι οποίες ισχυροποιούνται ή εξασθενίζουν ανάλογα με τα παραδείγματα και την εμπειρία.

Παρόμοιες τεχνικές θα μπορούσαν να εφαρμοστούν τώρα σε άλλες εφαρμογές που απαιτούν λήψη αποφάσεων, σχεδιασμό στρατηγικής, μακροπρόθεσμο σχεδιασμό και αναγνώριση περίπλοκων μοτίβων.

Σύμφωνα με τον Ντέμις Χασάμπις, συνιδρυτή της DeepMind και μέλος της ερευνητικής ομάδας στην τελευταία δημοσίευση, τέτοιες πιθανές εφαρμογές είναι οι αυτόματες διαγνώσεις σε απεικονιστικές εξετάσεις, η βελτίωση των μοντέλων του παγκόσμιου κλίματος.

Η επόμενη πρόκληση για το AlphaGo θα έρθει τον Μάρτιο, όταν ο αλγόριθμος θα αναμετρηθεί με τον νοτιοκορεάτη Λι Σέντολ, ο οποίος θεωρείται από πολλούς ο καλύτερος παίκτης Γκο του κόσμου.

«Είμαστε αισιόδοξοι» λέει ο Χασάμπι, ο οποίος δεν έχει διευκρινίσει αν το AlphaGo θα κυκλοφορήσει στην αγορά ως παιχνίδι.

Ακολούθησε το Βήμα στο Google news και μάθε όλες τις τελευταίες ειδήσεις.