Οι περισσότεροι από εμάς έχουμε εμπειρίες συνομιλίας με κάποιο αυτοματοποιημένο σύστημα εξυπηρέτησης πελατών όταν καλούμε κάποιο κατάστημα ή υπηρεσία. Πολλοί επιλέγουμε να πούμε «εκπρόσωπος», έτσι ώστε να συνομιλήσουμε με κάποιον άνθρωπο (ακόμα και αν χρειαστεί να περιμένουμε αρκετή ώρα στο τηλέφωνο), ιδιαίτερα όταν πιστεύουμε ότι το πρόβλημα για το οποίο καλούμε είναι σύνθετο και μόνο κάποιος άνθρωπος μπορεί να το επιλύσει. Με την έλευση νέων μορφών Τεχνητής Νοημοσύνης (ΤΝ) και ιδιαίτερα των Μεγάλων Γλωσσικών Μοντέλων (ΜΓΜ), αλλά και με τη σημαντική βελτίωση στην αναγνώριση και σύνθεση φωνής, δημιουργείται μια νέα γενιά φωνητικών βοηθών η οποία υπόσχεται να αλλάξει την άποψη του κόσμου σε σχέση με την αυτοματοποιημένη εξυπηρέτηση πελατών.

Ένα τυπικό φωνητικό διαλογικό σύστημα αποτελείται από 5 υποσυστήματα:

Αναγνώριση φωνής: Μετατρέπει το σήμα φωνής του χρήστη σε κείμενο (φωνητική μεταγραφή).

Κατανόηση φυσικής γλώσσας: Εξάγει το νόημα του εκφωνήματος του χρήστη, όπως η πρόθεση (το επιθυμητό είδος ενέργειας, π.χ. «μεταφορά ποσού») καθώς και άλλα στοιχεία (π.χ. «ποσό μεταφοράς», «πιστωτικός λογαριασμός»).

Διαχείριση διαλόγου: Συνδυάζει πληροφορίες από τα διάφορα βήματα του διαλόγου, επιλέγει την επόμενη ενέργεια του συστήματος (π.χ. μπορεί το σύστημα να αποφασίσει να επιβεβαιώσει την ορθότητα των στοιχείων που συνέλεξε από τον χρήστη, αν το υποσύστημα αναγνώρισης φωνής δεν ήταν πολύ σίγουρο για τη φωνητική μεταγραφή), επικοινωνεί με τη βάση δεδομένων και γενικότερα με τα συστήματα του φορέα (π.χ. με το σύστημα της τράπεζας), επιλέγει τις πληροφορίες που πρέπει να περιέχει η απόκριση στον χρήστη (π.χ. «Μεταφορά ποσού: Επιτυχία»).

Παραγωγή φυσικής γλώσσας: Παράγει το κείμενο της απόκρισης στον χρήστη (π.χ. «το ποσό μεταφέρθηκε με επιτυχία. Μπορώ να κάνω κάτι άλλο για εσάς;»).

Σύνθεση φωνής: Μετατρέπει το κείμενο σε φωνητικό σήμα.

Στα παραπάνω βασικά υποσυστήματα μπορούν να προστεθούν και άλλα, όπως η επαλήθευση της ταυτότητας του χρήστη είτε μέσω ερωτήσεων γνώσεων είτε μέσω των χαρακτηριστικών της φωνής του (αφού προηγηθεί ενημέρωση του χρήστη και συγκατάθεσή του στην εγγραφή στο σύστημα ταυτοποίησης μέσω φωνής), η επιβεβαίωση ότι η φωνή δεν αποτελεί προϊόν λογισμικού σύνθεσης φωνής (deepfake), ο έλεγχος του αριθμού τηλεφώνου του χρήστη, η αναγνώριση της συναισθηματικής κατάστασης του χρήστη και άλλα.

Όλα τα παραπάνω υποσυστήματα παρουσιάζουν ατέλειες, τις οποίες η νέα γενιά μηχανικής μάθησης και γενικότερα τεχνητής νοημοσύνης είτε έχει ήδη βελτιώσει είτε υπόσχεται να βελτιώσει. Τα συστήματα αναγνώρισης φωνής – παρά τη σημαντική τους πρόοδο κατά την τελευταία πενταετία – συνεχίζουν να κάνουν λάθη, ιδιαίτερα με χρήστες πληθυσμιακών ομάδων οι οποίες υποεκπροσωπούνται στο σύνολο εκπαίδευσης του συστήματος (π.χ. μετανάστες), ή όταν ο χρήστης καλεί από θορυβώδες περιβάλλον. Τα υποσυστήματα κατανόησης φυσικής γλώσσας και διαχείρισης διαλόγου δυσκολεύονται στην εξαγωγή νοήματος όταν απαιτείται συνδυασμός πληροφοριών από διαφορετικά σημεία του διαλόγου, σε ερωτήσεις χρηστών οι οποίες δεν είχαν προβλεφθεί από τον σχεδιαστή της εφαρμογής, στη διάκριση μεταξύ είδους ενέργειας του συστήματος που επιθυμεί και πληροφοριών που ο τελευταίος παρέχει γιατί τις θεωρεί χρήσιμες. Τα υποσυστήματα παραγωγής φυσικής γλώσσας αποτελούνται συνήθως από προκαθορισμένες φόρμες απόκρισης και ως εκ τούτου ακούγονται επαναλαμβανόμενα και μη-δημιουργικά. Τέλος, τα συστήματα σύνθεσης φωνής πολλών εφαρμογών χρησιμοποιούν συνδυασμό προηχογραφημένων μηνυμάτων, με αποτέλεσμα η φωνή να παρουσιάζει π.χ. αφύσικες ασυνέχειες στην προσωδία.

Νέα μοντέλα τεχνητής νοημοσύνης

Η ενσωμάτωση στα διαλογικά συστήματα νέων μοντέλων τεχνητής νοημοσύνης και ιδίως μεγάλων γλωσσικών μοντέλων τύπου ChatGPT είναι ικανή να αντιμετωπίσει ορισμένες από τις παραπάνω αδυναμίες, αλλά και να δημιουργήσει νέες μεθόδους διάδρασης με τον χρήστη. Παραδείγματα είναι η κατανόηση διαλόγων όπου απαιτείται συνδυασμός πληροφοριών από πολλά σημεία του διαλόγου, ή η απάντηση σε γενικές ερωτήσεις σχετικές με τον φορέα και τις διαδικασίες του, όπου το γλωσσικό μοντέλο – ενισχυμένο με ένα σύστημα ανάκτησης πληροφοριών από δεδομένα του εκάστοτε φορέα (Retrieval-Augmented Generation) – απαντά βάσει των δεδομένων αυτών. Η εφαρμογή τεχνητής νοημοσύνης του gov.gr αποτελεί ένα τέτοιο παράδειγμα. Μέσω της εφαρμογής αυτής, ο χρήστης μπορεί να ενημερωθεί για διαδικασίες φορέων του Δημοσίου υποβάλλοντας ερωτήσεις σε φυσική γλώσσα αλλά και να αλληλεπιδρά μαζί της διαλογικά.

Υπάρχουν, ωστόσο, και προβλήματα. Ένα βασικό πρόβλημα είναι η παραγωγή «φαντασιώσεων» (hallucinations), όρος ο οποίος περιγράφει πληροφορίες είτε ψευδείς είτε μη βασισμένες στα δεδομένα που έχουν ανακτηθεί. Τα ΜΓΜ, λόγω του τρόπου εκπαίδευσής τους, δύσκολα θα παραδεχθούν ότι δεν γνωρίζουν την απάντηση σε μια ερώτηση. Θα επιχειρήσουν να την απαντήσουν, ιδίως όταν παρόμοιες ερωτήσεις και απαντήσεις υπάρχουν στο σύνολο εκπαίδευσής τους. Για παράδειγμα, σε ερώτηση του χρήστη για το ωράριο λειτουργίας ενός καταστήματος, το γλωσσικό μοντέλο ενδέχεται να απαντήσει κάτι αληθοφανές (π.χ. 10.00-18.00) ακόμα κι αν τέτοια πληροφορία δεν εμπεριέχεται στα δεδομένα του συγκεκριμένου φορέα. Το πρόβλημα της παραγωγής «φαντασιώσεων» είναι λοιπόν ένα σημαντικό ζήτημα των ΜΓΜ το οποίο εμποδίζει τη χρήση ΜΓΜ σε εφαρμογές που απαιτούν μεγάλη ακρίβεια στις αποκρίσεις. Παρ’ όλα αυτά, έναν μόλις χρόνο μετά την εισβολή των ΜΓΜ στη ζωή μας (μέσω του ChatGPT) έχει ήδη σημειωθεί σημαντική πρόοδος στην αντιμετώπιση της παραγωγής φαντασιώσεων, με πλήθος ερευνητικών ομάδων ανά τον κόσμο να ασχολούνται με αυτό το θέμα.
Άλλα προβλήματα σχετίζονται με το αυξημένο κόστος των ΜΓΜ, τη χρονική καθυστέρηση που μπορεί να παρουσιάζουν στην παραγωγή της απόκρισης στον χρήστη, την πιθανή χρήση γλώσσας η οποία δεν συνάδει με το προφίλ του φορέα ή μπορεί να θεωρηθεί τοξική, καθώς και ζητήματα ασφάλειας των δεδομένων. Η λύση στα παραπάνω δεν είναι μονοσήμαντη, αλλά συνδυασμός συνεχούς ελέγχου της ποιότητας των αποκρίσεων, ανωνυμοποίησης των δεδομένων εκπαίδευσης, έρευνας σε νέες αρχιτεκτονικές νευρωνικών δικτύων με μειωμένη υπολογιστική πολυπλοκότητα, καθώς και σε νέες μεθόδους εκπαίδευσής τους.

Η νέα γενιά ΤΝ, με αιχμή τα ΜΓΜ δημιουργεί και νέες δυνατότητες. Η ενσωμάτωση μοντέλων όρασης υπολογιστών στα ΜΓΜ αναμένεται στο προσεχές μέλλον να δημιουργήσει πληθώρα νέων υπηρεσιών σε εφαρμογές όπως εικονικοί βοηθοί με όραση (ιδιαίτερα για άτομα με μειωμένη όραση), αυτο-οδηγούμενα οχήματα, ρομποτική και αλλού. Οι εικονικοί βοηθοί με όραση θα μπορούν π.χ. να περιγράφουν σε φυσική γλώσσα στον χρήστη τον περιβάλλοντα χώρο, να τον βοηθούν να εντοπίσει τα προϊόντα που επιθυμεί σε ένα κατάστημα ή να κάνει εργασίες στον χώρο του που μέχρι σήμερα θεωρούνταν αδύνατες ή επικίνδυνες για άτομα με προβλήματα όρασης. Αντίστοιχες εφαρμογές αναμένονται σύντομα και στην αυτόματη εξυπηρέτηση πελατών. Ο χρήστης θα μπορεί π.χ. να στέλνει στο chatbot εικόνες σχετικές με το πρόβλημα που αντιμετωπίζει (π.χ. ένα ελαττωματικό προϊόν που αγόρασε), ή να συνομιλεί μαζί του μέσω βιντεοκλήσης (ώστε το chatbot να τον βοηθήσει π.χ. στη συναρμολόγηση του επίπλου που αγόρασε).

Οι παραπάνω είναι μερικές μόνο από τις δυνατότητες που δημιουργεί η ΤΝ και οι οποίες οδηγούν σε μια νέα γενιά συστημάτων αυτόματης εξυπηρέτησης πελατών. Οι χρήστες των υπηρεσιών αυτών (δηλαδή όλοι μας) και η διάδρασή τους με τα νέα αυτά συστήματα θα κρίνουν αν οι συγκεκριμένες εφαρμογές της ΤΝ τους είναι πραγματικά χρήσιμες και οδηγούν σε μια καλύτερη διαλογική εμπειρία.

Ο Θέμος Σταφυλάκης είναι Αναπληρωτής Καθηγητής Τμήματος Πληροφορικής του Οικονομικού Πανεπιστημίου Αθηνών