«Καθώς μιλούσα στα αγγλικά, το σύστημα συνδύαζε αυτόματα μια σειρά τεχνολογιών για να δώσει μια ικανοποιητική εμπειρία στους ακροατές -με τη δική μου φωνή να ακούγεται στα κινέζικα» γράφει σε εταιρικό ιστολόγιο ο Ρικ Ρασίντ, επικεφαλής Έρευνας στη Μicrosoft.
Τα πρώτα συστήματα αυτόματης μετάφρασης ομιλίας εμφανίστηκαν τη δεκαετία του 1970 και προσπαθούσαν να αντιστοιχίσουν την κυματομορφή της φωνής του χρήστη με γνωστές κυματομορφές σε μια άλλη γλώσσα.
Διερμηνεία με τη φωνή του ομιλητή
Το σύστημα της Μicrosoft ακουλουθεί εντελώς διαφορετική προσέγγιση: στο πρώτο στάδιο, μετατρέπει την ομιλία σε γραπτό κείμενο, το οποίο μεταφράζεται στη συνέχεια στα κινεζικά λέξη προς λέξη. Στο επόμενο στάδιο, το λογισμικό αναδιατάσσει τις λέξεις στη σωστή σειρά ώστε να βγάζουν νόημα, και τις εκφέρει μιμούμενο τη χροιά της φωνής του ομιλητή.
Το σύστημα, επισήμανε ο Ρασίντ, συνδυάζει διάφορες προσεγγίσεις μετάφρασης, όπως τη «μοντελοποίηση Μάρκοφ» που επιτρέπει επιτρέπει στο σύστημα να μαθαίνει ακούγοντας πολλούς διαφορετικούς ομιλητές, καθώς και την τεχνική Deep Neural Networks, η οποία αναπτύχθηκε από τη Microsoft σε συνεργασία με το Πανεπιστήμιο του Τορόντο και βασίζεται στα λεγόμενα νευρωνικά δίκτυα, τα οποία μιμούνται την οργάνωση των νευρώνων του εγκεφάλου.
Ο Ρασίντ τόνισε πάντως ότι στη σημερινή του μορφή το σύστημα μεταφράζει λανθασμένα περίπου λέξη ανά επτά ή οκτώ. Τα λάθη είναι επομένως αρκετά, ωστόσο η ακρίβεια έχει αυξηθεί κατά 30% σε σχέση με προηγούμενες απόπειρες.
Η Microsoft, πάντως, δεν είναι η μόνη εταιρεία που ερευνά τις τεχνολογίες μηχανικής διερμηνείας. Ανάλογες τεχνολογίες αναπτύσσονται μεταξύ άλλων από τη Google και την AT&T, ενώ η ιαπωνική εταιρεία κινητής τηλεφωνίας NTT Docomo έχει παρουσιάσει ένα κινητό που επιτρέπει στους Ιάπωνες να μιλούν αγγλικά. Η διαφορά όμως είναι ότι στα συστήματα αυτά η φωνή του συστήματος έχει μηχανική χροιά.