Πολύγλωσση μετάφραση σε κλίμακα: 10000 ζεύγη γλωσσών και όχι μόνο
Η Microsoft βρίσκεται σε αναζήτηση για AI σε κλίμακα με μεγάλη φιλοδοξία να επιτρέψει την επόμενη γενιά εμπειριών τεχνητής αιώρης. Ο μεταφραστής της Microsoft Κωδικός Ζ ομάδα συνεργάζεται με Τούρινγκ έργου της Microsoft και η Microsoft Research Asia για την προώθηση της γλωσσικής και πολύγλωσσης υποστήριξης στον πυρήνα αυτής της πρωτοβουλίας. Συνεχίζουμε να πιέζουμε τα σύνορα με πολύγλωσσα μοντέλα για να υποστηρίξουμε διάφορα γλωσσικά σενάρια σε ολόκληρη τη Microsoft. Το περασμένο καλοκαίρι, ανακοινώσαμε τη μεγάλη μας κλίμακα. Πολυγλωσσικό μείγμα εμπειρογνωμόνων μοντέλο με Βαθιά κούνιες που μπορούν να ξεπεράσουν τα μεμονωμένα δίγλωσσα μοντέλα μεγάλης κλίμακας. Πρόσφατα, το τελευταίο μοντέλο παγκόσμιας γλωσσικής αναπαράστασης Turing (Τ-ULRv5), ένα μοντέλο που δημιουργήθηκε από τη Microsoft είναι για άλλη μια φορά η αιχμή του τεχνολογίας και στην κορυφή της Δημόσιος πίνακας κατάταξης XTREME εκείνη την εποχή. Πιο πρόσφατα, η Microsoft ανακοίνωσε τη μεγαλύτερη Μέγκατρον-Τούρινγκ NLG 530B μοντέλο παραμέτρων.
Το ετήσιο συνέδριο για τη μηχανική μετάφραση (aka WMT 2021) ολοκληρώθηκε την περασμένη εβδομάδα στην όμορφη Punta Cana της Δομινικανής Δημοκρατίας. Το WMT φέρνει σε επαφή ερευνητές από ολόκληρο τον τομέα της Μηχανικής Μετάφρασης, τόσο της βιομηχανίας όσο και του ακαδημαϊκού χώρου, για να συμμετάσχουν σε μια σειρά κοινών εργασιών, καθένα από τα οποία ορίζει ένα σημείο αναφοράς σε έναν σημαντικό τομέα μηχανικής μετάφρασης για να ωθήσει το πεδίο σε νέα σύνορα.
Η ομάδα του Microsoft Translator ZCode, σε συνεργασία με την ομάδα Turing και την Microsoft Research Asia, διαγωνίστηκε στο κομμάτι "Πολύγλωσση μετάφραση μεγάλης κλίμακας", το οποίο αποτελούνταν από ένα πλήρες έργο μετάφρασης μεταξύ και των 10.000 κατευθύνσεων σε 101 γλώσσες και δύο μικρές εργασίες: Μία επικεντρώθηκε σε 5 γλώσσες της Κεντρικής και Νότιας Ευρώπης και μία σε 5 γλώσσες της νοτιοανατολικής Ασίας. Το μοντέλο Microsoft ZCode-DeltaLM κέρδισε και τις τρεις εργασίες με τεράστια περιθώρια, συμπεριλαμβανομένου ενός απίστευτου κέρδους 10+ μονάδων έναντι του μοντέλου M2M100 στη μεγάλη εργασία που αξιολογήθηκε σε ένα τεράστιο ζεύγος γλωσσών 10.000. (Ευρήματα της κοινής εργασίας WMT 2021 σχετικά με τη μεγάλης κλίμακας πολύγλωσση μηχανική μετάφραση, Wenzek et al, WMT 2021).
Σχήμα 1: Επίσημα αποτελέσματα (βαθμολογίες BLEU) σχετικά με την πλήρη εργασία και τη μικρή εργασία1 στην κοινή εργασία πολύγλωσσης μετάφρασης μεγάλης κλίμακας WMT 2021
Η προσέγγιση ZCode-ΔέλταLM
Σε αυτήν την ανάρτηση ιστολογίου, ας ρίξουμε μια ματιά κάτω από την κουκούλα στο νικητήριο μοντέλο Microsoft ZCode-DeltaLM. Η αφετηρία μας ήταν η DeltaLM (DeltaLM: Προ-εκπαίδευση κωδικοποιητή-αποκωδικοποιητή για την παραγωγή και μετάφραση γλωσσών με την ενίσχυση των προεκπαιδευμένων πολύγλωσσων κωδικοποιητών), το πιο πρόσφατο στην ολοένα και πιο ισχυρή σειρά μαζικά πολύγλωσσων μοντέλων προεκπαιδευμένων γλωσσών από τη Microsoft.
Το DeltaLM είναι ένα μοντέλο κωδικοποιητή-αποκωδικοποιητή, αλλά αντί να εκπαιδεύεται από το μηδέν, αρχικοποιείται από ένα προηγουμένως προεκπαιδευμένο μοντέλο μόνο κωδικοποιητή τελευταίας τεχνολογίας, συγκεκριμένα (Τουλβ3). Ενώ η προετοιμασία του κωδικοποιητή είναι απλή, ο αποκωδικοποιητής είναι λιγότερο, καθώς προσθέτει διασταυρούμενη προσοχή στην αυτο-προσοχή του κωδικοποιητή. Το DeltaLM λύνει αυτό το πρόβλημα με μια νέα διασυνδεδεμένη αρχιτεκτονική, όπου η αυτο-προσοχή και η διασταυρούμενη προσοχή εναλλάσσονται μεταξύ των στρωμάτων, με την αυτο-προσοχή που χρησιμοποιείται στα παράξενα στρώματα και τη διασταυρούμενη προσοχή που χρησιμοποιείται στα ομοιόμορφα στρώματα. Με αυτήν την παρεμβολή, η δομή του αποκωδικοποιητή ταιριάζει με τον κωδικοποιητή και έτσι μπορεί επίσης να αρχικοποιηθεί με τον ίδιο τρόπο από το TULRv3.
Το DeltaLM υποστηρίζεται από την ισχυρή εκμάθηση πολλαπλών τετάρτων ZCode: Εκμάθηση πολλαπλών εργασιών για πολύγλωσση νευρωνική μηχανική μετάφραση. Τα μοντέλα μας δείχνουν ότι ο συνδυασμός πολυτελών και πολύγλωσσης μάθησης μπορεί να βελτιώσει σημαντικά την κατάρτιση για μοντέλα γλώσσας μεγάλης κλίμακας. Αυτό το πολυσύνθετο πολύγλωσσο μαθησιακό πρότυπο αξιοποιεί την επαγωγική προκατάληψη και κανονικοποίηση από διάφορα καθήκοντα και γλώσσες ταυτόχρονα για να αποδώσει καλύτερα σε διάφορες κατάντη εργασίες. Χρησιμοποιούμε μεταφραστική εργασία, αποναρκοποιώντας την εργασία αυτόματου κωδικοποιητή και την εργασία καταστροφής εύρους μετάφρασης, όπως φαίνεται στην παρακάτω εικόνα.
Κερδίζοντας το μαζικά πολύγλωσσο κομμάτι μετάφρασης
Για να οικοδομήσουμε το νικηφόρο μαζικά πολύγλωσσο μεταφραστικό μας σύστημα (Πολύγλωσσα συστήματα μηχανικής μετάφρασης από τη Microsoft για κοινόχρηστη εργασία WMT21), ξεκινήσαμε με το zCode-DeltaLM και πρόσθεσε μερικά κόλπα.
Εφαρμόζουμε προοδευτική μάθηση, εκπαιδεύοντας πρώτα ένα μοντέλο με 24 επίπεδα κωδικοποιητή και 12 επίπεδα αποκωδικοποιητή και στη συνέχεια συνεχίζουμε την εκπαίδευση με 12 πρόσθετα επίπεδα κωδικοποιητή, με αποτέλεσμα έναν βαθύ κωδικοποιητή επιπέδου 36. Για να καλύψουμε όλα τα ζεύγη γλωσσών, δημιουργούμε διπλά ψευδο-παράλληλα δεδομένα όπου και οι δύο πλευρές των παράλληλων δεδομένων είναι συνθετικές, μεταφρασμένες από το μοντέλο από τα αγγλικά. Εφαρμόζουμε επίσης επαναληπτική πίσω μετάφραση για τη δημιουργία συνθετικών δεδομένων. Εφαρμόζουμε τη μάθηση του προγράμματος σπουδών, ξεκινώντας από όλα τα θορυβώδη δεδομένα κατάρτισης και μειώνοντας τα σε ένα καθαρό υποσύνολο. Σταθμίζουμε εκ νέου τον μεταφραστικό στόχο για να ευνοήσουμε τα παράλληλα δεδομένα σε σχέση με την πίσω μετάφραση και τα διπλά ψευδο-παράλληλα δεδομένα. Εφαρμόζουμε δειγματοληψία θερμοκρασίας για να εξισορροπήσουμε τα ζεύγη γλωσσών. Για κάθε ζεύγος γλωσσών, επιλέγουμε, με βάση το σύνολο dev, αν θα προτιμούσαμε την άμεση μετάφραση ή την κεντρική μετάφραση μέσω της αγγλικής γλώσσας.
Τοποθετώντας τα όλα μαζί, γνωρίζαμε ότι είχαμε ένα καταπληκτικό μαζικά πολύγλωσσο σύστημα, αλλά τα επίσημα αποτελέσματα των τυφλών δοκιμών ξεπέρασαν τις προσδοκίες μας. Σκοράραμε 2,5 με 9 BLEU μπροστά από τον επόμενο ανταγωνιστή και 10 έως 21 πόντους BLEU μπροστά από το βασικό μοντέλο M2M-175. Στη δοκιμή dev συγκρίναμε με το μεγαλύτερο μοντέλο M2M-615, το οποίο επίσης νικήσαμε με 10 έως 18 πόντους.
Πέρα από τη μετάφραση: Παγκόσμια γλωσσική παραγωγή
Ενώ είμαστε ενθουσιασμένοι για τη μεγάλη νίκη στο WMT 2021, αυτό που είναι ακόμα πιο συναρπαστικό είναι ότι, σε αντίθεση με τους άλλους ανταγωνιστές, το μοντέλο ZCode-DeltaLM δεν είναι απλώς ένα μοντέλο μετάφρασης, αλλά μάλλον ένα γενικό μοντέλο γλώσσας κωδικοποιητή-αποκωδικοποιητή, χρησιμοποιήσιμο για όλα τα είδη εργασιών παραγωγής πέρα από τη μετάφραση. Αυτό επιτρέπει πραγματικά στα μοντέλα μας να αποδίδουν αρκετά καλά σε διάφορες πολύγλωσσες εργασίες δημιουργίας φυσικής γλώσσας.
Φτάσαμε σε ένα νέο SOTA σε πολλές δημοφιλείς εργασίες γενιάς από Δείκτης αναφοράς GEM, συμπεριλαμβανομένης της Βικιπαίδειας (σύνοψη), της απλούστευσης κειμένου (WikiAuto) και της δομής σε κείμενο (WebNLG). Το μοντέλο DeltaLM-ZCode υπερτερεί σε μεγάλο βαθμό πολύ μεγαλύτερων μοντέλων όπως το mT5 XL (3,7B), το οποίο είναι επίσης εκπαιδευμένο σε πολύ μεγαλύτερα δεδομένα. Αυτό κατέδειξε την αποτελεσματικότητα και την ευελιξία των μοντέλων που οδηγούν σε ισχυρή απόδοση σε πολλές εργασίες.
Σχήμα 2. Επιδόσεις (βαθμολογίες RL) του ZCode-DeltaLM σχετικά με τις εργασίες σύνοψης και απλούστευσης κειμένου στον δείκτη αναφοράς GEM
Κοιτάζοντας μπροστά
Η πολύγλωσση μηχανική μετάφραση έχει φτάσει σε ένα σημείο όπου αποδίδει πολύ καλά, ξεπερνώντας τα δίγλωσσα συστήματα, τόσο στις γλώσσες χαμηλών όσο και στις γλώσσες υψηλών πόρων. Τα μοντέλα mix of Experts (MoE) έχουν αποδειχθεί ότι είναι πολύ κατάλληλα για κλιμάκωση τέτοιων μοντέλων όπως έχει αποδειχθεί στο GShard. Διερευνούμε πώς να κλιμακώσουμε αποτελεσματικά αυτά τα μοντέλα με το Mix of Experts: Κλιμακούμενη και αποτελεσματική εκπαίδευση MoE για πολύγλωσσα μοντέλα πολλών τετάρτων. Τα μοντέλα MoE με μαζικά πολύγλωσσα δεδομένα και εκπαίδευση πολλαπλών εργασιών χωρίς επίβλεψη παρουσιάζουν ανεπιτήδευτες ευκαιρίες για τέτοια μοντέλα να παρέχουν πραγματικά καθολικά συστήματα που μπορούν να επιτρέψουν περαιτέρω στην ομάδα του Microsoft Translator να εξαλείψει τα γλωσσικά εμπόδια σε όλο τον κόσμο, καθώς και να υποστηρίξει μια ποικιλία εργασιών δημιουργίας φυσικής γλώσσας.
Επιβεβαίωση
Θα θέλαμε να αναγνωρίσουμε και να ευχαριστήσουμε τον Francisco Guzman και την ομάδα του που συγκέντρωσε το μαζικά πολύγλωσσο σύνολο δοκιμών FLORES και οργάνωσε αυτό το κομμάτι WMT με τόσο μεγάλη αξιολόγηση κλίμακας.