Passa a contenuti principali
Translator
Questa pagina è stata tradotta automaticamente dal servizio di traduzione automatica di Microsoft Translator. Ulteriori informazioni

Blog di Microsoft Translator

Traduzione automatica statistica – Blog ospite (aggiornato con carta aggiuntiva)

Will Lewis è un Program Manager del team di Microsoft Translator, che lavora sulla qualità del linguaggio e l'acquisizione dei dati.  Il Blog degli ospiti di oggi è una spiegazione di alto livello su come funziona il motore:  

Come molti di voi sanno, sotto il cofano Microsoft Translator è alimentato da un motore di traduzione automatica statistica (SMT).  I sistemi statistici sono diversi da quelli basati su regole in quanto le "regole" mappando parole e frasi da una lingua all'altra sono apprese dal sistema piuttosto che essere codificate a mano.  La formazione di un SMT richiede di accumulare una grande quantità di dati di training paralleli, auspicabilmente di buona qualità e da fonti eterogenee, e di addestrare il motore su tali dati.  (In parallelo, si intende una fonte di dati in cui il contenuto per una lingua è uguale al contenuto per l'altro.)  Il motore Impara le corrispondenze tra parole e frasi in una lingua e quelle in un altro, che sono spesso rinforzate da occorrenze ripetute delle stesse parole e frasi in tutto l'input.  Per esempio, nella formazione del sistema inglese-tedesco diciamo, se il motore vede la frase Tutti i diritti riservati sul lato inglese e nota anche Alle Rechte vorbehalten sul lato tedesco, può allineare queste due frasi e assegnare alcune probabilità a questo allineamento.  Le occorrenze ripetute delle frasi di origine e di destinazione nei dati di training rafforzeranno solo questo allineamento.

In generale, avere dati paralleli per una coppia linguistica significa che possiamo addestrare i motori in entrambe le direzioni (vale a dire che i sistemi inglese-tedesco e tedesco-inglese possono essere addestrati sulle stesse frasi di ingresso).  Alcuni di voi hanno avuto alcune domande sul motivo per cui è stato che abbiamo rilasciato il sistema inglese-spagnolo prima di rilasciare Spagnolo-Inglese.  C'erano davvero due ragioni.  In primo luogo, inglese-spagnolo è stata la prima coppia di lingua dominio generale che abbiamo rilasciato.  Rilasciando una coppia linguistica ci ha permesso di testare l'infrastruttura prima di iniziare a rilasciarlo di più.  In secondo luogo, la tecnologia per lo spagnolo-inglese era leggermente diversa da quella utilizzata per l'inglese-spagnolo, e abbiamo bisogno di un po' di tempo aggiuntivo per fare le necessarie modifiche infrastrutturali per adattarsi.  In futuro, abbiamo in programma di rilasciare nuovi sistemi di traduzione in coppia (con un paio di eccezioni).  Non posso rivelare quali lingue abbiamo pianificato dopo, ma si aspettano alcuni nuovi presto!

Per quelli di voi interessati a discussioni tecniche riguardanti i nostri motori e come funzionano, si prega di fare riferimento ad alcuni dei documenti da parte dei ricercatori che li hanno sviluppati.  Tre recenti documenti di nota sono:

Chris Quirk, Arul Menezes. Abbiamo bisogno di frasi? Sfidare la saggezza convenzionale nella traduzione automatica statistica 2006 maggio, New York, Stati Uniti Procedimenti di HLT-NAACL 2006

Chris Quirk, Arul Menezes. Dipendenza Treelet traduzione: la convergenza della traduzione automatica statistica e basata su esempi? Marzo 2006 traduzione automatica 43-65 (file allegato)


Chris Quirk, Arul Menezes. Utilizzo dei modelli di ordine di dipendenza per migliorare la generalità nella traduzione Luglio 2007 Associazione per la linguistica computazionale

Dipendenza Treelet traduzione la convergenza di macchine statistiche e di esempio-based machinetranslation. pdf