Gå til hovedindholdet
Oversætter
Denne side er automatisk oversat af Microsoft Translator maskinoversættelsestjeneste. Lær mere

Microsoft Translator blog

Statistisk maskinoversættelse – gæste blog (opdateret med ekstra papir)

Will Lewis er programleder på Microsoft Translator-teamet, der arbejder med sprogkvalitet og dataindsamling.  Dagens gæst blog er en høj grad forklaring på, hvordan motoren fungerer:  

Som mange af jer ved, under kølerhjelmen Microsoft Translator er drevet af en statistisk maskinoversættelse (SMT) motor.  De statistiske systemer er anderledes end regelbaserede, idet de "regler", der knytter ord og vendinger fra et sprog til et andet, erfares af systemet i stedet for at være hånd kodede.  Uddannelse af en SMT kræver at samle en stor mængde parallelle træningsdata — forhåbentlig af god kvalitet og fra heterogene kilder — og at uddanne motoren på disse data.  (Parallelt hermed mener vi en kilde til data, hvor indholdet for et sprog er det samme som indholdet for det andet).  Motoren lærer korrespondenterne mellem ord og vendinger på et sprog og i et andet, som ofte forstærkes af gentagne forekomster af de samme ord og vendinger i hele indgangen.  For eksempel, i uddannelse det engelsk-tyske system Lad os sige, hvis motoren ser udtrykket Alle rettigheder forbeholdes på den engelske side og også Alle Rechte vorbehalten på den tyske side, kan det justere disse to sætninger, og tildele en vis sandsynlighed for denne justering.  Gentagne forekomster af kilde-og målsætningerne i træningsdataene vil kun forstærke denne tilpasning.

Generelt, at have parallelle data for et sprogpar betyder, at vi kan træne motorer i begge retninger (dvs., både den engelsk-tyske og den tysk-engelske systemer kan uddannes på samme input sætninger).  Nogle af jer havde nogle spørgsmål om, hvorfor det var, at vi udgav det engelsk-spanske system, før vi udgav spansk-engelsk.  Der var virkelig to grunde.  Først, engelsk-spansk var den først General gebet sprog par vi løst.  Frigivelse af et sprogpar tillod os at teste infrastrukturen, før vi begyndte at frigive mere.  For det andet, teknologien til spansk-engelsk var lidt anderledes end den, der anvendes til engelsk-spansk, og vi har brug for lidt ekstra tid til at gøre de nødvendige infrastrukturelle ændringer til at rumme.  I fremtiden planlægger vi at frigive nye oversættelsessystemer i par (med et par undtagelser).  Jeg kan ikke afsløre, hvilke sprog vi har planlagt næste, men forventer nogle nye snart!

For dem af jer interesseret i tekniske diskussioner om vores motorer og hvordan de fungerer, bedes du henvise til nogle af de papirer, som de forskere, der udviklede dem.  Tre seneste papirer af notat er:

Chris quirk, Arul Menezes. Har vi brug for Fraser? Udfordrende den konventionelle visdom i statistisk maskinoversættelse Maj 2006, New York, USA Sager anlagt af HLT-NAACL 2006

Chris quirk, Arul Menezes. Afhængighed Treelet Oversættelse: konvergensen af statistisk og eksempel-baseret maskinoversættelse? Marts 2006 maskinoversættelse 43-65 (vedhæftet fil)


Chris quirk, Arul Menezes. Brug af afhængigheds rækkefølge skabeloner til at forbedre generaliteten i oversættelsen Juli 2007 Association for Computational linguistics

Afhængighed Treelet oversættelse konvergensen af statistisk og eksempel baseret machinetranslation. pdf