Microsoft Kääntäjä blogi

Tilastollinen Machine translation-asiakkaiden blogi (päivitetty Lisää paperia)

Lähetetty 22. elokuuta, 2008ohi Microsoft Kääntäjä

Will Lewis on Microsoft Translator-tiimin ohjelma päällikkö, joka työskentelee kielten laadun ja tiedon hankinnan parissa. Tänään asiakkaiden blogi on korkean tason selitys siitä, miten moottori toimii:

Kuten monet teistä tietävät, kone pellin alle Microsoft Kääntäjä on powered by tilastollinen Machine translation (SMT) moottori. Tilasto järjestelmät ovat erilaisia kuin sääntö-pohjainen niistä, että "säännöt" kartoitus sanoja ja lauseita kielestä toiseen ovat oppineet järjestelmän sijaan on käsin koodattu. Koulutus SMT edellyttää kerännyt suuren määrän rinnakkaista koulutusta tiedot-toivottavasti hyvälaatuisia ja heterogeeninen lähteistä-ja koulutus moottorin tiedot. (Rinnakkain tarkoitamme tieto lähdettä, jossa yhden kielen sisältö on sama kuin muiden sisältö.) Moottori oppii sanojen ja lauseiden väliset vastaavuudet yhdellä kielellä ja toisessa, jotka usein vahvistetaan samojen sanojen ja lauseiden toistuvissa esiintymissä koko tulon aikana. Esimerkiksi koulutukseen Englanti-Saksa järjestelmä sanotaan, jos moottori näkee lause Kaikki oikeudet pidätetään Englanti puolella ja myös ilmoituksia Alle Rechte vorbehalten Saksan puolella, se voi yhdenmukaistaa nämä kaksi lausetta, ja osoittaa jonkin verran todennäköisyyttä tähän yhdenmukaistamiseen. Harjoitus tiedoissa olevat lähde-ja kohde lauseiden toistuvat esiintymät vain vahvistavat tätä kohdistusta.

Yleensä, joilla on rinnakkaisia tietoja kieli parin avulla voimme kouluttaa moottoreita molempiin suuntiin (eli sekä Englanti-Saksa ja Saksa-Englanti järjestelmät voidaan kouluttaa samoilla panos lauseita). Jotkut teistä oli joitakin kysymyksiä siitä, miksi se oli, että me julkaistiin Englanti-Espanja järjestelmä ennen kuin julkaistiin Espanja-Englanti. Oli todella kaksi syytä. Ensinnäkin, Englanti-Espanja oli ensimmäinen yleinen Domain kieli pari me julkaistiin. Vapauttamalla yksi kieli pari antoi meille mahdollisuuden testata infrastruktuuria ennen kuin aloitimme vapauttaa enemmän. Toiseksi, tekniikka Espanja-Englanti oli hieman erilainen kuin käytetty Englanti-Espanja, ja tarvitsemme ylimääräistä aikaa tehdä tarvittavat infrastruktuuriin muutoksia mahtuu. Tulevaisuudessa aiomme julkaista uusia käännös järjestelmiä pareittain (muutamaa poikkeusta lukuun ottamatta). En voi paljastaa, mitä kieliä olemme suunnitelleet seuraavaksi, mutta eivät odota joitakin uusia pian!

Niille teistä kiinnostunut teknisistä keskusteluista meidän moottorit ja miten ne toimivat, Katso joitakin papereita tutkijat, jotka kehittivät niitä. Kolme viimeaikaista paperit Huom:

Chris Quirk, Arul Menezes. Tarvitsimme lauseita? Haastava perinteisen viisauden tilastollinen Machine translation Toukokuu 2006 New York, New York, Yhdysvallat Oikeuden käynti HLT-NAACL 2006

Chris Quirk, Arul Menezes. Riippuvuus Treelet käännös: lähentyminen tilastollinen ja esimerkkipohjainen kone kääntäminen? Maaliskuu 2006 kone kääntäminen 43-65 (liite tiedosto)

Chris Quirk, Arul Menezes. Riippuvuuksien tilaus mallien käyttäminen käännösten yleisyyden parantamiseen Heinäkuu 2007 Yhdistys laskennallisen kieli tieteen

Riippuvuus Treelet käännös lähentymisen tilastollinen ja esimerkki-pohjainen machinetranslation. PDF