Pereiti prie pagrindinio turinio
Vertėjas
Šis puslapis automatiškai išverstas į "Microsoft Translator" mašininio vertimo tarnybą. Sužinokite daugiau

Microsoft Translator Dienoraštis

Statistinis mašininis vertimas – Svečių dienoraštis (atnaujinta su papildomu popieriumi)

Ar Lewis yra programos vadovas dėl Microsoft Translator komanda, dirbti kalbos kokybės ir duomenų įgijimo.  Šiandien Svečių dienoraštis aukšto lygio paaiškinimas, kaip variklis veikia:  

Kaip daugelis iš jūsų žino, po gaubtu "Microsoft Translator" yra powered by statistinis mašininio vertimo (SMT) variklis.  Statistikos sistemos skiriasi nuo taisyklėmis grindžiamų, nes "taisyklių" kartografavimo žodžius ir frazes iš vienos kalbos į kitą išmoko sistema, o ne ranka koduojama.  Mokymas SMT reikia amassing daug lygiagrečiai mokymo duomenys-tikiuosi geros kokybės ir iš įvairiarūšės šaltinių-ir mokymo variklis, kad duomenys.  (Lygiagrečiai, mes turime duomenų šaltinį, kai vienos kalbos turinys yra toks pat kaip ir kito turinio.)  Variklis mokosi tarp žodžių ir frazių vienos ir kitos kalbos, kurios dažnai yra sustiprinamos pasikartojančio tų pačių žodžių ir frazių per visą įvestį, atitikmenų.  Pavyzdžiui, mokymo anglų-vokiečių sistema tarkim, jei variklis mato frazė Visos teisės saugomos Angliškoje pusėje, taip pat pranešimuose Alle Rechte vorbehalten Vokiečių pusėje, ji gali suderinti šias dvi frazes ir priskirti tam tikrą tikimybę šiai lygiuotė.  Pakartotiniai įvykių šaltiniai ir tikslinės frazės mokymo duomenyse sustiprins šią lygiuotę.

Paprastai, turintys lygiagrečius duomenis kalbų poros reiškia, kad mes galime mokyti variklius abiem kryptimis (pvz., tiek anglų-vokiečių ir vokiečių-anglų sistemos gali būti mokomi tos pačios įvesties sakiniai).  Kai kurie iš jūsų turėjo keletą klausimų apie tai, kodėl ji buvo, kad mes išleido anglų-ispanų sistemą, kol mes išleido ispanų-anglų.  Buvo tikrai dvi priežastys.  Pirma, anglų-ispanų buvo pirmoji bendra domeno kalbų porą mes išleido.  Atleidus vieną kalbų porą, galime išbandyti infrastruktūrą, kol mes pradėjome išleisti daugiau.  Antra, ispanų-anglų technologija buvo šiek tiek kitoks nei naudojamas anglų-ispanų, ir mes turime šiek tiek daugiau laiko atlikti būtinus infrastruktūros pakeitimus, kad tilptų.  Ateityje planuojame išleisti naujas vertimo sistemas poromis (su pora išimčių).  Aš negaliu atskleisti, kokiomis kalbomis mes planavome kitą, tačiau tikimės, kad kai kurie nauji greičiau!

Tiems iš jūsų, kurie domisi techninių diskusijų dėl mūsų variklių ir kaip jie veikia, prašome kreiptis į kai kuriuos dokumentus, mokslininkai, kurie juos sukūrė.  Trys nenaujausi dokumentai:

Chris Quirk, Arul Menezes. Ar mums reikia frazių? Iššūkis paprastųjų išminties statistikos mašininio vertimo Gegužė 2006 Niujorkas, Niujorkas, JAV Byla HLT-NAACL 2006

Chris Quirk, Arul Menezes. Priklausomybių Treelet Vertimas: statistinių ir pavyzdinio mašininio vertimo konvergencijos? Kovas 2006 mašininio vertimo 43-65 (pridedamas failas)


Chris Quirk, Arul Menezes. Naudojant priklausomybė užsakymo šablonai pagerinti bendrumo Vertimas Liepos 2007 d. Kompiuterinių lingvistikos asociacija

Priklausomybė Treelet vertimas statistinių ir pavyzdinio machinetranslation konvergencijos. PDF