Přeskočit na hlavní obsah
Překladatel
Tato stránka byla automaticky přeložena službou překladu strojů společnosti Microsoft. Dozvědět se více

Blog aplikace Microsoft Translator

Statistický strojový překlad – blog hosta (Aktualizováno dalším papírem)

Will Lewis je vedoucím programu v týmu Microsoft Translator, který pracuje na jazykové kvalitě a získávání dat.  Dnešní blog hosta je vysvětlením na vysoké úrovni, jak pracuje motor:  

Jak mnozí víte, pod stříškou Microsoft Translator je poháněn strojem SMT (statistický stroj Translation).  Statistické systémy se liší od pravidel založených na pravidlech v tom, že "pravidla" mapující slova a fráze z jednoho jazyka do druhého jsou systémem učena, nikoli ručně zakódovaná.  Výcvik ve SMT vyžaduje, aby se do něj našlo velké množství paralelních tréninkových dat – doufejme, že jsou kvalitní a z heterogenních zdrojů – a cvičím motor na těchto údajích.  (Paralelně myslíme zdroj dat, kde obsah jednoho jazyka je stejný jako obsah pro druhý.)  Motor se učí mezi slovy a větami v jednom jazyce a těmi v jiné, které jsou často posíleny opakovanými výskyty stejných slov a frází po celou dobu vstupu.  Například při výcviku anglicko-německého systému řekněme, že když motor uvidí frázi Všechna práva vyhrazena na straně anglické a také upozornění Alle-Rechte vyhrazeny na německé straně, může tyto dvě věty Zarovnat a přiřadit k tomuto zarovnání určitou pravděpodobnost.  Opakované výskyty zdrojové a cílové věty v tréninkových údajích pouze zesílí toto sbližování.

Obecně vzato, mít paralelní data pro dvojici jazyků znamená, že můžeme trénovat motory v obou směrech (tj. jak anglické, tak německé i německé-anglické systémy mohou být vycvičené na stejných vstupních větách).  Někteří z vás měli nějaké otázky ohledně toho, proč jsme vydali Anglicko-španělský systém, než jsme vydali španělštinu-angličtinu.  Byly to opravdu dva důvody.  Zaprvé, angličtina-Španělština byla první dvojice jazyků, kterou jsme vydali.  Uvolnění jedné dvojice jazyků nám umožnilo otestovat infrastrukturu dříve, než jsme začali uvolňováním dalších.  Zadruhé, technologie pro španělštinu se mírně lišila od té, která se používá pro angličtinu-španělštinu, a potřebujeme ještě další čas, abychom mohli provést potřebné infrastrukturní změny.  V budoucnu plánujeme vypustit nové překladové systémy ve dvojicích (s několika výjimkami).  Nemohu prozradit, jaké jazyky jsme si naplánovali teď, ale čekají na to nové.

Pro ty z vás, kteří se zajímají o technické diskuse o našich motorech a o tom, jak pracují, nahlédni do některých novin s výzkumnými pracovníky, kteří je vyvinuli.  Tři nedávné dokumenty jsou:

Chris Quirk, Arul Menezes. Potřebujeme fráze? Zpochybnit konvenční moudrost v překladu statistických strojů Květen 2006 New York, New York, USA Řízení HLT-NAACL 2006

Chris Quirk, Arul Menezes. Závislostní překlady: konvergence statistického a ukázkového strojového překladu? Březen 2006 strojový překlad 43-65 (připojený soubor)


Chris Quirk, Arul Menezes. Zlepšení obecné úrovně v překladu pomocí šablon pořadí závislostí Červenec 2007 Asociace pro výpočetní lingvistiku

Závislostní překlad závislosti na statistickém souboru a na příkladu. PDF