Statisztikai gépi fordítás-vendég blog (frissítve kiegészítő papír)
Will Lewis egy programmenedzser a Microsoft Translator csapata, a munka a nyelvi minőség és az adatgyűjtés. A mai vendég blog egy magas szintű magyarázata, hogy a motor működik:
Mint sokan tudjátok, a motorháztető alatt a Microsoft Translator powered by a statisztikai gépi fordítás (SMT) motor. A statisztikai rendszerek eltérnek a szabályokon alapuló rendszerektől abban, hogy a "szabályok" szó és kifejezés feltérképezése az egyik nyelvről a másikra, nem pedig kézzel kódolt. Egy SMT képzés nagy mennyiségű párhuzamos képzési adatot igényel – remélhetőleg jó minőségűek és heterogén forrásokból –, és ezen adatok hajtómotorját kiképzés útján. (Ezzel párhuzamosan olyan adatforrást értünk, ahol az egyik nyelv tartalma megegyezik a másikkal.) A motor megtanulja a levelezés között szavak és kifejezések egy nyelven és a másik, amelyek gyakran erősítik ismételt előfordulását ugyanazokat a szavakat és kifejezéseket az egész bemenet. Pl,-ban képzés a angol-német rendszer akadályok ' mond, ha a motor hintázik a mondat Minden jog fenntartva! az angol oldalon, és azt is észreveszi, Az Alle Rechte vorbehalten a német oldalon, akkor igazíthatja a két mondatot, és hozzá néhány valószínűség ehhez az igazítást. A forrás-és célmondatok ismételt előfordulása az edzési adatokban csak megerősíti ezt az igazítást.
Általánosságban elmondható, hogy párhuzamos adatok alapján egy nyelvpár esetében mindkét irányban lehet hajtóműveket képezni (azaz mind az angol-német, mind a német-angol rendszereket ki lehet képezni ugyanarra a bemeneti mondatokra). Néhányan már néhány kérdést illetően, hogy miért volt, hogy megjelent az angol-spanyol rendszert, mielőtt megjelent a spanyol-angol. Ott tényleg két okból. Először is, angol-spanyol volt az első általános domain nyelv pár is megjelent. Felszabadító egy nyelvpárt lehetővé tette számunkra, hogy teszteljék az infrastruktúrát, mielőtt elkezdtük kiadása tovább. Másodszor, a technológia a spanyol-angol volt, némileg eltérő, mint a használt angol-spanyol, és szükségünk van néhány további időt, hogy a szükséges infrastrukturális változtatásokat elhelyezésére. A jövőben, azt tervezzük, hogy kiadja az új fordítási rendszerek párban (néhány kivétel). Nem tudom, milyen nyelveken tervezett következő, de várnak néhány új hamarosan!
Azok számára, érdekli a technikai megbeszélések során a motorok és hogyan működnek, kérjük, olvassa el néhány, a papírok a kutatók, akik kifejlesztette őket. Három újabb keletű iratok-ból jegyzék van:
Chris quirk, Arul Menezes. Van szükségünk mondatok? A statisztikai gépi fordítás hagyományos bölcsességének megtámadása May 2006 New York, New York, Amerikai Egyesült Államok A HLT-NAACL 2006 eljárás
Chris quirk, Arul Menezes. Függőségi Treelet fordítás: a konvergencia a statisztikai és a példa-alapú gépi fordítás? Március 2006 gépi fordítás 43-65 (csatolt fájl)
Chris quirk, Arul Menezes. Függőségi rendelési sablonok használata a fordítási általánosság javítására Július 2007 Számítógépes nyelvészeti Egyesület
Függőségi Treelet fordítás a statisztikai és példa alapú machinetranslation. pdf